Google lança Gemini 3.1 Flash TTS para transformar texto em fala mais natural
Tecnologia

Google lança modelo Gemini 3.1 Flash TTS para conversão de texto em fala mais natural e controlável

Novo modelo de TTS da família Gemini traz vozes mais expressivas, suporte a múltiplos idiomas e diálogos com vários locutores nativos para apps e assistentes de voz.

C

Cirino

15 de abr. de 2026, 22:07 · 3 min

Atualizado em 16 de abr. de 2026, 01:09

Compartilhar:

O Google anunciou o Gemini 3.1 Flash TTS, novo modelo de conversão de texto em fala focado em baixa latência, expressividade e controle fino por comandos em linguagem natural.

Voltado para desenvolvedores que criam assistentes de voz, dublagens automáticas e experiências imersivas de áudio, o modelo chega como o sistema de fala mais natural da empresa até agora.

Fala mais natural e expressiva

De acordo com análises técnicas, o Gemini 3.1 Flash TTS alcança pontuações de referência elevadas em testes de naturalidade de voz e permite controlar fatores como ritmo, tom, emoção e estilo diretamente via tags de áudio ou prompts descritivos.

Isso significa que desenvolvedores podem pedir, em texto, uma leitura “mais empolgada”, “mais calma” ou “com sotaque específico” sem ajustes manuais complexos.

Suporte a dezenas de idiomas e múltiplos locutores

O modelo foi projetado para operar em mais de 70 idiomas, com foco em cenários em que um mesmo conteúdo precisa ser distribuído globalmente com vozes naturais.

Outra novidade é o suporte nativo a diálogos com múltiplos locutores, o que facilita a criação de podcasts, roteiros dramáticos e experiências interativas com vários personagens falando em sequência.

Integração com Gemini API, Vertex AI e Google Vids

O Gemini 3.1 Flash TTS está disponível em preview por meio da Gemini API, do AI Studio e da plataforma corporativa Vertex AI, além de integrar fluxos de produção de áudio e vídeo no Google Vids.

Com isso, empresas podem usar o mesmo modelo para desde mensagens de atendimento telefônico até experiências multimodais complexas.

Foco em custo, velocidade e segurança

O modelo foi otimizado para baixa latência e uso em grande escala, mirando aplicações de alto volume, como assistentes virtuais e bots de atendimento.

Entre os recursos de segurança, o Google destaca a marca d’água SynthID, que permite identificar áudios gerados por IA e reduzir riscos de uso malicioso.

Disputa acirrada no mercado de voz generativa

Com o lançamento do Gemini 3.1 Flash TTS, o Google entra com mais força na competição com outras big techs e startups que oferecem síntese de voz avançada para jogos, educação, publicidade e criadores de conteúdo.

Você gostaria de usar um narrador de IA para produzir podcasts, vídeos ou aulas online? Compartilhe esta notícia com quem trabalha com criação de conteúdo digital.

C

Sobre o autor

Cirino

Mais de Tecnologia