A Meta, dona do Facebook, Instagram e WhatsApp, revelou sua mais recente ferramenta de Inteligência Artificial (IA) voltada para a geração de texto-áudio: a Voicebox. Esse modelo de IA é capaz de desempenhar diversas tarefas relacionadas à fala, como edição, amostragem e estilização.
De acordo com a big tech, a Voicebox pode fazer síntese de texto para fala contextualizada, edição de fala, transferência de estilo entre idiomas e amostragem diversificada de fala, além de eliminar ruídos indesejados, como buzinas de carros e latidos de cachorros.
A nova ferramenta de IA é multilíngue, permitindo a geração de fala e tradução de conteúdo em seis idiomas distintos. Para seu treinamento, foram utilizadas 50 mil horas de áudio pré-gravado de livros de domínio público nas línguas inglesa, francesa, alemã, espanhola, polonesa e portuguesa.
LEIA TAMBÉM
Veja 3 áreas em que a IA traz avanços para a humanidade
WhatsApp lança função para silenciar chamadas desconhecidas
“No futuro, modelos multifuncionais de IA generativa, como a Voicebox, poderão proporcionar vozes naturais a assistentes virtuais e personagens não jogáveis no metaverso. Eles possibilitarão que pessoas com deficiência visual ouçam mensagens escritas por amigos, sendo reproduzidas por meio de IA em suas próprias vozes”, explica a Meta no anúncio.
“Além disso, fornecerão aos criadores de conteúdo novas ferramentas para a criação e edição de faixas de áudio com facilidade, entre outras possibilidades”, completa.
Esse avanço representa um passo significativo nas pesquisas de IA generativa conduzidas pela Meta, que espera continuar seus estudos na área de áudio e observar como outros pesquisadores se basearão em seu trabalho.
Ficou curioso? No blog de IA do Facebook, é possível conferir demonstrações selecionadas pela empresa sobre a ferramenta Voicebox. Clique aqui!
LEIA MAIS
Submarino Titanic: ruídos são captados no mar e aumentam esperança