Atualmente, uma voz desenvolvida por intermédio de um computador é facilmente identificada. As variações no tom e aquele som “eletrónico” denunciam quando a voz não é real, algo que se verifica no Alexa, Google Home e no Siri.
No entanto, a Google encontra-se cada vez mais perto de desenvolver um sistema de voz que será praticamente impossível de distinguir como sendo uma voz humana ou gerada por computador. De acordo com o artigo publicado pela empresa, a tarefa foi realizada utilizando o podem da Inteligência Artificial, mais em concreto das tecnologias Tacotron 2 e WaveNet.
O Tacotron 2 utiliza os sistemas de inteligência artificial para converter texto numa espectrograma, onde as palavras são organizadas numa linha temporal para serem posteriormente lidas. Esta tecnologia permite mesmo identificar pequenas variações no texto, como virgulas e pontos finais, aplicando o tom de voz em conformidade.
Por sua vez, este conteúdo é depois enviado para o WaveNet, que também utiliza a Inteligência Artificial para traduzir as informações do espectrograma numa voz realista. Poderá analisar alguns exemplos de conteúdos criados pela IA da Google em seguida.
De notar que a WaveNet é um produto desenvolvido pela DeepMind, uma subsidiária da Alphabet — dona da Google — dedicada exclusivamente à pesquisa em inteligência artificial. Este sistema já se encontra atualmente a ser utilizado com o Google Assistente, mas a introdução do Tacotron 2 é que permite tornar a voz ainda mais realista. Com o tempo é possível que o sistema venha também a ser integrado na voz que se encontra no Assistente da Google.