Il est impossible de différencier cette voix artificielle d’une voix humaine

Google vient de soumettre à la communauté scientifique un article faisant état de ses avancées en matière de synthèse vocale. Grâce à son système Tacotron 2, il aurait réussi à générer un flux audio au résultat si naturel qu’il ne pourrait être distingué de celui produit par une voix humaine.

 

Tacotron 2 repose sur deux réseaux neuronaux. Le premier divise le texte en séquences, et transforme chacune d’elle en spectrogramme. C’est-à-dire un diagramme représentant visuellement l’intensité des fréquences audio. Le second, nommé WaveNet, génère automatiquement les fichiers audio. Sa particularité est d’avoir été développé à l’origine par DeepMind, la fameuse société d’intelligence artificielle appartenant à Alphabet. WaveNet fait déjà fonctionner les voix anglaise et japonaise de Google Assistant en s’appuyant sur une méthode d’apprentissage non supervisée : il ne repose pas sur une grosse base de données alimentée par des enregistrements de comédiens. C’est une version à l’architecture légèrement modifiée qui a ici été utilisée. WaveNet agit comme un vocodeur pour synthétiser les formes d’ondes temporelles des spectogrammes.

Tacotron 2 est si puissant qu’il peut gérer sans problème des mots difficiles à prononcer et est en mesure de faire varier subtilement le volume comme la vitesse d’élocution. Il modifie aussi l’intonation en fonction de la ponctuation, accentuant par exemple des termes écrits en majuscules. Un petit regret tout de même, Tacotron 2 ne s’exprime pour le moment qu’avec une voix féminine et en anglais. Pour parler avec une autre voix féminine ou un voix masculine, il faudrait que l’intelligence artificielle soit entraînée à nouveau. Il lui reste donc encore un peu de chemin à faire avant de bénéficier à des applications comme Google Assistant.

https://www.youtube.com/watch?v=JZ3AjcWriy0&feature=youtu.be