VALL-E : La renouveau de la synthèse vocale par Microsoft

Le monde de l’intelligence artificielle (IA) ne cesse de nous étonner. Après la création d’images, d’œuvres d’art et de vidéos par simple commande textuelle, voici que débarque une nouvelle prouesse : un outil de synthèse vocale capable de reproduire fidèlement la voix d’un individu. Et cela, avec seulement trois secondes d’enregistrement.

L’an dernier, nous avons été témoins de l’ascension d’outils IA prodigieux, capables de générer des contenus visuels à partir de simples descriptions textuelles. De plus, l’engouement (et l’inquiétude) autour de ChatGPT d’OpenAI a marqué un jalon important dans le domaine de la rédaction automatisée par IA.

Cependant, en cette fin d’année 2023, un nouvel acteur fait son entrée sur la scène : VALL-E, une innovation de Microsoft. Cette IA est capable de reproduire de manière quasi-parfaite la voix d’une personne. En utilisant un enregistrement de trois secondes de la voix de n’importe quel individu, VALL-E peut transformer des mots écrits en paroles, avec une intonation et une émotion réalistes, adaptées au contexte du texte.

Entrainement intensif

Fort d’un entraînement basé sur 60 000 heures d’enregistrements vocaux en anglais, VALL-E est capable de restituer un discours dans une situation dite « zero-shot », c’est-à-dire sans avoir eu d’exemples ou de formations préalables dans un contexte ou une situation donnée.

La publication de cette innovation a été faite dans un article de l’Université Cornell. Les développeurs ont précisé que les données d’enregistrement comprenaient plus de 7 000 intervenants uniques. Selon l’équipe, leur système de Texte À Parole (TTS) a utilisé des centaines de fois plus de données que les systèmes TTS existants, leur permettant ainsi de surmonter le défi du « zero-shot ».

Bien que cet outil ne soit pas encore disponible au grand public, il soulève des questions cruciales en matière de sécurité. En effet, il pourrait être utilisé pour générer n’importe quel texte avec la voix de n’importe qui. Toutefois, Microsoft a fourni une démonstration où l’on peut comparer les résultats obtenus par VALL-E avec la vérité de terrain, c’est-à-dire la lecture réelle du texte par l’intervenant, et le résultat « baseline » des technologies TTS actuelles.

Il convient de noter que Microsoft mise énormément sur l’IA. En effet, la firme est l’un des principaux soutiens d’OpenAI, la société à l’origine de ChatGPT et DALL-E. En 2019, Microsoft avait investi 1 milliard de dollars (930 millions d’euros) dans OpenAI. Récemment, un rapport sur semafor.com a révélé que Microsoft envisageait d’investir 10 milliards de dollars supplémentaires (9,3 milliards d’euros) dans la société.

Ne ratez plus aucune news

  • contact@nexgenmag.com
  • rp@nexgenmag.com
  • pub@nexgenmag.com
Newsletter

Restez encore plus proche de l'actualité #Tech et #Digitale

Merci de votre confiance

Imaginé et conçu par META4VERSE © 2023