Meta présente Voicebox son IA vocale générative

Meta a annoncé une percée dans le domaine de l’Intelligence Artificielle (IA) générative pour la parole avec son nouveau modèle appelé Voicebox. Capable de générer des voix en six langues différentes, il a été conçu pour personnaliser celles des assistants vocaux et des personnages virtuels, nous aider à communiquer dans des langues que nous ne parlons pas, ou encore permettre aux personnes handicapées de s’exprimer.

Meta Voicebox, une nouvelle approche vocale de l’IA générative

Les chercheurs de Meta AI, la division d’intelligence artificielle de Facebook, ont annoncé avoir réalisé une avancée significative dans le domaine de l’IA générative pour la parole avec un nouveau modèle de langage nommé Voicebox. A l’instar des modèles génératifs de textes et images, ce modèle présente la capacité de créer des sorties audio à partir de zéro, mais aussi de modifier et compléter des échantillons. Le tout dans six langues et même sur des tâches de génération de parole pour lesquelles il n’a pas été spécifiquement formé.

Voicebox a été entraîné sur plus de 50 000 heures d’enregistrements et de transcriptions de livres audio du domaine public dans six langues (anglais, allemand, espagnol, français, polonais et portugais) afin de prédire des segments de parole en se basant sur des échantillons audio environnant et sur la transcription de segment en temps réel.

Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite appliquer cette méthode à toutes les tâches de génération de parole, y compris la génération de parties au milieu d’un enregistrement audio sans avoir à recréer l’ensemble de son contenu.Meta AI

Grâce à cette méthode d’apprentissage, le modèle peut générer un contenu parlé à partir du contexte et s’adapter à toutes les tâches de génération de parole, y compris la génération de parties au milieu d’un enregistrement audio sans avoir à recréer l’ensemble du contenu. Voicebox surpasse le modèle VALL-E sur la synthèse vocale en termes d’intelligibilité (taux d’erreur de mot de 5,9 % contre 1,9 %) et de similarité audio (0,580 contre 0,681), tout en étant jusqu’à 20 fois plus rapide. Pour le transfert de style multilingue, Voicebox surpasse YourTTS pour réduire le taux d’erreur de mot moyen de 10,9 % à 5,2 % et améliore la similarité audio de 0,335 à 0,481.

Voicebox surpasse Vall-E et YourTTS sur les taux d’erreur de mot – © Meta AI

Une IA capable de personnaliser les voix

Un des points qui nous a le plus impressionnés est la capacité du modèle à utiliser les échantillons de voix. Dans une vidéo diffusée sur leur blog, les chercheurs montrent comment l’introduction d’un échantillon audio permet à Voicebox de modifier sa voix et de singer celle de l’échantillon. Le mimétisme est vraiment impressionnant, l’IA étant capable de prendre les mêmes intonations, mais également de modifier son rythme et son style d’élocution pour coller à la voix de référence.

Meta explique que son IA pourra servir à personnaliser les assistants vocaux et les personnages virtuels. Avec un tel modèle, nous pourrions par exemple personnaliser Alexa ou Google Assistant pour qu’ils prennent une voix que nous apprécions, ou encore fournir un échantillon de notre propre voix à notre avatar afin qu’il l’utilise dans les univers virtuels de Meta. Toutefois, l’entreprise de Mark Zuckerberg a décidé de ne pas rendre le modèle ni le code de Voicebox accessibles au public pour le moment, en raison des risques potentiels d’utilisation abusive.

Comme c’est le cas pour d’autres innovations puissantes en matière d’IA, nous reconnaissons que cette technologie est susceptible d’être utilisée à mauvais escient et de causer des dommages involontaires. Nous pensons qu’il est important d’être ouvert à la communauté de l’IA et de partager nos recherches pour faire progresser l’état de l’art en matière d’IA, mais il est également nécessaire de trouver un juste équilibre entre ouverture et responsabilité, ce pourquoi nous partageons notre approche et nos résultats dans un document de recherche. Meta AI

On ne peut que féliciter Meta pour ça, tant le risque de « deep fake » est grand avec des technologies aussi puissantes. Malgré tout, de telles avancées sont prometteuses et devraient, à terme, améliorer notablement nos assistants vocaux. Comme l’expliquait il y a peu Andy Jassy, PDG d’Amazon, l’avènement des grands modèles de langage et de l’IA générative rendent les modèles sous-jacents beaucoup plus efficaces et permettront de construire de bien meilleurs assistants dans les années à venir.

Suivez-nous sur Google Actualités