IA et synthèse vocale : les nouvelles voix de la création
Vous avez sans doute entendu l’appel du 18 juin prononcé par le Général de Gaulle lui-même ; vu, à la télévision, l’entretien inédit de Dalida avec le présentateur Thierry Ardisson dans Hôtel du temps ; ou découvert, en 2012, la mise en voix du journal intime de Marilyn Monroe dans le film Marilyn de Philippe Parreno. Pourtant, il n’existe aucun enregistrement radiophonique de ce discours, l’un des plus célèbres de l’histoire du XXe siècle ; Dalida nous a quittés en 1987 ; et l’on n’a retrouvé aucune trace enregistrée d’un tel moment d’intimité de Marylin Monroe. Ce qui lie ces trois prouesses ? Des techniques de conversion vocale, du clonage à l’hybridation, dont s’est fait une spécialité l’Institut de recherche et coordination acoustique/musique, l’Ircam, et sa filiale technologique, Ircam Amplify. Saisissants, parfois étranges, ces avatars numériques interrogent notre rapport au réel et à l’artificiel.
L’Ircam, un pionnier dans la synthèse vocale
Les locaux de l’Ircam, situés à proximité du Centre Pompidou, sont enfouis dans les sous-sols de la capitale. À bonne distance et isolés des interférences causées par les activités humaines, explique Nicolas Obin. Fondé en 1977 par Pierre Boulez, compositeur et chef d’orchestre français, l’Ircam a construit entre la création artistique et la recherche scientifique une alliance pionnière. Dans ce laboratoire unique en France (et dans le monde), artistes et scientifiques cocréent, transforment des idées en outils concrets pour le cinéma, la musique ou encore les jeux vidéo, grâce à des technologies inédites. À l’ère de l’intelligence artificielle, du deep learning et des assistants vocaux, l’Institut se place désormais comme précurseur en matière de création de voix de synthèse – ou synthèse vocale. « L’Ircam est un lieu où la recherche scientifique rencontre les besoins artistiques, offrant des solutions sur mesure impossibles à obtenir avec des outils standard », ajoute Nicolas Obin.
Ce spécialiste du traitement de la parole et de la communication humaine, qui travaille sur la voix de synthèse depuis plus d’une décennie, a piloté entre 2017 et 2021 le projet TheVoice – Design de voix pour l’industrie créative2. TheVoice comportait deux volets : d’une part, parvenir à modéliser la « palette vocale » d’un acteur ou d’une actrice pour permettre la recommandation de voix par similarité – notamment dans le cadre de doublage pour les versions françaises ; et, d’autre part, créer des voix artificielles capables de reproduire l’identité vocale d’un acteur ou d’une actrice. « La synthèse vocale à l’Ircam a toujours eu pour vocation de créer de nouveaux moyens d’expression pour les artistes, depuis les modèles basés sur la connaissance jusqu’aux modèles basés sur les données, et en particulier les réseaux de neurones profonds », précise le chercheur. « Pour explorer l’augmentation artificielle des capacités humaines, la première étape est d’être capable d’en reproduire le fonctionnement. Ainsi, le clonage de l’identité vocale constitue une première phase fondamentale préalable à la possibilité de dépassement des capacités vocales humaines. Ce sont les possibilités rendues accessibles dans une seconde phase qui deviennent intéressante pour la création », poursuit-il.
Sculpter les voix par le numérique : l’IA, une révolution ?
En 2012, la première reconstitution vocale du laboratoire a été celle de Marilyn Monroe, dans le cadre d’un court métrage de l’artiste plasticien français Philippe Parreno3 s’incarnant dans la suite de l’hôtel Waldorf Astoria où l’actrice vécut au cours des années 1950. Les chercheurs ont travaillé avec des enregistrements existants et utilisé des approches hybrides pour recréer la voix de l’actrice, mêlant performance humaine et synthèse vocale. « Dans le cas de Marilyn Monroe, c’était un défi à la fois technique et émotionnel de recréer une présence aussi iconique. À l’époque, nous avons utilisé notre créativité pour surmonter les limites technologiques. » souligne Nicolas Obin. 10 ans plus tard, en 2022, ils sont contactés par le réalisateur de Blonde, Andrew Dominik, qui « souhaitait appliquer une technique similaire pour ajuster l’accent de l’actrice, Ana de Armas ».
Entre-temps, 2016 marque un tournant. L’arrivée sur le marché de WaveNet, proposé par Google DeepMind, bouleverse le domaine de la synthèse vocale. « C’était le premier réseau de neurones capable de générer automatiquement du son de haute qualité, qu’il s’agisse de parole ou de musique », se souvient-il. « Depuis, n’importe qui peut produire une synthèse vocale extrêmement réaliste en utilisant les dernières architectures neuronales. » Comment ? Les réseaux de neurones sont utilisés pour encoder les informations liées à différents paramètres de la voix (intonation, timbre, phonèmes, etc.) à partir de grandes quantités de données (des modèles massivement multilocuteurs et multilingues, utilisant aujourd’hui des bases de données de 50 000 à 100 000 heures d’enregistrement). Le réseau de neurones apprend les corrélations statistiques entre ces paramètres à partir de grandes masses de données, ce qui permet d’en manipuler une partie seulement (comme l’intonation), tout en conservant la cohérence de l’ensemble (c’est-à-dire de préserver le naturel de la voix). « Par ailleurs, il est également possible lors de l’apprentissage de démêler ces paramètres pour rendre leur manipulation intuitive et de les recombiner à loisir », ajoute le chercheur. Grâce à ces algorithmes, ils parviennent ainsi à modéliser la structure de la voix humaine pour en générer de nouvelles, de remodeler des voix existantes, ou d’en recomposer à partir de plusieurs voix ou sources sonores.
Capture extraite de la vidéo L’appel du 18 Juin reconstitué par l’intelligence artificielle ? Un défi relevé par Le Monde, en partenariat avec l’Ircam et Ircam Amplify, qui a tenté de recréer l’appel du 18 juin 1940 du général de Gaulle, dont il n’existe aucun enregistrement4.
© Le Monde
TheVoice : redonner vie aux voix du passé, imaginer celles de demain
Les réseaux de neurones ont ainsi révolutionné la synthèse vocale. Ces avancées permettent aujourd’hui de transférer l’identité vocale d’une personne à une autre avec une simple empreinte sonore de quelques secondes à quelques minutes (comme des archives audios) contre de longues heures auparavant. « À l’Ircam, nous avons développé des algorithmes qui permettent de manipuler la voix d’un acteur ou d’un chanteur, modifiant des paramètres tels que le timbre, l’intonation ou même l’émotion. » Ces procédés, qui reposent sur des choix d’interprétation humains, ont été utilisés dans le cadre du projet TheVoice pour recréer des voix historiques, comme celle de Dalida dans Hôtel du Temps, à partir de la voix d’une comédienne, Julie Chevallier ; celle de l’appel du 18 juin du Général de Gaulle, pour laquelle l’acteur et humoriste François Morel s’est prêté au jeu ; ou encore Marilyn Monroe, précédemment citée. Leurs travaux ont aussi permis de créer des voix complètement artificielles, comme dans l’œuvre d’Alexander Schubert, AnimaTM . « TheVoice a été un projet de recherche décisif pour la réalisation d’avancés majeures de conversion neuronale de l’identité vocale », s’enthousiasme Nicolas Obin. Pour lui, Ircam Amplify a joué un véritable rôle d’accélérateur du transfert de résultats de recherche en solution exploitable dans des productions artistiques et industrielles.
Éthique et algorithmes : comment dépasser les polémiques ?
Au-delà du potentiel certain de l’IA générative dans les métiers créatifs, Nicolas Obin met toutefois en garde contre l’emballement qui l’entoure. D’abord, parce que ces nouvelles technologies risquent d’amplifier les problèmes écologiques et éthiques du numérique. Par exemple, peut-on moralement « réveiller » des voix défuntes ? Difficile d’écarter le fait que les voix du passé véhiculent immanquablement des souvenirs. Pour un documentaire d’Arte, les chercheurs ont travaillé à recréer celle d’Isaac Asimov, l’un des pères de la science-fiction. Mais le projet n’a pu être finalisé à la suite du refus de la file d’Asimov d’intégrer la voix artificielle de son père dans le documentaire. Ensuite, parce qu’elles soulèvent aussi des défis économiques et artistiques qui bouleversent les écosystèmes fragiles de la création sonore et musicale.
Le chercheur insiste ainsi sur l’importance de transparence et d’éthique pour ces technologies face, notamment, aux enjeux des deepfakes, depuis les risques en termes de cybersécurité et de manipulation malveillante par usurpation d’identité vocale, jusqu’aux questions de création artistique et musicale. « On entend souvent dire que l’Europe régule pendant que le reste du monde innove. Mais ce n’est pas vrai. D’une part, la France et l’Europe possèdent des atouts en recherche scientifique et en innovation technologique ; et, d’autre part, nous avons la possibilité et la responsabilité d’exprimer une voix singulière et de promouvoir des propositions alternatives, pensées dans leurs implications éthiques, culturelles et sociétales, depuis la conception des algorithmes comme de leurs usages pour la création », pointe le chercheur.
Dans ce but, Nicolas Obin a récemment publié une tribune, avec un collectif de scientifiques de l’Ircam, dans le dernier numéro de la revue du ministère de la Culture, Culture et Recherche, consacrée à l’IA : « Pour une intelligence artificielle responsable au service d’une création musicale, inventive et diverse ». Dans ce texte, ils appellent à une IA augmentative et non remplaçante, un moyen d’amplifier la créativité humaine plutôt que l’automatiser ou la supplanter. « L’artiste a toujours utilisé tous les moyens à disposition dans son environnement pour créer. Ce qui était produit à partir des moyens de la nature hier est devenu technologique et artificiel aujourd’hui, et il est tout autant naturel de les utiliser. » Le collectif réaffirme et généralise le principe d’exception culturelle, ouvrant ainsi de nouvelles perspectives pour les industries créatives. « Chaque technologie a ses bénéfices et ses risques. Il faut une vision raisonnée qui évalue les usages potentiels de manière équilibrée, sans tomber dans l’hystérie, qu’elle soit optimiste ou alarmiste. », conclut-il.
À lire
.Clones, filtres et fakes…Éthique et IA, par Pierre Saint-Germier, philosophe (CNRS)
1 Nicolas Obin est Maître de conférences à Sorbonne Université et chercheur dans l’équipe Analyse et synthèse des sons au sein du laboratoire Sciences et technologies de la musique et du son (STMS, CNRS / Sorbonne Université / Ircam / Ministère de la Culture).
2https://anr.fr/Projet-ANR-17-CE23-0025
3https://www.cinematheque.fr/film/134143.html
4 Sont impliqués dans cette reconstitution : Ircam Amplify : Frédéric Amadu, Directeur technique, Elias Karam, Chef de projet ; Ircam : Axel Roebel, Directeur de recherche de l’équipe Analyse et Synthèse des Sons au sein du laboratoire STMS, Sylvain Cadars, Ingénieur son et musique assistée par ordinateur.
5https://www.ircam.fr/agenda/animatm-2/detail