La malédiction de la pré-image ou pourquoi l’IA peut-elle (encore) générer un chien à cinq pattes
Imaginons un modèle d’intelligence artificielle dont le but est de déterminer si deux mots sont synonymes. La proximité phonétique ne sera guère utile, pas plus que la comparaison du nombre de lettres, ni même des lettres utilisées. « Château » et « chapeau » sont en effet proches sur ces trois plans, mais loin de désigner le même objet ou concept. Il faut donc trouver un autre moyen, et cela passe par enseigner à notre modèle d’IA à apprendre à partir d’une représentation de ce que sont des synonymes dans le langage. « Nous avons besoin d’exemples à lui fournir, et ça tombe bien : nous ne manquons pas de dictionnaires des synonymes », pointe Paul Honeine, Professeur en intelligence artificielle à l’université de Rouen Normandie. « Il suffit alors d’entrer des mots en lui disant s’ils sont synonymes ou pas. »
La tâche serait fastidieuse s’il fallait apprendre à l’IA la totalité des synonymes, en lui précisant également leur degré de proximité. « Couvre-chef » est un synonyme plus proche de « chapeau » que ne l’est « bonnet », pourtant synonyme éloigné. Alors, pour simplifier les choses, les spécialistes recourent à des réseaux de neurones profonds : une succession de nœuds de calculs en couche, chaque résultat d’un calcul étant poussé vers la couche suivante, constituant ainsi une série d’opérations complexes. « L’enjeu de l’apprentissage profond est de faire apprendre à l’intelligence artificielle la bonne représentation. Dans un monde parfait, nous parlerions d’ailleurs d’apprentissage de représentation, et pas d’apprentissage profond », souligne Paul Honeine. Et pour cela, il faut… changer d’espace ! Pas de panique, nous restons bien sur Terre.
Changer d’espace, en mathématiques, c’est augmenter ou diminuer le nombre de dimensions. Un peu comme passer de l’observation d’un océan en 2D, à sa contemplation en 3D. À la surface : un plan bleu, sans volume. En 3D, l’océan prend toute sa profondeur, et on peut alors en découvrir les volumes, les reliefs, et toute la vie. « À mesure que l’on s’enfonce sous la surface, on apprend plus de choses, mais on perd également en visibilité », avertit le chercheur. Car si l’apprentissage de représentation permet à l’IA de découvrir de nouveaux liens entre les éléments qui lui ont été fournis, elle le fait de manière de plus en plus obscure à mesure qu’elle jongle entre les dimensions. Or, pour l’IA comme pour le plongeur, vient un moment où il faut remonter à la surface.
Sortir la pré-image des abysses
« Nous ne savons pas ce que le modèle d’IA a appris en profondeur, donc il faut contrôler », insiste Paul Honeine. Un point crucial, à la fois pour vérifier l’efficacité du modèle, mais aussi pour pouvoir l’expliquer, à l’heure où de plus en plus de questions se posent quant à la transparence des systèmes intelligents. Or, cette remontée à la surface est loin d’être évidente. Parlons en termes plus techniques : il s’agit de trouver la pré-image, c’est-à-dire de projeter le résultat obtenu dans un espace opaque pour l’humain, vers l’espace de départ que nous autres humains pouvons appréhender. L’IA a utilisé plusieurs fonctions mathématiques pour apprendre la représentation dans un autre espace. « Nous ne connaissons rien de cette représentation obtenue par l’IA, donc nous ne connaissons rien non plus de la fonction de retour vers la pré-image », simplifie Paul Honeine.
Prenons un nouvel exemple avec une IA entraînée à reconnaître des animaux. L’humain lui fournit des exemples d’animaux (en surface). Elle traite ces images par une série de fonctions, qui permettent de modifier la dimension et de rentrer ainsi dans l’espace d’analyse (l’IA plonge). Là, l’IA trouve des paramètres de similitudes ou d’exclusions pour regrouper les animaux (en profondeur). À présent, elle doit revenir dans l’espace initial intelligible pour l’humain (en surface). Sauf que, mathématiquement, ce passage n’est pas bijectif. Autrement dit : pour un résultat obtenu en profondeur, il existe plusieurs pré-images possibles en surface. « L’IA peut avoir très bien appris à séparer les animaux, mais lorsque nous lui demandons ce qu’est un chien, elle peut nous remonter un chien à cinq pattes », explique le chercheur. « C’est tout le problème, ou plutôt la malédiction, de la pré-image. ».
C’est pour tenter de lever ce mauvais sort que Paul Honeine et son équipe ont monté le projet ANR APi (Apprivoiser la pré-image), lancé en 2019 pour une durée de 4 ans. L’équipe a travaillé sur des méthodes mathématiques pour intégrer des a priori dans les modèles d’apprentissage. Cela revient à exclure des solutions possibles, pour concentrer l’IA sur des résultats crédibles. « Corriger les résultats a posteriori, en analysant chaque réponse et en disant si elle est juste ou non, serait trop fastidieux, bien que ce soit le plus simple », problématise le chercheur. « Ce que nous voulons, c’est plutôt prévenir l’IA en amont que telle solution ne sera pas acceptable, par exemple parce qu’un animal à cinq pattes n’existe pas. »
Des graphes moyens pour des molécules précises
Dans le cadre du projet APi, les équipes ont travaillé sur des problèmes plus complexes que la reconnaissance de chiens et de chats. Parmi les cas d’étude, on trouve notamment la chimie moléculaire. L’objectif est ici d’entraîner une IA à apprendre les propriétés des molécules, leurs fonctionnalités, pour pouvoir ensuite lui demander de générer des molécules répondant à des spécifications particulières. Une perspective attrayante pour la médecine ou la cosmétique, car cela pourrait permettre un jour d’aider les chimistes à synthétiser de nouvelles molécules. « Par exemple, nous avons un ensemble de molécules avec chacune des propriétés intéressantes, et nous voulons en générer d’autres qui contiennent ces propriétés », détaille Paul Honeine. « S’il s’agit d’un ensemble de trois molécules, nous voulons échantillonner à l’intérieur d’un triangle où les trois molécules sont des sommets, comme un barycentre en géométrie. » Toutefois, les molécules sont des entités complexes, et la réalité se révèle plus délicate que de trouver une forme géométrique moyenne. « Lorsque nous représentons ces molécules par apprentissage profond, nous apprenons un espace de représentation approprié dans lequel nous pouvons faire ces opérations. »
Illustration des opérations de transformations non linéaires pour une couche de réseaux de neurones profonds sur graphes. Chaque résultat du calcul est poussé vers la couche suivante, produisant ainsi une série d’opérations complexes qui rendent les résultats obtenus de plus en plus obscurs à appréhender.
© Projet ANR APi / Université de Rouen Normandie
Là encore, il a fallu résoudre le problème de la pré-image. L’IA apprend en profondeur à reconnaître les structures moléculaires et les différentes fonctions chimiques (alcool, ester, cétone, etc.). Or, la chimie est régie par des règles strictes, comme le fait qu’un atome de carbone ne puisse avoir que quatre liaisons chimiques. Il faut donc apprendre à l’IA à ne pas remonter des molécules comportant des atomes de carbone avec plus de quatre liaisons – car ce sont des aberrations –, afin d’obtenir des molécules crédibles.
Génération d’une molécule barycentre à partir d’un ensemble de molécules disponibles. Alors qu’il est pratiquement impossible de la calculer directement, les réseaux de neurones profonds permettent de représenter les molécules, modélisées par des graphes, dans un espace approprié pour les calculs. La synthèse de la molécule barycentre est alors obtenue en revenant à l’espace des molécules par la résolution du problème de pré-image.
© Projet ANR APi / Université de Rouen Normandie
Synthèse de molécules par interpolation entre deux molécules. Le concept d’interpolation, difficilement concevable directement sur les molécules, est opéré facilement en représentant ces deux molécules par apprentissage profond, puis en opérant l’interpolation dans l’espace de représentation obtenu. Le retour à l’espace initial permet de synthétiser les molécules intermédiaires. Ainsi, on retrouve une série d’opérations pour transformer la molécule d’en haut à gauche en celle d’en bas à droite, où les opérations élémentaires sont l’insertion et la suppression d’un atome ou d’une liaison chimique.
© Projet ANR APi / Université de Rouen Normandie
L’équipe du projet APi utilise ces résultats dans d’autres domaines – comme les séries temporelles – pour exploiter des données qui ne sont pas échantillonnées sur des temps réguliers, afin d’en tirer du sens. En marge des sujets de recherche, le projet a également mené à la création de deux start-ups. La première, Xpdeep, entend générer des réseaux de neurones explicables, où il est aussi question de comprendre le retour à l’espace initial de représentation. La seconde, Tellux, s’affaire à développer des modèles d’IA sur les images des caméras hyper-spectrales, pour lesquelles chaque pixel n’est plus composé de trois couleurs, mais d’un spectre de réflectance plus large permettant d’analyser, par exemple, les éléments chimiques présents dans un sol. « L’objectif est de pouvoir éclairer les chimistes grâce à l’IA en détectant des polluants ou des éléments spécifiques dans la terre », explicite Paul Honeine. « Avec, là encore, des problématiques de retour à l’espace initial pour justifier clairement la présence d’hydrocarbures ou de métaux lourds par exemple. » Plus d’explicabilité, donc plus de confiance dans l’IA.
Calcul d’une moyenne de plusieurs séries temporelles. La colonne de droite présente des exemples de cinq caractères manuscrits et d’une spirale. La colonne de gauche illustre la forme moyenne de chacun, obtenue par la résolution du problème de pré-image.
© Thi Phuong Thao Tran (2020) Interpretable time series kernel analytics by pre-image estimation. Computer Arithmetic. Université Grenoble Alpes, thèse de doctorat