Les Hallucinations de l’IA, un ajout aux Malheurs du Monde ? (2/2)

Les Hallucinations de SARAH ne sont pas des erreurs et nous n’y pouvons rien

Avatar virtuel au visage lisse, SARAH (Smart AI Resource Assistant for Health) dispense à des millions de personnes au travers le monde des conseils de santé en huit langues, jour et nuit, sur la meilleur façon de s’alimenter, d’arrêter de fumer, de se déstresser… .

Mais, comme pour tous les chatbots il arrive que SARAH se trompe dans ses recommandations. Elle a ainsi proposé une liste de faux noms et de fausses adresses pour des cliniques qui n’existaient pas à San Francisco. L’OMS (Organisation Mondiale de la Santé) avertit sur son site web que SARAH peut faire des erreurs.

Et c’est reparti !

Les erreurs des chatbots sont même devenues des sources de plaisanteries. Voyez l’éphémère chatbot scientifique de Matea, Galactica, qui a inventé des articles universitaires et créé des histoires d’ours dans l’espace. Vous allez me dire, il y a bien l’ancienne directrice de Harvard qui a inventé sa thèse. Mais bon, on a sans doute tendance a penser que les robots sont intègres et précis. De là à inventer des histoires d’ours dans l’espace… Allez, une autre anecdote croustillante (et vraie). En février dernier, Air Canada s’est vu ordonner d’honorer une politique de remboursement inventée par leur chatbot.

Lors de la première partie de cette série consacrée aux Hallucinations des IA j’affirme que ces hallucinations ne sont pas des erreurs mais sont consubstantielles à ce que sont les IA les plus récentes, IA dont sont issus, entre autres, les chatbots.

La réponse à la question de l’hallucination semble pourtant simple. L’IA générative est un système d’apprentissage automatique et ce système est connu pour produire des erreurs, du coup une hallucination provenant d’un tel système est une erreur. Le passé récent nous a montré que les modèles d’apprentissage font moins d’erreurs à mesure qu’ils traitent plus de données et que nous construisons des modèles plus grands. Nous pouvons donc nous attendre à ce que les chatbots et les autres modèles d’IA générative deviennent plus précis au fil du temps.

Tous les résultats de l’IA générative sont des hallucinations

Je pense que les hallucinations sont autre chose que de « simples » erreurs. Tous les résultats de l’IA générative sont des hallucinations. Quelle que soit la définition que vous donnez d’une hallucination et quelle que soit votre opinion sur sa nature, vous vous accorderez à dire qu’il existe des résultats de l’IA générative qui sont corrects et utiles mais aussi qu’il en existe qui sont inexacts et inutiles et qu’il est raisonnable de vouloir quantifier les proportions de ces types de résultats. Qu’il est même essentiel de le faire afin d’apprécier le niveau de confiance que l’on peut accorder à ces résultats. Or cette évaluation apparaît extrêmement difficile ainsi que de plus en plus de personnes commencent à s’en rendre compte, certains allant jusqu’à publier dans des revues scientifiques un article affirmant que ChatGPT c’est de la merde.

Mais avant de nous lancer sur les raisons qui rendent ces évaluations si difficiles voyons d’une manière précise ce qu’est la réalité de l’apprentissage automatique.

L’apprentissage automatique en accéléré

Avant l’apparition de toutes ces approches et techniques génératives la plupart des IA se dédiaient à la formulation d’hypothèses très précises pour des champs applicatifs restreints. Ce visiteur de site web va-t-il cliquer sur ce lien ? Quel type d’objet est représenté sur cette image ? Combien vaudra cette action demain ? Chacune de ces questions trouve une réponse spécifique via un programme informatique dont la seule tâche est de répondre à la question pour laquelle il a été conçu.

Historiquement de tels programmes étaient construits à partir de principes fondamentaux. Pour prédire le temps qu’il faudra à une pomme pour tomber de sa branche Newton a réfléchi de façon très appliquée à la nature de l’Univers et a élaboré une théorie qui produit une équation répondant à cette question. Si Newton a résolu le problème de la pomme qui tombe de son arbre, la plupart des problèmes pratiques que nous rencontrons ne peuvent être résolus au travers de principes fondamentaux; Par exemple deviner quels objets sont représentés sur une image.

C’est là qu’intervient l’apprentissage automatique (Machine Learning – ML). L’idée de base est qu’en examinant suffisamment d’exemples du processus que vous essayez de prédire vous trouverez un modèle qui vous aidera à faire des prédictions précises sans avoir nécessairement besoin de comprendre le processus qui a été généré par ces exemples. En observant un million de pommes tombant d’un million d’arbres de différentes hauteurs vous pouvez vous passer des Principia de Newton et passer directement à l’équation. Ou vous pourriez aller directement à l’équation car il est très peu probable que l’équation que vous allez trouver corresponde à celle de Newton. Après tout ce n’est pas grave et vous n’avez même pas besoin qu’elle corresponde exactement. Vous ne cherchez pas à comprendre la gravité, vous essayez à faire des prédictions sur des pommes. Et vous pouvez aisément vous passer de principes fondamentaux pour reconnaître des objets dans des images et c’est très pratique.

Le processus de base pour construire un système de reconnaissance d’objets dans des images s’appelle un apprentissage supervisé et si nous ne rentrons pas trop dans les détails, c’est très simple. Pour construire un système capable, par exemple, de deviner quel chiffre manuscrit se trouve représenté dans une image vous devez collecter un vaste ensemble de données d’images de chiffres et étiqueter manuellement chaque image avec le chiffre qu’elle représente. C’est ce que l’on appelle les données d’apprentissage. Ensuite vous montrez toutes les images des données d’apprentissage à un ordinateur et vous lui demandez quel chiffre se trouve dans chaque image puis vous lui attribuez un score en fonction du nombre de fois où il a eu raison. Vous répétez cette opération quelques centaines de milliers de fois et l’ordinateur essaie à chaque fois différentes stratégies de résolution de devinettes, à la recherche de celle qui lui attribue le score le plus élevé. Cette recherche de la stratégie de résolution de devinette la plus performante peut s’avérer très longue et coûteuse en termes de calcul mais des innovations récentes en mathématiques et en efficience de calcul ont permis à cette stratégie d’être très performante pour un grand nombre de tâches.

Pour introduire un peu de terminologie, cette recherche de la meilleure stratégie d’estimation est appelée « formation » (training) et le système qui en résulte est souvent appelé « modèle » (model). Un modèle qui devine à partir d’une ensemble d’étiquettes discrètes est un « classificateur » (classifier) et les praticiens de l’apprentissage automatique (ML) préfèrent appeler les devinettes des « prédictions » (predictions), et on les comprend, cela fait beaucoup plus sérieux.

La différence entre le ML et Newton

Il convient de s’attarder un instant sur les différences entre l’approche de l’apprentissage automatique (ML) et celle de Newton. Newton peut s’inspirer de quelques pommes tombées d’un arbre mais son projet est beaucoup plus large, il consiste à élaborer une théorie qui codifie les principes généraux du mouvement des corps célestes. De cette théorie émerge une théorie pour nous dire, entre autres, combien de temps il faut à une pomme pour tomber par terre. Pour un apprenant automatique les principes généraux régissant les relations entre les corps célestes n’ont aucune importance. Son seul objectif est de reproduire avec précision un ensemble de données comprenant un million de pommes. Chacune de ces approches présente des avantages et des inconvénients. L’approche d’apprentissage automatique (ML) produira sans doute une équation impénétrable qui ne nous dira pas grand chose sur la nature de la gravitation mais, d’un autre côté, elle pourrait être plus à même d’intégrer les complexités du monde réel comme la résistance de l’air, qui complique l’approche de Newton.

Si je prends en exemple l’approche de Newton c’est uniquement pour souligner que l’apprentissage automatique n’est pas le seul moyen de construire un système d’IA. Il existe de nombreuses façons de programmer un ordinateur et aucune n’est ex ante nécessairement meilleure qu’une autre pour une application particulière. Mais depuis une quinzaine d’années on commence à s’apercevoir que l’apprentissage supervisé (supervised learning) peut être efficace pour des tâches bien plus complexes qu’on ne l’aurait jamais imaginé. Par complexité j’entends ici la variété des entrées (inputs) et des sorties (ouputs) possibles d’un modèle. Un didacticiel d’introduction à l’apprentissage automatique pourrait vous montrer comment construire un système qui prend l’image de 256 x 256 pixels d’un chiffre manuscrit et produit l’une des dix étiquettes possibles – les chiffres de 0 à 9. Vous pouvez construire un tel système avec une précision assez élevée avec seulement quelques dizaine de milliers d’images. Mais si au lieu de quelques dizaines de milliers d’images étiquetées vous pouvez en utiliser des millions ou des milliards vous pouvez élargir fortement l’univers des entrées et des sorties possibles. Les modèles de diffusion d’images tels que Stable Diffusion par exemple sont entrainés sur toutes sortes d’images et au lieu de produire quelques étiquettes discrètes ils produisent… une image entière. En d’autres termes, au lieu de produire une correspondance entre 256 x 256 = 65 536 entrées possibles et 10 sorties possibles, ils produisent une correspondance entre un ensemble insondable d’entrées possibles et un ensemble insondable de sorties possibles. Le fait que l’on puisse faire quelque chose d’aussi complexe en utilisant l’apprentissage automatique n’est pas évident et il s’agit sans doute de l’une des principales découvertes scientifiques de ces 15 dernières années.

Le problème – car il y en a un – c’est que pour construire ce type de modèles plus complexes il faut une quantité extrêmement importante de données et que l’obtention d’ensemble de données suffisamment vastes devient rapidement financièrement prohibitive. Les modèles les plus prometteurs pour ces tâches très complexes nécessitent des milliards d’exemples étiquetés et il est simplement impossible d’examiner manuellement un milliard d’images et de qualifier tous les objets qu’elles représentent.

Quand le self-supervised learnbing vient à la rescousse

Les modèles les plus prometteurs pour ces tâches très complexes nécessitent des milliards d’exemples étiquetés et il est tout simplement impossible d’examiner manuellement un milliard d’images et d’étiqueter les objets qu’elles représentent. Si vous pouviez d’une manière ou d’une autre générer les étiquettes sans avoir à examiner manuellement tous les exemples, ce serait génial. C’est la grande idée de l’apprentissage auto-supervisé (self-supervised learning), le paradigme d’apprentissage automatique qui sous-tend les systèmes d’IA générative modernes. Si vous pouvez mettre la main sur des milliards de phrases – par exemple, en récupérant tout le texte présent sur Internet – vous pouvez construire l’ensemble de données d’apprentissage de manière programmatique en découpant les phrases en morceaux. Il suffit de transformer « Le renard brun et rapide saute par-dessus le chien » en l’exemple d’entrainement « Le renard brun et rapide saute par-dessus le ___ », et de lui attribuer l’étiquette « chien ». En fait, il existe de nombreux exemples de formation que vous pouvez construire à partir de cette seule phrase en la coupant à différents endroits : « Le rapide » et « brun », « Le rapide brun » et « renard », etc. À partir d’une seule phrase, nous obtenons neuf exemples d’entrainement sans qu’aucun étiquetage humain ne soit nécessaire. Multipliez ce chiffre par le nombre de phrases qu’il est possible de trouver sur l’internet, et vous vous rapprochez de la taille nécessaire pour former ce type de modèles complexes. Une observation importante sur laquelle je reviendrai est que, si l’on met de côté les grandes différences de taille et de complexité, le processus d’apprentissage de GPT et le processus d’apprentissage d’un classificateur traditionnel ne sont pas si différents. Un LLM gère beaucoup plus d’entrées et de sorties possibles, mais il est entraîné de la même manière, pour faire la même chose : deviner la bonne étiquette pour l’entrée donnée. Voici l’exemple en langue anglaise pour laquelle le champ des possibles est plus vaste qu’en français.

Les deux modèles sont construits en leur montrant un tas d’exemples incomplets, en leur faisant deviner les compléments et en notant leurs suppositions. Les grandes innovations associées à la formation des systèmes modernes d’IA générative consistent à trouver des moyens astucieux de construire automatiquement des ensembles massifs de données d’entrainement ainsi qu’à inventer de nouveaux types de boîtes noires adaptées à l’exécution de tâches complexes, mais la manière dont ils sont formés est essentiellement la même qu’il y a des décennies.

L’histoire pourrait s’arrêter là. Parfois, un outil de reconnaissance de chiffres prend un 7 pour un 9, et parfois un modèle de langage dit que le renard brun rapide saute par-dessus le typhon brun paresseux. Il s’agit là d’un aspect inhérent à l’apprentissage automatique, qui résulte du fait que les modèles d’apprentissage automatique font des prédictions basées sur des modèles probabilistes plutôt que sur des inférences déductives prouvables, et c’est quelque chose qui tend à s’améliorer avec le temps, grâce à davantage de données et des modèles statistiques plus grands.

Mais je ne pense pas que ce soit le cas.

La différence entre une hallucination et une erreur

Il arrive que vous montriez au modèle l’image d’un 7 et qu’il vous dise qu’il s’agit de l’image d’un 9, cela arrive depuis toujours. Lorsque cela se produit et c’est inévitable, pourquoi ne pas dire que le système de reconnaissance des chiffres « hallucine » ? Pourquoi une information inexacte n’est-elle une hallucination que lorsqu’elle provient d’un chatbot ?

Ainsi que je l’ai mentionné précédemment, un LLM et un classificateur classique sont conceptuellement très similaires dans la manière dont ils sont construits. Le LLM reste un classificateur, même s’il est très complexe. De la même manière que l’outil de reconnaissance de chiffres est entraîné à renseigner l’étiquette manquante sur une image préexistante, le LLM est entraîné à remplir le mot manquant à la fin d’une phrase préexistante. La principale différence réside dans la complexité et l’échelle. Bien qu’ils soient similaires dans la manière dont ils sont construits, il y a une énorme différence dans la manière dont les systèmes d’IA générative sont déployés.

En règle générale, nous mettons en place un classificateur pour qu’il effectue la même tâche que celle pour laquelle il a été formé. Lorsque nous déployons le système de reconnaissance de chiffres, nous allons le faire travailler sur la reconnaissance de chiffres. Nous aurons probablement mis en place un processus de collecte de chiffres manuscrits et nous utiliserons le modèle pour lire ces chiffres afin d’effectuer une opération telle que le traitement du dépôt d’un chèque.

Les systèmes d’IA générative sont différents. Lorsque nous déployons un LLM en tant que chatbot, nous pivotons d’une utilisation pour deviner le mot suivant dans une phrase préexistante à une utilisation pour « deviner » le mot suivant dans une toute nouvelle chaîne de mots qui n’existe pas encore. Il s’agit d’un changement énorme, dont la portée est généralement sous-estimée. Cela signifie que, contrairement à un classificateur classique, il n’y a tout simplement aucun moyen d’évaluer la précision de la sortie du LLM de manière traditionnelle, parce qu’il n’y a pas d’étiquettes correctes auxquelles la comparer. Ce point est peut-être quelque peu subtil et une approche plus granulaire, basée sur des cas d’usage, est nécessaire pour le mettre en évidence.

Lorsque vous entrez une image du chiffre 7 dans le déchiffreur de chiffres, vous espérez qu’il produira une seule étiquette correcte et sans ambiguïté, ce sera le « 7 ». S’il produit les étiquettes « 1 » ou « 9 », il s’agit d’une erreur sans équivoque qui nuit à la précision de votre modèle. Ces erreurs sont identiques à celles commises lors de l’apprentissage, et il est donc logique de parler du taux d’erreur sur les nouvelles données (l' »erreur de généralisation » ou l' »erreur hors échantillon ») de la même manière que l’on parle du taux d’erreur sur les données d’apprentissage.

Qu’est-ce que 2+2 ?

Lorsque vous donnez à ChatGPT la chaîne de caractères « Qu’est-ce que 2 + 2 ? », il n’existe pas de mot suivant correct unique et dénué d’ambiguïté. Vous aimeriez que le mot suivant soit quelque chose comme « 4 ». Mais « 2 » pourrait également être correct, comme dans « 2 + 2 = 4 ». « La » pourrait également être le mot suivant correct, comme dans « La somme de 2 et 2 est 4 ». Bien entendu, chacun de ces mots peut également être le premier mot d’une mauvaise réponse, comme « 4,5 » ou « 2 + 2 = 5 ». La tâche pour laquelle le modèle est construit consiste à compléter le mot qui a été censuré dans une série existante – une tâche qui comporte une réponse correcte non ambiguë – mais cette fois-ci la situation est totalement différente. Il existe de meilleurs mots suivants et de moins bons mots suivants, mais il n’y a pas de mot correct suivant dans le même sens que lors de l’entrainement parce qu’il n’y a pas d’exemple à reconstruire. Une erreur au sens classique du terme pour un modèle de langage serait une incapacité à reproduire le mot manquant qui a été censuré dans l’exemple d’apprentissage mais en production, ces modèles ne sont tout simplement pas utilisés pour cela. C’est un peu comme si nous commencions à introduire des images d’animaux dans le système de reconnaissance des chiffres. Si ce dernier donne un 6 à un lion, a-t-il commis une erreur ? Non, sans doute pas. Vous l’utilisez pour une tâche différente de celle pour laquelle il a été formé ; il n’y a pas de réponse correcte, donc les erreurs ne sont pas définies.

Une histoire d’éléphant

Dans la pratique, nous avons tendance à ne pas réellement à nous préoccuper de ces prédictions de mots individuels. Le LLM, le moteur qui fait fonctionner ChatGPT, ne fait rien d’autre que de deviner les mots un par un, mais le système ChatGPT intègre un composant qui renvoie ces prédictions au LLM pour générer une séquence entière de mots qui composent une réponse textuelle complète. C’est le contenu sémantique qui émerge dans cette réponse textuelle complète qui nous intéresse généralement, et non un mot en particulier. C’est au moins en partie la raison pour laquelle il s’agit d’une « erreur » lorsque le classificateur de chiffres manuscrits appelle un 7 un 9, mais d’une « hallucination » lorsque GPT-4 dit qu’un éléphant nommé Jumbo a traversé la Manche à la nage en 1875. Un éléphant particulièrement grand et populaire. Exemple de réponse de ChatGTPT4o en mai 2024 :

Il est évidemment faux qu’un éléphant nommé Jumbo ait traversé la Manche à la nage en 1875, mais la façon dont ChatGPT se trompe ici est très différente de la façon dont un classificateur d’images se trompe lorsqu’il appelle un 7 un 9. ChatGPT a fait 40 prédictions distinctes ici, et il n’est pas évident de catégoriser chacune d’entre elles comme étant juste ou erronée. Chaque mot prédit a un sens par rapport aux mots qui le précèdent, et cela ressemble beaucoup à une séquence de mots que l’on pourrait trouver dans les données d’apprentissage.

(Cette analyse a été générée par cet outil)

Certains, voire la plupart, des mots prédits ici sont probablement plus proches de l’exactitude que de l’erreur. Bien sûr, il n’y a pas de moyen universel pour définir objectivement ce qui est « vrai » de ce qui est « faux » puisqu’il n’y a pas de texte préexistant auquel le comparer. Parmi toutes les prédictions faites par le modèle, on ne sait pas très bien lesquelles, le cas échéant, doivent être qualifiées d’erreurs – même si, dans l’ensemble, il est clair que ce résultat n’est pas ce que nous voulons.

Mais pourquoi ce n’est pas ce que nous voulons ? Qu’est-ce qui ne va pas exactement ? De toute évidence, le principal problème est qu’il semble décrire un événement qui ne s’est pas réellement produit. Mais quand j’y pense vraiment, je trouve cela un peu déroutant. Et si un éléphant nommé Jumbo avait réellement traversé la Manche à la nage en 1875, exactement comme décrit dans ce texte ? Dans ce cas, cette paire identique d’entrée et de sortie ne serait pas hallucinatoire. Cela semble impliquer qu’il n’y a rien d’inhérent au texte de la paire entrée-sortie qui la rende hallucinatoire ; le fait qu’elle soit hallucinatoire ou non dépend entièrement de faits concernant le monde, faits qui existent complètement indépendamment du texte produit par le modèle. Mais s’il n’y a rien d’inhérent au texte qui le rende hallucinatoire, alors le caractère hallucinatoire est-il même une propriété du texte ? Pas tout à fait, semble-t-il. C’est une propriété de la manière dont le texte se rapporte aux objets et aux événements du monde réel.

Pour compliquer encore les choses, l’établissement d’une correspondance entre le texte et les faits du monde est une affaire plus délicate et plus subjective qu’on ne l’espère. J’ai lu le passage sur Jumbo comme faisant plusieurs affirmations, dont beaucoup sont vraies – « Jumbo » a bien été un éléphant très célèbre à son époque, si ce n’est que c’était le personnage d’un dessin animé et… qu’il volait !

Je suis certain que la plupart des lecteurs seraient d’accord pour dire que la principale affirmation du texte est qu’un éléphant nommé Jumbo a traversé la Manche à la nage, ce qui est faux, et donc que le passage est peut-être « hallucinatoire », mais pouvez-vous trouver un critère objectif permettant de faire ce genre d’évaluation pour tous les textes possibles ? Cela me semble difficile. Le texte suivant serait-il ou non une hallucination ? (Il est très important de toujours garder à l’esprit que, puisque ces systèmes génèrent du texte de manière aléatoire, la même invite peut donner lieu à différents résultats, dont certains peuvent être considérés comme hallucinatoires et d’autres non). Que dites-vous de cette seconde réponse à la même question ?

Je ne dis pas que l’on ne pourrait pas trouver des critères pour classer ces réponses sans ambiguïté, mais ce n’est pas aussi simple qu’on pourrait l’espérer.

Permettez-moi de récapituler une fois de plus les bases du fonctionnement de ChatGPT. Tout d’abord, vous entraînez, de la manière habituelle, un classificateur à compléter le mot manquant d’un bloc de texte. Vous disposez ainsi d’un modèle capable de produire un seul mot à la fois : le mot manquant prédit, compte tenu du texte précédent. Étant donné un texte initial, disons « 2 + 2 », ce modèle agit comme s’il s’agissait du début d’un document existant dont le dernier mot a été censuré, et il produit une supposition quant au mot censuré. Il devine peut-être « égal ». Maintenant, pour transformer ce système en un système qui produit plus qu’un seul mot à la fois, vous le collez à la fin de l’invite et vous le réinjectez dans le modèle. Le modèle est invoqué une fois de plus, fraîchement, sans tenir compte de l’activité précédente, et on lui demande de deviner le mot qui a été censuré à la fin de « 2 + 2 égal ». Cette opération est répétée à l’infini jusqu’à ce que le modèle prédise qu’il n’y a pas de mot suivant.

Les modèles d’image génératifs fonctionnent de manière assez similaire. Ils sont entraînés à reconstruire une image à partir d’une version déformée de l’image et d’une description en texte clair de l’image. Pour générer de nouvelles images, vous entrez la description en texte clair de ce que vous voulez produire et, à l’endroit où le modèle s’attend à voir l’image déformée, vous entrez un bruit aléatoire. Dans les deux cas, le modèle « pense » qu’il reconstruit un artefact existant, mais en fait il en génère un nouveau. Compte tenu de cette description, je pense qu’il est logique de se poser la question suivante : toutes les productions de l’IA générative sont-elles des « hallucinations » ? Si le moyen de les amener à produire des résultats est de leur dire que ces résultats existent déjà et de les mettre au travail pour les reconstruire, il me semble que nous leur demandons d’halluciner.

D’éminents chercheurs en IA se sont récemment ralliés publiquement à l’idée que tous les résultats des LLM sont des hallucinations – et que c’est une bonne chose. Andrej Karpathy, co-fondateur d’OpenAI et ancien directeur de l’IA de Tesla, a récemment tweeté que les LLM sont des « machines à rêves », que « l’hallucination n’est pas un bug, c’est la plus grande fonctionnalité des LLM ».

En fait, il ne s’agit pas d’un nouveau point de vue. En 2015, Google a publié un système appelé DeepDream, qui était un précurseur direct des systèmes d’IA générative actuels, et presque certainement ce à quoi Karpathy faisait allusion en appelant les LLM des « machines à rêves ».

Cette capture d’écran du site web de DeepDream est issue d’une collection dénommée « rêves », c’est-à-dire des images générées à partir d’un bruit aléatoire.

Ce système est né de la prise de conscience qu’il était possible de reconfigurer la technologie utilisée pour classer les images afin de générer des images qui n’existaient pas auparavant. Étant donné que les images générées ne sont pas vraiment « de » quelque chose qui existe dans le monde réel, mais plutôt quelque chose comme des échos statistiques d’images provenant des données d’entraînement, ils ont décidé de les appeler « rêves ». Les créateurs de DeepDream n’ont pas prétendu que le modèle produisait des images qui étaient « occasionnellement des hallucinations ». Il était entendu dès le départ que chaque information générée par ces modèles était un « rêve ».

À l’époque, il s’agissait davantage d’une curiosité que de quelque chose d’utile en soi – ou, au mieux, d’un moyen de mieux comprendre le fonctionnement interne du classificateur. À l’époque, il ne semble pas que beaucoup de gens aient pensé que les rêves de ce type pouvaient être utiles en soi, mais nous avons appris depuis que si vous entraînez un modèle suffisamment complexe avec assez de données, les rêves peuvent devenir très vivants et correspondre fréquemment à des faits du monde réel. Mais dans la mesure où cela se produit, il s’agit essentiellement d’une heureuse coïncidence. Du point de vue du modèle, il n’y a pas de distinction entre un texte hallucinatoire et un texte non hallucinatoire. Tous ses résultats sont des reconstructions imaginées de prétendus documents censurés.

Cela peut sembler plutôt philosophique et abstrait, et dans une certaine mesure ça l’est, mais je crois que cela a aussi des implications très concrètes sur la façon dont nous pouvons nous attendre à ce que cette technologie évolue. Si une hallucination est analogue à une erreur typique de n’importe quel autre modèle d’apprentissage automatique, alors nous avons de bonnes raisons de croire que la prévalence des hallucinations peut être ramenée agressivement vers zéro. Il existe aujourd’hui des modèles d’apprentissage automatique très performants pour la reconnaissance de chiffres manuscrits. Les étapes de base sont simples : former le modèle sur un plus grand nombre de données, et agrandir le modèle. Mais si les hallucinations sont qualitativement différentes du type d’erreur classique, comme je le crois vraiment, alors l’histoire peut être différente. Dans ce cas, il n’est pas si évident que l’augmentation du nombre de données ou de la taille des modèles permette de réduire le nombre d’hallucinations. Peut-être que la solution n’est pas d’avoir plus de données ou des modèles plus grands, mais quelque chose d’autre : une façon complètement nouvelle et différente d’entraîner le modèle peut-être, ou une nouvelle façon de générer des prédictions. En fait, l’approche actuelle de l’état de l’art pour traiter les hallucinations n’implique pas vraiment la collecte d’un ensemble de données significativement plus grand ou l’augmentation de la taille du modèle ; L’apprentissage par renforcement à partir de rétroaction humaine (Reinforcement Learning from Human Feedback – RLHF) ou la génération augmentée de récupération (Retrieval Augmented Generation – RAG) sont plutôt des façons complètement nouvelles et différentes de modifier un modèle pré-entraîné. Est-ce la solution ? Peut-être ; personne ne le sait ! Si l’on considère que le problème de l’hallucination est qualitativement nouveau, plutôt qu’un exemple du problème bien connu selon lequel les modèles d’apprentissage automatique produisent occasionnellement des erreurs, l’inévitabilité d’une amélioration progressive mais perpétuelle le long de cet axe n’est pas du tout garantie.

Ce qui est effrayant

Ce qui est vraiment effrayant dans ce point de vue, c’est que le problème de l’hallucination est tout simplement insoluble. L’hallucination et la non-hallucination ne sont pas des catégories distinctes de résultats ; chaque fois que vous demandez au robot de vous faire un dessin ou de vous écrire un essai, vous lui demandez d’halluciner. Ces hallucinations s’écarteront inévitablement du monde réel, au moins parfois, parce que, comment pourrait-il en être autrement ? Ce sont des rêves. Je pense qu’il est révélateur que la plupart des tentatives actuelles d’ancrer les systèmes basés sur le LLM dans la vérité ne sont pas vraiment des moyens d’améliorer le modèle, mais des moyens de boulonner des éléments non-LLM sur le système plus large qui produisent un texte factuel plus fiable sur lequel il peut rebondir : lui donner un environnement pour exécuter du code, par exemple, ou l’alimenter avec des résultats de recherche de Bing. Ces add-ons (OpenAI les appelle littéralement add-ons) peuvent réussir à provoquer des hallucinations qui correspondent mieux au monde réel, mais cela ne me semble pas s’attaquer à la racine du problème, qui est que le moteur génératif ne peut pas faire la différence entre générer des vérités et générer des mensonges.

Pour faire une brève parenthèse, je trouve que le battage médiatique autour de l’IA générative est plutôt déroutant et confus. Bien sûr, je trouve qu’il est exagéré à bien des égards. Vous le savez, je n’ai pas besoin de m’étendre sur le sujet. Mais d’un autre côté, je pense que l’on n’apprécie pas assez – et que l’on ne vend pas assez – le miracle que cela fonctionne. Je ne suis pas surpris qu’avec un ensemble de données et un modèle suffisamment grands, on puisse entraîner un grand modèle à prédire le seul mot manquant dans un passage de texte avec une précision assez élevée. Mais le fait que vous puissiez réinjecter la sortie de ce modèle pour générer du texte, et que le texte qui en résulte soit un tant soit peu cohérent, et encore moins utile, n’est rien de moins que miraculeux. Pourtant, je ne vois pas vraiment ce dernier point mis en avant. Je ne fais qu’émettre des hypothèses, mais je ne pense pas que les personnes qui construisent cette technologie veuillent vraiment reconnaître à quel point il est surprenant que cela fonctionne, car cela soulève la question inconfortable de savoir s’il faudra des miracles d’une ampleur similaire pour l’améliorer – pour éliminer le problème de l’hallucination, par exemple. Il est plus confortable de présenter le GPT-4 comme un bref arrêt dans la marche inexorable vers la super-intelligence artificielle, les hallucinations et tous les autres problèmes étant des accidents de parcours temporaires, que comme un truc bizarre découvert en 2017 qui a produit des résultats totalement imprévisibles et surprenants que personne ne comprend vraiment.

Les Risques des erreurs

Ainsi que je l’avance lors du paragraphe précédent, il n’y a pas de distinction universelle entre les résultats hallucinatoires et ceux qui ne le sont pas. Il peut y avoir des résultats plus désirables et d’autres qui le sont moins, mais la désirabilité n’est pas une propriété inhérente au texte, mais plutôt une propriété de la façon dont il est interprété et utilisé par le lecteur. Vous pouvez être d’accord ou pas avec cela. Quoi qu’il en soit, je pense qu’il est important, voire essentiel, de réfléchir et de tenter de quantifier la fréquence des différents types de textes produits par le modèle dans différentes circonstances. Cela induit une idée assez simple : pourquoi ne pas définir certains critères pour ce qui constitue une hallucination – sans tenir compte des préoccupations philosophiques quant à l’existence objective d’une telle chose – et essayer de comparer les modèles à cette définition pour obtenir un « taux d’hallucination ».

Je vais aborder quelques-uns des défis que nous rencontrons en essayant de le faire. Tout d’abord, il faut dire quelques mots sur la manière d’envisager les erreurs en général. Il est amusant et intéressant d’apprendre les détails techniques spécifiques du fonctionnement des différents systèmes d’IA, mais lorsque vous envisagez d’en déployer un pour automatiser de vraies décisions avec de vrais enjeux, il n’y a vraiment que trois choses qui comptent : quels types d’erreurs commet-il, à quelle fréquence les commet-il, et quel est le coût de ces erreurs ? Les réponses à ces questions déterminent s’il est même rationnel d’utiliser le système en production – et parfois ce n’est pas le cas ! Supposons que vous envisagiez d’utiliser un modèle qui prédit si une maison est sous-évaluée comme base de votre activité d’investissement immobilier. Si le modèle prédit que le logement est sous-évalué, vous l’achèterez et le vendrez au prix que votre modèle estime être sa juste valeur marchande. La viabilité de cette stratégie dépend fortement du type et de la fréquence des erreurs commises par votre modèle. Il ne suffit pas de savoir que « dans 90 % des cas, le modèle se situe à moins de 5 % du prix de vente réel ». Il faut en savoir beaucoup plus. Dans les 10 % de cas où l’erreur est supérieure à 5 %, quelle est l’ampleur de l’erreur ? Si l’erreur est parfois de 100 % ou de 1 000 %, elle peut suffire à vous acculer à la faillite, même si elle n’est pas fréquente. Dans les 90 % des cas où l’erreur est inférieure à 10 %, le modèle a-t-il tendance à surestimer ou à sous-estimer ? Si le modèle a tendance à sous-estimer la valeur réelle des logements, vous manquerez souvent des occasions rentables d’acheter ou de vendre trop tôt. Cela peut être ennuyeux, mais tant que le modèle a parfois raison, vous disposez d’un moyen viable de gagner de l’argent. En revanche, si le modèle a tendance à surestimer la valeur d’un logement, vous paierez trop cher pour des biens surévalués, ce qui vous conduira à la faillite. La morale de l’histoire est que la compréhension et la planification des erreurs commises par le modèle – non seulement leur fréquence, mais aussi leur nature et leur coût – sont d’une importance capitale si vous voulez l’utiliser pour automatiser la prise de décision. Cela est vrai pour tous les modèles, de la plus simple régression linéaire à une seule variable au plus grand modèle de langage du monde.

Mais pour l’IA générative on ne sait pas très bien comment définir ou décrire les erreurs, sans parler de les mesurer et de raisonner à leur sujet. Il y a des tentatives. Comme je l’ai suggéré précédemment, vous pourriez essayer de faire en sorte que le système LLM génère un certain nombre de résultats, les lise pour déterminer s’ils sont corrects ou incorrects, et calcule ainsi un « taux d’hallucination ». Une société appelée Vectara dispose d’un programme qui tente de faire exactement cela et maintient un « Hallucination Leaderboard » qui indique actuellement que le taux d’hallucination pour GPT 4o est de 3,7 %, tandis que le taux d’hallucination pour Mistral 7B Instruct-v0.2 est de 4,5 %.

J’émets de sérieuses réserves méthodologiques sur la manière dont ces chiffres sont estimés et j’y reviendrai dans un instant, mais même en supposant qu’il existe une manière méthodologiquement solide pour quantifier cela, un tel « taux d’hallucination » n’est pas une information suffisante, loin s’en faut. Comme dans l’exemple de l’achat d’une maison, ce qui compte, ce n’est pas seulement la fréquence des erreurs, mais aussi la direction dans laquelle elles sont commises. Lorsque le robot LLM dit quelque chose de faux, que dit-il exactement ? Dit-il qu’il a plu le week-end dernier alors qu’il faisait beau ? Ou fait-il des offres extravagantes à votre client que vous ne pouvez pas honorer ? S’il se trompe sur le temps qu’il a fait le week-end dernier dans 2,5 % des cas, c’est peut-être suffisant pour un Chatbot en contact avec le client, mais vous aimeriez probablement qu’il offre votre stock gratuitement beaucoup moins souvent que dans 2,5 % des cas.

Dans le contexte classique de l’apprentissage automatique, il est généralement possible de fixer des limites aux différents types d’erreurs et à leurs taux, ou au moins de dire quelque chose de qualitatif à leur sujet. Vous ne savez pas jusqu’à quel point l’estimation du prix du logement sera erronée, mais vous savez qu’il s’agira au moins d’un chiffre, et vous pouvez probablement effectuer une analyse statistique pour déterminer s’il a tendance à surestimer ou à sous-estimer, et ainsi de suite. Vous ne savez pas ce que le système de reconnaissance des chiffres va penser de ce « 7 », mais vous êtes sûr qu’il va au moins deviner un chiffre. Avec ces nouveaux systèmes d’IA générative, le résultat peut être apparemment n’importe quoi. L’espace des textes indésirables possibles est insondable. ChatGPT pourrait mal indiquer un prix à votre client, ou recommander un concurrent, ou l’insulter, ou générer une image pornographique, ou encore se tromper d’une infinité d’autres façons, et chacun de ces types de mauvais résultats a un coût différent. Sans savoir plus précisément quels types d’erreurs il commet, un taux d’hallucination générique ne vous donne tout simplement pas assez d’informations pour savoir si un LLM est fait pour vous.

Les 3 défis méthodologiques

Je voudrais revenir sur les défis méthodologiques, car je pense qu’ils sont importants. J’en vois au moins trois. Le premier, et le moins grave, est qu’il n’y a manifestement pas d’accord général sur ce qui constitue une « hallucination » en premier lieu. Le classement de Vectara n’est pas très précis quant à la définition d’une hallucination, mais il semble qu’elle soit à peu près la suivante : une hallucination est une tentative ratée de résumer avec précision un texte. C’est très bien ainsi, mais si vous n’utilisez pas le modèle pour résumer un texte, alors une mesure de la fréquence à laquelle un modèle échoue à résumer un texte avec précision peut ne pas vous être particulièrement utile. Il s’agit d’un problème, mais qui n’est pas très grave tant que l’on prend soin de comprendre la méthodologie de l’indice de référence de l’hallucination que l’on étudie. Il vous suffit de lire la documentation, de décider si votre définition personnelle d’une hallucination correspond à la définition du critère, et de procéder en conséquence.

Les deuxième et troisième problèmes sont beaucoup plus difficiles à résoudre. Le deuxième problème est qu’il est pratiquement impossible d’effectuer correctement ces évaluations. Pour évaluer correctement le taux d’hallucination de Vectara (et je suis désolé de continuer à m’en prendre à Vectara parce que tous les critères de référence ont ce même problème), il faudrait lire attentivement des dizaines de milliers de résumés de textes longs comme des paragraphes et déterminer si chacun d’entre eux contient des erreurs factuelles. Il est tout simplement impossible de le faire en permanence. Au lieu de cela, une fois qu’ils ont généré tous les résumés de texte, ils utilisent un autre grand modèle de langage pour déterminer si les résumés contiennent des erreurs. J’espère que vous voyez le problème que cela pose. Le but de l’exercice est d’observer que les générateurs basés sur le LLM ne semblent pas fiables pour coller à la vérité, et maintenant nous utilisons un LLM pour déterminer s’ils ont collé à la vérité. Je ne pense pas que l’idée d’utiliser des LLM pour évaluer d’autres LLM soit nécessairement une impasse totale. Mais pour y parvenir correctement, il faudra une méthodologie statistique sophistiquée pour corriger les erreurs commises par le modèle de mesure, et je n’ai vu aucun repère standard aborder ce problème. Le modèle de mesure lui-même va commettre des erreurs, et il est presque certain que ces erreurs vont fausser toute estimation de la prévalence réelle des erreurs. Il ne s’agit pas d’un nouveau problème statistique ; le problème de l’estimation de la prévalence d’une population en comptant le nombre de positifs produits par un test non fiable est bien étudié en épidémiologie.

Ainsi, bien que je pense qu’il existe des moyens potentiels pour résoudre le problème difficile de la description des résultats du LLM à l’aide d’estimateurs peu fiables, je ne les vois pas être incorporés dans l’un des benchmarks disponibles. Dans l’état actuel des choses, je ne pense pas qu’ils soient dignes de confiance.

Si les premier et deuxième problèmes sont discutables, le troisième problème est fatal. Il découle du cours de statistique élémentaire. Nous supposons qu’un modèle a un certain « taux d’hallucination » objectif, un taux moyen auquel un modèle produit des hallucinations, et nous essayons de l’estimer en vérifiant la fréquence des hallucinations dans un échantillon de sa production. Mais, d’une manière générale, pour que cette stratégie fonctionne, il faut que l’échantillon soit représentatif de l’ensemble de la population ; autrement dit, il faut que le texte ressemble à celui que l’on obtiendrait en prélevant au hasard un passage de tous les textes possibles. Or, ces ensembles de données de référence, et c’est un euphémisme, ne ressemblent pas à cela. Ils sont généralement construits par des moyens artificiels et, dans l’ensemble, ne ressemblent pas du tout au texte typique que l’on rencontrerait si l’on échantillonnait unj prompt au hasard parmi les utilisateurs de ChatGPT.

Cela ne serait pas si grave si la propension à produire de fausses affirmations n’était pas étroitement liée au choix spécifique du prompt mais il semble que ce soit le cas. Dans un test non scientifique que je viens d’effectuer, je constate que ChatGPT (utilisant GPT-4o) produit des résultats que je classerais comme faux entre 75 % (9 essais sur 12) et 92 % (11 essais sur 12), et ne produit des résultats que je décrirais comme complètement factuels dans 8 % des cas (1 essai sur 12), toujours autour de mes histoires d’éléphants traversant la manche à la nage. L’instabilité dans le temps des types de réponses que l’on obtient est un tout autre sujet, mais j’ai pensé qu’il était intéressant de le souligner. Douze est un petit échantillon, mais onze hallucinations sur douze essais sont en fait des données suffisantes pour rejeter l’hypothèse nulle selon laquelle la probabilité d’une réponse hallucinatoire est de 2,5 %. Ce qu’il faut retenir ici, c’est que le taux d’hallucinations que vous rencontrerez si vous déployez votre chatbot alimenté par GPT dans le monde n’est tout simplement pas connu en regardant comment il se comporte dans l’un de ces tests de référence sur les hallucinations. Il obtient un taux d’hallucination de 2,5 % sur le test de référence Vectara et de 92 % sur mon test de référence mais aucun de ces résultats n’est particulièrement significatif pour vous, car le texte que votre chatbot traitera ne ressemblera en rien au texte utilisé par l’un ou l’autre de ces tests de référence.

La fréquence des mauvais résultats, si tant est que l’on puisse définir une telle chose, dépend entièrement de leurs propres normes en matière de mauvais résultats et du type de texte que leurs clients ont tendance à saisir dans la fenêtre de discussion. Aucun critère normalisé ne peut répondre à cette question et c’est là qu’est le problème. Si vous avez l’impression que je suis un peu nihiliste à ce sujet, détrompez-vous ! Je ne pense pas qu’il y ait grand-chose à apprendre de l’examen des repères d’hallucination et de tout le reste, mais je pense qu’il existe des moyens pour vous, fournisseur potentiel d’un produit d’IA générative, d’estimer utilement les types de taux d’erreur dont je prétends que vous avez besoin. La mauvaise nouvelle, c’est que cela va demander pas mal de travail, mais la bonne nouvelle, c’est que c’est possible.

Quoi faire ?

La première chose dont vous aurez besoin est un ensemble de données contenant du texte représentatif du type de texte que vos utilisateurs fourniront. Ce texte peut être rédigé à la main, par vous, et devrait probablement l’être au départ. Essayez de produire un grand nombre de variantes qui incluent tous les types de cas que vous anticipez, y compris des textes que vous ne voudriez généralement pas qu’un utilisateur soumette. Soumettez ensuite tous ces exemples au modèle et inspectez manuellement les résultats, en les qualifiant de souhaitables ou d’indésirables. Pour ce faire, vous pouvez utiliser les critères de votre choix ; ce qui compte, c’est de savoir si le texte est souhaitable pour vous. Il n’y a pas de résultat objectivement correct à produire par l’IA générative, il n’y a que des résultats plus ou moins souhaitables par rapport à votre cas d’utilisation. Lorsque vous aurez terminé, vous pourrez utiliser ces données pour estimer toutes sortes de choses, comme la fréquence à laquelle vous vous attendez à ce qu’il produise un texte désirable ou indésirable, et lorsqu’il produit un texte indésirable, quel type de texte indésirable il produit. Cette estimation sera approximative, mais elle sera beaucoup plus utile que l’examen d’une référence standardisée, à la fois parce qu’elle est évaluée sur un ensemble plus représentatif de données d’entrée et parce que les résultats sont évalués en fonction de votre cas d’utilisation particulier.

Tout cela est beaucoup plus facile si vous déterminez réellement à quoi sert votre produit. Le secteur de la Tech IA est quelque peu réticente à s’engager dans un cas d’utilisation particulier pour l’IA générative. ChatGPT & co. ne sont pas vraiment destinés à quelque chose en particulier ; ils sont destinés à tout faire. Il est donc très difficile de définir des critères pour déterminer ce qui constitue un bon résultat. Mais si nous voulons utiliser une enveloppe ChatGPT comme agent de service à la clientèle, nous pouvons maintenant fixer des limites à ses résultats souhaités. Nous voulons qu’il représente fidèlement les faits concernant le magasin. Nous voulons qu’il soit poli. Nous voulons qu’il évite de recommander des concurrents. Lorsqu’on lui pose la question de savoir comment aplatir une liste de listes en Python, nous ne voulons pas qu’il produise une solution incorrecte, mais nous ne voulons pas non plus qu’il produise nécessairement une solution correcte. Nous voulons qu’il dise quelque chose comme « Je suis un chatbot de service à la clientèle. Je ne suis pas là pour ça. Parlons plutôt de service client. » Restreindre le comportement désiré vous permet de créer des limites beaucoup plus précises autour des types de résultats que vous voulez qu’il produise, ce qui vous permettra de savoir s’il se comportera de la manière dont vous en avez besoin, bien mieux que n’importe quel benchmark standard.

Je ne veux pas donner l’impression que c’est facile. C’est difficile, et je pense qu’il y a beaucoup de place pour que quelqu’un développe un ensemble complet de meilleures pratiques pour faire ce genre d’évaluation sur mesure (combien d’exemples avez-vous besoin ? Pouvez-vous générer un texte d’exemple de manière synthétique ? Peut-on évaluer avec un LLM ? Comment échantillonner les interactions existantes pour constituer un ensemble de données plus important ? etc etc), mais c’est vraiment sur ce type d’évaluation que vous devez compter. Les repères généraux ne vous diront presque rien sur le fait que le robot va halluciner d’une manière qui devrait vous importer.

Un dernier exemple

Avec, en préambule, mes sincères excuses aux gens de Vectara pour m’être autant acharné sur eux. Je trouve qu’un exemple tiré de leur blog présentant le classement des hallucinations illustre assez bien le point principal que j’ai soulevé dans cet article. L’article commence par présenter le concept d’hallucination au public à l’aide d’un exemple.

« Les hallucinations sont souvent très subtiles et peuvent passer inaperçues aux yeux de l’utilisateur. Par exemple, repérez l’hallucination dans cette image que Bing Chat a générée pour moi l’autre semaine lorsque j’ai demandé une image de « Kirby avalant donkey kong ». Mais Kiby n’a pas de dents ! »

L’affirmation semble être que si le modèle avait produit une image preque exacte. S’il n’avait pas donné de dents à Kirby, ce résultat aurait été correct, factuel, sans hallucination. Mais je pense pouvoir relever quelques autres problèmes factuels dans l’image. La tache rose sur la joue gauche de Kirby est un peu plus foncée que celle sur sa joue droite. Alors que Kirby n’est généralement pas représenté avec des dents, Donkey Kong l’est habituellement, mais sur cette image, il n’en a pas. De plus, le message semble demander à Kirby d’avaler Donkey Kong, alors qu’à mon avis, Donkey Kong a plutôt l’air de se détendre dans la bouche de Kirby.

Oh, et autre chose, Kirby et Donkey Kong ne sont pas réels. Il n’existe pas d’image factuellement correcte de Kirby avalant Donkey Kong.

Lorsque vous demandez au modèle de générer une image, vous lui demandez d’halluciner. Vous lui demandez d’évoquer une image fictive à partir de rien, de reconstruire les détails d’une image dont vous lui dites qu’elle existe mais qui n’existe pas en réalité. Il n’existe aucun critère objectif universel permettant de déterminer si cette image est hallucinatoire ou non. L’auteur applique ici ses propres critères personnels pour déterminer ce qui rendrait cette image hallucinatoire, qui peuvent ou non être les mêmes que ceux de quelqu’un d’autre, et personne n’a la prétention particulière d’avoir le « bon » critère.

Ce qui compte vraiment, c’est ce que vous allez faire avec le résultat. À quoi sert le modèle ? C’est ainsi que l’on détermine si le résultat est bon ou mauvais. Si le rôle du modèle est d’adhérer aux normes de conception des personnages de Nintendo, il est clair que dans ce cas, il a échoué. En ce qui concerne cette tâche spécifique, vous diriez peut-être que les dents sont, dans ce contexte, une hallucination. D’un autre côté, si le travail du modèle consiste à produire une image qui, selon le commun des mortels, correspond au prompt, alors il a peut-être réussi. Si vous me demandez de décrire cette image en quelques mots, je dirais qu’il s’agit d’une image de Kirby avalant Donkey Kong. D’un autre côté, si le travail du modèle consiste à éviter de reproduire la propriété intellectuelle d’une autre entreprise, comme on pourrait penser que c’est le cas pour le générateur d’images de Bing, alors cette image constitue une autre sorte d’hallucination. Les gens ont été très mécontents de Google lorsque Gemini a généré des images perçues comme trop « diversifiées » et, dans un message d’excuses, ils ont fait allusion au « problème de l’hallucination ».

Comme nous le disons depuis le début, les hallucinations sont un problème connu de tous les LLM – il y a des cas où l’IA se trompe tout simplement. Mais Gemini génère une image d’un pape noir qui n’existe pas réellement, est-ce plus une hallucination que s’il générait un pape blanc qui n’existe pas réellement ? Il s’agit dans les deux cas de faux papes. Il me semble que ces générations seraient tout aussi hallucinantes. En fait, il me semble que toute production générative est également hallucinante. À moins que Google ne fasse des promesses plus précises sur ce que Gemini est et n’est pas censé générer, il n’y a pas de moyen universel évident d’évaluer son taux d’hallucination. Je pense qu’il s’agit d’un sujet controversé qui n’est pas très bien compris et pour lequel il y a très peu de théorie sur laquelle s’appuyer. Le déploiement de ces systèmes a dépassé notre capacité collective à raisonner à leur sujet. Après avoir beaucoup réfléchi à la nature de l’hallucination, je suis plutôt convaincu qu’il s’agit d’une impasse conceptuelle. Il n’y a pas de résultat objectivement hallucinatoire et de résultat qui ne l’est pas, et se concentrer sur l’hallucination en tant que concept cohérent est une distraction par rapport au vrai travail qui doit être fait pour évaluer l’applicabilité de ces systèmes.

Ainsi que le dit Camus, mal nommer les choses c’est ajouter aux malheurs du monde. Les hallucinations des LLM y participent si nous ne les assumons pas comme telles. Plus les modèles seront précis car ayant ingéré de plus en plus de données, plus nous baisserons notre garde. Des études montrent que plus les chatbots s’améliorent, plus les gens sont susceptibles de ne pas remarquer une erreur lorsqu’elle se produit.

L’année dernière un avocat a été condamné à une amende pour avoir soumis des documents remplis de faux avis juridiques et de citations légales inventées par ChatGPT. Quand les juges lui ont demandé de s’expliquer il a semblé aussi surpris que n’importe qui d’autre par ce qui s’est passé. « J’ai entendu parler de ce nouveau site, dont j’ai supposé à tort qu’il s’agissait d’un moteur de recherche » a-t-il déclaré au juge. « Je n’ai pas compris que ChatGPT pouvait fabriquer de la jurisprudence. »