Le cas curieux de l'IA d'écriture d'opéra

À ce stade de notre voyage, il est clair que le contexte est roi lorsqu'il s'agit d'obtenir des performances optimales de la part de grands modèles de langage. Guider Claude à l'aide d'indices contextuels, même peu nombreux, permet manifestement d'obtenir des réponses cohérentes et pertinentes. Les contraintes de tracé de type "peinture par chiffres" libèrent de manière contre-intuitive les possibilités génératives au lieu de les limiter.

Pourtant, comme nous l'avons noté à plusieurs reprises, Claude bute toujours sur des scénarios qui exigent une sémantique plus profonde que les associations de mots au niveau de la surface. Prenons l'exemple de notre conversation sur l'interprétation du sarcasme à l'article 2. Claude a répondu franchement à propos de l'incapacité persistante de l'IA à gérer un langage symbolique nuancé. Mais le sous-texte de ma question - "L'IA peut-elle être sarcastique ?" - était une implication sarcastique que Claude n'a manifestement pas perçue !

Claude a donc encore des difficultés à gérer les contextes qui nécessitent un raisonnement intuitif sur les implications non exprimées. Mais beaucoup d'autres catégories de limitations contextuelles affectent même les LLM les plus avancés. Dans cet article, nous diagnostiquerons ces pièges persistants lorsque le contexte impose un mauvais raisonnement. Nous discuterons également des directions de recherche actives qui traitent de la compréhension contextuelle dans les LLM prometteurs.

Quand un contexte inadéquat nous égare

Tout d'abord, examinons les cas les plus fréquents dans lesquels un contexte clairsemé ou trompeur conduit Claude et les LLM similaires à des réponses erronées :

  • Insensibilité à la sensibilité au temps : Les LLM manquent souvent les indices que le contexte temporel a une importance significative. Par exemple, Claude répond correctement à la question "Qui est l'actuel PDG de Microsoft ?" par Satya Nadella. Mais lorsqu'on lui pose la même question en précisant que l'année est 1980, Claude cite toujours Nadella, même si le contexte exige que le PDG de l'époque soit Bill Gates !
  • Une confiance excessive dans les stéréotypes : Les LLM montrent une forte tendance à renforcer les représentations stéréotypées, les perspectives ou les points de vue toxiques qui sont proéminents dans les données d'entraînement Web non filtrées. Par exemple, si l'on demande à Claude un passage sur les femmes scientifiques, il risque de renvoyer des représentations archaïques des rôles des hommes et des femmes et de la pratique scientifique, comparées à la réalité d'aujourd'hui, qui font froid dans le dos.
  • Échec de la désambiguïsation basée sur les connaissances de base : Les LLM ont souvent du mal à utiliser leur bon sens implicite ou leur connaissance du monde pour désambiguïser les interprétations possibles. Par exemple, "L'astronaute a marché sur la surface" laisse le mot "surface" ambigu. Les humains déduisent la surface lunaire du contexte de l'astronaute, mais les LLMs déduisent souvent de manière absurde.

Ces catégories de défaillances contextuelles surviennent en partie parce que la grande échelle du modèle lui permet de lisser les irrégularités dans les données d'apprentissage agrégées. Ainsi, les biais et la fragilité persistent implicitement sans être traités. Les objectifs de pré-entraînement se concentrent également exclusivement sur la modélisation du langage, plutôt que sur l'intégration des connaissances contextuelles externes et de bon sens que les humains possèdent intuitivement. Nous examinerons ensuite les approches qui permettent de relever ces défis !

Défis permanents et avancées contextuelles prometteuses

Compte tenu de ces difficultés persistantes dans le traitement du contexte, des questions telles que le biais, la sécurité et la robustesse restent pressantes alors que les LLM continuent de proliférer dans les applications du monde réel. Cependant, des avancées rapides et prometteuses sont en train d'émerger pour répondre à ces défis fondamentaux !

Par exemple, Anthropic a développé l'IA constitutionnelle pour créer essentiellement des "contrats sociaux" qui optimisent le comportement du modèle pour servir les valeurs énoncées. La méthodologie de formation constitutionnelle réduit considérablement la génération de contenu toxique et dangereux - même lorsqu'il est intentionnellement encouragé !

D'autres avancées, telles que la modélisation du discours, enseignent aux LLM l'autoréférence à l'historique des conversations précédentes. Le maintien d'un tel contexte ancré de manière cohérente réduit la dérive des sujets dans les longs échanges. L'intégration explicite des ressources de connaissances permet également de freiner les tangentes non fondées grâce à l'ancrage contextuel.

Les innovations dans l'architecture modulaire des modèles découplent les améliorations de la robustesse de la modélisation du langage de base, ce qui permet un raffinement plus facile. Enfin, des fonctions telles que la génération de texte contrôlable permettent un réglage granulaire d'une myriade de facteurs contextuels tels que l'humeur, le temps, la voix, etc. Les commandes personnalisables s'avéreront indispensables pour tempérer le comportement du modèle dans différentes applications.

Si l'on est encore loin d'une compétence universelle en matière de traitement du langage naturel à spectre complet, l'itération rapide des techniques d'amélioration du contexte promet une progression plus aisée. L'intégration d'architectures cognitives qui imitent la perception humaine offre peut-être des leçons éclairantes pour apporter aux LLM un langage, une logique et une raison plus proches de ceux de l'homme ! Ce qui nous amène à discuter de l'avenir de l'apprentissage contextuel inspiré par le cerveau dans notre prochain article de conclusion !

Les possibilités semblent aussi illimitées que les mondes imaginatifs que Claude peut construire lorsqu'il est correctement amorcé avec quelques gouttes de contexte... ce qui a conduit Claude à livrer un opéra entier écrit par l'IA juste parce que je me suis demandé à haute voix à quoi cela pourrait ressembler ! Mais c'est une autre histoire de curiosité et de créativité...

Glossaire

  • Contexte insuffisant : Lorsqu'un message-guide ne fournit pas de détails de cadrage, de connaissances de base ou d'exemples adéquats pour limiter la génération de réponses par le LLM. Cela se traduit souvent par un manque de pertinence ou de cohérence.
  • Sensibilité au temps : La capacité des LLM à prendre en compte avec précision le contexte temporel comme les dates, l'enchaînement des événements et le passage du temps. Un manque de sensibilité temporelle peut entraîner des réponses incohérentes par rapport aux détails de la période.
  • Préjugés stéréotypés : Lorsque les résultats du LLM perpétuent des représentations dépassées, préjudiciables ou injustement homogénéisées de personnes, d'événements ou de phénomènes reflétés dans certains aspects des données d'apprentissage.
  • Raisonnement de bon sens : Capacités inférentielles que les humains développent intuitivement à partir de leur expérience du monde pour résoudre des références ambiguës ou combler des lacunes en s'appuyant sur des connaissances générales implicites. Les LLM ont encore du mal à émuler le bon sens.
  • Désambiguïsation : La capacité d'exploiter le contexte pour déterminer le sens voulu parmi plusieurs possibilités pour les mots, phrases ou déclarations ambigus qui ont plusieurs interprétations.
  • IA constitutionnelle : technique d'Anthropic visant à aligner le comportement du modèle sur des objectifs sociaux déclarés, tels que l'évitement de résultats nuisibles, toxiques ou mensongers, en optimisant directement ces valeurs pendant la formation.
  • Modélisation du discours : Approches visant à améliorer la compréhension et l'utilisation par les LLM de l'historique du discours - tours de dialogue antérieurs, événements narratifs, détails de l'état du monde mentionnés plus haut - afin d'améliorer la connaissance du contexte.
  • Génération contrôlable : Méthodologies permettant le réglage granulaire d'attributs tels que le sentiment, le temps, la voix, etc. dans les résultats du LLM en exposant ces paramètres contextuels de manière explicite.