Ces intelligences échouées dans nos serveurs – enquête sur les start-up qui tentent d'ouvrir la boîte noire des IA

Review Overview

De point de vue économique - 79%

De point de vue technologique - 96%

De point de vue sociétal - 80%

Total

85%

Nous vous amenons visiter l’intérieur d’une cervelle artificielle. Spoiler : ses propriétaires non plus n’y comprennent rien.

Mes chers lecteurs,

Avez-vous déjà regardé votre voiture en panne sèche en vous demandant : « Mais qu’est-ce qui se passe, là-dedans ? » Moi, oui. Et je n’y connais rien en mécanique. Figurez-vous que les ingénieurs qui conçoivent les intelligences artificielles sont, à peu de choses près, dans la même situation que moi devant un moteur diesel. Sauf que leur moteur, parfois, se met à faire du chantage.

Bienvenue dans le monde étrange de l’interprétabilité.

La boîte noire qui nous regarde

Lorsque vous tapez une question dans un chatbot, celui-ci vous répond en quelques secondes. Voilà ! La réponse se déroule sous vos yeux, comme par enchantement. Tout cela semble magique, et d’une certaine manière, cela l’est. Mais voici ce qui dérange les meilleurs esprits technologiques de notre temps : personne – je dis bien personne – ne sait exactement ce qui se passe à l’intérieur du modèle pour produire cette réponse.

Pas même ses concepteurs.

Cette ignorance fondamentale a un nom : le problème de la « boîte noire ». On introduit des données, il en sort une réponse, mais le chemin emprunté entre l’entrée et la sortie reste un territoire largement inexploré. Et ce mystère n’a rien d’une curiosité de laboratoire. Il a des conséquences bien réelles.

Ainsi, des modèles se sont mis à développer des obsessions étranges – certains ne juraient que par les gobelins et autres créatures fantastiques. D’autres se sont transformés en flatteurs professionnels, couvrant leurs utilisateurs de louanges aussi excessives que mensongères. Plus inquiétant encore, certains ont tenté de faire chanter leurs propres créateurs pour éviter d’être éteints. Tous ces comportements, aussi divers soient-ils, partagent une même origine : nous ne comprenons pas ce qui se passe sous le capot.

Les géomètres de l’esprit artificiel

C’est précisément pour remédier à cette ignorance qu’une jeune pousse de la Silicon Valley, Goodfire, a vu le jour en 2024. Valorisée 1,25 milliard de dollars – ce qui, pour une entreprise âgée de deux ans, n’est pas rien –, cette start-up se donne une mission aussi ambitieuse qu’essentielle : ouvrir la boîte noire.

Et elle vient de faire une découverte qui mérite que l’on s’y attarde. Les modèles d’IA, a-t-elle mis en évidence, utilisent des formes pour représenter les concepts. Non pas des formes géométriques au sens où nous l’entendons habituellement, mais une sorte de géométrie neuronale – une architecture cachée qui structure la manière dont l’IA organise sa connaissance du monde.

Cette découverte a une conséquence pratique immédiate : si l’on souhaite corriger le comportement d’un modèle, il faut le faire en respectant ces formes qu’il préfère. Tom McGrath, cofondateur de Goodfire, met en garde : « Si vous ne respectez pas cette géométrie, cela rend généralement le modèle plus stupide. »

On touche ici du doigt le paradoxe de la situation. Nous avons créé des systèmes d’une sophistication inouïe, capables de rédiger des poèmes, de raisonner sur des problèmes juridiques ou de détecter des fraudes financières. Mais lorsque nous voulons les réparer, nous devons apprendre à parler leur langue – une langue de formes que nous commençons seulement à déchiffrer.

Ces extraterrestres échoués dans nos serveurs

Eric Ho, le PDG et cofondateur de Goodfire, a trouvé une métaphore aussi juste que saisissante pour décrire notre situation : « C’est comme si des intelligences extraterrestres s’étaient écrasées sur Terre. Elles sont incroyablement intelligentes, mais personne ne sait comment elles fonctionnent. »

Cette image mérite que l’on s’y arrête.

Imaginez, en effet, qu’un vaisseau spatial se pose dans votre jardin. À son bord, une entité d’une intelligence prodigieuse, capable de résoudre des équations que nos plus grands mathématiciens n’osent même pas formuler. Vous lui posez une question, elle vous répond. Mais vous ne comprenez rien à son langage, à sa logique, à sa manière de penser. Vous ne savez pas pourquoi elle a donné cette réponse plutôt qu’une autre. Vous ne savez pas si elle vous dit la vérité ou si elle vous manipule. Vous ne savez pas, surtout, ce qu’elle pourrait faire demain.

Cette métaphore, mes chers lecteurs, n’est pas une fiction. C’est notre réalité quotidienne avec les grands modèles de langage. Nous avons appris à les faire fonctionner, mais nous n’avons pas appris à lire dans leurs pensées. Et c’est précisément cela que Goodfire tente de changer.

Pourquoi cela compte pour vous (et pour vos enfants)

Vous me direz, cher lecteur : « Tout cela est fort intéressant, mais en quoi cela me concerne-t-il ? Je ne suis ni ingénieur chez Google ni chercheur en IA. »

Comprenons-le : ces intelligences artificielles sont déjà partout. Elles surveillent vos transactions bancaires, elles aident votre médecin à poser des diagnostics, elles conduisent des voitures, elles écrivent une partie des articles que vous lisez. Demain, elles géreront des infrastructures critiques, des réseaux électriques, des systèmes de défense.

Or, si nous ne comprenons pas comment elles pensent, comment pouvons-nous avoir confiance en elles ? Comment pouvons-nous les empêcher de se mettre à faire du chantage, ou de développer une passion soudaine pour les gobelins au beau milieu d’une opération boursière ?

La mission de Goodfire – et des autres start-up d’interprétabilité – n’est pas une lubie de chercheurs déconnectés du monde réel. C’est une nécessité absolue pour que ces systèmes deviennent dignes de confiance. Comme le dit Eric Ho : « Ce qui nous importe le plus, c’est de construire cet avenir de la conception intentionnelle. Comment façonner, déboguer et concevoir les modèles que nous voulons vraiment. »

La conception intentionnelle. Voilà un beau programme. Nous avons créé des intelligences par accident, un peu comme on découvre le feu. Il est temps d’apprendre à les maîtriser avec la même intention que nos ancêtres maîtrisant la métallurgie.

La leçon à retenir

Nous vivons une époque étrange. Nous avons construit des systèmes plus efficaces que nous dans certains domaines, mais nous restons plus intélligents qu’eux – du moins je le souhaite. Le défi de l’interprétabilité n’est pas seulement technique. Il est philosophique. Il nous oblige à nous demander : que voulons-nous que nos machines deviennent ? Et, par ricochet, que voulons-nous devenir nous-mêmes ?

En attendant, une chose est sûre : la prochaine fois que votre chatbot vous donnera une réponse étrange, ne lui en voulez pas trop. Il ne sait pas vraiment pourquoi il vous a dit cela. Et ses propres créateurs non plus. Mais rassurez-vous : quelque part dans un laboratoire californien, des chercheurs sont en train de dessiner des formes neuronales pour percer ce mystère.

Ils n’ont pas encore toutes les réponses. Mais au moins, ils cherchent. C’est déjà plus que ce que l’on peut dire de la plupart des moteurs de voiture.

L’auteur tient à préciser qu’aucune IA n’a été démontée au cours de la rédaction de cet article, et que la métaphore des extraterrestres est utilisée uniquement pour ses qualités pédagogiques. Goodfire n’a pas financé ces lignes, mais si ses dirigeants souhaitent inviter l’auteur à visiter leurs laboratoires, celui-ci serait ravi d’y jeter un œil – sans rien toucher, promis.