ChatGPT o1 : Le Cool, le Hype et ce qui se passe ensuite

Jeudi dernier, OpenAI a annoncé le lancement de son modèle « Strawberry », désormais appelé o1. Il est en ligne depuis un peu plus d’une semaine et la poussière commence à retomber. Analysons ce qui rend ce lancement intéressant, ce que ce nouveau modèle fait réellement et ce à quoi l’avenir pourrait ressembler avec l’IA qui « pense ».

1. o1, c’est quoi ?

o1 est la nouvelle famille de modèles d’OpenAI, qui représente une avancée significative dans les capacités de l’IA: elle peut raisonner. Le modèle a deux variantes : o1-mini et o1-preview. Voici ce qui distingue ces modèles de leurs prédécesseurs :

Résolution de problèmes complexes : Le raisonnement avancé signifie qu’ils peuvent s’attaquer à des tâches plus complexes qui ont laissé indifférentes les générations précédentes de modèles. Par exemple, GPT-4o échoue de façon spectaculaire lorsqu’on lui demande de créer une phrase grammaticalement correcte qui n’utilise pas deux fois le même mot. o1-preview réfléchit pendant 34 secondes, propose des solutions potentielles, les affine, puis génère une phrase qui passe haut la main.
Points forts sur des spécialités: o1 excelle dans le codage, les mathématiques et le raisonnement scientifique, surpassant GPT-4o, Claude, Gemini et d’autres modèles d’avant-garde dans ces domaines.
Compromis : Bien que puissants, les modèles o1 ne sont pas les meilleurs dans tous les domaines. Par exemple, ils sont légèrement moins performants que le modèle GPT-4o pour certaines tâches de rédaction.
Accessibilité : Gratuit pour les utilisateurs payants, mais avec des limites de capacité importantes pour gérer la demande.

Limites actuelles :

L’o1 d’OpenAI présente également quelques limitations importantes dont il faut être conscient.

Aucune capacité de navigation sur le web
Impossibilité de télécharger ou de traiter des fichiers ou des images
Absence de fonctionnalité d’interprétation de code (analyse avancée des données)
Impossibilité de générer des images à l’aide de DALL-E

Ces limitations peuvent être temporaires, car OpenAI introduit souvent de nouvelles fonctionnalités au fil de l’eau.

Dans l’ensemble, la sortie de o1 représente une rupture par rapport aux versions précédentes d’OpenAI destinées aux consommateurs (non-API) – par le passé, le modèle le plus récent était le modèle le plus performant pour presque toutes les tâches. Aujourd’hui, o1 est le meilleur modèle pour certaines tâches, mais GPT-4o reste le meilleur modèle pour d’autres, ce qui oblige les utilisateurs à faire un choix selon la tâche à effectuer.

2. Ce qui est révolutionnaire et ce qui n’est que de la poudre aux yeux

Comme chaque version d’OpenAI, celle d’o1 présente de véritables avancées et un certain battage marketing :

Ce sont de véritables avancées :

Le modèle est entraîné à passer plus de temps à raisonner, ce qui imite la « pensée » humaine et ouvre de nouvelles frontières pour la résolution de problèmes.
Le modèle est également capable d’affiner son raisonnement, d’essayer différentes stratégies, de reconnaître ses erreurs et de les corriger.

Ce n’est que de la poudre aux yeux (pour l’instant) :

Lorsqu’ils discutent avec les modèles o1, les utilisateurs peuvent voir la section « thinking/réflexion » avant la réponse. Cependant, cette section n’est pas toujours une représentation fidèle de ce que le modèle pense réellement. Il s’agit d’une astuce plutôt futée pour vous aider à comprendre ce qui se passe pendant que vous attendez.
Le modèle o1-preview n’est qu’un aperçu et nous ne voyons donc pas tout le potentiel du modèle. OpenAI semble adopter une approche progressive pour la diffusion des modèles afin de comprendre les impacts potentiels sur la sécurité, de recueillir des données et de gérer les attentes des utilisateurs.

3. Ce qu’OpenAI veut dire quand ils parlent de « raisonnement avancé » ou de « pensée »

L’expression « raisonnement avancé » est plus une dénomination marketing qu’une description littérale des processus du modèle. En substance, o1 est conçu pour passer plus de temps à traiter les informations avant de répondre. Cela signifie qu’il peut traiter des données utilisateur plus complexes et imiter les approches humaines en matière de résolution de problèmes.

Lorsque vous voyez « thinking/penser » à l’écran, il s’agit en fait d’utiliser une chaîne de réflexion pour tenter de résoudre votre problème, de la même manière qu’un être humain peut réfléchir pendant un certain temps avant de répondre à une question. OpenAI a affiné les stratégies de résolution de problèmes de o1 au cours de sa formation afin qu’il puisse reconnaître ses erreurs et les corriger, décomposer les tâches en tâches plus petites et plus faciles à gérer, et essayer une approche différente si l’approche courante ne fonctionne pas.

L’impact le plus important pour l’utilisateur est qu’il peut attendre de quelques secondes à une minute entière que le modèle réponde à sa question ou accomplisse sa tâche – et qu’il obtienne alors un résultat plus ciblé et plus précis. L’impact est le plus important dans quelques domaines de niche :

Analyse académique : Contrairement à GPT-4o, o1 est au niveau pour des étudiants en doctorat dans les domaines de la physique, de la chimie et de la biologie. Cela représente une avancée significative dans la capacité du modèle à comprendre et à appliquer des concepts scientifiques complexes.
Enseignement supérieur : o1 pourrait servir de tuteur plus avancé, capable d’adapter son style d’enseignement aux besoins individuels des étudiants et d’aborder des sujets complexes avec facilité.
Expertise en mathématiques et en codage : Le modèle montre des capacités exceptionnelles à résoudre des problèmes mathématiques complexes et des tâches de codage compliquées. Bien qu’il ne puisse actuellement pas exécuter le code qu’il génère, celui-ci est exceptionnel et complet, ce qui en fait un outil idéal pour les analystes de données et les développeurs.
Analyse juridique: La capacité du modèle à prendre en compte de multiples facteurs et précédents pourrait s’avérer précieuse pour la recherche juridique et l’analyse de cas.
Analyse financière: Les prouesses mathématiques d’o1 pourraient révolutionner notre approche des prévisions financières et de l’évaluation des risques.
Impact sur la pratique médicale: Sans remplacer les médecins humains, o1 pourrait aider à analyser des cas médicaux complexes et suggérer des diagnostics potentiels ou des options de traitement.

Ces capacités de haut niveau n’auront probablement pas d’impact significatif sur les tâches quotidiennes de la plupart des utilisateurs de ChatGPT qui ne s’engagent pas régulièrement dans des recherches de niveau doctoral ou dans des projets de codage complexes. Pour les tâches de routine telles que l’aide à la rédaction, les requêtes de connaissances générales ou le brainstorming créatif, la plupart des utilisateurs trouveront probablement GPT-o1 moins utile que 4o.

Cependant, il existe un cas d’utilisation plus courant pour lequel o1 peut constituer une avancée significative par rapport à GPT-4o : l’IA en tant que partenaire de réflexion.

Nous l’avons testé GPT-4o et o1-preview avec le prompt suivant: « je veux comprendre en quoi l’IA générative peut reconfigurer les ventes en BtoB industriel ». Nous avions une base de comparaison à partir d’un article publié récemment sur le sujet par McKinsey.

La réponse de GPT-4o n’est pas nécessairement erronée, mais il s’agit généralement d’informations de base sans beaucoup de nuances ou d’informations plus approfondies. Cela peut être utile si vous voulez vérifier quelques hypothèses rapides, mais la réponse n’est pas très approfondie.

Le modèle o1-preview a réfléchi pendant 11 secondes, offrant un aperçu du processus de réflexion pendant qu’il s’attaquait à la tâche. Sa réponse était très longue mais elle était incroyablement complète.

En particulier, o1-preview a fourni quelques détails non sollicités, tels que la distinction entre des scénarios B2B et B2C. Ce niveau de détail, qui a échappé à GPT-4o, est apparu naturellement.

Cette profondeur d’analyse démontre la capacité d’o1-preview à décomposer les problèmes, à anticiper et à traiter les aspects nuancés d’une tâche sans directives explicites.

Le résultat est au moins à la hauteur de notre texte de référence rédigé par McKinsey.

4. Comment utiliser ce nouveau modèle

La sortie de o1 a une autre implication majeure : elle représente un changement fondamental dans la façon dont nous interagissons avec les LLMs.

Avec les capacités de raisonnement intégrées à o1, OpenAI a éliminé le besoin de techniques de prompts explicites traditionnellement utilisées avec les modèles antérieurs. Vous n’avez plus besoin de demander au modèle de réfléchir étape par étape, de fournir un raisonnement ou de faire une pause avant de répondre, car OpenAI a intégré ces prompts-guides dans l’entrainement de o1.

Voici comment utiliser o1 de manière efficace :

Restez simple et direct: o1 n’a pas besoin du même niveau de guidage que les modèles précédents. Au lieu d’instructions détaillées, étape par étape, essayez des prompts plus ouverts qui permettent à o1 d’exploiter ses capacités de raisonnement et de décider de la manière dont il abordera un problème par lui-même.
Évitez les phrases de prompts inutiles: Des phrases comme « réfléchissez étape par étape » ou « expliquez votre raisonnement » sont désormais redondantes. o1 le fera automatiquement.
Concentrez-vous sur la question ou la tâche principale: Réduisez au minimum le contexte ou les informations générales. o1 est capable de déduire le contexte nécessaire, alors concentrez-vous sur l’énoncé clair de votre question ou de votre objectif principal.
Acceptez la complexité: N’hésitez pas à poser des questions complexes et à multiples facettes. o1 s’épanouit dans les défis qui nécessitent une analyse approfondie et une réflexion interconnectée.
Soyez patient: o1 peut prendre plus de temps pour répondre. Ce n’est pas un défaut – c’est une caractéristique qui permet des réponses plus approfondies et plus réfléchies.

5. Le bilan

Le passage de GPT-4o à o1 n’est pas une simple mise à niveau où tout s’améliore. C’est un peu comme si l’on passait d’un couteau suisse à un ensemble d’outils spécialisés.

Ce passage marque un tournant important dans l’évolution des LLMs. Nous pouvons nous attendre à voir des modèles plus spécialisés qui améliorent rapidement leurs capacités de raisonnement. Voici trois implications macroéconomiques.

La fin du modèle « unique » ?

Contrairement à la progression claire de GPT-3.5 à GPT-4 puis à GPT-4o, où chaque nouveau modèle surpassait systématiquement son prédécesseur dans toutes les tâches, o1 s’écarte de cette tendance. Une tâche qui a bien fonctionné avec GPT-4o peut ne pas donner le meilleur résultat avec o1.

Cela signifie-t-il la fin des modèles « à usage universel» ? C’est peu probable, mais cela introduit un nouveau défi: déterminer quel modèle est le mieux adapté à une tâche spécifique. Je pense qu’OpenAI finira par automatiser ce processus de prise de décision en acheminant les demandes vers le modèle le plus approprié. Mais, au moins pour l’instant, nous devrons réfléchir avant d’utiliser un modèle plutôt qu’un autre.

Maintenir l’humain dans la boucle

À mesure que o1 et d’autres modèles adoptent un raisonnement plus complexe et passent plus de temps à « réfléchir » avant de répondre, le rôle de l’humain en tant que superviseur devient plus critique que jamais. Étant donné que le raisonnement actuel montré aux utilisateurs ne reflète pas réellement le véritable processus du modèle, il est crucial que les utilisateurs évaluent les résultats de manière critique.

Une attention accrue à la latence

À l’avenir, les LLMs réfléchiront probablement à des problèmes pendant bien plus longtemps que quelques secondes ou minutes. Nous pourrions même en arriver à ce que les modèles « réfléchissent » pendant des heures, des jours, des semaines, voire des années. Ce « temps de réflexion » prolongé introduit une nouvelle variable dans notre interaction avec l’IA:

La sélection des tâches : Nous devrons commencer à faire preuve de plus de discernement dans le choix des tâches que nous confions à tel ou tel modèle. Des instructions mal définies ou des tâches inadaptées pourraient entraîner une perte de temps, le temps de réflexion passant de quelques minutes à plusieurs heures.
Adaptation du flux de travail : Contrairement aux allers-retours rapides possibles avec les modèles antérieurs, travailler avec des modèles de raisonnement plus avancés peut nous obliger à adapter nos flux de travail pour tenir compte du temps de réflexion plus long.

‍En conclusion: Contrairement aux avancées précédentes dans les capacités des modèles, n’utilisez pas tout de suite o1 pour toutes vos tâches LLMs. Historiquement, une fois que le battage médiatique autour d’un nouveau modèle s’est apaisé, les utilisateurs arrivent facilement à identifier des applications pratiques. Avec la sortie d’o1, nous sommes en territoire inconnu.