
ChatGPT célèbre ce mois-ci son deuxième anniversaire. Le robot conversationnel d’OpenAI, et ceux qui l’ont suivi, comme Gemini de Google et Claude d’Anthropic, se sont beaucoup améliorés depuis leur lancement.
Ils peuvent par exemple accepter des requêtes plus longues qu’auparavant. Le réalisme de leur synthèse vocale, pour ceux qui préfèrent interagir avec ces assistants oralement plutôt que par écrit, a aussi été amélioré, et plusieurs fonctionnalités ont été ajoutées avec le temps, comme la possibilité d’accéder à Internet pour s’appuyer sur de nouvelles informations, et non seulement sur celles à partir desquelles ils ont été entraînés.
Et ce n’est que le début, car leurs créateurs continuent de les faire évoluer. Voici les prochaines frontières que l’IA générative franchira.
Des IA capables de mieux raisonner
Les modèles d’IA s’améliorent de génération en génération. Le modèle GPT-4o, à la base de la version actuelle de ChatGPT, obtient de meilleurs résultats lorsqu’on lui fait passer un examen d’admission à l’université que GPT-4 et GPT-3.5 avant lui.
Les prochains grands modèles de langage ne seront pas seulement plus puissants que les anciens. Ils seront aussi dotés d’une meilleure capacité de « raisonnement ».
Certains sourcilleront évidemment à l’utilisation du mot, mais le raisonnement est le terme utilisé dans l’industrie pour faire référence à la capacité des IA « à traiter l’information de manière logique, à décomposer des problèmes complexes et à prendre des décisions basées sur le contexte et les schémas observés », peut-on lire sur le site de Cohere, une entreprise d’IA générative canadienne.
Autrement dit, c’est un peu comme lorsqu’un humain réfléchit à un problème avant de le résoudre plutôt que d’y répondre instinctivement.
« Les modèles actuels sont très performants pour récupérer des informations et répondre aux questions, mais je crois que la prochaine étape est de leur permettre de résoudre des problèmes d’une manière réfléchie », dit Mike Krieger, chef de produit principal chez l’entreprise d’IA générative Anthropic, qui commercialise le robot conversationnel Claude.
« Le raisonnement est une capacité qui doit être enseignée aux modèles d’IA », a récemment affirmé dans un balado le PDG de Cohere, Aidan Gomez.
Comment les modèles d’IA pourront-ils mieux raisonner ? « Ils devront par exemple poser des questions à l’utilisateur pour demander des informations qu’il lui manque », explique Mike Krieger, qui a aussi cofondé Instagram et Artifact, une entreprise d’IA rachetée par Yahoo ! plus tôt cette année.
Des agents plus puissants
L’« IA agentique » est probablement le terme le plus à la mode en IA générative à l’heure actuelle. Les « agents » d’IA sont des outils capables d’accomplir une tâche d’une manière autonome. Alors qu’un robot conversationnel d’IA peut vous indiquer les étapes à suivre pour annuler une réservation au restaurant, un agent d’IA pourra le faire à votre place.
« Je crois que la plupart de nos interactions avec l’IA générative seront un jour réalisées avec des agents d’IA, et non avec des robots conversationnels », prédit Vasi Philomin, vice-président responsable de l’IA générative chez AWS, le bras infonuagique d’Amazon.
Les agents qui peuvent être créés aujourd’hui sont simples et limités, mais les prochaines générations auront notamment accès à plus d’outils. À l’heure actuelle, un agent n’aurait aucun moyen d’annuler une réservation au restaurant, par exemple, mais on peut penser qu’il aura un jour accès aux services informatiques des applications de réservation utilisées par les établissements et qu’il pourra alors le faire.
L’amélioration des agents ira aussi de pair avec l’amélioration de leur raisonnement, croit Mike Krieger, rencontré récemment lors d’un événement pour les médias tenu à Seattle et organisé par AWS.
« Imaginons que l’IA analyse une requête et la décortique en 10 étapes. Pour l’instant, les modèles sont très bons pour trouver des solutions créatives s’ils bloquent au 10e point. Mais ils ne sont pas doués pour revenir en arrière et réaliser qu’ils auraient dû prendre une approche différente. C’est ce qu’on cherche à améliorer », explique-t-il.
Des IA dotées de meilleurs « sens »
Un autre point à améliorer est la façon dont les IA perçoivent ce qu’elles analysent, tout particulièrement lorsqu’il s’agit d’une voix, d’une image ou d’une vidéo.
Les IA génératives qui sont utilisées pour répondre à des questions au téléphone, par exemple, ne prennent pas en compte le ton de l’utilisateur au bout du fil. « Mais si la personne est frustrée, vous voudrez peut-être lui répondre d’une manière différente que si elle est calme ou joyeuse », note Mike Krieger.
Une récente mise à jour de Claude d’Anthropic permet à l’IA de commander la souris d’un ordinateur et d’écrire du texte, simplement à partir d’une requête. Un utilisateur peut par exemple lui dire d’ouvrir le navigateur Firefox, d’accéder à un site et de remplir un formulaire qui s’y trouve à l’aide des informations contenues dans un document qui lui a été soumis. Mais l’outil en est à ses balbutiements, « et pourrait en faire beaucoup plus » s’il était meilleur pour comprendre ce qu’il voit à l’écran, croit Mike Krieger.
Des hallucinations plus rares
Les hallucinations — le nom donné par l’industrie aux erreurs et aux faits inventés par les IA génératives — sont un peu plus rares d’une génération à l’autre, et ce, dans toute l’industrie. « Nous allons nous améliorer cette année, et encore l’année prochaine », résumait récemment Aidan Gomez, de Cohere.
Mike Krieger ne croit pas que les hallucinations disparaîtront un jour, mais lui aussi estime que les modèles s’améliorent. « Un des éléments sur lesquels on travaille est d’aider le modèle à comprendre d’où provient le texte qu’il génère, que ce soit d’un document joint à la requête de l’utilisateur, des données de l’entreprise auxquelles il a accès ou de son entraînement initial », précise-t-il.
En analysant un rapport, l’IA pourrait donc s’assurer de fournir des chiffres provenant spécialement de ce dernier, ce qui n’est pas toujours le cas actuellement.
Les chantiers embêtants
Évidemment, plusieurs autres facettes de l’IA générative mériteraient aussi d’être améliorées.
C’est notamment le cas de sa consommation d’énergie — l’Agence internationale de l’énergie prévoit que l’IA en consommera autant que le Japon d’ici 2026 —, un problème auquel AWS et l’ensemble de l’industrie comptent s’attaquer, entre autres en concevant des puces plus performantes pour une même consommation énergétique qu’à l’heure actuelle.
Avec la hausse attendue de l’utilisation de l’IA générative, il semble toutefois plus réaliste ici de parler d’une réduction de la croissance des émissions de GES que d’une réduction des émissions dans leur globalité.
Également à surveiller : l’émergence d’IA souveraines, que ce soit pour des raisons politiques, économiques ou culturelles (l’équivalent du Panier bleu, mais pour un modèle de langage), et une amélioration de la transparence, notamment par rapport aux données utilisées dans l’entraînement des modèles d’IA. Dans ces deux cas, tout indique que les transformations devront venir de l’extérieur de l’industrie, comme des gouvernements, et non de l’intérieur.