4 modèles de conception d'agents

Jacques L. Chereau

13 mai 2024

Les modèles de langage large (LLM) et les librairies d'orchestration pour leur mise en oeuvre (LangChain, LlamaIndex, HayStack) évoluent pour mieux accomplir des tâches de plus en plus complexes. Au rang de ces évolutions, les agents IA sont des programmes autonomes capables de prendre des décisions ou d'effectuer des actions de manière indépendante en fonction de leur environnement.

Andrew Ng, pionnier dans le domaine de l'intelligence artificielle (IA) et fondateur de Coursera et de DeepLearning.AI, a récemment introduit une nouvelle classification conceptuelle pour mieux comprendre le rôle des agents dans divers systèmes. Cette classification repose sur quatre modèles fondamentaux : la réflexion, l'utilisation d'outils, le planning, et la collaboration multi-agents. Ces modèles permettent de structurer la manière dont les agents IA prennent des décisions, planifient leurs actions, utilisent des outils et collaborent avec d'autres agents ou des humains.

1. Réflexion : Un processus itératif d'amélioration

Selon le modèle de réflexion, l’agent examine ses propres actions ou réponses avant de les ajuster. L'idée principale est que, lorsqu'un agent donne une réponse initiale, il prend ensuite un moment pour analyser ce résultat, détecter des erreurs ou des lacunes, et proposer une révision améliorée. Ce processus est crucial dans les tâches complexes où une seule itération ne suffit pas à atteindre le résultat optimal.

Le concept de réflexion fait appel à la métacognition : l'agent est capable de raisonner sur ses propres décisions et d’apprendre de ses erreurs. Par exemple, un agent chargé de rédiger un rapport pourrait d'abord produire une ébauche, réfléchir à la structure ou à la cohérence, puis revoir le texte pour mieux s'adapter aux exigences du projet. Ce processus de réflexion imite la manière dont les humains abordent souvent des problèmes complexes, en prenant du recul pour évaluer et ajuster leur approche.

2. Utilisation d'outils : Extension des capacités des agents

Avec l’utilisation d'outils, un modèle de langage peut faire appel à des ressources externes pour effectuer des tâches spécifiques qu’il ne peut accomplir seul. Ces outils peuvent être des logiciels, des bases de données, des services web ou même des dispositifs physiques.

Par exemple, un agent pourrait utiliser une calculatrice pour résoudre des calculs mathématiques. Un autre agent pourrait s’intégrer à un service de gestion d’agenda comme Outlook pour programmer des réunions ou envoyer des rappels. Dans des systèmes plus complexes, les agents IA peuvent utiliser des outils spécialisés pour l’analyse financière, le suivi des stocks et des commandes, et la gestion des relations commerciales.

L’un des avantages majeurs de l’utilisation d'outils est qu’elle permet aux modèles de langage de dépasser leurs propres limites. Par exemple, un agent qui accède à un moteur de recherche peut obtenir des informations mises à jour, qu'il n'aurait pas pu deviner ou connaître à partir de sa base d'entraînement préexistante. Les modèles LLM n'ont pas besoin de tout savoir; ils peuvent déléguer certaines tâches à des outils spécialisés. Cela ouvre de nombreuses possibilités, comme la manipulation de données propriétaires ou l'intégration dans des flux de travail professionnels.

3. Planning : Organisation des étapes pour atteindre un objectif

Le planning permet à l'agent de planifier ses actions à l'avance en fonction des objectifs à atteindre. Il s'agit d'un processus d'optimisation où l'agent doit choisir la meilleure séquence d'actions pour maximiser la qualité du résultat produit.

Prenons l'exemple d'un agent chargé d’organiser une conférence. L'agent pourrait d'abord diviser la tâche en étapes : rechercher le lieu, proposer les intervenants, lancer les invitations, et préparer brochure et présentations. Ce processus d’anticipation et de hiérarchisation des actions permet à l'agent de gérer efficacement des requêtes complexes.

Le planning peut inclure une certaine flexibilité. Si l'une des étapes rencontre un problème, l'agent peut réévaluer et ajuster son plan pour s’adapter aux nouvelles contraintes. Ce modèle devient particulièrement important dans des contextes comme la gestion de projet, où chaque étape doit s'enchaîner de manière fluide pour garantir la réussite de l'ensemble.

4. Collaboration multi-agents : Interaction avec d’autres agents et humains

La collaboration multi-agents est l’un des modèles les plus prometteurs et complexes. Ce modèle consiste à faire interagir plusieurs agents, chacun avec un rôle ou une spécialisation différente, pour accomplir chaque tâche de manière plus efficace. Cette collaboration peut s'apparenter à celle d’une équipe humaine, où différentes personnes se spécialisent dans des domaines précis pour contribuer à un projet commun.

Un exemple typique de collaboration multi-agents est la création d’un logiciel. Un premier agent pourrait être responsable des spécifications, un deuxième du codage, un troisième des tests, un quatrième de la documentation, etc. Cette répartition des tâches permet une gestion plus efficace des sous-tâches, tout en garantissant que chaque agent se concentre sur un domaine d’expertise particulier, pour lequel il a les outils requis.

L'élément crucial de la collaboration multi-agents réside dans la communication entre agents et dans la gestion de l'intervention humaine. Ils doivent être capables de partager des informations et de se coordonner pour accomplir des tâches interdépendantes. Par exemple, un agent d'orchestration pourrait coordonner les étapes entre un agent rédacteur de contenu marketing, un agent éditeur du site, et un agent optimiseur pour moteurs de recherche. Cette dynamique inter-agent enrichit les capacités des LLM en créant des synergies qui leur permettent de résoudre des problèmes complexes en les décomposant en une somme de problèmes simples.

Conclusion : Maximiser la performance des LLM grâce aux agents

Les modèles de langages savent généralement bien répondre à des requêtes simples. En combinant ces quatre modèles d’agents – réflexion, utilisation d'outils, planning et collaboration multi-agents – les modèles de langage peuvent non seulement devenir plus autonomes, mais aussi plus adaptatifs et performants dans des requêtes complexes :

la réflexion permet d'améliorer les résultats grâce à un processus d'itération,
l'utilisation d'outils étend les capacités en dehors des limites internes des modèles,
le planning organise les actions en une succession d'étapes simples, et
la collaboration multi-agents offre une approche collective et spécialisée en orchestrant les responsabilités.

Ces modèles ne sont pas seulement théoriques ; ils sont déjà en cours d’implémentation dans des projets, comme les frameworks AutoGen et CrewAI, qui permettent de tester ces concepts. L'avenir des LLM semble reposer sur cette capacité à combiner plusieurs modèles d'agents pour créer des flux de travail intelligents, autonomes, et capables de collaborer pour accomplir des tâches de plus en plus complexes dans un large éventail de domaines.