Le Wumpus World et les modèles de raisonnement

Introduction

Le monde du Wumpus, ce classique de l’intelligence artificielle, n’est pas seulement un jeu de logique et d’exploration : il est avant tout un terrain d’apprentissage pour comprendre comment un agent peut raisonner dans un environnement incertain. Dans ce blog, nous allons nous concentrer sur les différentes méthodes de raisonnement qu’un agent peut utiliser pour prendre des décisions optimales face à des situations complexes.

Si vous souhaitez revoir les bases et le contexte de ce jeu fascinant, je vous invite à consulter mon précédent blog IA : Le jeu du monde du Wumpus, où nous avons exploré les règles, les défis et l’importance de ce jeu dans l’étude de l’intelligence artificielle.

Ici, notre objectif sera d’aller plus loin : comprendre comment un agent analyse les informations, anticipe les dangers et choisit ses actions en combinant logique, probabilités et planification stratégique. Préparez-vous à plonger dans l’univers du raisonnement intelligent appliqué au Wumpus World.

Wumpus World et Cadre de spécification

Avant de pouvoir raisonner et agir intelligemment dans un environnement comme le Wumpus World, il est essentiel de définir le cadre de spécification de l’agent. Mais qu’est-ce qu’un cadre de spécification exactement ?

Imaginez que vous devez concevoir un robot pour explorer une maison inconnue. Avant de le lancer, vous devez répondre à des questions comme :

Que veut accomplir le robot ?
Comment va-t-il percevoir son environnement ?
Quels types d’actions peut-il effectuer ?
Comment mesurer le succès de ses actions ?

Le cadre de spécification est précisément cet ensemble de questions et de réponses. Il décrit clairement l’environnement, les objectifs et les moyens d’action d’un agent, ce qui permet de concevoir un raisonnement efficace et adapté. Sans cadre de spécification, l’agent agirait au hasard, comme un explorateur sans carte ni boussole.

Le modèle PEAS

Pour formaliser un cadre de spécification, les chercheurs en intelligence artificielle utilisent souvent le modèle PEAS. PEAS est un acronyme pour :

Performance measure (Mesure de performance) : Comment évaluer si l’agent atteint ses objectifs.
Environment (Environnement) : Tout ce qui entoure l’agent et sur lequel il peut agir.
Actuators (Actionneurs) : Ce que l’agent peut faire pour influencer l’environnement.
Sensors (Capteurs) : Comment l’agent perçoit son environnement.

On peut voir le modèle PEAS comme la checklist de préparation avant une mission : il définit clairement où l’agent se trouve, ce qu’il veut faire, ce qu’il peut faire et comment il sait ce qui se passe autour de lui.

PEAS appliqué au Wumpus World

Dans le Wumpus World, un agent explore un labyrinthe composé de cases, certaines sûres, d’autres dangereuses (le Wumpus, des fosses). Le modèle PEAS s’appliquera à ce monde comme suit :

Performance measure (Mesure de performance) : L’agent gagne des points pour chaque case sûre explorée et surtout pour trouver l’or. Il perd des points s’il tombe dans un puits ou se fait manger par le Wumpus. L’objectif final est de maximiser ses points tout en restant en vie. Les Points / pénalités :
- +1000 points pour avoir récupéré l’or.
- - 1000 points si l’agent meurt.
- - 1 point pour chaque déplacement (incitation à agir efficacement).
Environment (Environnement) : Un labyrinthe de cases avec des pièges, le Wumpus et l’or. L’agent ne voit qu’une case à la fois et doit déduire les dangers à partir d’indices subtils, comme le souffle (breeze) près des puits ou la puanteur (stench) près du Wumpus. L’environnement est la « scène » dans laquelle l’agent évolue. Ses propriétés sont :

Partiellement observable : L’agent ne voit que la case où il se trouve. Il perçoit des indices locaux : souffle près des puits, odeur près du Wumpus, brillance sur l’or, collision sur un mur. Il doit raisonner et inférer l’état des cases non observées.
Discret : L’environnement est constitué d’un grille de cases (ex. 4x4,10x10 etc. ). Chaque case peut contenir un puit ou fosse, le Wumpus, de l’or, ou être vide.
Statique : Les objets et dangers ne bougent pas pendant que l’agent réfléchit ou agit. Le Wumpus peut parfois être considéré comme immobile, mais certaines variantes le font bouger, ce qui rend l’environnement dynamique.
Séquentiel : Les actions de l’agent ont des conséquences qui persistent (ex. tirer une flèche tue le Wumpus dans une case spécifique). Chaque décision peut influencer les futures perceptions et actions.
Espace d’états connus : Les règles sont fixes : on sait combien de cases, puits et Wumpus existent. L’agent doit découvrir leur emplacement via les indices.
Espace d’états observable : Localement observable par l’agent grâce aux capteurs (vent, odeur, brillance, choc). Globalement, certaines cases restent inconnues jusqu’à exploration.
Unique : l'agent opère seul dans l'environnement.

Actuators (Actionneurs) : Les actionneurs définissent ce que l’agent peut faire pour influencer l’environnement :

Se déplacer : avancer dans une des quatre directions (haut, bas, gauche, droite).
Saisir un objet : récupérer l’or si présent dans la case.
Tirer une flèche : tuer le Wumpus si il est aligné.
Quitter le monde : sortir du labyrinthe après avoir trouvé l’or.

Chaque action peut avoir un coût en points ou un impact sur l’environnement (ex. tirer une flèche consomme une ressource limitée).

Sensors (Capteurs) : Les capteurs déterminent ce que l’agent perçoit dans son environnement :
- Perceptions locales :
  - Breeze (vent) : indique qu’un puits est adjacent.
  - Stench (odeur) : indique que le Wumpus est adjacent.
  - Glitter (brillance) : indique la présence de l’or dans la case.
  - Bump (collision) : indique qu’un mur bloque le mouvement.
  - Scream (cri) : indique que le Wumpus a été tué.
- Caractéristiques des capteurs :
  - Fiables mais limités : ils détectent seulement des indices dans les cases adjacentes.
  - Partiellement informatifs : aucune perception directe de toutes les menaces, l’agent doit raisonner pour déduire les dangers. Ces perceptions partielles obligent l’agent à raisonner et inférer les dangers invisibles.

Pourquoi ce cadre est adapté au Wumpus World ?

Le Wumpus World est un environnement partiellement observable et dangereux. Ici, chaque décision compte. Le modèle PEAS est particulièrement efficace pour ce genre de problème car il permet :

De structurer clairement les objectifs et contraintes.
De définir précisément ce que l’agent sait et ce qu’il doit découvrir.
D’optimiser les décisions en combinant information perçue et inférences logiques.

Ainsi, le cadre de spécification, formalisé via PEAS, transforme un jeu apparemment simple en un laboratoire idéal pour étudier le raisonnement intelligent. Il fournit les fondations nécessaires pour explorer les différentes méthodes de raisonnement présentées dans la suite de ce blog.

Modèles de raisonnement applicables au Wumpus World

Le Wumpus World est un excellent terrain d’expérimentation pour explorer comment une intelligence artificielle peut raisonner dans un environnement partiellement inconnu. Ici, le raisonnement n’est pas une simple suite de calculs : il s’agit de transformer les perceptions limitées en décisions logiques et cohérentes.

Dans cet univers, un agent doit détecter les menaces (puits, Wumpus), trouver le trésor et ressortir vivant. Pour y parvenir, il peut s’appuyer sur plusieurs modèles de raisonnement - chacun avec sa manière de percevoir, d’inférer et d’agir.

1. Le raisonnement logique (basé sur la connaissance)

C’est le modèle historique du Wumpus World. L’agent agit comme un détective rationnel : il observe son environnement, puis déduit de nouvelles informations à partir de faits connus.

Lorsqu’il perçoit une brise, il en déduit qu’il y a peut-être un puits dans une case voisine. Quand il sent une odeur nauséabonde, il conclut que le Wumpus est proche.

L’agent construit ainsi une base de connaissances (formules logiques) et applique des règles d’inférence pour déterminer où il peut aller sans danger.

Exemple : Si (Brise en [2,2]) => Il existe un puits dans une case adjacente. Si (Pas de brise en [2,1]) => Alors aucune case adjacente à [2,1] ne contient de puits.
Par combinaison, l’agent peut prouver que certaines cases sont sûres avant d’y entrer.

Ce modèle est puissant pour la cohérence et la sécurité, mais limité par son coût de calcul. Il devient vite lourd si le monde s’agrandit ou si l’incertitude augmente.

2. Le raisonnement probabiliste (basé sur l’incertitude)

Quand la logique pure devient insuffisante, le raisonnement probabiliste prend le relais. Ici, l’agent ne cherche pas une vérité absolue, mais une probabilité de sécurité.

Par exemple :
« Il y a 80 % de chances qu’il y ait un puits à droite »
« 20 % de chances que le Wumpus soit dans la case [3,2] »

Ces estimations permettent à l’agent de prendre des décisions avec un risque mesuré, plutôt que d’attendre d’avoir une certitude logique. C’est ainsi qu’il peut continuer d’explorer même avec une information incomplète.

Ce modèle s’appuie souvent sur des outils comme :

Les réseaux bayésiens, qui modélisent les dépendances entre perceptions et causes.
Les chaînes de Markov, pour estimer les transitions d’états.

Ce modèle apporte la souplesse et la résilience face à l’incertitude, mais demande un bon calibrage des probabilités et des observations fiables.

3. Le raisonnement par apprentissage (apprentissage par renforcement)

Dans ce cas, l’agent ne connaît rien au départ : il apprend en expérimentant. À chaque action, il reçoit une récompense ou une pénalité :

+1000 s’il trouve l’or,
–1000 s’il tombe dans un puits,
–1 à chaque mouvement inutile.

Progressivement, il construit une politique optimale, c’est-à-dire une stratégie d’action qui maximise la récompense cumulée.

Cette méthode, appelée apprentissage par renforcement (Reinforcement Learning), se fonde sur l’expérience directe. Elle est particulièrement efficace pour les environnements dynamiques et incertains, car l’agent n’a pas besoin d’un modèle complet du monde - il apprend à agir selon ce qu’il découvre.

Exemple concret : Après plusieurs parties, l’agent apprend qu’une “brise sans odeur” est souvent un signe de puits proche, et qu’il vaut mieux reculer. Cette stratégie devient alors réflexe.

Ce modèle est auto-adaptatif, mais il nécessite beaucoup d’expérimentation avant d’atteindre un comportement optimal.

4. Le raisonnement réflexe (réaction rapide)

Le modèle réflexe repose sur une approche simple : stimulus => action immédiate. L’agent n’analyse pas le passé ni ne planifie l’avenir. Il réagit directement selon des règles conditionnelles :

« Si j’entends un cri, alors le Wumpus est mort. » « Si je perçois une brise, je ne bouge pas. »

Ce type d’agent est rapide et efficace dans les environnements simples ou bien balisés, mais très limité lorsque le monde devient incertain ou changeant.

Le raisonnement réflexe reste utile en complément d’autres modèles, pour les décisions instantanées où la réflexion serait trop lente.

5. Le raisonnement par recherche : la planification d’actions

Dans certains cas, l’agent ne déduit pas directement la bonne action, mais cherche une séquence d’actions menant à l’objectif (trouver l’or et sortir vivant). Ce mode s’appuie sur les algorithmes de recherche et de planification.

L’environnement est ici représenté comme un graphe d’états, où chaque nœud est une position possible et chaque arête une action. L’agent doit explorer ce graphe pour atteindre son but tout en minimisant les coûts.

Quelques méthodes utilisées :
Recherche en profondeur (DFS) : explore chaque piste jusqu’à un blocage.
Recherche en largeur (BFS) : explore d’abord les options les plus proches.
A* : cherche le chemin optimal en combinant coût et heuristique.
Planification STRIPS : décompose le but en sous-objectifs logiques.

Ce modèle est dit délibératif, car il planifie avant d’agir. Il permet à l’agent de raisonner à moyen terme, mais reste coûteux en mémoire et en calcul. C’est la passerelle entre la logique pure et l’intelligence pratique.

6. Le raisonnement hybride (approche combinée)

Aucun modèle n’est parfait seul. C’est pourquoi la plupart des agents modernes du Wumpus World adoptent une approche hybride, combinant :

La logique pour déduire les certitudes,
La probabilité pour estimer les zones douteuses,
L’apprentissage pour ajuster les comportements au fil du temps.

Ce raisonnement global permet à l’agent d’être intelligent, prudent et adaptatif à la fois.

Exemple complet : L’agent détecte une odeur => applique la logique pour déduire les cases à risque => utilise la probabilité pour choisir la case la plus sûre => puis met à jour sa politique selon le résultat de l’action.

C’est cette approche qui inspire aujourd’hui les systèmes d’IA embarquée, les robots autonomes et les agents intelligents modernes.

Choix de la méthode : l’influence du cadre PEAS

Avant de choisir comment un agent doit raisonner dans le Wumpus World, il faut se référer au cadre PEAS, qui décrit l’agent à travers quatre axes fondamentaux : Performance, Environnement, Actuateurs, Senseurs

Ce cadre guide la sélection du modèle de raisonnement le plus adapté.

1. Performance

Le critère de performance dépend de ce que l’on veut maximiser ou minimiser. Dans le Wumpus World, un agent cherche à :

Maximiser les points de récompense (trouver l’or, sortir vivant).
Minimiser les pertes (éviter le puits et le Wumpus).
Réduire le nombre de mouvements ou de tirs inutiles.

Ainsi, un agent basé sur la logique déductive (inférence) sera très performant pour minimiser les risques : il déduit les zones sûres avant d’agir. Mais il sera lent face à un grand environnement, car chaque déduction coûte du temps de calcul. Inversement, un agent probabiliste agit plus vite en prenant des risques calculés : il ne cherche pas la certitude, mais la meilleure probabilité.

2. Environnement

Le monde du Wumpus est :

Partiellement observable : on ne voit que les cases voisines.
Stochastique : certaines actions, comme tirer une flèche, peuvent échouer.
Non déterministe et séquentiel : chaque action influence la suivante.

Ce cadre favorise donc les modèles mixtes, capables de gérer l’incertitude : => Les agents à base de connaissances raisonnent sur les observations (breeze, stench). => Les agents probabilistes complètent l’analyse quand l’information est incomplète. => Les agents d’apprentissage par renforcement adaptent leur stratégie selon les résultats passés.

3. Actuateurs

Les actuateurs (avancer, tourner, tirer, saisir, sortir) imposent une limitation mécanique. Un agent trop calculateur (comme un modèle logique pur) peut “savoir” qu’il faut aller à droite, mais perdre du temps à planifier un chemin optimal. Un modèle réflexe enrichi (avec apprentissage ou heuristique) permet de réagir vite tout en intégrant les leçons du passé.

4. Senseurs

Les senseurs (odeur, brise, éclat d’or, cri, choc) définissent le type d’informations que l’agent peut exploiter. Un agent réflexe simple n’utilisera que le signal actuel. Un agent délibératif (logique ou bayésien) combinera plusieurs observations dans le temps pour déduire des lois plus globales.

En résumé :

Le cadre PEAS permet de comprendre que le “meilleur” modèle de raisonnement dépend du type d’information disponible et du degré de risque toléré. Un agent du Wumpus World doit donc associer plusieurs modes de raisonnement selon le contexte :

Logique déductive pour la sécurité,
Probabiliste pour la prise de décision rapide,
Apprentissage par renforcement pour l’adaptation continue.

Vers la méthode « ultime » : le raisonnement hybride optimal

Après analyse, aucun modèle unique ne permet à lui seul d’affronter efficacement la complexité du Wumpus World. L’environnement est incertain, partiellement observable et hautement risqué : un agent purement réflexe réagit trop vite sans comprendre, un agent purement logique raisonne trop lentement, et un agent probabiliste seul manque de stratégie globale.

La solution réside donc dans une approche hybride, capable de combiner les forces de chaque modèle de raisonnement : logique, planification, probabilité et apprentissage.

Principe général

L’agent doit :

Observer l’environnement (odeur, brise, scintillement, cri, choc).
Mettre à jour sa base de connaissances à partir des observations (logique du premier ordre).
Inférer les zones sûres ou dangereuses (raisonnement déductif).
Évaluer les probabilités d’incertitude pour les zones encore inconnues (raisonnement probabiliste).
Planifier une séquence d’actions menant à un objectif clair (planification par recherche d’état).
Choisir une action selon une politique de récompense (apprentissage par renforcement).
Agir, observer le résultat, et ajuster ses décisions futures.

Ces étapes font de l’agent un système cognitif complet, capable de penser à court terme (réflexe), de raisonner logiquement (déduction), d’anticiper les conséquences (planification) et d’apprendre de l’expérience (apprentissage adaptatif).

Pseudocode général

Interprétation détaillée

Étapes 2 et 3 : raisonnement logique -> L’agent déduit les faits et contraintes à partir des percepts. Exemple : s’il y a une brise dans deux cases adjacentes, il en déduit qu’un précipice se trouve à leur intersection probable.
Étape 4 : raisonnement probabiliste -> Quand les données sont incomplètes, l’agent estime la probabilité du danger. Exemple : « Il y a 30 % de chances que le Wumpus soit dans cette case ».
Étape 5 : planification -> L’agent élabore une séquence d’actions cohérente (explorer, tirer, récupérer l’or, sortir). Cette planification repose souvent sur des algorithmes comme A*, DFS/BFS, ou des stratégies de recherche à coût minimal.
Étapes 6 et 7 : apprentissage par renforcement -> L’agent ajuste sa politique de décision en fonction des retours. Plus il explore, plus il améliore son modèle de l’environnement, augmentant ses chances de survie et de réussite.

Pourquoi cette méthode est dite « optimale »

Parce qu’elle :

Combine plusieurs formes d’intelligence (logique, statistique, stratégique et adaptative).
Maximise la performance à long terme, en équilibrant prudence et exploration.
Réutilise l’expérience passée, grâce à l’apprentissage incrémental.
Anticipe les conséquences, grâce à la planification dynamique.

L’agent devient ainsi autonome, prudent et rationnel, capable non seulement de survivre, mais aussi de s’adapter et d’apprendre à travers le temps.

Conclusion

Le Wumpus World n’est pas seulement un jeu logique - c’est un laboratoire d’intelligence artificielle. Il met en tension trois piliers du raisonnement :

La logique pour la cohérence,
La probabilité pour la gestion du doute,
L’apprentissage pour la performance adaptative.

En combinant ces approches dans un cadre PEAS bien défini, on obtient un agent capable non seulement de réfléchir avant d’agir, mais aussi d’apprendre à mieux réfléchir. Le Wumpus World reste ainsi l’un des environnements les plus pédagogiques pour comprendre comment une IA peut raisonner dans un monde incertain.

Références et ressources utiles

Russell, S. & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th Edition). Pearson. - Chapitre 7 : Agents basés sur la logique et le raisonnement dans Wumpus World.
Nils J. Nilsson, Principles of Artificial Intelligence, Morgan Kaufmann.
U. Kulkarni, “Solving the Wumpus World using Knowledge-based Agent and Propositional Logic,” IJCSIT, Vol. 5, 2014.
N. Roohi et al., “Probabilistic Reasoning in the Wumpus World,” arXiv preprint, 2019.
D. Silver et al., “Reinforcement Learning for Logical Agents,” DeepMind Research Papers, 2020.
Online simulation: AIspace Wumpus World – simulateur interactif d’agents rationnels.
GitHub: Wumpus-World-Agents – implémentations open-source d’agents logiques, probabilistes et RL.

Wumpus World et Raisonnement