# Recherche dans un labyrinthe

Considérez une grille représentant un labyrinthe où chaque cellule peut être libre (0) ou contenir un obstacle (1). Par exemple :

```Python
maze = [
    [0,0,1,0],
    [0,1,0,0],
    [0,0,0,1],
    [0,0,0,0]
]
```

Représenter cette grille et implémenter une recherche en largeur (BFS) permettant de trouver le chemin le plus court entre un point de départ (0,0) et un point d’arrivée (3,3).

In [1]:
maze = [
    [0,0,1,0],
    [0,1,0,0],
    [0,0,0,1],
    [0,0,0,0]
]
# 0 = libre, 1 = obstacle

def neighbors(r, c, maze):
    moves = []
    for dr, dc in [(0,1),(1,0),(0,-1),(-1,0)]:
        nr, nc = r+dr, c+dc
        if 0 <= nr < len(maze) and 0 <= nc < len(maze[0]) and maze[nr][nc] == 0:
            moves.append((nr, nc))
    return moves

# BFS simple sur cette grille
from collections import deque

def bfs_path(maze, start, goal):
    queue = deque([start])
    visited = set([start])
    parent = {start: None}

    while queue:
        current = queue.popleft()
        if current == goal:
            # Reconstitution du chemin
            path = []
            while current is not None:
                path.append(current)
                current = parent[current]
            return path[::-1]
        for n in neighbors(current[0], current[1], maze):
            if n not in visited:
                visited.add(n)
                parent[n] = current
                queue.append(n)
    return None

path = bfs_path(maze, (0,0), (3,3))
print(path)

[(0, 0), (1, 0), (2, 0), (2, 1), (2, 2), (3, 2), (3, 3)]


Bonus - Afficher clairement chaque itération du processus de recherche (la cellule explorée actuellement, l’état de la file d’attente, les cellules déjà visitées, et l’état courant du labyrinthe).

Légende des symboles affichés :
-	C : Cellule actuellement explorée
-	? : Cellule ajoutée à la file d’attente mais pas encore explorée
-	. : Cellule déjà explorée
-	■ : Obstacle
-	\* : Chemin final trouvé (uniquement affiché à la fin)

Cette visualisation interactive permet de mieux comprendre le fonctionnement détaillé de l’algorithme BFS à chaque étape.

In [2]:
maze = [
    [0,0,1,0],
    [0,1,0,0],
    [0,0,0,1],
    [0,0,0,0]
]

from collections import deque
from time import sleep

def neighbors(r, c, maze):
    moves = []
    for dr, dc in [(0,1),(1,0),(0,-1),(-1,0)]:
        nr, nc = r+dr, c+dc
        if 0 <= nr < len(maze) and 0 <= nc < len(maze[0]) and maze[nr][nc] == 0:
            moves.append((nr, nc))
    return moves

def display_maze(maze, visited, current, queue, path=[]):
    display = ""
    for r in range(len(maze)):
        for c in range(len(maze[0])):
            cell = (r, c)
            if cell == current:
                display += " C "  # Cellule courante explorée
            elif cell in path:
                display += " * "  # Cellule faisant partie du chemin final
            elif maze[r][c] == 1:
                display += " ■ "  # Obstacle
            elif cell in queue:
                display += " ? "  # Cellule dans la file d'attente
            elif cell in visited:
                display += " . "  # Cellule déjà visitée
            else:
                display += "   "  # Cellule non visitée
        display += "\n"
    print(display)

def bfs_path_visual(maze, start, goal):
    queue = deque([start])
    visited = set([start])
    parent = {start: None}

    iteration = 0
    while queue:
        iteration += 1
        current = queue.popleft()
        print(f"--- Itération {iteration} ---")
        print(f"Cellule explorée : {current}")
        display_maze(maze, visited, current, queue)
        sleep(0.5)  # pause courte pour visualiser les étapes

        if current == goal:
            path = []
            while current:
                path.append(current)
                current = parent[current]
            path.reverse()
            print("Chemin final trouvé :")
            display_maze(maze, visited, current=None, queue=[], path=path)
            return path

        for n in neighbors(current[0], current[1], maze):
            if n not in visited:
                visited.add(n)
                parent[n] = current
                queue.append(n)

    print("Aucun chemin trouvé.")
    return None

# Exemple d'exécution :
path = bfs_path_visual(maze, (0,0), (3,3))
print("Chemin obtenu :", path)

--- Itération 1 ---
Cellule explorée : (0, 0)
 C     ■    
    ■       
          ■ 
            

--- Itération 2 ---
Cellule explorée : (0, 1)
 .  C  ■    
 ?  ■       
          ■ 
            

--- Itération 3 ---
Cellule explorée : (1, 0)
 .  .  ■    
 C  ■       
          ■ 
            

--- Itération 4 ---
Cellule explorée : (2, 0)
 .  .  ■    
 .  ■       
 C        ■ 
            

--- Itération 5 ---
Cellule explorée : (2, 1)
 .  .  ■    
 .  ■       
 .  C     ■ 
 ?          

--- Itération 6 ---
Cellule explorée : (3, 0)
 .  .  ■    
 .  ■       
 .  .  ?  ■ 
 C  ?       

--- Itération 7 ---
Cellule explorée : (2, 2)
 .  .  ■    
 .  ■       
 .  .  C  ■ 
 .  ?       

--- Itération 8 ---
Cellule explorée : (3, 1)
 .  .  ■    
 .  ■  ?    
 .  .  .  ■ 
 .  C  ?    

--- Itération 9 ---
Cellule explorée : (3, 2)
 .  .  ■    
 .  ■  ?    
 .  .  .  ■ 
 .  .  C    

--- Itération 10 ---
Cellule explorée : (1, 2)
 .  .  ■    
 .  ■  C    
 .  .  .  ■ 
 .  .  .  ? 

--- Itéra

## Algorithme de décision markovien (MDP)

En appliquant l’algorithme d’itération des valeurs (Value Iteration) propre aux MDP :
1.	Calculer la politique optimale indiquant le meilleur mouvement à effectuer à partir de chaque cellule pour atteindre le but (3,3).
2.	Visualiser clairement les valeurs estimées à chaque itération, jusqu’à convergence.

In [3]:
import numpy as np
import copy
from time import sleep

maze = [
    [0,0,1,0],
    [0,1,0,0],
    [0,0,0,1],
    [0,0,0,0]
]

actions = [(0,1), (1,0), (0,-1), (-1,0)]  # droite, bas, gauche, haut

goal = (3,3)
gamma = 1.0       # Pas d'actualisation ici (problème court terme)
reward = -1       # Récompense par mouvement (on minimise le nombre d'étapes)

def in_maze(r, c, maze):
    return 0 <= r < len(maze) and 0 <= c < len(maze[0]) and maze[r][c] == 0

def display_values(values):
    for row in values:
        print(" | ".join(f"{v:5.1f}" if v != None else "  ■  " for v in row))
    print("\n")

def value_iteration(maze, goal, gamma, reward, theta=0.01):
    rows, cols = len(maze), len(maze[0])
    values = [[0 if maze[r][c] == 0 else None for c in range(cols)] for r in range(rows)]
    iteration = 0

    while True:
        delta = 0
        iteration += 1
        new_values = copy.deepcopy(values)
        print(f"--- Itération des valeurs #{iteration} ---")

        for r in range(rows):
            for c in range(cols):
                if (r, c) == goal or maze[r][c] == 1:
                    continue

                v_old = values[r][c]
                v_new = float('-inf')

                for dr, dc in actions:
                    nr, nc = r + dr, c + dc
                    if in_maze(nr, nc, maze):
                        v_action = reward + gamma * values[nr][nc]
                        v_new = max(v_new, v_action)

                new_values[r][c] = v_new
                delta = max(delta, abs(v_old - v_new))

        values = new_values
        display_values(values)
        sleep(0.5)

        if delta < theta:
            print("Convergence atteinte.\n")
            break

    return values

def extract_policy(values, maze, goal, gamma, reward):
    rows, cols = len(maze), len(maze[0])
    policy = [[' ' if maze[r][c]==0 else '■' for c in range(cols)] for r in range(rows)]

    directions = {(0,1):'>', (1,0):'v', (0,-1):'<', (-1,0):'^'}

    for r in range(rows):
        for c in range(cols):
            if (r, c) == goal:
                policy[r][c] = 'G'
                continue
            if maze[r][c] == 1:
                continue

            best_action = None
            best_value = float('-inf')

            for dr, dc in actions:
                nr, nc = r + dr, c + dc
                if in_maze(nr, nc, maze):
                    v_action = reward + gamma * values[nr][nc]
                    if v_action > best_value:
                        best_value = v_action
                        best_action = (dr, dc)

            if best_action:
                policy[r][c] = directions[best_action]

    return policy

def display_policy(policy):
    for row in policy:
        print(" | ".join(f" {c} " for c in row))
    print("\n")

# Exécution complète :

print("Calcul des valeurs optimales :\n")
values = value_iteration(maze, goal, gamma, reward)

print("Politique optimale :\n")
policy = extract_policy(values, maze, goal, gamma, reward)
display_policy(policy)

Calcul des valeurs optimales :

--- Itération des valeurs #1 ---
 -1.0 |  -1.0 |   ■   |  -1.0
 -1.0 |   ■   |  -1.0 |  -1.0
 -1.0 |  -1.0 |  -1.0 |   ■  
 -1.0 |  -1.0 |  -1.0 |   0.0


--- Itération des valeurs #2 ---
 -2.0 |  -2.0 |   ■   |  -2.0
 -2.0 |   ■   |  -2.0 |  -2.0
 -2.0 |  -2.0 |  -2.0 |   ■  
 -2.0 |  -2.0 |  -1.0 |   0.0


--- Itération des valeurs #3 ---
 -3.0 |  -3.0 |   ■   |  -3.0
 -3.0 |   ■   |  -3.0 |  -3.0
 -3.0 |  -3.0 |  -2.0 |   ■  
 -3.0 |  -2.0 |  -1.0 |   0.0


--- Itération des valeurs #4 ---
 -4.0 |  -4.0 |   ■   |  -4.0
 -4.0 |   ■   |  -3.0 |  -4.0
 -4.0 |  -3.0 |  -2.0 |   ■  
 -3.0 |  -2.0 |  -1.0 |   0.0


--- Itération des valeurs #5 ---
 -5.0 |  -5.0 |   ■   |  -5.0
 -5.0 |   ■   |  -3.0 |  -4.0
 -4.0 |  -3.0 |  -2.0 |   ■  
 -3.0 |  -2.0 |  -1.0 |   0.0


--- Itération des valeurs #6 ---
 -6.0 |  -6.0 |   ■   |  -5.0
 -5.0 |   ■   |  -3.0 |  -4.0
 -4.0 |  -3.0 |  -2.0 |   ■  
 -3.0 |  -2.0 |  -1.0 |   0.0


--- Itération des valeurs #7 ---
 -6.0