In [None]:
# ============================================
# CELLULE 1 : INSTALLATION ET CONCEPTS DE BASE
# ============================================
!pip install gymnasium -q

import gymnasium as gym
import numpy as np

print("Gymnasium installé avec succès !")
print(f"Version : {gym.__version__}")

In [None]:
# ============================================
# CELLULE 2 : CRÉATION D'UN ENVIRONNEMENT GYMNASIUM PERSONNALISÉ
# ============================================

class ClassroomEnv(gym.Env):
    """
    Un environnement simple en grille où un agent apprend à naviguer vers un objectif.

    Disposition de la grille (5x5) :
        G = Objectif (Goal)
        A = Agent
        X = Obstacle
        . = Espace vide

    Disposition actuelle :
        . . . X G
        . . . . .
        . X . . .
        . . . X .
        A . . . .
    """

    def __init__(self):
        super(ClassroomEnv, self).__init__()

        # ====================
        # PARAMÈTRES
        # ====================
        self.grid_size = 5
        self.max_steps = 50

        # Position de départ (coin inférieur gauche)
        self.start_pos = np.array([0, 0])

        # Position de l'objectif (coin supérieur droit)
        self.goal_pos = np.array([4, 4])

        # Positions fixes des obstacles (modifiez-les si vous voulez !)
        self.obstacles = [
            np.array([3, 4]),  # Ligne supérieure
            np.array([1, 2]),  # Milieu
            np.array([3, 1])   # Zone inférieure
        ]
        # ====================

        # Espace d'actions : 0=Haut, 1=Bas, 2=Gauche, 3=Droite
        self.action_space = gym.spaces.Discrete(4)

        # Espace d'observation : position (x, y) de l'agent
        self.observation_space = gym.spaces.Box(
            low=0,
            high=self.grid_size - 1,
            shape=(2,),
            dtype=np.int32
        )

        # État interne (sera défini dans reset())
        self.agent_pos = None
        self.current_step = 0

    def reset(self, seed=None, options=None):
        """Réinitialiser l'environnement à l'état de départ"""
        pass  # Nous l'implémenterons dans la Cellule 3

    def step(self, action):
        """Exécuter une action dans l'environnement"""
        pass  # Nous l'implémenterons dans la Cellule 4

    def render(self):
        """Afficher l'état actuel"""
        pass  # Nous l'implémenterons dans la Cellule 5

print("Bon !")
env = ClassroomEnv()
print(f"Taille de la grille : {env.grid_size}x{env.grid_size}")
print(f"Départ : {env.start_pos}, Objectif : {env.goal_pos}")
print(f"Obstacles : {len(env.obstacles)} positions fixes")
print(f"Espace d'actions : {env.action_space}")

In [None]:
# ============================================
# CELLULE 3 : IMPLÉMENTATION DE LA MÉTHODE RESET
# ============================================

class ClassroomEnv(gym.Env):
    """
    Un environnement simple en grille où un agent apprend à naviguer vers un objectif.

    Disposition de la grille (5x5) :
        G = Objectif (Goal)
        A = Agent
        X = Obstacle
        . = Espace vide

    Disposition actuelle :
        . . . X G
        . . . . .
        . X . . .
        . . . X .
        A . . . .
    """

    def __init__(self):
        super(ClassroomEnv, self).__init__()

        # ====================
        # PARAMÈTRES
        # ====================
        self.grid_size = 5
        self.max_steps = 50

        # Position de départ (coin inférieur gauche)
        self.start_pos = np.array([0, 0])

        # Position de l'objectif (coin supérieur droit)
        self.goal_pos = np.array([4, 4])

        # Positions fixes des obstacles (modifiez-les si vous voulez !)
        self.obstacles = [
            np.array([3, 4]),  # Ligne supérieure
            np.array([1, 2]),  # Milieu
            np.array([3, 1])   # Zone inférieure
        ]
        # ====================

        # Espace d'actions : 0=Haut, 1=Bas, 2=Gauche, 3=Droite
        self.action_space = gym.spaces.Discrete(4)

        # Espace d'observation : position (x, y) de l'agent
        self.observation_space = gym.spaces.Box(
            low=0,
            high=self.grid_size - 1,
            shape=(2,),
            dtype=np.int32
        )

        # État interne (sera défini dans reset())
        self.agent_pos = None
        self.current_step = 0

    def reset(self, seed=None, options=None):
        """
        Réinitialiser l'environnement à son état initial.

        Ceci est appelé :
        - Au début de chaque épisode
        - Quand l'agent atteint l'objectif
        - Quand max_steps est atteint

        Retourne :
            observation : La position de départ de l'agent [x, y]
            info : Dictionnaire vide (requis par Gymnasium)
        """
        # Définir la graine aléatoire pour la reproductibilité (si fournie)
        super().reset(seed=seed)

        # Réinitialiser l'agent à la position de départ
        self.agent_pos = self.start_pos.copy()

        # Réinitialiser le compteur de pas
        self.current_step = 0

        # Retourner l'observation et le dictionnaire info vide
        return self.agent_pos.copy(), {}

    def step(self, action):
        """Exécuter une action dans l'environnement"""
        pass  # Nous l'implémenterons dans la Cellule 4

    def render(self):
        """Afficher l'état actuel"""
        pass  # Nous l'implémenterons dans la Cellule 5

print("Bon !")
env = ClassroomEnv()
observation, info = env.reset()

print(f"Position de l'agent après reset : {observation}")
print(f"Position de départ attendue : {env.start_pos}")
print(f"Compteur de pas actuel : {env.current_step}")
print(f"Dictionnaire info : {info}")

In [None]:
# ============================================
# CELLULE 4 : IMPLÉMENTATION DE LA MÉTHODE STEP
# ============================================

class ClassroomEnv(gym.Env):
    """
    Un environnement simple en grille où un agent apprend à naviguer vers un objectif.

    Disposition de la grille (5x5) :
        G = Objectif (Goal)
        A = Agent
        X = Obstacle
        . = Espace vide

    Disposition actuelle :
        . . . X G
        . . . . .
        . X . . .
        . . . X .
        A . . . .
    """

    def __init__(self):
        super(ClassroomEnv, self).__init__()

        # ====================
        # PARAMÈTRES
        # ====================
        self.grid_size = 5
        self.max_steps = 50

        # Position de départ (coin inférieur gauche)
        self.start_pos = np.array([0, 0])

        # Position de l'objectif (coin supérieur droit)
        self.goal_pos = np.array([4, 4])

        # Positions fixes des obstacles (modifiez-les si vous voulez !)
        self.obstacles = [
            np.array([3, 4]),  # Ligne supérieure
            np.array([1, 2]),  # Milieu
            np.array([3, 1])   # Zone inférieure
        ]

        # Structure des récompenses
        self.STEP_REWARD = -0.01     # Petite pénalité par pas
        self.OBSTACLE_REWARD = -1.0  # Grande pénalité pour les obstacles
        self.GOAL_REWARD = +1.0      # Grande récompense pour l'objectif

        # ====================

        # Espace d'actions : 0=Haut, 1=Bas, 2=Gauche, 3=Droite
        self.action_space = gym.spaces.Discrete(4)

        # Espace d'observation : position (x, y) de l'agent
        self.observation_space = gym.spaces.Box(
            low=0,
            high=self.grid_size - 1,
            shape=(2,),
            dtype=np.int32
        )

        # État interne (sera défini dans reset())
        self.agent_pos = None
        self.current_step = 0

    def reset(self, seed=None, options=None):
        """
        Réinitialiser l'environnement à son état initial.

        Ceci est appelé :
        - Au début de chaque épisode
        - Quand l'agent atteint l'objectif
        - Quand max_steps est atteint

        Retourne :
            observation : La position de départ de l'agent [x, y]
            info : Dictionnaire vide (requis par Gymnasium)
        """
        # Définir la graine aléatoire pour la reproductibilité (si fournie)
        super().reset(seed=seed)

        # Réinitialiser l'agent à la position de départ
        self.agent_pos = self.start_pos.copy()

        # Réinitialiser le compteur de pas
        self.current_step = 0

        # Retourner l'observation et le dictionnaire info vide
        return self.agent_pos.copy(), {}

    def step(self, action):
        """
        Exécuter une action et retourner le résultat.

        Args :
            action : Entier (0=Haut, 1=Bas, 2=Gauche, 3=Droite)

        Retourne :
            observation : Nouvelle position de l'agent [x, y]
            reward : Récompense float pour ce pas
            terminated : Booléen, True si l'épisode doit se terminer (objectif atteint)
            truncated : Booléen, True si max steps est atteint
            info : Dictionnaire avec des informations supplémentaires
        """
        # Incrémenter le compteur de pas
        self.current_step += 1

        # Calculer la nouvelle position basée sur l'action
        new_pos = self.agent_pos.copy()

        if action == 0:    # Haut
            new_pos[1] += 1
        elif action == 1:  # Bas
            new_pos[1] -= 1
        elif action == 2:  # Gauche
            new_pos[0] -= 1
        elif action == 3:  # Droite
            new_pos[0] += 1

        # Vérifier si la nouvelle position est dans les limites de la grille
        if (new_pos[0] < 0 or new_pos[0] >= self.grid_size or
            new_pos[1] < 0 or new_pos[1] >= self.grid_size):
            # Touché un mur - rester en place
            new_pos = self.agent_pos.copy()

        # Mettre à jour la position de l'agent
        self.agent_pos = new_pos

        # Initialiser la récompense avec la pénalité de pas
        reward = self.STEP_REWARD
        terminated = False
        truncated = False

        # Vérifier si l'agent a atteint l'objectif
        if np.array_equal(self.agent_pos, self.goal_pos):
            reward = self.GOAL_REWARD
            terminated = True

        # Vérifier si l'agent a touché un obstacle
        hit_obstacle = any(np.array_equal(self.agent_pos, obs)
                          for obs in self.obstacles)
        if hit_obstacle:
            reward += self.OBSTACLE_REWARD  # Ajouter la pénalité d'obstacle

        # Vérifier si max steps est atteint
        if self.current_step >= self.max_steps:
            truncated = True

        # Informations supplémentaires
        info = {
            'step': self.current_step,
            'hit_obstacle': hit_obstacle
        }

        return self.agent_pos.copy(), reward, terminated, truncated, info

    def render(self):
        """Afficher l'état actuel"""
        pass  # Nous l'implémenterons dans la Cellule 5

print("Bon !")
env = ClassroomEnv()
observation, info = env.reset()

print(f"Position de départ : {observation}")
print(f"Position de l'objectif : {env.goal_pos}")
print(f"Obstacles : {[obs.tolist() for obs in env.obstacles]}")
print("\n" + "="*50)

print("\nTest 1 : Déplacement DROITE depuis [0,0]")
obs, reward, terminated, truncated, info = env.step(3)
print(f"Nouvelle position : {obs}")
print(f"Récompense : {reward}")

print("\nTest 2 : Déplacement GAUCHE")
obs, reward, terminated, truncated, info = env.step(2)
print(f"Position : {obs}")
print(f"Récompense : {reward}")

print("\nTest 3 : Déplacement vers l'obstacle à [2, 1]")
env.agent_pos = np.array([2, 1])
obs, reward, terminated, truncated, info = env.step(3)
print(f"Obstacle touché : {info['hit_obstacle']}")
print(f"Récompense : {reward}")

print("\nTest 4 : Déplacement vers l'objectif")
env.agent_pos = np.array([4, 3])
obs, reward, terminated, truncated, info = env.step(0)
print(f"Récompense : {reward}")

In [None]:
# ============================================
# CELLULE 5 : IMPLÉMENTATION DE LA MÉTHODE RENDER
# ============================================

class ClassroomEnv(gym.Env):
    """
    Un environnement simple en grille où un agent apprend à naviguer vers un objectif.

    Disposition de la grille (5x5) :
        G = Objectif (Goal, coin supérieur droit)
        A = Agent (commence coin inférieur gauche)
        X = Obstacle (positions fixes)
        . = Espace vide

    Disposition actuelle :
        . . . X G
        . . . . .
        . X . . .
        . . . X .
        A . . . .
    """

    def __init__(self):
        super(ClassroomEnv, self).__init__()

        # ====================
        # PARAMÈTRES
        # ====================
        self.grid_size = 5
        self.max_steps = 50

        # Position de départ (coin inférieur gauche)
        self.start_pos = np.array([0, 0])

        # Position de l'objectif (coin supérieur droit)
        self.goal_pos = np.array([4, 4])

        # Positions fixes des obstacles (modifiez-les si vous voulez !)
        self.obstacles = [
            np.array([3, 4]),  # Ligne supérieure
            np.array([1, 2]),  # Milieu
            np.array([3, 1])   # Zone inférieure
        ]

        # Structure des récompenses
        self.STEP_REWARD = -0.01     # Petite pénalité par pas
        self.OBSTACLE_REWARD = -1.0  # Grande pénalité pour les obstacles
        self.GOAL_REWARD = +1.0      # Grande récompense pour l'objectif
        # ====================

        # Espace d'actions : 0=Haut, 1=Bas, 2=Gauche, 3=Droite
        self.action_space = gym.spaces.Discrete(4)

        # Espace d'observation : position (x, y) de l'agent
        self.observation_space = gym.spaces.Box(
            low=0,
            high=self.grid_size - 1,
            shape=(2,),
            dtype=np.int32
        )

        # État interne (sera défini dans reset())
        self.agent_pos = None
        self.current_step = 0

    def reset(self, seed=None, options=None):
        """
        Réinitialiser l'environnement à son état initial.

        Retourne :
            observation : La position de départ de l'agent [x, y]
            info : Dictionnaire vide (requis par Gymnasium)
        """
        super().reset(seed=seed)
        self.agent_pos = self.start_pos.copy()
        self.current_step = 0
        return self.agent_pos.copy(), {}

    def step(self, action):
        """
        Exécuter une action et retourner le résultat.

        Args :
            action : Entier (0=Haut, 1=Bas, 2=Gauche, 3=Droite)

        Retourne :
            observation : Nouvelle position de l'agent [x, y]
            reward : Récompense float pour ce pas
            terminated : Booléen, True si l'épisode doit se terminer (objectif atteint)
            truncated : Booléen, True si max steps est atteint
            info : Dictionnaire avec des informations supplémentaires
        """
        # Incrémenter le compteur de pas
        self.current_step += 1

        # Calculer la nouvelle position basée sur l'action
        new_pos = self.agent_pos.copy()

        if action == 0:    # Haut
            new_pos[1] += 1
        elif action == 1:  # Bas
            new_pos[1] -= 1
        elif action == 2:  # Gauche
            new_pos[0] -= 1
        elif action == 3:  # Droite
            new_pos[0] += 1

        # Vérifier si la nouvelle position est dans les limites de la grille
        if (new_pos[0] < 0 or new_pos[0] >= self.grid_size or
            new_pos[1] < 0 or new_pos[1] >= self.grid_size):
            # Touché un mur - rester en place
            new_pos = self.agent_pos.copy()

        # Mettre à jour la position de l'agent
        self.agent_pos = new_pos

        # Initialiser la récompense avec la pénalité de pas
        reward = self.STEP_REWARD
        terminated = False
        truncated = False

        # Vérifier si l'agent a atteint l'objectif
        if np.array_equal(self.agent_pos, self.goal_pos):
            reward = self.GOAL_REWARD
            terminated = True

        # Vérifier si l'agent a touché un obstacle
        hit_obstacle = any(np.array_equal(self.agent_pos, obs)
                          for obs in self.obstacles)
        if hit_obstacle:
            reward += self.OBSTACLE_REWARD  # Ajouter la pénalité d'obstacle

        # Vérifier si max steps est atteint
        if self.current_step >= self.max_steps:
            truncated = True

        # Informations supplémentaires
        info = {
            'step': self.current_step,
            'hit_obstacle': hit_obstacle
        }

        return self.agent_pos.copy(), reward, terminated, truncated, info

    def render(self):
        """
        Afficher l'état actuel de l'environnement.

        Symboles :
            A = Agent (position actuelle)
            G = Objectif (Goal, cible)
            X = Obstacle (à éviter)
            . = Espace vide (praticable)
        """
        # Afficher l'en-tête avec les informations de pas
        print(f"\nPas {self.current_step}/{self.max_steps}")
        print("=" * (self.grid_size * 2 + 1))

        # Afficher la grille de haut en bas (y va de haut en bas pour l'affichage)
        for y in range(self.grid_size - 1, -1, -1):
            row = ""
            for x in range(self.grid_size):
                current_pos = np.array([x, y])

                # Vérifier ce qui est à cette position et afficher le symbole approprié
                if np.array_equal(current_pos, self.agent_pos):
                    row += "A "
                elif np.array_equal(current_pos, self.goal_pos):
                    row += "G "
                elif any(np.array_equal(current_pos, obs) for obs in self.obstacles):
                    row += "X "
                else:
                    row += ". "

            print(row)

        # Afficher le pied de page avec les informations de position
        print("=" * (self.grid_size * 2 + 1))
        print(f"Agent : {self.agent_pos.tolist()} | Objectif : {self.goal_pos.tolist()}")

print("ClassroomEnv complet créé !")

In [None]:
# ============================================
# TEST DE L'ENVIRONNEMENT COMPLET
# ============================================

print("\n" + "TEST DE L'ENVIRONNEMENT COMPLET" + "\n" + "="*50)

env = ClassroomEnv()
observation, info = env.reset()

print("\n 1. État initial :")
env.render()

print("\n 2. Déplacement DROITE :")
obs, reward, terminated, truncated, info = env.step(3)
env.render()
print(f"Récompense : {reward}")

print("\n 3. Déplacement HAUT :")
obs, reward, terminated, truncated, info = env.step(0)
env.render()
print(f"Récompense : {reward}")

print("\n 4. Déplacement HAUT (va toucher l'obstacle à [1,2]) :")
obs, reward, terminated, truncated, info = env.step(0)
env.render()
print(f"Récompense : {reward} (inclut la pénalité d'obstacle !)")
print(f"Obstacle touché : {info['hit_obstacle']}")

print("\nL'environnement est entièrement fonctionnel !")

In [None]:
# ============================================
# CELLULE 6 : TEST AVEC UN AGENT ALÉATOIRE
# ============================================

def test_random_agent(env, num_episodes=3):
    """
    Tester l'environnement avec un agent qui prend des actions aléatoires.

    Args :
        env : L'instance ClassroomEnv
        num_episodes : Nombre d'épisodes à exécuter
    """
    action_names = ["Haut", "Bas", "Gauche", "Droite"]

    for episode in range(num_episodes):
        print(f"\nÉpisode {episode + 1}/{num_episodes}")
        print("-" * 40)

        observation, info = env.reset()
        env.render()

        total_reward = 0
        done = False

        while not done:
            # Choisir une action aléatoire
            action = env.action_space.sample()

            # Exécuter l'action
            observation, reward, terminated, truncated, info = env.step(action)
            total_reward += reward
            done = terminated or truncated

            print(f"\nAction : {action_names[action]}")
            env.render()
            print(f"Récompense : {reward:.2f} | Total : {total_reward:.2f}")

            if terminated:
                print("Objectif atteint !")
            if truncated:
                print("Nombre maximum de pas atteint.")

        print(f"\nRésumé de l'épisode : {info['step']} pas, Récompense totale : {total_reward:.2f}")

# Créer l'environnement et tester
env = ClassroomEnv()
test_random_agent(env, num_episodes=1)

In [None]:
# ============================================
# CELLULE 7 : AGENT Q-LEARNING
# ============================================

class QLearningAgent:
    """
    Agent Q-Learning pour des espaces d'états discrets.
    Utilise un dictionnaire (Q-table) pour stocker les valeurs état-action.
    """

    def __init__(self, n_actions, learning_rate=0.1, discount_factor=0.95, epsilon=0.1):
        """
        Initialiser l'agent Q-Learning.

        Args :
            n_actions : Nombre d'actions possibles
            learning_rate : Taux d'apprentissage pour mettre à jour les valeurs Q (0 à 1)
            discount_factor : Importance des récompenses futures (0 à 1)
            epsilon : Taux d'exploration (0 = exploitation uniquement, 1 = exploration uniquement)
        """
        # ====================
        # PARAMÈTRES
        # ====================
        self.n_actions = n_actions
        self.learning_rate = learning_rate
        self.discount_factor = discount_factor
        self.epsilon = epsilon
        # ====================

        # Q-table : stocke les valeurs Q pour chaque paire état-action
        self.q_table = {}

    def get_q_values(self, state):
        """Obtenir les valeurs Q pour un état (initialiser si nouvel état)."""
        state_key = tuple(state)

        if state_key not in self.q_table:
            self.q_table[state_key] = np.zeros(self.n_actions)

        return self.q_table[state_key]

    def choose_action(self, state):
        """
        Choisir une action en utilisant la politique epsilon-greedy.
        - Avec probabilité epsilon : action aléatoire (exploration)
        - Avec probabilité 1-epsilon : meilleure action (exploitation)
        """
        if np.random.random() < self.epsilon:
            return np.random.randint(0, self.n_actions)
        else:
            q_values = self.get_q_values(state)
            return np.argmax(q_values)

    def update(self, state, action, reward, next_state, done):
        """
        Mettre à jour la valeur Q en utilisant l'équation de Bellman :
        Q(s,a) = Q(s,a) + α * [r + γ * max(Q(s',a')) - Q(s,a)]
        """
        state_key = tuple(state)

        # Obtenir la valeur Q actuelle
        current_q = self.get_q_values(state)[action]

        # Calculer la valeur Q cible
        if done:
            target_q = reward
        else:
            next_q_values = self.get_q_values(next_state)
            target_q = reward + self.discount_factor * np.max(next_q_values)

        # Mettre à jour la valeur Q
        self.q_table[state_key][action] = current_q + self.learning_rate * (target_q - current_q)

# Créer et tester l'agent
agent = QLearningAgent(n_actions=4, learning_rate=0.5, discount_factor=0.95, epsilon=0.1)

print("Agent Q-Learning créé.")
print(f"Taux d'apprentissage : {agent.learning_rate}")
print(f"Facteur de réduction : {agent.discount_factor}")
print(f"Epsilon : {agent.epsilon}")

In [None]:
# ============================================
# CELLULE 8 : ENTRAÎNEMENT DE L'AGENT Q-LEARNING
# ============================================

def train_qlearning(env, agent, num_episodes=1000, epsilon_decay=True):
    """
    Entraîner l'agent Q-Learning.

    Args :
        env : L'instance ClassroomEnv
        agent : L'instance QLearningAgent
        num_episodes : Nombre d'épisodes d'entraînement
        epsilon_decay : Réduire progressivement l'exploration au fil du temps

    Retourne :
        rewards : Liste des récompenses totales par épisode
    """
    rewards = []
    initial_epsilon = agent.epsilon

    for episode in range(num_episodes):
        state, info = env.reset()
        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            next_state, reward, terminated, truncated, info = env.step(action)
            done = terminated or truncated

            agent.update(state, action, reward, next_state, done)

            state = next_state
            total_reward += reward

        if epsilon_decay:
            agent.epsilon = initial_epsilon * (0.995 ** episode)
            agent.epsilon = max(0.01, agent.epsilon)

        rewards.append(total_reward)

        if (episode + 1) % 200 == 0:
            avg_reward = np.mean(rewards[-100:])
            print(f"Épisode {episode + 1}/{num_episodes} | Récompense moy : {avg_reward:.2f} | Epsilon : {agent.epsilon:.3f}")

    return rewards

# Créer l'environnement et l'agent
env = ClassroomEnv()
agent = QLearningAgent(
    n_actions=4,
    learning_rate=0.5,
    discount_factor=0.99,
    epsilon=0.9
)

print("Entraînement de l'agent Q-Learning...")
print("=" * 50)
rewards = train_qlearning(env, agent, num_episodes=1000, epsilon_decay=True)

print("\nEntraînement terminé.")
print(f"Récompense moyenne finale (100 derniers épisodes) : {np.mean(rewards[-100:]):.2f}")
print(f"Taille de la Q-table (états découverts) : {len(agent.q_table)}")
print(f"Epsilon final : {agent.epsilon:.3f}")

In [None]:
# ============================================
# CELLULE 9 : TEST DE L'AGENT Q-LEARNING ENTRAÎNÉ
# ============================================

def test_trained_agent(env, agent, num_episodes=3):
    """
    Tester l'agent Q-Learning entraîné.
    Définit epsilon=0 pour utiliser uniquement la politique apprise (pas d'exploration).

    Args :
        env : L'instance ClassroomEnv
        agent : L'instance QLearningAgent entraînée
        num_episodes : Nombre d'épisodes de test
    """
    action_names = ["Haut", "Bas", "Gauche", "Droite"]

    original_epsilon = agent.epsilon
    agent.epsilon = 0.0

    successes = 0

    for episode in range(num_episodes):
        print(f"\nÉpisode de test {episode + 1}/{num_episodes}")
        print("-" * 40)

        state, info = env.reset(seed=42 + episode)
        env.render()

        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            state, reward, terminated, truncated, info = env.step(action)
            total_reward += reward
            done = terminated or truncated

            print(f"\nAction : {action_names[action]}")
            env.render()
            print(f"Récompense : {reward:.2f} | Total : {total_reward:.2f}")

            if terminated:
                print("Objectif atteint !")
                successes += 1
                break
            if truncated:
                print("Nombre maximum de pas atteint.")
                break

        print(f"\nRésumé de l'épisode : {info['step']} pas, Récompense totale : {total_reward:.2f}")

    agent.epsilon = original_epsilon

    print(f"\nTaux de réussite : {successes}/{num_episodes}")

# Tester l'agent entraîné
print("Test de l'agent Q-Learning entraîné...")
print("=" * 50)
test_trained_agent(env, agent, num_episodes=3)

In [None]:
# ============================================
# CELLULE 10 : CONFIGURATION DE L'ENVIRONNEMENT POUR DQN
# ============================================

# Même environnement que la section Q-Learning
# DQN utilise le tableau numpy d'état directement comme entrée du réseau neuronal
env = ClassroomEnv()

In [None]:
# ============================================
# CELLULE 11 : RÉSEAU DQN ET BUFFER DE REPLAY
# ============================================

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from collections import deque
import random

class DQNNetwork(nn.Module):
    """
    Réseau neuronal pour approximer les valeurs Q.
    """
    def __init__(self, state_dim, action_dim, hidden_size=128):
        super(DQNNetwork, self).__init__()

        # ====================
        # PARAMÈTRES
        # ====================
        # hidden_size : Nombre de neurones dans les couches cachées
        # ====================

        self.fc1 = nn.Linear(state_dim, hidden_size)
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        self.fc3 = nn.Linear(hidden_size, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)


class ReplayBuffer:
    """
    Stocke les expériences passées pour l'entraînement.
    """
    def __init__(self, capacity=10000):
        # ====================
        # PARAMÈTRES
        # ====================
        # capacity : Nombre maximum d'expériences à stocker
        # ====================

        self.buffer = deque(maxlen=capacity)

    def push(self, state, action, reward, next_state, done):
        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):
        batch = random.sample(self.buffer, batch_size)
        states, actions, rewards, next_states, dones = zip(*batch)
        return (np.array(states), np.array(actions), np.array(rewards),
                np.array(next_states), np.array(dones))

    def __len__(self):
        return len(self.buffer)


print("Réseau DQN et Buffer de Replay créés.")

In [None]:
# ============================================
# CELLULE 12 : AGENT DQN
# ============================================

class DQNAgent:
    """
    Agent Deep Q-Network avec replay d'expérience et réseau cible.
    """

    def __init__(self, state_dim, action_dim, learning_rate=0.001, discount_factor=0.99):
        """
        Initialiser l'agent DQN.

        Args :
            state_dim : Dimension de l'espace d'états
            action_dim : Nombre d'actions possibles
            learning_rate : Taux d'apprentissage du réseau neuronal
            discount_factor : Importance des récompenses futures
        """
        # ====================
        # PARAMÈTRES
        # ====================
        self.action_dim = action_dim
        self.discount_factor = discount_factor
        self.epsilon = 1.0
        self.epsilon_decay = 0.995
        self.epsilon_min = 0.01
        self.batch_size = 64
        # ====================

        # Réseau Q et réseau cible
        self.q_network = DQNNetwork(state_dim, action_dim)
        self.target_network = DQNNetwork(state_dim, action_dim)
        self.target_network.load_state_dict(self.q_network.state_dict())

        # Optimiseur et buffer de replay
        self.optimizer = optim.Adam(self.q_network.parameters(), lr=learning_rate)
        self.memory = ReplayBuffer()

    def choose_action(self, state):
        """
        Choisir une action en utilisant la politique epsilon-greedy.
        """
        if random.random() < self.epsilon:
            return random.randint(0, self.action_dim - 1)

        with torch.no_grad():
            state_tensor = torch.FloatTensor(state).unsqueeze(0)
            q_values = self.q_network(state_tensor)
            return q_values.argmax().item()

    def train_step(self):
        """
        Entraîner le réseau sur un lot d'expériences.
        """
        if len(self.memory) < self.batch_size:
            return None

        states, actions, rewards, next_states, dones = self.memory.sample(self.batch_size)

        states = torch.FloatTensor(states)
        actions = torch.LongTensor(actions)
        rewards = torch.FloatTensor(rewards)
        next_states = torch.FloatTensor(next_states)
        dones = torch.FloatTensor(dones)

        # Valeurs Q actuelles
        current_q = self.q_network(states).gather(1, actions.unsqueeze(1))

        # Valeurs Q cibles
        next_q = self.target_network(next_states).max(1)[0].detach()
        target_q = rewards + (1 - dones) * self.discount_factor * next_q

        # Calculer la perte et mettre à jour
        loss = F.mse_loss(current_q.squeeze(), target_q)

        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

        return loss.item()

    def update_target_network(self):
        """Copier les poids du réseau Q vers le réseau cible."""
        self.target_network.load_state_dict(self.q_network.state_dict())

    def decay_epsilon(self):
        """Réduire le taux d'exploration."""
        self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)


# Créer l'agent DQN
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n

agent = DQNAgent(state_dim=state_dim, action_dim=action_dim, learning_rate=0.001, discount_factor=0.99)

print("Agent DQN créé.")
print(f"Dimension de l'état : {state_dim}")
print(f"Dimension de l'action : {action_dim}")
print(f"Architecture du réseau : {state_dim} → 128 → 128 → {action_dim}")

In [None]:
# ============================================
# CELLULE 13 : ENTRAÎNEMENT DE L'AGENT DQN
# ============================================

def train_dqn(env, agent, num_episodes=500, target_update_freq=10):
    """
    Entraîner l'agent DQN.

    Args :
        env : L'instance ClassroomEnv
        agent : L'instance DQNAgent
        num_episodes : Nombre d'épisodes d'entraînement
        target_update_freq : Fréquence de mise à jour du réseau cible

    Retourne :
        rewards : Liste des récompenses totales par épisode
    """
    rewards = []

    for episode in range(num_episodes):
        state, info = env.reset()
        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            next_state, reward, terminated, truncated, info = env.step(action)
            done = terminated or truncated

            agent.memory.push(state, action, reward, next_state, done)
            agent.train_step()

            state = next_state
            total_reward += reward

        agent.decay_epsilon()

        if (episode + 1) % target_update_freq == 0:
            agent.update_target_network()

        rewards.append(total_reward)

        if (episode + 1) % 100 == 0:
            avg_reward = np.mean(rewards[-100:])
            print(f"Épisode {episode + 1}/{num_episodes} | Récompense moy : {avg_reward:.2f} | Epsilon : {agent.epsilon:.3f}")

    return rewards


# Créer un nouvel environnement et agent
env = ClassroomEnv()
agent = DQNAgent(state_dim=2, action_dim=4, learning_rate=0.001, discount_factor=0.99)

print("Entraînement de l'agent DQN...")
print("=" * 50)
rewards = train_dqn(env, agent, num_episodes=1000, target_update_freq=10)

print("\nEntraînement terminé.")
print(f"Récompense moyenne finale (100 derniers épisodes) : {np.mean(rewards[-100:]):.2f}")
print(f"Taille du buffer de replay : {len(agent.memory)}")
print(f"Epsilon final : {agent.epsilon:.3f}")

In [None]:
# ============================================
# CELLULE 14 : TEST DE L'AGENT DQN ENTRAÎNÉ
# ============================================

def test_trained_dqn(env, agent, num_episodes=3):
    """
    Tester l'agent DQN entraîné.
    Définit epsilon=0 pour utiliser uniquement la politique apprise.

    Args :
        env : L'instance ClassroomEnv
        agent : L'instance DQNAgent entraînée
        num_episodes : Nombre d'épisodes de test
    """
    action_names = ["Haut", "Bas", "Gauche", "Droite"]

    original_epsilon = agent.epsilon
    agent.epsilon = 0.0

    successes = 0

    for episode in range(num_episodes):
        print(f"\nÉpisode de test {episode + 1}/{num_episodes}")
        print("-" * 40)

        state, info = env.reset(seed=42 + episode)
        env.render()

        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            state, reward, terminated, truncated, info = env.step(action)
            total_reward += reward
            done = terminated or truncated

            print(f"\nAction : {action_names[action]}")
            env.render()
            print(f"Récompense : {reward:.2f} | Total : {total_reward:.2f}")

            if terminated:
                print("Objectif atteint !")
                successes += 1
                break
            if truncated:
                print("Nombre maximum de pas atteint.")
                break

        print(f"\nRésumé de l'épisode : {info['step']} pas, Récompense totale : {total_reward:.2f}")

    agent.epsilon = original_epsilon

    print(f"\nTaux de réussite : {successes}/{num_episodes}")
    print("=" * 50)


# Tester l'agent DQN entraîné
print("Test de l'agent DQN entraîné...")
print("=" * 50)
test_trained_dqn(env, agent, num_episodes=3)

In [None]:
# ============================================
# CELLULE 16 : Q-LEARNING SUR DES ENVIRONNEMENTS INTÉGRÉS (CORRIGÉ)
# ============================================

def train_qlearning_builtin(env_name, num_episodes=1000):
    """
    Entraîner l'agent Q-Learning sur un environnement intégré de Gymnasium.

    Args :
        env_name : Nom de l'environnement Gymnasium (par ex., "Taxi-v3")
        num_episodes : Nombre d'épisodes d'entraînement
    """
    # Créer l'environnement
    env = gym.make(env_name)

    # Créer l'agent
    agent = QLearningAgent(
        n_actions=env.action_space.n,
        learning_rate=0.9,
        discount_factor=0.95,
        epsilon=0.9
    )

    print(f"\nEntraînement Q-Learning sur {env_name}")
    print("=" * 50)

    rewards = []

    for episode in range(num_episodes):
        state, info = env.reset()

        # Convertir l'état en tableau immédiatement (gérer les environnements discrets)
        state = np.array([state]) if isinstance(state, (int, np.integer)) else np.array(state)

        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            next_state, reward, terminated, truncated, info = env.step(action)
            done = terminated or truncated

            # Convertir next_state en tableau
            next_state = np.array([next_state]) if isinstance(next_state, (int, np.integer)) else np.array(next_state)

            agent.update(state, action, reward, next_state, done)

            state = next_state
            total_reward += reward

        agent.epsilon = max(0.01, agent.epsilon * 0.995)
        rewards.append(total_reward)

        if (episode + 1) % 200 == 0:
            avg_reward = np.mean(rewards[-100:])
            print(f"Épisode {episode + 1}/{num_episodes} | Récompense moy : {avg_reward:.2f} | Epsilon : {agent.epsilon:.3f}")

    env.close()

    print(f"\nEntraînement terminé !")
    print(f"Récompense moyenne finale : {np.mean(rewards[-100:]):.2f}")
    print(f"États découverts : {len(agent.q_table)}")

    return agent, rewards


# ====================
# AJUSTABLE
# ====================
# Essayez : "Taxi-v3" ou "FrozenLake-v1"

print("Environnements disponibles pour Q-Learning :")
print("  • Taxi-v3 (500 états, plus facile)")
print("  • FrozenLake-v1 (16 états, plus difficile à cause de la surface glissante)")

ENV_NAME = "FrozenLake-v1"

agent, rewards = train_qlearning_builtin(ENV_NAME, num_episodes=1000)

In [None]:
# ============================================
# CELLULE 17 : TEST Q-LEARNING SUR ENVIRONNEMENT INTÉGRÉ
# ============================================

def test_qlearning_builtin(env_name, agent, num_episodes=3):
    """
    Tester l'agent Q-Learning entraîné sur un environnement intégré.
    """
    env = gym.make(env_name, render_mode='ansi')

    original_epsilon = agent.epsilon
    agent.epsilon = 0.0

    successes = 0

    for episode in range(num_episodes):
        print(f"\nÉpisode de test {episode + 1}/{num_episodes}")
        print("-" * 40)

        state, info = env.reset()
        state = np.array([state]) if isinstance(state, (int, np.integer)) else np.array(state)

        total_reward = 0
        done = False
        steps = 0

        while not done:
            action = agent.choose_action(state)
            next_state, reward, terminated, truncated, info = env.step(action)
            next_state = np.array([next_state]) if isinstance(next_state, (int, np.integer)) else np.array(next_state)

            done = terminated or truncated
            total_reward += reward
            state = next_state
            steps += 1

        if reward > 0:
            successes += 1
            print(f"Réussite ! Pas : {steps}, Récompense : {total_reward:.2f}")
        else:
            print(f"Échec. Pas : {steps}, Récompense : {total_reward:.2f}")

    env.close()
    agent.epsilon = original_epsilon

    print(f"\nTaux de réussite : {successes}/{num_episodes}")

# Tester l'agent entraîné
test_qlearning_builtin(ENV_NAME, agent, num_episodes=3)

In [None]:
# ============================================
# CELLULE 18 : DQN SUR DES ENVIRONNEMENTS INTÉGRÉS
# ============================================

def train_dqn_builtin(env_name, num_episodes=500):
    """
    Entraîner l'agent DQN sur un environnement intégré de Gymnasium.

    Args :
        env_name : Nom de l'environnement Gymnasium (par ex., "CartPole-v1")
        num_episodes : Nombre d'épisodes d'entraînement
    """
    # Créer l'environnement
    env = gym.make(env_name)

    # Obtenir les dimensions d'état et d'action
    state_dim = env.observation_space.shape[0]
    action_dim = env.action_space.n

    # Créer l'agent
    agent = DQNAgent(
        state_dim=state_dim,
        action_dim=action_dim,
        learning_rate=0.001,
        discount_factor=0.99
    )

    print(f"\nEntraînement DQN sur {env_name}")
    print(f"Dimension de l'état : {state_dim}, Dimension de l'action : {action_dim}")
    print("=" * 50)

    rewards = []

    for episode in range(num_episodes):
        state, info = env.reset()
        total_reward = 0
        done = False

        while not done:
            action = agent.choose_action(state)
            next_state, reward, terminated, truncated, info = env.step(action)
            done = terminated or truncated

            agent.memory.push(state, action, reward, next_state, done)
            agent.train_step()

            state = next_state
            total_reward += reward

        agent.decay_epsilon()

        if (episode + 1) % 10 == 0:
            agent.update_target_network()

        rewards.append(total_reward)

        if (episode + 1) % 100 == 0:
            avg_reward = np.mean(rewards[-100:])
            print(f"Épisode {episode + 1}/{num_episodes} | Récompense moy : {avg_reward:.2f} | Epsilon : {agent.epsilon:.3f}")

    env.close()

    print(f"\nEntraînement terminé !")
    print(f"Récompense moyenne finale : {np.mean(rewards[-100:]):.2f}")

    return agent, rewards


# ====================
# AJUSTABLE
# ====================
# Essayez : "CartPole-v1" ou "MountainCar-v0"

print("Environnements disponibles pour DQN :")
print("  • CartPole-v1 (équilibrer un bâton, plus facile)")
print("  • MountainCar-v0 (monter une colline, plus difficile)")

ENV_NAME = "CartPole-v1"

agent, rewards = train_dqn_builtin(ENV_NAME, num_episodes=500)

In [None]:
# ============================================
# CELLULE 19 : TEST DQN SUR ENVIRONNEMENT INTÉGRÉ
# ============================================

def test_dqn_builtin(env_name, agent, num_episodes=3):
    """
    Tester l'agent DQN entraîné sur un environnement intégré.
    """
    env = gym.make(env_name)

    original_epsilon = agent.epsilon
    agent.epsilon = 0.0

    successes = 0

    for episode in range(num_episodes):
        print(f"\nÉpisode de test {episode + 1}/{num_episodes}")
        print("-" * 40)

        state, info = env.reset()
        total_reward = 0
        done = False
        steps = 0

        while not done:
            action = agent.choose_action(state)
            state, reward, terminated, truncated, info = env.step(action)

            done = terminated or truncated
            total_reward += reward
            steps += 1

        if total_reward > 195:  # Seuil de réussite pour CartPole
            successes += 1
            print(f"Réussite ! Pas : {steps}, Récompense : {total_reward:.2f}")
        else:
            print(f"Pas : {steps}, Récompense : {total_reward:.2f}")

    env.close()
    agent.epsilon = original_epsilon

    print(f"\nRécompense moyenne : {np.mean([total_reward]):.2f}")

# Tester l'agent entraîné
test_dqn_builtin(ENV_NAME, agent, num_episodes=3)