# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/09_reinforcement_learning/09_exercices.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)
import sys

IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    print('üì¶ Installation des packages...')
    !pip install -q numpy pandas matplotlib seaborn
    !pip install -q gymnasium[classic-control]
    !pip install -q torch torchvision
    print('‚úÖ Installation termin√©e !')
else:
    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 09 - Exercices : Reinforcement Learning

Ce notebook contient des exercices pratiques pour consolider les concepts du Chapitre 09.

**Instructions** :
- Compl√©tez les cellules marqu√©es `# VOTRE CODE ICI`
- Les solutions sont disponibles dans `09_exercices_solutions.ipynb`
- N'h√©sitez pas √† consulter la documentation (Gymnasium, PyTorch)

---

## Setup Initial

In [None]:
# Imports n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict, deque
import gymnasium as gym
import torch
import torch.nn as nn
import torch.optim as optim
import random

# Configuration
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
np.random.seed(42)
torch.manual_seed(42)
random.seed(42)

print("‚úì Biblioth√®ques import√©es")

---

## Exercice 1 : Q-Learning sur FrozenLake

**Environnement** : FrozenLake-v1 (4x4 grid)

**Objectif** : Impl√©menter l'algorithme Q-Learning pour apprendre √† naviguer sur un lac gel√©.

### 1.1 Exploration de l'Environnement

In [None]:
# Cr√©ez l'environnement FrozenLake (non-slippery pour commencer)
# VOTRE CODE ICI

env = None  # gym.make('FrozenLake-v1', is_slippery=False)

# Affichez les informations sur l'environnement
print(f"Espace d'√©tats : {env.observation_space}")
print(f"Espace d'actions : {env.action_space}")
print(f"\nActions possibles :")
print("  0 = LEFT, 1 = DOWN, 2 = RIGHT, 3 = UP")

# Question : Combien y a-t-il d'√©tats et d'actions possibles ?

### 1.2 Impl√©mentation de Q-Learning

In [None]:
# Impl√©mentez l'algorithme Q-Learning
# VOTRE CODE ICI

class QLearningAgent:
    def __init__(self, n_states, n_actions, learning_rate=0.1, gamma=0.99, epsilon=1.0):
        """
        Args:
            n_states: Nombre d'√©tats
            n_actions: Nombre d'actions
            learning_rate: Taux d'apprentissage (alpha)
            gamma: Facteur de discount
            epsilon: Probabilit√© d'exploration initiale
        """
        # TODO: Initialisez la Q-table
        self.q_table = None  # np.zeros((n_states, n_actions))
        self.lr = learning_rate
        self.gamma = gamma
        self.epsilon = epsilon
        self.n_actions = n_actions
    
    def choose_action(self, state):
        """Strat√©gie epsilon-greedy."""
        # TODO: Impl√©mentez epsilon-greedy
        # Avec probabilit√© epsilon : action al√©atoire
        # Sinon : argmax Q(state, action)
        pass
    
    def update(self, state, action, reward, next_state, done):
        """Mise √† jour Q-Learning."""
        # TODO: Impl√©mentez la formule de mise √† jour Q-Learning
        # Q(s,a) ‚Üê Q(s,a) + Œ±[r + Œ≥ max Q(s',a') - Q(s,a)]
        pass
    
    def decay_epsilon(self, decay_rate=0.995):
        """D√©croissance d'epsilon."""
        # TODO: R√©duisez epsilon
        pass

# Cr√©ez l'agent
agent = QLearningAgent(
    n_states=env.observation_space.n,
    n_actions=env.action_space.n,
    learning_rate=0.1,
    gamma=0.99,
    epsilon=1.0
)

### 1.3 Entra√Ænement de l'Agent

In [None]:
# Boucle d'entra√Ænement
# VOTRE CODE ICI

n_episodes = 10000
rewards_history = []

for episode in range(n_episodes):
    # TODO: R√©initialisez l'environnement
    state, info = None, None  # env.reset()
    episode_reward = 0
    done = False
    
    while not done:
        # TODO: Choisissez une action
        action = None
        
        # TODO: Ex√©cutez l'action dans l'environnement
        next_state, reward, terminated, truncated, info = None, None, None, None, None
        done = terminated or truncated
        
        # TODO: Mettez √† jour la Q-table
        
        # TODO: Passez √† l'√©tat suivant
        state = next_state
        episode_reward += reward
    
    # TODO: D√©croissance d'epsilon
    
    rewards_history.append(episode_reward)
    
    if (episode + 1) % 1000 == 0:
        avg_reward = np.mean(rewards_history[-100:])
        print(f"Episode {episode + 1}/{n_episodes} | Avg Reward (last 100): {avg_reward:.3f} | Epsilon: {agent.epsilon:.3f}")

print("\n‚úì Entra√Ænement termin√©")

### 1.4 Visualisation de l'Apprentissage

In [None]:
# Visualisez la courbe d'apprentissage
# VOTRE CODE ICI

# Calculez la moyenne mobile sur 100 √©pisodes
window = 100
moving_avg = None  # np.convolve(...)

plt.figure(figsize=(12, 5))

# Subplot 1 : R√©compenses brutes
plt.subplot(1, 2, 1)
# TODO: Tracez rewards_history

# Subplot 2 : Moyenne mobile
plt.subplot(1, 2, 2)
# TODO: Tracez moving_avg

plt.tight_layout()
plt.show()

### 1.5 √âvaluation de la Politique Apprise

In [None]:
# √âvaluez l'agent sur 100 √©pisodes (sans exploration)
# VOTRE CODE ICI

n_eval_episodes = 100
eval_rewards = []

for _ in range(n_eval_episodes):
    # TODO: Testez l'agent avec epsilon=0 (exploitation pure)
    pass

success_rate = None  # Pourcentage d'√©pisodes avec reward=1
print(f"Taux de succ√®s : {success_rate:.1f}%")
print(f"R√©compense moyenne : {np.mean(eval_rewards):.3f}")

### 1.6 Visualisation de la Politique

In [None]:
# Visualisez la politique apprise (heatmap des actions)
# VOTRE CODE ICI

# Cr√©ez une grille 4x4 avec l'action optimale pour chaque √©tat
policy_grid = None  # np.argmax(agent.q_table, axis=1).reshape(4, 4)

# Symboles pour les actions
action_symbols = {0: '‚Üê', 1: '‚Üì', 2: '‚Üí', 3: '‚Üë'}

# TODO: Affichez la politique avec plt.imshow et annotez avec les symboles

---

## Exercice 2 : Q-Learning sur FrozenLake Slippery

**Objectif** : Adapter l'agent √† un environnement stochastique (le lac est glissant).

### 2.1 Cr√©ation de l'Environnement Stochastique

In [None]:
# Cr√©ez l'environnement avec is_slippery=True
# VOTRE CODE ICI

env_slippery = None  # gym.make('FrozenLake-v1', is_slippery=True)

# Question : Qu'est-ce qui change avec is_slippery=True ?

### 2.2 Entra√Ænement sur Environnement Stochastique

In [None]:
# Entra√Ænez un nouvel agent sur l'environnement slippery
# VOTRE CODE ICI

# Conseil : Vous aurez besoin de plus d'√©pisodes et/ou d'ajuster les hyperparam√®tres

agent_slippery = QLearningAgent(
    n_states=env_slippery.observation_space.n,
    n_actions=env_slippery.action_space.n,
    learning_rate=0.1,  # Peut-√™tre ajuster
    gamma=0.99,
    epsilon=1.0
)

# TODO: Boucle d'entra√Ænement (similaire √† 1.3)

### 2.3 Comparaison des Performances

In [None]:
# Comparez les taux de succ√®s entre l'environnement d√©terministe et stochastique
# VOTRE CODE ICI

# Question : Pourquoi le taux de succ√®s est-il plus faible en stochastique ?

---

## Exercice 3 : Deep Q-Network (DQN) sur CartPole

**Environnement** : CartPole-v1 (espace d'√©tats continu)

**Objectif** : Impl√©menter un DQN avec Experience Replay et Target Network.

### 3.1 Architecture du R√©seau de Neurones

In [None]:
# Impl√©mentez le r√©seau Q-Network
# VOTRE CODE ICI

class QNetwork(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=128):
        super(QNetwork, self).__init__()
        # TODO: D√©finissez les couches du r√©seau
        # Input : state_dim ‚Üí Hidden : hidden_dim ‚Üí Output : action_dim
        self.fc1 = None
        self.fc2 = None
        self.fc3 = None
    
    def forward(self, x):
        # TODO: Impl√©mentez le forward pass
        # Utilisez ReLU pour les couches cach√©es
        pass

# Test du r√©seau
env_cartpole = gym.make('CartPole-v1')
state_dim = env_cartpole.observation_space.shape[0]
action_dim = env_cartpole.action_space.n

print(f"State dim: {state_dim}, Action dim: {action_dim}")

# Cr√©ez le r√©seau
q_net = QNetwork(state_dim, action_dim)
print(q_net)

### 3.2 Experience Replay Buffer

In [None]:
# Impl√©mentez le Replay Buffer
# VOTRE CODE ICI

class ReplayBuffer:
    def __init__(self, capacity=10000):
        # TODO: Utilisez collections.deque pour stocker les transitions
        self.buffer = None  # deque(maxlen=capacity)
    
    def push(self, state, action, reward, next_state, done):
        """Ajoute une transition au buffer."""
        # TODO: Ajoutez la transition
        pass
    
    def sample(self, batch_size):
        """√âchantillonne un batch de transitions."""
        # TODO: √âchantillonnez al√©atoirement batch_size transitions
        # Retournez des tensors PyTorch s√©par√©s pour chaque √©l√©ment
        pass
    
    def __len__(self):
        return len(self.buffer)

# Test du buffer
buffer = ReplayBuffer(capacity=1000)
print(f"Buffer cr√©√© avec capacit√© 1000")

### 3.3 Agent DQN

In [None]:
# Impl√©mentez l'agent DQN
# VOTRE CODE ICI

class DQNAgent:
    def __init__(self, state_dim, action_dim, lr=1e-3, gamma=0.99, epsilon=1.0):
        # TODO: Cr√©ez le policy network et le target network
        self.policy_net = None  # QNetwork(...)
        self.target_net = None  # QNetwork(...)
        
        # TODO: Copiez les poids du policy vers target
        # self.target_net.load_state_dict(self.policy_net.state_dict())
        
        # TODO: Cr√©ez l'optimizer et le replay buffer
        self.optimizer = None  # optim.Adam(...)
        self.buffer = ReplayBuffer(capacity=10000)
        
        self.gamma = gamma
        self.epsilon = epsilon
        self.action_dim = action_dim
    
    def choose_action(self, state):
        """Epsilon-greedy action selection."""
        # TODO: Impl√©mentez epsilon-greedy avec le r√©seau de neurones
        pass
    
    def train_step(self, batch_size=64):
        """Mise √† jour du r√©seau via gradient descent."""
        if len(self.buffer) < batch_size:
            return
        
        # TODO: √âchantillonnez un batch du buffer
        states, actions, rewards, next_states, dones = None, None, None, None, None
        
        # TODO: Calculez les Q-values actuelles
        # q_values = self.policy_net(states)
        # q_value = q_values.gather(1, actions.unsqueeze(1)).squeeze(1)
        
        # TODO: Calculez les Q-values cibles avec le target network
        # next_q_values = self.target_net(next_states)
        # max_next_q_values = next_q_values.max(1)[0]
        # target_q_value = rewards + (1 - dones) * self.gamma * max_next_q_values
        
        # TODO: Calculez la loss (MSE) et mettez √† jour le r√©seau
        # loss = nn.functional.mse_loss(q_value, target_q_value.detach())
        # self.optimizer.zero_grad()
        # loss.backward()
        # self.optimizer.step()
        pass
    
    def update_target_network(self):
        """Copie les poids du policy vers le target network."""
        # TODO: Mettez √† jour le target network
        pass
    
    def decay_epsilon(self, decay_rate=0.995, min_epsilon=0.01):
        # TODO: D√©croissance d'epsilon
        pass

# Cr√©ez l'agent
dqn_agent = DQNAgent(state_dim, action_dim)
print("‚úì Agent DQN cr√©√©")

### 3.4 Entra√Ænement du DQN

In [None]:
# Boucle d'entra√Ænement DQN
# VOTRE CODE ICI

n_episodes = 500
target_update_freq = 10  # Fr√©quence de mise √† jour du target network
rewards_history = []

for episode in range(n_episodes):
    # TODO: Boucle d'entra√Ænement
    # 1. Reset environment
    # 2. Boucle dans l'√©pisode
    # 3. Choose action
    # 4. Execute action
    # 5. Store transition in buffer
    # 6. Train network
    # 7. Update target network every target_update_freq episodes
    # 8. Decay epsilon
    pass

print("\n‚úì Entra√Ænement DQN termin√©")

### 3.5 Visualisation et √âvaluation

In [None]:
# Visualisez la courbe d'apprentissage du DQN
# VOTRE CODE ICI

# Calculez la moyenne mobile
# Tracez les r√©compenses

# Question : CartPole est r√©solu quand la moyenne sur 100 √©pisodes atteint 195. Avez-vous r√©solu l'environnement ?

---

## Exercice 4 : Comparaison Q-Learning vs DQN

**Objectif** : Comparer les deux approches.

### 4.1 Questions de R√©flexion

**Question 1** : Quels sont les avantages du DQN par rapport au Q-Learning tabulaire ?

**VOTRE R√âPONSE ICI**

---

**Question 2** : Pourquoi utilise-t-on un Experience Replay Buffer ?

**VOTRE R√âPONSE ICI**

---

**Question 3** : √Ä quoi sert le Target Network ?

**VOTRE R√âPONSE ICI**

---

**Question 4** : Pourquoi ne peut-on pas utiliser Q-Learning tabulaire sur CartPole ?

**VOTRE R√âPONSE ICI**

---

## Exercice 5 : Am√©liorations du DQN (Bonus)

**Objectif** : Impl√©menter des am√©liorations de l'algorithme DQN.

### 5.1 Double DQN

Le Double DQN r√©duit la surestimation des Q-values en utilisant le policy network pour s√©lectionner l'action, et le target network pour √©valuer cette action.

In [None]:
# Impl√©mentez Double DQN
# VOTRE CODE ICI

# Modifiez la m√©thode train_step pour utiliser :
# 1. Policy network pour s√©lectionner l'action : argmax Q_policy(s', a')
# 2. Target network pour √©valuer cette action : Q_target(s', argmax a')

# Conseil : Modifiez uniquement le calcul de target_q_value dans train_step

### 5.2 Prioritized Experience Replay

√âchantillonnez les transitions avec une probabilit√© proportionnelle √† leur erreur TD (Temporal Difference).

In [None]:
# Impl√©mentez un Prioritized Replay Buffer (simplifi√©)
# VOTRE CODE ICI

# Conseil : Stockez √©galement les priorit√©s dans le buffer
# Utilisez np.random.choice avec probabilit√©s pour l'√©chantillonnage

---

## Conclusion

F√©licitations pour avoir compl√©t√© ces exercices !

**Points cl√©s √† retenir** :
- Q-Learning fonctionne bien pour des espaces d'√©tats discrets et petits
- DQN √©tend Q-Learning aux espaces continus via approximation par r√©seaux de neurones
- Experience Replay brise la corr√©lation temporelle et am√©liore la stabilit√©
- Target Network stabilise l'entra√Ænement en figeant temporairement les cibles
- L'exploration (epsilon-greedy) est cruciale pour d√©couvrir de bonnes politiques

**Prochaines √©tapes** :
- Consultez les solutions dans `09_exercices_solutions.ipynb`
- Testez vos agents sur d'autres environnements Gymnasium
- Explorez d'autres algorithmes RL : Policy Gradient, Actor-Critic, PPO
- Passez au Chapitre 10 (Algorithmes G√©n√©tiques)

---