<Font size='6pt' color='blue'><center>RL_TP02<center/></Font>

### ❄️ TP - Exploration du Q-Learning avec FrozenLake

#### 🎯 Objectif du TP
L'objectif de ce TP est de mettre en pratique les concepts fondamentaux de l'**apprentissage par renforcement** à travers l’algorithme **Q-Learning**.

#### 📌 Contenu du TP
Au fil d’exercices progressifs, les étudiants vont :

1. 🔨 **Implémenter l’algorithme Q-Learning**
   - Comprendre les étapes de mise à jour de la **Q-Table**.

2. ⚙️ **Analyser les stratégies d'exploration et d'exploitation**
   - Observer l’impact du **taux d’exploration (ε)** et de l'**exploitation** sur l’apprentissage.

3. 📈 **Étudier la convergence des valeurs Q**
   - Visualiser comment les valeurs Q évoluent et convergent vers une **politique optimale**.

#### 🌍 Environnement d'expérimentation
L’environnement **FrozenLake** de **OpenAI Gym** sera utilisé comme terrain d’expérimentation.  
Il permettra d'illustrer concrètement **comment un agent apprend à optimiser ses décisions** en fonction des mises à jour successives de sa **Q-Table**.

---

🚀 À la fin de ce TP, vous serez capables de :  
✅ Implémenter un agent Q-Learning  
✅ Analyser son comportement d’apprentissage  
✅ Ajuster les paramètres pour améliorer ses performances

In [1]:
import numpy as np
import gymnasium as gym

- **Exploration de l'Environnement FrozenLake**

In [2]:
# Charger l’environnement FrozenLake
env = gym.make("FrozenLake-v1", is_slippery=True, render_mode="ansi")
print("Espace d'états:", env.observation_space)
print("Espace d'actions:", env.action_space)

Espace d'états: Discrete(16)
Espace d'actions: Discrete(4)


In [3]:
# Exécution d'une boucle d'interaction aléatoire
num_episodes = 5
for episode in range(num_episodes):
    state = env.reset()[0]
    done = False
    while not done:
        action = env.action_space.sample()  # Choix aléatoire d'une action
        next_state, reward, done, _, _ = env.step(action)
        print(f"Épisode {episode+1}, État: {state}, Action: {action}, Récompense: {reward}")
        state = next_state

Épisode 1, État: 0, Action: 1, Récompense: 0.0
Épisode 1, État: 0, Action: 2, Récompense: 0.0
Épisode 1, État: 1, Action: 2, Récompense: 0.0
Épisode 2, État: 0, Action: 1, Récompense: 0.0
Épisode 2, État: 0, Action: 2, Récompense: 0.0
Épisode 2, État: 0, Action: 1, Récompense: 0.0
Épisode 2, État: 4, Action: 0, Récompense: 0.0
Épisode 2, État: 8, Action: 1, Récompense: 0.0
Épisode 3, État: 0, Action: 0, Récompense: 0.0
Épisode 3, État: 4, Action: 3, Récompense: 0.0
Épisode 3, État: 4, Action: 3, Récompense: 0.0
Épisode 3, État: 0, Action: 1, Récompense: 0.0
Épisode 3, État: 0, Action: 2, Récompense: 0.0
Épisode 3, État: 0, Action: 2, Récompense: 0.0
Épisode 3, État: 0, Action: 2, Récompense: 0.0
Épisode 3, État: 1, Action: 1, Récompense: 0.0
Épisode 4, État: 0, Action: 2, Récompense: 0.0
Épisode 4, État: 4, Action: 0, Récompense: 0.0
Épisode 4, État: 4, Action: 0, Récompense: 0.0
Épisode 4, État: 0, Action: 3, Récompense: 0.0
Épisode 4, État: 0, Action: 1, Récompense: 0.0
Épisode 4, Ét

- **Implémentation de la Q-Table**

In [4]:
num_states = env.observation_space.n
num_actions = env.action_space.n
q_table = np.zeros((num_states, num_actions))
print("\nQ-Table initiale :\n", q_table)


Q-Table initiale :
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


- **Implémentation du Q-Learning**

In [5]:
alpha = 0.1 
gamma = 0.99  # Facteur de discount
epsilon = 1.0  # Probabilité d'exploration
epsilon_decay = 0.99  # Réduction progressive d'epsilon
epsilon_min = 0.01  # Valeur minimale d'epsilon
num_episodes = 5000  # Nombre d'épisodes

In [6]:
for episode in range(num_episodes):
    state = env.reset()[0]
    done = False
    while not done:
        if np.random.rand() < epsilon:
            action = env.action_space.sample() 
        else:
            action = np.argmax(q_table[state]) 
        next_state, reward, done, _, _ = env.step(action)
        q_table[state, action] = q_table[state, action] + alpha * (reward + gamma * np.max(q_table[next_state]) - q_table[state, action])
        state = next_state
    epsilon = max(epsilon_min, epsilon * epsilon_decay)
print("\nQ-Table après apprentissage :\n", q_table)


Q-Table après apprentissage :
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


- **Évaluation des Performances**

In [7]:
num_test_episodes = 100
successes = 0

for _ in range(num_test_episodes):
    state = env.reset()[0]
    done = False
    while not done:
        action = np.argmax(q_table[state])  
        state, reward, done, _, _ = env.step(action)
        if reward == 1:
            successes += 1
print(f"\nTaux de réussite après apprentissage : {successes}/{num_test_episodes} ({(successes/num_test_episodes)*100:.2f}%)")


Taux de réussite après apprentissage : 0/100 (0.00%)
