### Objectif : ###

#### Ce TP permet de mettre en pratique les concepts de l'apprentissage par renforcement en explorant l'algorithme Q-Learning. À travers des exercices progressifs, les étudiants implémenteront cet algorithme, analyseront l'impact des stratégies d'exploration et d'exploitation, et observeront la convergence des valeurs Q. L'environnement FrozenLake de OpenAI Gym servira à illustrer comment un agent optimise ses décisions via les mises à jour de sa Q-table.

### Exercice 1 : ###
### Exploration de l'Environnement FrozenLake ###

In [6]:
import gymnasium as gym
import numpy as np

# Charger l’env
env = gym.make("FrozenLake-v1", is_slippery=True, render_mode="ansi")

# les infos d'espace d’états et d’actions
print("Nombre d'états:", env.observation_space)
print("Nombre d'actions:", env.action_space)

# boucle pour agent prend des actions aléatoires pendant plusieurs épisodes
num_episodes = 5
for episode in range(num_episodes):
    state = env.reset()  # Recupere l'état initial
    done = False
    print(f"\nÉpisode {episode + 1}:")
    
    while not done:
        action = env.action_space.sample()  # action aléatoire
        new_state, reward, done, _, _ = env.step(action) # maj de state , reward et done si agent atteint objectif
        print(f"État: {state} -> Action: {action} -> Nouvel État: {new_state}, Récompense: {reward}")
        state = new_state


Nombre d'états: Discrete(16)
Nombre d'actions: Discrete(4)

Épisode 1:
État: (0, {'prob': 1}) -> Action: 1 -> Nouvel État: 4, Récompense: 0.0
État: 4 -> Action: 0 -> Nouvel État: 8, Récompense: 0.0
État: 8 -> Action: 0 -> Nouvel État: 12, Récompense: 0.0

Épisode 2:
État: (0, {'prob': 1}) -> Action: 0 -> Nouvel État: 4, Récompense: 0.0
État: 4 -> Action: 0 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 1 -> Nouvel État: 4, Récompense: 0.0
État: 4 -> Action: 3 -> Nouvel État: 5, Récompense: 0.0

Épisode 3:
État: (0, {'prob': 1}) -> Action: 1 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 1 -> Nouvel État: 4, Récompense: 0.0
État: 4 -> Action: 2 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 0 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 0 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 3 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 0 -> Nouvel État: 0, Récompense: 0.0
État: 0 -> Action: 2 -> Nouvel État: 1, Récompense: 0.0
État: 1 -> Action: 

### Exercice 2 : ###
### Implémenintion de la Q-Table et Initialisation ###

In [7]:
# Initialisation de la Q-Table
num_states = env.observation_space.n
num_actions = env.action_space.n
q_table = np.zeros((num_states, num_actions))

# Affichage de la Q-Table initialisée
print("Q-Table : ")
print(q_table)


Q-Table : 
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


### Exercice 3 : ###
### Implémentation du Q-Learning avec Mise à Jour ###

In [8]:

alpha = 0.1        # Taux d’apprentissage
gamma = 0.99       # Facteur  (importance des récompenses futures).
epsilon = 1.0      # Exploration initiale (beaucoup d'exploration)
epsilon_decay = 0.995  # Diminution de epsilon (moins d’exploration avec le temps).
num_episodes = 1000  # Nombre d'épisodes

# Boucle d’apprentissage
for episode in range(num_episodes):
    state = env.reset()[0]
    done = False

    while not done:
       # exploration vs exploitation , au debut  grand epsilon l'agent explore , epsilon diminue agent exploite 
        if np.random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()  # Exploration
        else:
            action = np.argmax(q_table[state])  # Exploitation
        
        new_state, reward, done, _, _ = env.step(action)

        # Mise à jour de la Q-Table avec la règle de mise à jour du Q-Learning
        q_table[state, action] = q_table[state, action] + alpha * (reward + gamma * np.max(q_table[new_state]) - q_table[state, action])

        state = new_state
    
    # Réduction de epsilon pour favoriser l'exploitation
    epsilon = max(epsilon * epsilon_decay, 0.01)

print("Q-Table après apprentissage :")
print(q_table)


Q-Table après apprentissage :
[[0.05158415 0.05119448 0.05931367 0.07491516]
 [0.03645247 0.0496811  0.04457252 0.0759356 ]
 [0.07966332 0.04880419 0.05038642 0.04164569]
 [0.01614044 0.0036161  0.00560339 0.00641948]
 [0.04311742 0.0312149  0.03597873 0.03529335]
 [0.         0.         0.         0.        ]
 [0.03801846 0.03263077 0.08602969 0.01219099]
 [0.         0.         0.         0.        ]
 [0.02235104 0.03194845 0.04789264 0.02243956]
 [0.03613896 0.06481674 0.11787418 0.0416214 ]
 [0.27033853 0.13150192 0.07923889 0.036221  ]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.06384604 0.11118385 0.07470197 0.24108942]
 [0.07718977 0.19542683 0.16210185 0.5187822 ]
 [0.         0.         0.         0.        ]]


### Exercice 4 : ###
### Évaluation des Performances de l'Agent ###

In [11]:
num_test_episodes = 100
successes = 0

for _ in range(num_test_episodes):
    state = env.reset()[0]
    done = False

    while not done:
        action = np.argmax(q_table[state])  # Action optimale dans q-table
        new_state, reward, done, _, _ = env.step(action)
        state = new_state

        if reward == 1:
            successes += 1

# Mesurer le taux de réussite
success_rate = (successes / num_test_episodes) * 100
print(f"Taux de réussite de l'agent : {success_rate}%")


Taux de réussite de l'agent : 13.0%
