**Machine Learning II - TP1**

In [61]:
import gymnasium as gym 
import numpy as np
import random

Exercice 1 : Exploration de l'environnement FrozenLake
---

* **Chargement de l'environnement**

In [64]:
env = gym.make("FrozenLake-v1",render_mode="human")

In [65]:
env.reset()

(0, {'prob': 1})

* **Affichage des informations de l'espace d'états et d'actions**

In [67]:
print(f"Espace d'actions : {env.action_space}")
print(f"Espace d'observations : {env.observation_space}")

Espace d'actions : Discrete(4)
Espace d'observations : Discrete(16)


* **Les observations et les récompenses obtenus quand l'agent prend des actions aléatoires**

In [69]:
num_episodes = 3

In [70]:
for episode in range(num_episodes):
    print(f"\nÉpisode {episode + 1} :")
    state = env.reset()[0]
    for _ in range(20):
        action = env.action_space.sample()
        observation, reward, done, _, _ = env.step(action)
    
        print(f"Action : {action}, Observation : {observation}, Reward : {reward}")
    
        if done:
            env.reset()
    
env.close()


Épisode 1 :
Action : 3, Observation : 0, Reward : 0.0
Action : 2, Observation : 4, Reward : 0.0
Action : 2, Observation : 5, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 1, Observation : 4, Reward : 0.0
Action : 1, Observation : 4, Reward : 0.0
Action : 1, Observation : 8, Reward : 0.0
Action : 0, Observation : 4, Reward : 0.0
Action : 2, Observation : 8, Reward : 0.0
Action : 3, Observation : 9, Reward : 0.0
Action : 2, Observation : 10, Reward : 0.0
Action : 1, Observation : 14, Reward : 0.0
Action : 2, Observation : 10, Reward : 0.0
Action : 2, Observation : 14, Reward : 0.0
Action : 3, Observation : 15, Reward : 1.0
Action : 0, Observation : 0, Reward : 0.0
Action : 1, Observation : 1, Reward : 0.0
Action : 0, Observation : 1, Reward : 0.0
Action : 1, Observation : 2, Reward : 0.0

Épisode 2 :
Action : 1, Observation : 1, Reward : 0.0
Action : 0, Observation : 1, Reward : 0.0
Action : 3, Observation : 0, Reward : 0.0
Act

Exercice 2 : Implémentation de la Q-Table et Initialisation
---

* **Création  de la Q-Table**

In [73]:
Q_table = np.zeros((env.observation_space.n, env.action_space.n))

* **Affichage du table avant l'apprentissage**

In [75]:
print("\nQ-Table initiale :")
print(Q_table)


Q-Table initiale :
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


* **Vérification que chaque état a une liste de valeurs pour chaque action**

In [77]:
for state in range(env.observation_space.n):
    print(f"État {state} : {Q_table[state]}")

État 0 : [0. 0. 0. 0.]
État 1 : [0. 0. 0. 0.]
État 2 : [0. 0. 0. 0.]
État 3 : [0. 0. 0. 0.]
État 4 : [0. 0. 0. 0.]
État 5 : [0. 0. 0. 0.]
État 6 : [0. 0. 0. 0.]
État 7 : [0. 0. 0. 0.]
État 8 : [0. 0. 0. 0.]
État 9 : [0. 0. 0. 0.]
État 10 : [0. 0. 0. 0.]
État 11 : [0. 0. 0. 0.]
État 12 : [0. 0. 0. 0.]
État 13 : [0. 0. 0. 0.]
État 14 : [0. 0. 0. 0.]
État 15 : [0. 0. 0. 0.]


Exercice 3 : Implémentation du Q-Learning 
---

* **Définition des hyperparamètres**

In [89]:
alpha = 0.1 # Taux d'apprentissage
gamma = 0.99 # Facteur de discount
epsilon = 1.0 # Exploration initiale
epsilon_decay = 0.995 # Décroissance d'epsilon
num_episodes = 5000
min_epsilon = 0.01 

* **Mise à jour de la Q-TAble à l'aide de la règle de mise à jour du Q-Learning**

La Règle de mise à jour du Q-Learning :

**Q(s,a) = Q(s,a) + α * [R + γ * max Q(s',a') - Q(s,a)]**

In [91]:
for episode in range(num_episodes):
    state, _ = env.reset()
    done = False

    while not done:
        if np.random.rand() < epsilon:
            action = env.action_space.sample()  # Exploration
        else:
            action = np.argmax(Q_table[state, :])  # Exploitation

        new_state, reward, done, _, _ = env.step(action)

        # Mise à jour de la Q-Table
        Q_table[state, action] = Q_table[state, action] + alpha * (
            reward + gamma * np.max(Q_table[new_state, :]) - Q_table[state, action]
        )

        state = new_state

    # Réduction progressive de l'exploration
    epsilon = max(min_epsilon, epsilon * epsilon_decay)

    # Affichage de la Q-Table 
    if episode % 1000 == 0 or episode == num_episodes - 1:
        print(f"\nÉpisode {episode}/{num_episodes}")
        print(Q_table)

print("\nEntraînement terminé !")


Épisode 0/5000
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

Épisode 1000/5000
[[0.29887161 0.19296185 0.16900853 0.13848531]
 [0.05247418 0.02318166 0.02159192 0.22177339]
 [0.19084944 0.03954224 0.02218975 0.03285595]
 [0.01364765 0.02503539 0.00183236 0.00594433]
 [0.30988251 0.08809798 0.13872619 0.10542775]
 [0.         0.         0.         0.        ]
 [0.23381885 0.03101116 0.06339257 0.00872702]
 [0.         0.         0.         0.        ]
 [0.07279448 0.12700079 0.11377926 0.33720252]
 [0.06563512 0.37520698 0.12829413 0.06179497]
 [0.42814026 0.13990428 0.18589879 0.04710909]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.02825468 0.0872312  0.01891873 0.29084628]
 [0.03929817 0.3684789  0.73410175 0.27848993]
 [0.         0.    

Exercice 4: Evaluaion des performances de l'agent
---

* **Initialisation**

In [None]:
num_test_episodes = 100
successes = 0

* **Mesure du taux de réussite de l'agent**

In [94]:
num_test_episodes = 100
successes = 0

for _ in range(num_test_episodes):
    state, _ = env.reset()
    done = False

    while not done:
        action = np.argmax(Q_table[state, :])  # Prendre l'action optimale
        new_state, reward, done, truncated, _ = env.step(action)
        
        if reward == 1.0:  # L'agent a atteint l'objectif
            successes += 1

        state = new_state

# Affichage des résultats
print(f"\nTaux de réussite après entraînement : {successes}/{num_test_episodes} ({(successes/num_test_episodes) * 100:.2f}%)")



Taux de réussite après entraînement : 83/100 (83.00%)
