# Exploration de l'environnement FrozenLake

In [26]:
# import gym
import gymnasium as gym

In [28]:
# charger l'environnement FrozenLake
env = gym.make("FrozenLake-v1", is_slippery = True)# render_mode="human"
env.reset()

(0, {'prob': 1})

In [5]:
# afficher les info de env
print(f"Espace d’actions : {env.action_space}")  
print(f"Espace d’observations : {env.observation_space}")  

Espace d’actions : Discrete(4)
Espace d’observations : Discrete(16)


In [7]:
# executer une boucle des actions aleatoires
for _ in range(10):  
    action = env.action_space.sample()  
    observation, reward, done, _, _ = env.step(action)  
    print(f"Action : {action}, Observation : {observation}, Reward : {reward}")  
    if done:  
        env.reset()  
env.close()

Action : 0, Observation : 0, Reward : 0.0
Action : 1, Observation : 0, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 3, Observation : 0, Reward : 0.0
Action : 1, Observation : 1, Reward : 0.0
Action : 3, Observation : 1, Reward : 0.0
Action : 0, Observation : 0, Reward : 0.0
Action : 1, Observation : 1, Reward : 0.0


# Exercice 2 : implementation de Q-table et Initialisation

In [10]:
# Initaialisation de la Q-table
import numpy as np
q_table = np.zeros(shape = (16,4))
# affichage de la Q_table initaile
print("Q-Table initialisee :")
print(q_table)

Q-Table initialisee :
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


# Implementation du Q-Learning avec Mise a Jour

In [60]:
# Parametres
alpha = 0.1 # Taux d'apprentisage
gamma = 0.99 # Facteur de discount
epsilon = 1.0 # Exploration initiale
epsilon_decay = 0.995 # Decroissance d'epsilon
num_episode = 1000 # Nombre d'episode


# Boucle d'apprentissage
for episode in range(num_episode):
    # Réinitialisation de l'environnement à chaque épisode
    state = env.reset()[0]
    
    done = False
    while not done:
        
        if np.random.rand() < epsilon:
            action = env.action_space.sample()  # Exploration (action aléatoire)
        else:
            action = np.argmax(q_table[state])  # Exploitation (meilleure action selon la Q-table)

        # Prendre l'action et observer la récompense et le nouvel état
        next_state, reward, done, _, _ = env.step(action)

        # Mise à jour de la Q-table en utilisant la règle de Q-learning
        q_table[state, action] = q_table[state, action] + alpha * (reward + gamma * np.max(q_table[next_state]) - q_table[state, action])

        # Passer à l'état suivant
        state = next_state

    # Décroître epsilon pour réduire progressivement l'exploration
    epsilon = max(epsilon * epsilon_decay, 0.01)  # On garde epsilon au moins à 0.01

# Afficher la Q-table finale après l'apprentissage
print("Q-Table après apprentissage :")
print(q_table)

Q-Table après apprentissage :
[[0.55639479 0.47699659 0.48001039 0.46972858]
 [0.27388889 0.23411987 0.32660941 0.49635747]
 [0.36861881 0.36725727 0.37624745 0.44421719]
 [0.26245155 0.19624051 0.18818505 0.41961375]
 [0.57325178 0.37912639 0.29525849 0.43044168]
 [0.         0.         0.         0.        ]
 [0.32692174 0.16940392 0.16355878 0.05195193]
 [0.         0.         0.         0.        ]
 [0.33959929 0.35143203 0.34662802 0.59986506]
 [0.46899535 0.64699365 0.53448723 0.42500232]
 [0.62404496 0.28715617 0.3934711  0.37347633]
 [0.         0.         0.         0.        ]
 [0.         0.         0.         0.        ]
 [0.43539897 0.45047413 0.76210369 0.49129449]
 [0.7019102  0.89950805 0.73698217 0.67664597]
 [0.         0.         0.         0.        ]]


# Evaluation des Performences de l'agent

In [76]:
# Lancer 100 épisodes en utilisant l'action optimale et mesurer le taux de réussite
success_count = 0  # Compteur de réussites

for episode in range(100):
    state = env.reset()[0]  # Initialisation de l'état
    done = False

    while not done:
        action = np.argmax(q_table[state])  # Choisir l'action optimale
        next_state, reward, done, _, _ = env.step(action)

        if done and reward == 1:  # Si l'agent atteint l'objectif (reward == 1)
            success_count += 1
            break

        state = next_state

# Calculer et afficher le taux de réussite
success_rate = success_count / 100
print(f"Taux de réussite sur 100 épisodes : {success_rate * 100:.2f}%")

# Fermer l'environnement
env.close()

Taux de réussite sur 100 épisodes : 85.00%
