# **Machine Learning II - TP4 - Apprentissage profond pour les jeux**

**Exercice 1 : Initialisation de l'Environnement et des Structures de Données**

In [1]:
import gymnasium as gym
import numpy as np

In [2]:
# Initialisation de l'environnement Taxi-v3
env = gym.make("Taxi-v3")
state_size = env.observation_space.n
action_size = env.action_space.n

In [3]:
# Création des tables
policy_table = np.ones((state_size, action_size)) / action_size  # Politique uniformément répartie
value_table = np.zeros(state_size)


In [4]:
# Affichage des structures initiales
print("Policy Table (premières lignes) :")
print(policy_table[:5])
print("Value Table (premières lignes) :")
print(value_table[:5])

Policy Table (premières lignes) :
[[0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667]]
Value Table (premières lignes) :
[0. 0. 0. 0. 0.]


**Exercice 2 : Expiration et Collecte d'Épisodes**

In [5]:
num_episodes = 20

for episode in range(num_episodes):
    state, _ = env.reset()
    done = False
    print(f"Épisode {episode+1} :")
    while not done:
        action = env.action_space.sample()
        next_state, reward, done, _, _ = env.step(action)
        print(f"Action : {action}, Récompense : {reward}")
        state = next_state
    print("-" * 40)


[1;30;43mLe flux de sortie a été tronqué et ne contient que les 5000 dernières lignes.[0m
Action : 4, Récompense : -10
Action : 5, Récompense : -10
Action : 4, Récompense : -10
Action : 2, Récompense : -1
Action : 1, Récompense : -1
Action : 5, Récompense : -10
Action : 1, Récompense : -1
Action : 4, Récompense : -10
Action : 0, Récompense : -1
Action : 5, Récompense : -10
Action : 4, Récompense : -10
Action : 0, Récompense : -1
Action : 3, Récompense : -1
Action : 5, Récompense : -10
Action : 4, Récompense : -10
Action : 3, Récompense : -1
Action : 1, Récompense : -1
Action : 4, Récompense : -10
Action : 1, Récompense : -1
Action : 2, Récompense : -1
Action : 4, Récompense : -10
Action : 4, Récompense : -10
Action : 4, Récompense : -10
Action : 0, Récompense : -1
Action : 4, Récompense : -10
Action : 0, Récompense : -1
Action : 4, Récompense : -10
Action : 5, Récompense : -10
Action : 2, Récompense : -1
Action : 2, Récompense : -1
Action : 0, Récompense : -1
Action : 4, Récompense :

**Exercice 3 : Mise à Jour de la Politique avec PPO**

In [6]:
gamma = 0.99
lr_policy = 0.1
clip_epsilon = 0.2

In [7]:
episode_states = []   # Liste des états visités durant l'épisode
episode_actions = []  # Liste des actions effectuées
episode_rewards = []  # Liste des récompenses obtenues

# Calcul des récompenses cumulées (discounted rewards)
# et de l'avantage pour chaque état
for t in range(len(episode_states)):
    R_t = sum([gamma**i * r for i, r in enumerate(episode_rewards[t:])])
    advantage = R_t - value_table[episode_states[t]]
    r_theta = 0
    # Fonction objectif PPO
    L = min(r_theta * advantage, np.clip(r_theta, 1 - clip_epsilon, 1 + clip_epsilon) * advantage)

**Exercice 4 : Évaluation de l'Agent Après Entraînement**

In [8]:
num_eval_episodes = 5
total_rewards = []
max_steps = 200

for ep in range(num_eval_episodes):
    state, _ = env.reset()
    total_reward = 0
    done = False
    step = 0
    print(f"Épisode {ep+1}:")
    while not done and step < max_steps:
        # Sélectionner l'action optimale selon la table de politique après entraînement
        action = np.argmax(policy_table[state])
        next_state, reward, done, _, _ = env.step(action)
        total_reward += reward

        # Affichage de l'action et de la récompense pour cette étape
        print(f"Étape {step}: Action: {action}, Récompense: {reward}")

        state = next_state
        step += 1

    if step >= max_steps:
        print("Limite d'étapes atteinte.")

    total_rewards.append(total_reward)
    print(f"Récompense cumulée de l'épisode {ep+1}: {total_reward}\n")

print("Récompenses cumulées sur les épisodes d'évaluation :", total_rewards)

Épisode 1:
Étape 0: Action: 0, Récompense: -1
Étape 1: Action: 0, Récompense: -1
Étape 2: Action: 0, Récompense: -1
Étape 3: Action: 0, Récompense: -1
Étape 4: Action: 0, Récompense: -1
Étape 5: Action: 0, Récompense: -1
Étape 6: Action: 0, Récompense: -1
Étape 7: Action: 0, Récompense: -1
Étape 8: Action: 0, Récompense: -1
Étape 9: Action: 0, Récompense: -1
Étape 10: Action: 0, Récompense: -1
Étape 11: Action: 0, Récompense: -1
Étape 12: Action: 0, Récompense: -1
Étape 13: Action: 0, Récompense: -1
Étape 14: Action: 0, Récompense: -1
Étape 15: Action: 0, Récompense: -1
Étape 16: Action: 0, Récompense: -1
Étape 17: Action: 0, Récompense: -1
Étape 18: Action: 0, Récompense: -1
Étape 19: Action: 0, Récompense: -1
Étape 20: Action: 0, Récompense: -1
Étape 21: Action: 0, Récompense: -1
Étape 22: Action: 0, Récompense: -1
Étape 23: Action: 0, Récompense: -1
Étape 24: Action: 0, Récompense: -1
Étape 25: Action: 0, Récompense: -1
Étape 26: Action: 0, Récompense: -1
Étape 27: Action: 0, Récomp