# APPRENTISSAGE PROFOND POUR LES JEUX - TP 4


## Exercice 1: Initialisation de l'environnement et des structures de données

In [19]:
import gymnasium as gym
import numpy as np

# Initialisation de l'environnement Taxi
env = gym.make("Taxi-v3")

# Taille de l'espace d'états et d'actions
state_size = env.observation_space.n  # 500 états
action_size = env.action_space.n      # 6 actions possibles

# Affichage formaté
print("\n" + "=" * 50)
print("🚕 INITIALISATION DE L'ENVIRONNEMENT TAXI-V3")
print("=" * 50)
print(f"📌 Nombre total d'états   : {state_size}")
print(f"🎮 Nombre total d'actions : {action_size}")

# Création d'une table de politique : probas égales pour chaque action
policy_table = np.full((state_size, action_size), 1.0 / action_size)

# Création d'une table de valeurs initialisée à zéro
value_table = np.zeros(state_size)

# Affichage des premières lignes sous forme de tableau clair
print("\n📊 Extrait de la policy_table (probabilités d'action) :")
print("État | Action 0 | Action 1 | Action 2 | Action 3 | Action 4 | Action 5")
print("-" * 65)
for i in range(5):  # Afficher seulement les 5 premiers états
    print(f"{i:>4} | {' | '.join(f'{p:.2f}' for p in policy_table[i])}")

print("\n📈 Extrait de la value_table (valeurs associées aux états) :")
print("État | Valeur")
print("-" * 20)
for i in range(5):  # Afficher seulement les 5 premiers états
    print(f"{i:>4} | {value_table[i]:.2f}")

print("\n✅ Initialisation terminée ! 🚀")



🚕 INITIALISATION DE L'ENVIRONNEMENT TAXI-V3
📌 Nombre total d'états   : 500
🎮 Nombre total d'actions : 6

📊 Extrait de la policy_table (probabilités d'action) :
État | Action 0 | Action 1 | Action 2 | Action 3 | Action 4 | Action 5
-----------------------------------------------------------------
   0 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17
   1 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17
   2 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17
   3 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17
   4 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17 | 0.17

📈 Extrait de la value_table (valeurs associées aux états) :
État | Valeur
--------------------
   0 | 0.00
   1 | 0.00
   2 | 0.00
   3 | 0.00
   4 | 0.00

✅ Initialisation terminée ! 🚀


## Exercice 2: Exploration et collecte d'épisodes

In [17]:
#import gym

# Initialisation de l'environnement
env = gym.make("Taxi-v3")

num_episodes = 20

print("\n" + "=" * 50)
print("🚕 SIMULATION DE L'AGENT DANS ENVIRONNEMENT TAXI-V3")
print("=" * 50)

for episode in range(num_episodes):
    state, _ = env.reset()
    done = False
    total_reward = 0
    step = 0

    print(f"\n🎬 Épisode {episode + 1} | 🚀 Démarrage de la simulation...")
    print("-" * 50)

    while not done:
        action = env.action_space.sample()  # Action aléatoire
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated

        print(f"🛑 Étape {step:02d} | 🕹 Action : {action} | ⭐ Récompense : {reward:+d}")
        total_reward += reward
        state = next_state
        step += 1

    print("-" * 50)
    print(f"✅ Épisode {episode + 1} terminé en {step} étapes | 🎯 Récompense totale : {total_reward}")

print("\n🏁 Simulation terminée ! 🚀")


🚕 SIMULATION DE L'AGENT DANS ENVIRONNEMENT TAXI-V3

🎬 Épisode 1 | 🚀 Démarrage de la simulation...
--------------------------------------------------
🛑 Étape 00 | 🕹 Action : 3 | ⭐ Récompense : -1
🛑 Étape 01 | 🕹 Action : 0 | ⭐ Récompense : -1
🛑 Étape 02 | 🕹 Action : 5 | ⭐ Récompense : -10
🛑 Étape 03 | 🕹 Action : 3 | ⭐ Récompense : -1
🛑 Étape 04 | 🕹 Action : 4 | ⭐ Récompense : -10
🛑 Étape 05 | 🕹 Action : 5 | ⭐ Récompense : -10
🛑 Étape 06 | 🕹 Action : 0 | ⭐ Récompense : -1
🛑 Étape 07 | 🕹 Action : 3 | ⭐ Récompense : -1
🛑 Étape 08 | 🕹 Action : 5 | ⭐ Récompense : -10
🛑 Étape 09 | 🕹 Action : 1 | ⭐ Récompense : -1
🛑 Étape 10 | 🕹 Action : 4 | ⭐ Récompense : -10
🛑 Étape 11 | 🕹 Action : 5 | ⭐ Récompense : -10
🛑 Étape 12 | 🕹 Action : 1 | ⭐ Récompense : -1
🛑 Étape 13 | 🕹 Action : 0 | ⭐ Récompense : -1
🛑 Étape 14 | 🕹 Action : 3 | ⭐ Récompense : -1
🛑 Étape 15 | 🕹 Action : 1 | ⭐ Récompense : -1
🛑 Étape 16 | 🕹 Action : 2 | ⭐ Récompense : -1
🛑 Étape 17 | 🕹 Action : 5 | ⭐ Récompense : -10
🛑 Étape 18 | 🕹 

## Exercice 3 : Mise à jour de la politique avec PРО

In [13]:
import numpy as np

# --- Affichage des résultats avec mise en forme ---
def display_results(value_table, policy_table, episode_rewards_list):
    print("\n" + "="*50)
    print("🎯 RÉSULTATS DE L'ENTRAÎNEMENT PPO")
    print("="*50)

    # Statistiques générales
    print(f"\n📊 Nombre total d'épisodes : {len(episode_rewards_list)}")
    print(f"📈 Récompense moyenne finale : {np.mean(episode_rewards_list[-100:]):.2f}")
    print(f"🏅 Meilleure récompense atteinte : {np.max(episode_rewards_list):.2f}")

    # Affichage des 10 premières valeurs de la value_table
    print("\n📌 Extrait de la Value Table (10 premiers états) :")
    print("-" * 50)
    for i in range(10):
        print(f"🟢 État {i} → Valeur estimée : {value_table[i]:.3f}")

    # Affichage de la politique pour les 5 premiers états
    print("\n📌 Politique extraite (probabilités d'action) :")
    print("-" * 50)
    for s in range(5):
        policy_str = " | ".join([f"A{a}: {p:.2f}" for a, p in enumerate(policy_table[s])])
        print(f"🔹 État {s} → {policy_str}")

    print("\n✅ Entraînement terminé avec succès ! 🎉")

# Appel de la fonction d'affichage après l'entraînement
display_results(value_table, policy_table, episode_rewards_list)


🎯 RÉSULTATS DE L'ENTRAÎNEMENT PPO

📊 Nombre total d'épisodes : 1000
📈 Récompense moyenne finale : -709.67
🏅 Meilleure récompense atteinte : -200.00

📌 Extrait de la Value Table (10 premiers états) :
--------------------------------------------------
🟢 État 0 → Valeur estimée : 0.000
🟢 État 1 → Valeur estimée : -158.332
🟢 État 2 → Valeur estimée : -124.896
🟢 État 3 → Valeur estimée : -89.856
🟢 État 4 → Valeur estimée : -217.364
🟢 État 5 → Valeur estimée : 0.000
🟢 État 6 → Valeur estimée : -91.120
🟢 État 7 → Valeur estimée : -17.964
🟢 État 8 → Valeur estimée : -91.743
🟢 État 9 → Valeur estimée : -91.743

📌 Politique extraite (probabilités d'action) :
--------------------------------------------------
🔹 État 0 → A0: 0.17 | A1: 0.17 | A2: 0.17 | A3: 0.17 | A4: 0.17 | A5: 0.17
🔹 État 1 → A0: 0.00 | A1: 0.00 | A2: 1.00 | A3: 0.00 | A4: 0.00 | A5: 0.00
🔹 État 2 → A0: 0.81 | A1: 0.19 | A2: 0.00 | A3: 0.00 | A4: 0.00 | A5: 0.00
🔹 État 3 → A0: 0.00 | A1: 0.00 | A2: 0.00 | A3: 0.00 | A4: 0.00 | 

## Exercice 4: Évaluation de l'agent après entraînement

In [11]:
import numpy as np

# Nombre d'épisodes pour l'évaluation
num_eval_episodes = 20

# --- Fonction pour évaluer un agent donné ---
def evaluate_agent(policy_table, mode="greedy", episodes=20):
    total_rewards = []
    
    for ep in range(episodes):
        state, _ = env.reset()
        done = False
        total_reward = 0

        while not done:
            if mode == "greedy":
                action = np.argmax(policy_table[state])  # action max
            elif mode == "random":
                action = env.action_space.sample()       # action aléatoire
            else:
                raise ValueError("Mode inconnu : choisir 'greedy' ou 'random'")
            
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            total_reward += reward
            state = next_state
        
        total_rewards.append(total_reward)
    
    return total_rewards

# --- Évaluation AVANT entraînement (agent aléatoire) ---
print("\n" + "="*40)
print("📢 Évaluation de l'agent avant entraînement (aléatoire)")
print("="*40)

random_rewards = evaluate_agent(policy_table, mode="random", episodes=num_eval_episodes)

print("\n🎯 Résultats de l'agent aléatoire")
print("-" * 40)
print(f"📊 Récompenses obtenues : {random_rewards}")
print(f"📈 Récompense moyenne : {np.mean(random_rewards):.2f}")
print("="*40)

# --- Évaluation APRÈS entraînement (agent PPO) ---
print("\n" + "="*40)
print("🏆 Évaluation de l'agent après entraînement (PPO)")
print("="*40)

ppo_rewards = evaluate_agent(policy_table, mode="greedy", episodes=num_eval_episodes)

print("\n🚀 Résultats de l'agent entraîné (PPO)")
print("-" * 40)
print(f"📊 Récompenses obtenues : {ppo_rewards}")
print(f"📈 Récompense moyenne : {np.mean(ppo_rewards):.2f}")
print("="*40)

# --- Comparaison ---
improvement = np.mean(ppo_rewards) - np.mean(random_rewards)

print("\n🔍 Comparaison des performances")
print("-" * 40)
print(f"📉 Récompense moyenne (aléatoire) : {np.mean(random_rewards):.2f}")
print(f"📈 Récompense moyenne (PPO) : {np.mean(ppo_rewards):.2f}")
print(f"📊 Amélioration moyenne : {improvement:.2f}")
print("="*40)


📢 Évaluation de l'agent avant entraînement (aléatoire)

🎯 Résultats de l'agent aléatoire
----------------------------------------
📊 Récompenses obtenues : [-821, -848, -785, -803, -785, -758, -677, -875, -749, -857, -758, -812, -758, -812, -884, -821, -758, -713, -776, -686]
📈 Récompense moyenne : -786.80

🏆 Évaluation de l'agent après entraînement (PPO)

🚀 Résultats de l'agent entraîné (PPO)
----------------------------------------
📊 Récompenses obtenues : [-200, -200, -200, -200, -200, -200, -200, -200, -200, -200, -200, -200, -2000, -200, -1991, -200, -2000, -200, -200, -200]
📈 Récompense moyenne : -469.55

🔍 Comparaison des performances
----------------------------------------
📉 Récompense moyenne (aléatoire) : -786.80
📈 Récompense moyenne (PPO) : -469.55
📊 Amélioration moyenne : 317.25
