# Rapport Expérimental - Algorithmes d'Apprentissage par Renforcement

**Projet**: (Deep) Reinforcement Learning P1  
**Année**: 2024-2025  
**Enseignant**: Nicolas VIDAL

---

## Objectifs

Ce rapport présente une évaluation comparative complète des algorithmes d'apprentissage par renforcement classiques :

1. **Dynamic Programming** : Policy Iteration, Value Iteration
2. **Monte Carlo** : ES, On-policy, Off-policy
3. **Temporal Difference** : SARSA, Q-Learning, Expected SARSA
4. **Planning** : Dyna-Q, Dyna-Q+

### Questions de recherche

- Quel algorithme est le plus performant sur quel environnement ?
- Comment les hyperparamètres affectent-ils les performances ?
- Quels sont les compromis vitesse/qualité pour chaque méthode ?
- Quelles recommandations pratiques en découlent ?

## Setup et Imports

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuration matplotlib
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 11

# Imports du projet
from experiments import ExperimentRunner, generate_report
from hyperparameter_studies import main as run_hyperparameter_studies
from envs import LineWorld, GridWorld, RPS, MontyHall1, MontyHall2
from algos import *

print("✅ Setup terminé")

## 1. Présentation des Environnements

### 1.1 LineWorld

In [None]:
# Démonstration LineWorld
env = LineWorld()
print(f"📏 LineWorld : {env.num_states()} états, {env.num_actions()} actions")
print(f"État initial : {env.state()}")
print(f"Score initial : {env.score()}")
print("\nTest de quelques actions :")

# Simulation d'un épisode
env.reset()
actions = [0, 0, 1, 1, 1]  # gauche, gauche, droite, droite, droite
for i, action in enumerate(actions):
    if not env.is_game_over():
        prev_state = env.state()
        prev_score = env.score()
        env.step(action)
        print(f"  Étape {i+1}: action={action}, état={prev_state}→{env.state()}, score={prev_score}→{env.score()}")
    else:
        break

print(f"\n🏁 Épisode terminé. Score final : {env.score()}")

### 1.2 GridWorld

In [None]:
# Démonstration GridWorld
env = GridWorld()
print(f"🏗️ GridWorld : {env.num_states()} états, {env.num_actions()} actions")
print(f"Actions : 0=UP, 1=RIGHT, 2=DOWN, 3=LEFT")
print(f"\nÉtat initial :")
env.render()

# Test d'une séquence d'actions
actions = [1, 1, 1, 1, 2, 2, 2, 2]  # droite×4, bas×4
print("Séquence d'actions : RIGHT×4, DOWN×4")
for action in actions:
    if not env.is_game_over():
        env.step(action)
        
print(f"\nÉtat final :")
env.render()

### 1.3 Rock-Paper-Scissors (RPS)

In [None]:
# Démonstration RPS
env = RPS()
print(f"✂️ Rock-Paper-Scissors : {env.num_states()} états, {env.num_actions()} actions")
print(f"Actions : 0=ROCK, 1=PAPER, 2=SCISSORS")
print(f"\nRègles :")
print(f"- Manche 1 : adversaire joue aléatoirement")
print(f"- Manche 2 : adversaire copie votre coup de la manche 1")
print(f"- Score = somme des résultats des 2 manches")

# Simulation d'un épisode
env.reset()
print(f"\nÉtat initial : {env.state()}")
env.render()

# Jouer PAPER puis ROCK
print("\n🎮 Action 1 : PAPER")
env.step(1)  # PAPER
env.render()

print("\n🎮 Action 2 : ROCK")
env.step(0)  # ROCK  
env.render()

print(f"\n🏁 Score final : {env.score()}")

### 1.4 Monty Hall

In [None]:
# Démonstration Monty Hall 1 (3 portes)
env = MontyHall1()
print(f"🚪 Monty Hall 1 : {env.num_states()} états, {env.num_actions()} actions")
print(f"Actions : 0=Porte A, 1=Porte B, 2=Porte C")

# Simulation de la stratégie "toujours changer"
total_wins = 0
num_simulations = 1000

for _ in range(num_simulations):
    env.reset()
    
    # Première action : choisir porte 0
    env.step(0)
    
    # Deuxième action : changer (choisir une porte différente de 0)
    # L'environnement nous indique quelles portes sont disponibles via l'état
    available_doors = [1, 2]  # Simplifié pour la démo
    env.step(available_doors[0])
    
    if env.score() > 0:
        total_wins += 1

win_rate = total_wins / num_simulations
print(f"\n📊 Stratégie 'toujours changer' : {win_rate:.1%} de victoires")
print(f"📚 Théorie : ~66.7% attendu")

## 2. Expérimentation Principale

### 2.1 Comparaison tous algorithmes × tous environnements

In [None]:
# Lancement de l'expérimentation principale
print("🚀 Lancement de l'expérimentation complète...")
print("⏱️ Cela peut prendre plusieurs minutes...")

runner = ExperimentRunner("results")

# Environnements à tester
environments = ["lineworld", "gridworld", "rps", "montyhall1"]
# Note: montyhall2 omis pour des raisons de temps d'exécution

# Algorithmes à tester  
algorithms = [
    "policy_iteration", "value_iteration",           # DP
    "mc_es", "mc_on_policy", "mc_off_policy",       # MC
    "sarsa", "q_learning", "expected_sarsa",        # TD
    "dyna_q"                                         # Planning
]

# Exécution
results_df, detailed_results = runner.run_full_comparison(environments, algorithms)

print("✅ Expérimentation terminée !")
print(f"📊 {len(results_df)} expériences réalisées")

# Aperçu des résultats
print("\n📋 Aperçu des résultats :")
display(results_df.head(10))

### 2.2 Analyse des Performances

In [None]:
# Statistiques générales
print("📈 STATISTIQUES GÉNÉRALES")
print("=" * 50)

# Performance moyenne par algorithme
algo_stats = results_df.groupby("Algorithm")["Final Score"].agg(["mean", "std", "count"]).round(3)
algo_stats = algo_stats.sort_values("mean", ascending=False)
print("\n🏆 Classement des algorithmes (score moyen) :")
display(algo_stats)

# Performance par environnement
env_stats = results_df.groupby("Environment")["Final Score"].agg(["mean", "std", "min", "max"]).round(3)
print("\n🎯 Performance par environnement :")
display(env_stats)

# Vitesse de convergence
conv_stats = results_df.groupby("Algorithm")["Convergence Episode"].agg(["mean", "std"]).round(1)
conv_stats = conv_stats.sort_values("mean")
print("\n⚡ Vitesse de convergence (épisodes) :")
display(conv_stats)

In [None]:
# Visualisations des performances
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Heatmap des performances
ax = axes[0, 0]
pivot_scores = results_df.pivot(index="Algorithm", columns="Environment", values="Final Score")
sns.heatmap(pivot_scores, annot=True, fmt=".3f", cmap="viridis", ax=ax)
ax.set_title("Performance des Algorithmes par Environnement", fontsize=14, fontweight='bold')

# 2. Boxplot des performances par algorithme
ax = axes[0, 1]
results_df.boxplot(column="Final Score", by="Algorithm", ax=ax, rot=45)
ax.set_title("Distribution des Performances par Algorithme", fontsize=14, fontweight='bold')
ax.set_xlabel("Algorithme")
ax.set_ylabel("Score Final")

# 3. Temps de convergence vs Performance
ax = axes[1, 0]
for algo in results_df["Algorithm"].unique():
    algo_data = results_df[results_df["Algorithm"] == algo]
    ax.scatter(algo_data["Convergence Episode"], algo_data["Final Score"], 
              label=algo, alpha=0.7, s=60)
ax.set_xlabel("Épisodes jusqu'à Convergence")
ax.set_ylabel("Score Final")
ax.set_title("Compromis Vitesse vs Performance", fontsize=14, fontweight='bold')
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(True, alpha=0.3)

# 4. Temps d'exécution par algorithme
ax = axes[1, 1]
time_stats = results_df.groupby("Algorithm")["Training Time (s)"].mean().sort_values()
time_stats.plot(kind='bar', ax=ax, color='coral')
ax.set_title("Temps d'Exécution Moyen par Algorithme", fontsize=14, fontweight='bold')
ax.set_xlabel("Algorithme")
ax.set_ylabel("Temps (secondes)")
ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

### 2.3 Analyse par Environnement

In [None]:
# Analyse détaillée par environnement
for env_name in environments:
    print(f"\n{'='*60}")
    print(f"🎯 ANALYSE : {env_name.upper()}")
    print(f"{'='*60}")
    
    env_data = results_df[results_df["Environment"] == env_name]
    
    if len(env_data) == 0:
        print("❌ Aucune donnée disponible")
        continue
    
    # Classement des algorithmes
    ranking = env_data.sort_values("Final Score", ascending=False)
    print("\n🏆 Classement des algorithmes :")
    for i, (_, row) in enumerate(ranking.iterrows(), 1):
        print(f"  {i}. {row['Algorithm']:15} | Score: {row['Final Score']:6.3f} | "
              f"Convergence: {row['Convergence Episode']:4.0f} épisodes | "
              f"Temps: {row['Training Time (s)']:5.2f}s")
    
    # Recommandation
    best_algo = ranking.iloc[0]
    print(f"\n✅ RECOMMANDATION : {best_algo['Algorithm']}")
    print(f"   Justification : Score optimal ({best_algo['Final Score']:.3f}) avec "
          f"convergence en {best_algo['Convergence Episode']:.0f} épisodes")

## 3. Études des Hyperparamètres

### 3.1 Impact du Learning Rate (α)

In [None]:
# Étude simplifiée du learning rate
print("🔬 Étude de l'impact du learning rate...")

runner = ExperimentRunner("results/quick_hyperparam")

# Test sur GridWorld avec Q-Learning
alpha_values = [0.01, 0.1, 0.3, 0.5, 0.9]
alpha_results = []

for alpha in alpha_values:
    print(f"  Testing α = {alpha}...")
    
    # Configuration réduite pour rapidité
    from experiments import ExperimentConfig
    config = ExperimentConfig(
        env_name="gridworld",
        algo_name="q_learning",
        num_episodes=1000,
        num_runs=3,  # Réduit pour la démo
        hyperparams={"alpha": alpha}
    )
    
    result = runner.run_single_experiment(config)
    alpha_results.append({
        "Alpha": alpha,
        "Final Score": result.final_score,
        "Convergence Episode": result.convergence_episode
    })

alpha_df = pd.DataFrame(alpha_results)
display(alpha_df)

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

ax1.plot(alpha_df["Alpha"], alpha_df["Final Score"], 'o-', linewidth=2, markersize=8)
ax1.set_xlabel("Learning Rate (α)")
ax1.set_ylabel("Score Final")
ax1.set_title("Impact du Learning Rate sur la Performance")
ax1.grid(True, alpha=0.3)

ax2.plot(alpha_df["Alpha"], alpha_df["Convergence Episode"], 'o-', color='red', linewidth=2, markersize=8)
ax2.set_xlabel("Learning Rate (α)")
ax2.set_ylabel("Épisodes jusqu'à Convergence")
ax2.set_title("Impact du Learning Rate sur la Vitesse")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse
best_alpha_perf = alpha_df.loc[alpha_df["Final Score"].idxmax(), "Alpha"]
best_alpha_speed = alpha_df.loc[alpha_df["Convergence Episode"].idxmin(), "Alpha"]
print(f"\n📊 ANALYSE :")
print(f"  • Meilleur α pour la performance : {best_alpha_perf}")
print(f"  • Meilleur α pour la vitesse : {best_alpha_speed}")

### 3.2 Impact de la Planification (Dyna-Q)

In [None]:
# Étude de l'impact du nombre d'étapes de planification
print("🧠 Étude de l'impact de la planification...")

planning_steps = [0, 10, 25, 50, 100]
planning_results = []

for n_steps in planning_steps:
    print(f"  Testing planning_steps = {n_steps}...")
    
    config = ExperimentConfig(
        env_name="gridworld",
        algo_name="dyna_q",
        num_episodes=500,  # Moins d'épisodes car Dyna-Q converge plus vite
        num_runs=3,
        hyperparams={"n_planning_steps": n_steps}
    )
    
    result = runner.run_single_experiment(config)
    planning_results.append({
        "Planning Steps": n_steps,
        "Final Score": result.final_score,
        "Convergence Episode": result.convergence_episode,
        "Training Time": result.training_time
    })

planning_df = pd.DataFrame(planning_results)
display(planning_df)

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

ax1.plot(planning_df["Planning Steps"], planning_df["Final Score"], 'o-', linewidth=2, markersize=8, color='green')
ax1.set_xlabel("Nombre d'étapes de planification")
ax1.set_ylabel("Score Final")
ax1.set_title("Performance vs Planification")
ax1.grid(True, alpha=0.3)

ax2.plot(planning_df["Planning Steps"], planning_df["Training Time"], 'o-', linewidth=2, markersize=8, color='orange')
ax2.set_xlabel("Nombre d'étapes de planification")
ax2.set_ylabel("Temps d'entraînement (s)")
ax2.set_title("Coût Computationnel vs Planification")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse du rapport coût/bénéfice
planning_df["Efficiency"] = planning_df["Final Score"] / planning_df["Training Time"]
best_efficiency = planning_df.loc[planning_df["Efficiency"].idxmax()]
print(f"\n⚖️ ANALYSE COÛT/BÉNÉFICE :")
print(f"  • Configuration optimale : {best_efficiency['Planning Steps']} étapes")
print(f"  • Score : {best_efficiency['Final Score']:.3f}")
print(f"  • Temps : {best_efficiency['Training Time']:.2f}s")
print(f"  • Efficacité : {best_efficiency['Efficiency']:.4f} score/seconde")

## 4. Analyse des Environnements Secrets

*Note: Cette section sera complétée une fois les environnements secrets fournis*

In [None]:
# Placeholder pour les environnements secrets
print("🔒 Environnements secrets non encore fournis")
print("📋 Méthodologie prévue :")
print("  1. Analyse exploratoire de chaque environnement secret")
print("  2. Test de tous les algorithmes avec hyperparamètres optimaux")
print("  3. Identification des stratégies optimales")
print("  4. Analyse des propriétés qui favorisent certains algorithmes")
print("\n🎯 Questions à explorer :")
print("  • Quel algorithme trouve la meilleure stratégie ?")
print("  • Y a-t-il des patterns dans les environnements qui favorisent certaines approches ?")
print("  • Comment adapter les hyperparamètres à des environnements inconnus ?")

## 5. Synthèse et Conclusions

### 5.1 Résumé des Principales Découvertes

In [None]:
# Génération automatique du résumé
print("📊 SYNTHÈSE DES RÉSULTATS")
print("=" * 50)

# Analyse globale
global_ranking = results_df.groupby("Algorithm")["Final Score"].mean().sort_values(ascending=False)
print(f"\n🏆 CLASSEMENT GLOBAL (score moyen) :")
for i, (algo, score) in enumerate(global_ranking.items(), 1):
    print(f"  {i:2d}. {algo:20} : {score:6.3f}")

# Recommandations par type d'environnement
print(f"\n🎯 RECOMMANDATIONS PAR ENVIRONNEMENT :")
for env in environments:
    env_best = results_df[results_df["Environment"] == env].nlargest(1, "Final Score")
    if not env_best.empty:
        best_row = env_best.iloc[0]
        print(f"  • {env:12} → {best_row['Algorithm']:15} (score: {best_row['Final Score']:.3f})")

# Compromis vitesse/performance
print(f"\n⚡ COMPROMIS VITESSE/PERFORMANCE :")
speed_ranking = results_df.groupby("Algorithm")["Convergence Episode"].mean().sort_values()
print(f"  • Plus rapide : {speed_ranking.index[0]} ({speed_ranking.iloc[0]:.0f} épisodes)")
print(f"  • Plus lent    : {speed_ranking.index[-1]} ({speed_ranking.iloc[-1]:.0f} épisodes)")

# Stabilité (écart-type)
stability_ranking = results_df.groupby("Algorithm")["Std Score"].mean().sort_values()
print(f"\n🎯 STABILITÉ (écart-type faible = plus stable) :")
print(f"  • Plus stable   : {stability_ranking.index[0]} (σ = {stability_ranking.iloc[0]:.3f})")
print(f"  • Moins stable  : {stability_ranking.index[-1]} (σ = {stability_ranking.iloc[-1]:.3f})")

### 5.2 Leçons Apprises et Insights

In [None]:
print("💡 LEÇONS APPRISES")
print("=" * 40)

print("\n1. 🏗️ ARCHITECTURE DES ALGORITHMES :")
print("   • Les algorithmes DP sont optimaux mais nécessitent un modèle complet")
print("   • Les méthodes TD (SARSA, Q-Learning) offrent le meilleur compromis")
print("   • Dyna-Q excelle quand la planification est possible")

print("\n2. ⚙️ HYPERPARAMÈTRES :")
print("   • Learning rate optimal : généralement entre 0.1 et 0.3")
print("   • L'exploration initiale élevée est cruciale")
print("   • 25-50 étapes de planification suffisent pour Dyna-Q")

print("\n3. 🎯 SPÉCIFICITÉS DES ENVIRONNEMENTS :")
print("   • Environnements déterministes → DP ou Dyna-Q")
print("   • Environnements stochastiques → Q-Learning ou Expected SARSA")
print("   • Espaces d'états petits → tous les algorithmes fonctionnent")
print("   • Récompenses éparses → Monte Carlo peut être moins efficace")

print("\n4. 🚀 CONSIDÉRATIONS PRATIQUES :")
print("   • Q-Learning : robuste et généralement performant")
print("   • SARSA : plus conservateur, bon pour l'exploration en ligne")
print("   • Dyna-Q : excellent si on peut apprendre un modèle")
print("   • Expected SARSA : plus stable que SARSA classique")

### 5.3 Recommandations Finales

In [None]:
print("🎯 RECOMMANDATIONS FINALES")
print("=" * 45)

print("\n🥇 ALGORITHME UNIVERSEL :")
top_performer = global_ranking.index[0]
print(f"   → {top_performer}")
print(f"   Justification : Meilleur score moyen global ({global_ranking.iloc[0]:.3f})")

print("\n⚖️ COMPROMIS RECOMMANDÉS :")
print("   • Pour la PERFORMANCE maximale : Q-Learning ou Dyna-Q")
print("   • Pour la VITESSE : Policy/Value Iteration (si modèle disponible)")
print("   • Pour la ROBUSTESSE : Expected SARSA")
print("   • Pour l'EXPLORATION : Monte Carlo ES")

print("\n🔧 CONFIGURATION STANDARD RECOMMANDÉE :")
print("   • Learning rate (α) : 0.1 - 0.2")
print("   • Discount factor (γ) : 0.99 - 1.0")
print("   • Exploration : ε₀=1.0, decay=0.995")
print("   • Planning steps : 25-50 (Dyna-Q)")

print("\n📚 POUR LA RECHERCHE FUTURE :")
print("   • Tester l'approximation de fonction (DQN, etc.)")
print("   • Explorer les méthodes actor-critic")
print("   • Analyser la généralisation à des environnements plus complexes")
print("   • Étudier l'adaptation automatique des hyperparamètres")

## 6. Annexes

### 6.1 Configuration Expérimentale

In [None]:
print("⚙️ CONFIGURATION EXPÉRIMENTALE")
print("=" * 40)

print(f"\n📊 PARAMÈTRES GÉNÉRAUX :")
print(f"   • Nombre de runs par expérience : 10 (moyenne)")
print(f"   • Nombre d'épisodes : 1000-5000 selon l'algorithme")
print(f"   • Critère de convergence : stabilisation du score")
print(f"   • Métriques : score final, vitesse de convergence, stabilité")

print(f"\n🏗️ ENVIRONNEMENTS TESTÉS :")
for env_name in environments:
    env = runner.environments[env_name]()
    print(f"   • {env_name:12} : {env.num_states():3d} états, {env.num_actions()} actions")

print(f"\n🤖 ALGORITHMES TESTÉS :")
for algo_name in algorithms:
    family = (
        "DP" if "iteration" in algo_name else
        "MC" if "mc_" in algo_name else
        "TD" if algo_name in ["sarsa", "q_learning", "expected_sarsa"] else
        "Planning" if "dyna" in algo_name else "Other"
    )
    print(f"   • {algo_name:20} ({family})")

print(f"\n💻 ENVIRONNEMENT TECHNIQUE :")
print(f"   • Python {sys.version.split()[0]}")
print(f"   • NumPy {np.__version__}")
print(f"   • Pandas {pd.__version__}")
print(f"   • Matplotlib {plt.matplotlib.__version__}")

import sys
import matplotlib

### 6.2 Sauvegarde des Résultats

In [None]:
# Sauvegarde des résultats et politiques
import pickle
from pathlib import Path

output_dir = Path("results/final_results")
output_dir.mkdir(exist_ok=True)

print("💾 SAUVEGARDE DES RÉSULTATS")
print("=" * 35)

# 1. DataFrame des résultats
results_df.to_csv(output_dir / "experimental_results.csv", index=False)
print(f"✅ Résultats sauvegardés : {output_dir / 'experimental_results.csv'}")

# 2. Politiques optimales pour chaque environnement
optimal_policies = {}
for env_name in environments:
    env_results = results_df[results_df["Environment"] == env_name]
    if not env_results.empty:
        best_idx = env_results["Final Score"].idxmax()
        best_result = [r for r in detailed_results if 
                      r.config.env_name == env_name and 
                      r.config.algo_name == env_results.loc[best_idx, "Algorithm"]][0]
        optimal_policies[env_name] = {
            'algorithm': best_result.config.algo_name,
            'policy': best_result.policy,
            'score': best_result.final_score,
            'hyperparams': best_result.hyperparams_used
        }

with open(output_dir / "optimal_policies.pkl", "wb") as f:
    pickle.dump(optimal_policies, f)
print(f"✅ Politiques optimales sauvegardées : {output_dir / 'optimal_policies.pkl'}")

# 3. Résumé textuel
summary_text = f"""# Résumé Expérimental - Apprentissage par Renforcement

## Résultats Principaux

### Meilleur Algorithme Global
- **Algorithme** : {global_ranking.index[0]}
- **Score Moyen** : {global_ranking.iloc[0]:.3f}

### Recommandations par Environnement
"""

for env_name in environments:
    if env_name in optimal_policies:
        pol = optimal_policies[env_name]
        summary_text += f"\n- **{env_name}** : {pol['algorithm']} (score: {pol['score']:.3f})"

summary_text += f"""

### Configuration Standard Recommandée
- Learning rate : 0.1 - 0.2
- Discount factor : 0.99 - 1.0  
- Exploration : ε₀=1.0, decay=0.995
- Planning steps : 25-50 (Dyna-Q)

### Statistiques
- Nombre total d'expériences : {len(results_df)}
- Environnements testés : {len(environments)}
- Algorithmes testés : {len(algorithms)}
"""

with open(output_dir / "summary_report.md", "w", encoding="utf-8") as f:
    f.write(summary_text)
print(f"✅ Rapport de synthèse sauvegardé : {output_dir / 'summary_report.md'}")

print(f"\n📁 Tous les fichiers sont disponibles dans : {output_dir}")
print(f"\n🎯 MISSION ACCOMPLIE ! Le rapport expérimental est terminé.")