# Rapport Exp√©rimental - Algorithmes d'Apprentissage par Renforcement

**Projet**: (Deep) Reinforcement Learning P1  
**Ann√©e**: 2024-2025  
**Enseignant**: Nicolas VIDAL

---

## Objectifs

Ce rapport pr√©sente une √©valuation comparative compl√®te des algorithmes d'apprentissage par renforcement classiques :

1. **Dynamic Programming** : Policy Iteration, Value Iteration
2. **Monte Carlo** : ES, On-policy, Off-policy
3. **Temporal Difference** : SARSA, Q-Learning, Expected SARSA
4. **Planning** : Dyna-Q, Dyna-Q+

### Questions de recherche

- Quel algorithme est le plus performant sur quel environnement ?
- Comment les hyperparam√®tres affectent-ils les performances ?
- Quels sont les compromis vitesse/qualit√© pour chaque m√©thode ?
- Quelles recommandations pratiques en d√©coulent ?

## Setup et Imports

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuration matplotlib
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 11

# Imports du projet
from experiments import ExperimentRunner, generate_report
from hyperparameter_studies import main as run_hyperparameter_studies
from envs import LineWorld, GridWorld, RPS, MontyHall1, MontyHall2
from algos import *

print("‚úÖ Setup termin√©")

## 1. Pr√©sentation des Environnements

### 1.1 LineWorld

In [None]:
# D√©monstration LineWorld
env = LineWorld()
print(f"üìè LineWorld : {env.num_states()} √©tats, {env.num_actions()} actions")
print(f"√âtat initial : {env.state()}")
print(f"Score initial : {env.score()}")
print("\nTest de quelques actions :")

# Simulation d'un √©pisode
env.reset()
actions = [0, 0, 1, 1, 1]  # gauche, gauche, droite, droite, droite
for i, action in enumerate(actions):
    if not env.is_game_over():
        prev_state = env.state()
        prev_score = env.score()
        env.step(action)
        print(f"  √âtape {i+1}: action={action}, √©tat={prev_state}‚Üí{env.state()}, score={prev_score}‚Üí{env.score()}")
    else:
        break

print(f"\nüèÅ √âpisode termin√©. Score final : {env.score()}")

### 1.2 GridWorld

In [None]:
# D√©monstration GridWorld
env = GridWorld()
print(f"üèóÔ∏è GridWorld : {env.num_states()} √©tats, {env.num_actions()} actions")
print(f"Actions : 0=UP, 1=RIGHT, 2=DOWN, 3=LEFT")
print(f"\n√âtat initial :")
env.render()

# Test d'une s√©quence d'actions
actions = [1, 1, 1, 1, 2, 2, 2, 2]  # droite√ó4, bas√ó4
print("S√©quence d'actions : RIGHT√ó4, DOWN√ó4")
for action in actions:
    if not env.is_game_over():
        env.step(action)
        
print(f"\n√âtat final :")
env.render()

### 1.3 Rock-Paper-Scissors (RPS)

In [None]:
# D√©monstration RPS
env = RPS()
print(f"‚úÇÔ∏è Rock-Paper-Scissors : {env.num_states()} √©tats, {env.num_actions()} actions")
print(f"Actions : 0=ROCK, 1=PAPER, 2=SCISSORS")
print(f"\nR√®gles :")
print(f"- Manche 1 : adversaire joue al√©atoirement")
print(f"- Manche 2 : adversaire copie votre coup de la manche 1")
print(f"- Score = somme des r√©sultats des 2 manches")

# Simulation d'un √©pisode
env.reset()
print(f"\n√âtat initial : {env.state()}")
env.render()

# Jouer PAPER puis ROCK
print("\nüéÆ Action 1 : PAPER")
env.step(1)  # PAPER
env.render()

print("\nüéÆ Action 2 : ROCK")
env.step(0)  # ROCK  
env.render()

print(f"\nüèÅ Score final : {env.score()}")

### 1.4 Monty Hall

In [None]:
# D√©monstration Monty Hall 1 (3 portes)
env = MontyHall1()
print(f"üö™ Monty Hall 1 : {env.num_states()} √©tats, {env.num_actions()} actions")
print(f"Actions : 0=Porte A, 1=Porte B, 2=Porte C")

# Simulation de la strat√©gie "toujours changer"
total_wins = 0
num_simulations = 1000

for _ in range(num_simulations):
    env.reset()
    
    # Premi√®re action : choisir porte 0
    env.step(0)
    
    # Deuxi√®me action : changer (choisir une porte diff√©rente de 0)
    # L'environnement nous indique quelles portes sont disponibles via l'√©tat
    available_doors = [1, 2]  # Simplifi√© pour la d√©mo
    env.step(available_doors[0])
    
    if env.score() > 0:
        total_wins += 1

win_rate = total_wins / num_simulations
print(f"\nüìä Strat√©gie 'toujours changer' : {win_rate:.1%} de victoires")
print(f"üìö Th√©orie : ~66.7% attendu")

## 2. Exp√©rimentation Principale

### 2.1 Comparaison tous algorithmes √ó tous environnements

In [None]:
# Lancement de l'exp√©rimentation principale
print("üöÄ Lancement de l'exp√©rimentation compl√®te...")
print("‚è±Ô∏è Cela peut prendre plusieurs minutes...")

runner = ExperimentRunner("results")

# Environnements √† tester
environments = ["lineworld", "gridworld", "rps", "montyhall1"]
# Note: montyhall2 omis pour des raisons de temps d'ex√©cution

# Algorithmes √† tester  
algorithms = [
    "policy_iteration", "value_iteration",           # DP
    "mc_es", "mc_on_policy", "mc_off_policy",       # MC
    "sarsa", "q_learning", "expected_sarsa",        # TD
    "dyna_q"                                         # Planning
]

# Ex√©cution
results_df, detailed_results = runner.run_full_comparison(environments, algorithms)

print("‚úÖ Exp√©rimentation termin√©e !")
print(f"üìä {len(results_df)} exp√©riences r√©alis√©es")

# Aper√ßu des r√©sultats
print("\nüìã Aper√ßu des r√©sultats :")
display(results_df.head(10))

### 2.2 Analyse des Performances

In [None]:
# Statistiques g√©n√©rales
print("üìà STATISTIQUES G√âN√âRALES")
print("=" * 50)

# Performance moyenne par algorithme
algo_stats = results_df.groupby("Algorithm")["Final Score"].agg(["mean", "std", "count"]).round(3)
algo_stats = algo_stats.sort_values("mean", ascending=False)
print("\nüèÜ Classement des algorithmes (score moyen) :")
display(algo_stats)

# Performance par environnement
env_stats = results_df.groupby("Environment")["Final Score"].agg(["mean", "std", "min", "max"]).round(3)
print("\nüéØ Performance par environnement :")
display(env_stats)

# Vitesse de convergence
conv_stats = results_df.groupby("Algorithm")["Convergence Episode"].agg(["mean", "std"]).round(1)
conv_stats = conv_stats.sort_values("mean")
print("\n‚ö° Vitesse de convergence (√©pisodes) :")
display(conv_stats)

In [None]:
# Visualisations des performances
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Heatmap des performances
ax = axes[0, 0]
pivot_scores = results_df.pivot(index="Algorithm", columns="Environment", values="Final Score")
sns.heatmap(pivot_scores, annot=True, fmt=".3f", cmap="viridis", ax=ax)
ax.set_title("Performance des Algorithmes par Environnement", fontsize=14, fontweight='bold')

# 2. Boxplot des performances par algorithme
ax = axes[0, 1]
results_df.boxplot(column="Final Score", by="Algorithm", ax=ax, rot=45)
ax.set_title("Distribution des Performances par Algorithme", fontsize=14, fontweight='bold')
ax.set_xlabel("Algorithme")
ax.set_ylabel("Score Final")

# 3. Temps de convergence vs Performance
ax = axes[1, 0]
for algo in results_df["Algorithm"].unique():
    algo_data = results_df[results_df["Algorithm"] == algo]
    ax.scatter(algo_data["Convergence Episode"], algo_data["Final Score"], 
              label=algo, alpha=0.7, s=60)
ax.set_xlabel("√âpisodes jusqu'√† Convergence")
ax.set_ylabel("Score Final")
ax.set_title("Compromis Vitesse vs Performance", fontsize=14, fontweight='bold')
ax.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(True, alpha=0.3)

# 4. Temps d'ex√©cution par algorithme
ax = axes[1, 1]
time_stats = results_df.groupby("Algorithm")["Training Time (s)"].mean().sort_values()
time_stats.plot(kind='bar', ax=ax, color='coral')
ax.set_title("Temps d'Ex√©cution Moyen par Algorithme", fontsize=14, fontweight='bold')
ax.set_xlabel("Algorithme")
ax.set_ylabel("Temps (secondes)")
ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

### 2.3 Analyse par Environnement

In [None]:
# Analyse d√©taill√©e par environnement
for env_name in environments:
    print(f"\n{'='*60}")
    print(f"üéØ ANALYSE : {env_name.upper()}")
    print(f"{'='*60}")
    
    env_data = results_df[results_df["Environment"] == env_name]
    
    if len(env_data) == 0:
        print("‚ùå Aucune donn√©e disponible")
        continue
    
    # Classement des algorithmes
    ranking = env_data.sort_values("Final Score", ascending=False)
    print("\nüèÜ Classement des algorithmes :")
    for i, (_, row) in enumerate(ranking.iterrows(), 1):
        print(f"  {i}. {row['Algorithm']:15} | Score: {row['Final Score']:6.3f} | "
              f"Convergence: {row['Convergence Episode']:4.0f} √©pisodes | "
              f"Temps: {row['Training Time (s)']:5.2f}s")
    
    # Recommandation
    best_algo = ranking.iloc[0]
    print(f"\n‚úÖ RECOMMANDATION : {best_algo['Algorithm']}")
    print(f"   Justification : Score optimal ({best_algo['Final Score']:.3f}) avec "
          f"convergence en {best_algo['Convergence Episode']:.0f} √©pisodes")

## 3. √âtudes des Hyperparam√®tres

### 3.1 Impact du Learning Rate (Œ±)

In [None]:
# √âtude simplifi√©e du learning rate
print("üî¨ √âtude de l'impact du learning rate...")

runner = ExperimentRunner("results/quick_hyperparam")

# Test sur GridWorld avec Q-Learning
alpha_values = [0.01, 0.1, 0.3, 0.5, 0.9]
alpha_results = []

for alpha in alpha_values:
    print(f"  Testing Œ± = {alpha}...")
    
    # Configuration r√©duite pour rapidit√©
    from experiments import ExperimentConfig
    config = ExperimentConfig(
        env_name="gridworld",
        algo_name="q_learning",
        num_episodes=1000,
        num_runs=3,  # R√©duit pour la d√©mo
        hyperparams={"alpha": alpha}
    )
    
    result = runner.run_single_experiment(config)
    alpha_results.append({
        "Alpha": alpha,
        "Final Score": result.final_score,
        "Convergence Episode": result.convergence_episode
    })

alpha_df = pd.DataFrame(alpha_results)
display(alpha_df)

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

ax1.plot(alpha_df["Alpha"], alpha_df["Final Score"], 'o-', linewidth=2, markersize=8)
ax1.set_xlabel("Learning Rate (Œ±)")
ax1.set_ylabel("Score Final")
ax1.set_title("Impact du Learning Rate sur la Performance")
ax1.grid(True, alpha=0.3)

ax2.plot(alpha_df["Alpha"], alpha_df["Convergence Episode"], 'o-', color='red', linewidth=2, markersize=8)
ax2.set_xlabel("Learning Rate (Œ±)")
ax2.set_ylabel("√âpisodes jusqu'√† Convergence")
ax2.set_title("Impact du Learning Rate sur la Vitesse")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse
best_alpha_perf = alpha_df.loc[alpha_df["Final Score"].idxmax(), "Alpha"]
best_alpha_speed = alpha_df.loc[alpha_df["Convergence Episode"].idxmin(), "Alpha"]
print(f"\nüìä ANALYSE :")
print(f"  ‚Ä¢ Meilleur Œ± pour la performance : {best_alpha_perf}")
print(f"  ‚Ä¢ Meilleur Œ± pour la vitesse : {best_alpha_speed}")

### 3.2 Impact de la Planification (Dyna-Q)

In [None]:
# √âtude de l'impact du nombre d'√©tapes de planification
print("üß† √âtude de l'impact de la planification...")

planning_steps = [0, 10, 25, 50, 100]
planning_results = []

for n_steps in planning_steps:
    print(f"  Testing planning_steps = {n_steps}...")
    
    config = ExperimentConfig(
        env_name="gridworld",
        algo_name="dyna_q",
        num_episodes=500,  # Moins d'√©pisodes car Dyna-Q converge plus vite
        num_runs=3,
        hyperparams={"n_planning_steps": n_steps}
    )
    
    result = runner.run_single_experiment(config)
    planning_results.append({
        "Planning Steps": n_steps,
        "Final Score": result.final_score,
        "Convergence Episode": result.convergence_episode,
        "Training Time": result.training_time
    })

planning_df = pd.DataFrame(planning_results)
display(planning_df)

# Visualisation
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

ax1.plot(planning_df["Planning Steps"], planning_df["Final Score"], 'o-', linewidth=2, markersize=8, color='green')
ax1.set_xlabel("Nombre d'√©tapes de planification")
ax1.set_ylabel("Score Final")
ax1.set_title("Performance vs Planification")
ax1.grid(True, alpha=0.3)

ax2.plot(planning_df["Planning Steps"], planning_df["Training Time"], 'o-', linewidth=2, markersize=8, color='orange')
ax2.set_xlabel("Nombre d'√©tapes de planification")
ax2.set_ylabel("Temps d'entra√Ænement (s)")
ax2.set_title("Co√ªt Computationnel vs Planification")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analyse du rapport co√ªt/b√©n√©fice
planning_df["Efficiency"] = planning_df["Final Score"] / planning_df["Training Time"]
best_efficiency = planning_df.loc[planning_df["Efficiency"].idxmax()]
print(f"\n‚öñÔ∏è ANALYSE CO√õT/B√âN√âFICE :")
print(f"  ‚Ä¢ Configuration optimale : {best_efficiency['Planning Steps']} √©tapes")
print(f"  ‚Ä¢ Score : {best_efficiency['Final Score']:.3f}")
print(f"  ‚Ä¢ Temps : {best_efficiency['Training Time']:.2f}s")
print(f"  ‚Ä¢ Efficacit√© : {best_efficiency['Efficiency']:.4f} score/seconde")

## 4. Analyse des Environnements Secrets

*Note: Cette section sera compl√©t√©e une fois les environnements secrets fournis*

In [None]:
# Placeholder pour les environnements secrets
print("üîí Environnements secrets non encore fournis")
print("üìã M√©thodologie pr√©vue :")
print("  1. Analyse exploratoire de chaque environnement secret")
print("  2. Test de tous les algorithmes avec hyperparam√®tres optimaux")
print("  3. Identification des strat√©gies optimales")
print("  4. Analyse des propri√©t√©s qui favorisent certains algorithmes")
print("\nüéØ Questions √† explorer :")
print("  ‚Ä¢ Quel algorithme trouve la meilleure strat√©gie ?")
print("  ‚Ä¢ Y a-t-il des patterns dans les environnements qui favorisent certaines approches ?")
print("  ‚Ä¢ Comment adapter les hyperparam√®tres √† des environnements inconnus ?")

## 5. Synth√®se et Conclusions

### 5.1 R√©sum√© des Principales D√©couvertes

In [None]:
# G√©n√©ration automatique du r√©sum√©
print("üìä SYNTH√àSE DES R√âSULTATS")
print("=" * 50)

# Analyse globale
global_ranking = results_df.groupby("Algorithm")["Final Score"].mean().sort_values(ascending=False)
print(f"\nüèÜ CLASSEMENT GLOBAL (score moyen) :")
for i, (algo, score) in enumerate(global_ranking.items(), 1):
    print(f"  {i:2d}. {algo:20} : {score:6.3f}")

# Recommandations par type d'environnement
print(f"\nüéØ RECOMMANDATIONS PAR ENVIRONNEMENT :")
for env in environments:
    env_best = results_df[results_df["Environment"] == env].nlargest(1, "Final Score")
    if not env_best.empty:
        best_row = env_best.iloc[0]
        print(f"  ‚Ä¢ {env:12} ‚Üí {best_row['Algorithm']:15} (score: {best_row['Final Score']:.3f})")

# Compromis vitesse/performance
print(f"\n‚ö° COMPROMIS VITESSE/PERFORMANCE :")
speed_ranking = results_df.groupby("Algorithm")["Convergence Episode"].mean().sort_values()
print(f"  ‚Ä¢ Plus rapide : {speed_ranking.index[0]} ({speed_ranking.iloc[0]:.0f} √©pisodes)")
print(f"  ‚Ä¢ Plus lent    : {speed_ranking.index[-1]} ({speed_ranking.iloc[-1]:.0f} √©pisodes)")

# Stabilit√© (√©cart-type)
stability_ranking = results_df.groupby("Algorithm")["Std Score"].mean().sort_values()
print(f"\nüéØ STABILIT√â (√©cart-type faible = plus stable) :")
print(f"  ‚Ä¢ Plus stable   : {stability_ranking.index[0]} (œÉ = {stability_ranking.iloc[0]:.3f})")
print(f"  ‚Ä¢ Moins stable  : {stability_ranking.index[-1]} (œÉ = {stability_ranking.iloc[-1]:.3f})")

### 5.2 Le√ßons Apprises et Insights

In [None]:
print("üí° LE√áONS APPRISES")
print("=" * 40)

print("\n1. üèóÔ∏è ARCHITECTURE DES ALGORITHMES :")
print("   ‚Ä¢ Les algorithmes DP sont optimaux mais n√©cessitent un mod√®le complet")
print("   ‚Ä¢ Les m√©thodes TD (SARSA, Q-Learning) offrent le meilleur compromis")
print("   ‚Ä¢ Dyna-Q excelle quand la planification est possible")

print("\n2. ‚öôÔ∏è HYPERPARAM√àTRES :")
print("   ‚Ä¢ Learning rate optimal : g√©n√©ralement entre 0.1 et 0.3")
print("   ‚Ä¢ L'exploration initiale √©lev√©e est cruciale")
print("   ‚Ä¢ 25-50 √©tapes de planification suffisent pour Dyna-Q")

print("\n3. üéØ SP√âCIFICIT√âS DES ENVIRONNEMENTS :")
print("   ‚Ä¢ Environnements d√©terministes ‚Üí DP ou Dyna-Q")
print("   ‚Ä¢ Environnements stochastiques ‚Üí Q-Learning ou Expected SARSA")
print("   ‚Ä¢ Espaces d'√©tats petits ‚Üí tous les algorithmes fonctionnent")
print("   ‚Ä¢ R√©compenses √©parses ‚Üí Monte Carlo peut √™tre moins efficace")

print("\n4. üöÄ CONSID√âRATIONS PRATIQUES :")
print("   ‚Ä¢ Q-Learning : robuste et g√©n√©ralement performant")
print("   ‚Ä¢ SARSA : plus conservateur, bon pour l'exploration en ligne")
print("   ‚Ä¢ Dyna-Q : excellent si on peut apprendre un mod√®le")
print("   ‚Ä¢ Expected SARSA : plus stable que SARSA classique")

### 5.3 Recommandations Finales

In [None]:
print("üéØ RECOMMANDATIONS FINALES")
print("=" * 45)

print("\nü•á ALGORITHME UNIVERSEL :")
top_performer = global_ranking.index[0]
print(f"   ‚Üí {top_performer}")
print(f"   Justification : Meilleur score moyen global ({global_ranking.iloc[0]:.3f})")

print("\n‚öñÔ∏è COMPROMIS RECOMMAND√âS :")
print("   ‚Ä¢ Pour la PERFORMANCE maximale : Q-Learning ou Dyna-Q")
print("   ‚Ä¢ Pour la VITESSE : Policy/Value Iteration (si mod√®le disponible)")
print("   ‚Ä¢ Pour la ROBUSTESSE : Expected SARSA")
print("   ‚Ä¢ Pour l'EXPLORATION : Monte Carlo ES")

print("\nüîß CONFIGURATION STANDARD RECOMMAND√âE :")
print("   ‚Ä¢ Learning rate (Œ±) : 0.1 - 0.2")
print("   ‚Ä¢ Discount factor (Œ≥) : 0.99 - 1.0")
print("   ‚Ä¢ Exploration : Œµ‚ÇÄ=1.0, decay=0.995")
print("   ‚Ä¢ Planning steps : 25-50 (Dyna-Q)")

print("\nüìö POUR LA RECHERCHE FUTURE :")
print("   ‚Ä¢ Tester l'approximation de fonction (DQN, etc.)")
print("   ‚Ä¢ Explorer les m√©thodes actor-critic")
print("   ‚Ä¢ Analyser la g√©n√©ralisation √† des environnements plus complexes")
print("   ‚Ä¢ √âtudier l'adaptation automatique des hyperparam√®tres")

## 6. Annexes

### 6.1 Configuration Exp√©rimentale

In [None]:
print("‚öôÔ∏è CONFIGURATION EXP√âRIMENTALE")
print("=" * 40)

print(f"\nüìä PARAM√àTRES G√âN√âRAUX :")
print(f"   ‚Ä¢ Nombre de runs par exp√©rience : 10 (moyenne)")
print(f"   ‚Ä¢ Nombre d'√©pisodes : 1000-5000 selon l'algorithme")
print(f"   ‚Ä¢ Crit√®re de convergence : stabilisation du score")
print(f"   ‚Ä¢ M√©triques : score final, vitesse de convergence, stabilit√©")

print(f"\nüèóÔ∏è ENVIRONNEMENTS TEST√âS :")
for env_name in environments:
    env = runner.environments[env_name]()
    print(f"   ‚Ä¢ {env_name:12} : {env.num_states():3d} √©tats, {env.num_actions()} actions")

print(f"\nü§ñ ALGORITHMES TEST√âS :")
for algo_name in algorithms:
    family = (
        "DP" if "iteration" in algo_name else
        "MC" if "mc_" in algo_name else
        "TD" if algo_name in ["sarsa", "q_learning", "expected_sarsa"] else
        "Planning" if "dyna" in algo_name else "Other"
    )
    print(f"   ‚Ä¢ {algo_name:20} ({family})")

print(f"\nüíª ENVIRONNEMENT TECHNIQUE :")
print(f"   ‚Ä¢ Python {sys.version.split()[0]}")
print(f"   ‚Ä¢ NumPy {np.__version__}")
print(f"   ‚Ä¢ Pandas {pd.__version__}")
print(f"   ‚Ä¢ Matplotlib {plt.matplotlib.__version__}")

import sys
import matplotlib

### 6.2 Sauvegarde des R√©sultats

In [None]:
# Sauvegarde des r√©sultats et politiques
import pickle
from pathlib import Path

output_dir = Path("results/final_results")
output_dir.mkdir(exist_ok=True)

print("üíæ SAUVEGARDE DES R√âSULTATS")
print("=" * 35)

# 1. DataFrame des r√©sultats
results_df.to_csv(output_dir / "experimental_results.csv", index=False)
print(f"‚úÖ R√©sultats sauvegard√©s : {output_dir / 'experimental_results.csv'}")

# 2. Politiques optimales pour chaque environnement
optimal_policies = {}
for env_name in environments:
    env_results = results_df[results_df["Environment"] == env_name]
    if not env_results.empty:
        best_idx = env_results["Final Score"].idxmax()
        best_result = [r for r in detailed_results if 
                      r.config.env_name == env_name and 
                      r.config.algo_name == env_results.loc[best_idx, "Algorithm"]][0]
        optimal_policies[env_name] = {
            'algorithm': best_result.config.algo_name,
            'policy': best_result.policy,
            'score': best_result.final_score,
            'hyperparams': best_result.hyperparams_used
        }

with open(output_dir / "optimal_policies.pkl", "wb") as f:
    pickle.dump(optimal_policies, f)
print(f"‚úÖ Politiques optimales sauvegard√©es : {output_dir / 'optimal_policies.pkl'}")

# 3. R√©sum√© textuel
summary_text = f"""# R√©sum√© Exp√©rimental - Apprentissage par Renforcement

## R√©sultats Principaux

### Meilleur Algorithme Global
- **Algorithme** : {global_ranking.index[0]}
- **Score Moyen** : {global_ranking.iloc[0]:.3f}

### Recommandations par Environnement
"""

for env_name in environments:
    if env_name in optimal_policies:
        pol = optimal_policies[env_name]
        summary_text += f"\n- **{env_name}** : {pol['algorithm']} (score: {pol['score']:.3f})"

summary_text += f"""

### Configuration Standard Recommand√©e
- Learning rate : 0.1 - 0.2
- Discount factor : 0.99 - 1.0  
- Exploration : Œµ‚ÇÄ=1.0, decay=0.995
- Planning steps : 25-50 (Dyna-Q)

### Statistiques
- Nombre total d'exp√©riences : {len(results_df)}
- Environnements test√©s : {len(environments)}
- Algorithmes test√©s : {len(algorithms)}
"""

with open(output_dir / "summary_report.md", "w", encoding="utf-8") as f:
    f.write(summary_text)
print(f"‚úÖ Rapport de synth√®se sauvegard√© : {output_dir / 'summary_report.md'}")

print(f"\nüìÅ Tous les fichiers sont disponibles dans : {output_dir}")
print(f"\nüéØ MISSION ACCOMPLIE ! Le rapport exp√©rimental est termin√©.")