# Rapport de Projet : Apprentissage par Renforcement

**Matière :** Apprentissage par Renforcement  
**Objectif :** Implémenter et comprendre les algorithmes classiques de RL  
**Date :** [À compléter]

---


## 1. Introduction

### 1.1 Objectifs du Projet

Ce projet vise à :
- Implémenter les algorithmes classiques de l'apprentissage par renforcement
- Développer plusieurs environnements pour tester ces algorithmes
- Comparer les performances des différents algorithmes
- Comprendre quand utiliser chaque type d'algorithme

### 1.2 Structure du Projet

Le projet est organisé en deux bibliothèques principales :
- **`algos/`** : Bibliothèque d'algorithmes RL
- **`envs/`** : Bibliothèque d'environnements


In [None]:
# Charger les résultats des tests
import json
from pathlib import Path
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Charger les résultats JSON depuis le dossier results/
results_dir = Path('results')
all_results = []

if results_dir.exists():
    for json_file in results_dir.glob('*.json'):
        if 'complete_report' not in json_file.name:
            with open(json_file, 'r') as f:
                result = json.load(f)
                if result.get('success', False):
                    all_results.append(result)
    
    print(f"{len(all_results)} résultats chargés")
else:
    print("Le dossier results/ n'existe pas. Exécutez d'abord test_all_algos_envs.py")
    all_results = []


## 3. Résultats par Environnement

### 3.1 LineWorldSimple


In [None]:
# Filtrer les résultats pour LineWorldSimple
lineworld_results = [r for r in all_results if 'LineWorld' in r.get('environment', '')]

if lineworld_results:
    # Créer un DataFrame pour faciliter l'analyse
    data = []
    for r in lineworld_results:
        data.append({
            'Algorithm': r['algorithm'],
            'Mean Reward': r['evaluation']['mean_reward'],
            'Std Reward': r['evaluation']['std_reward'],
            'Success Rate': r['evaluation']['success_rate'] * 100,
            'Mean Steps': r['evaluation']['mean_steps'],
            'Training Time': r['training']['training_time']
        })
    
    df_lineworld = pd.DataFrame(data)
    df_lineworld = df_lineworld.sort_values('Mean Reward', ascending=False)
    
    print("\n=== Résultats LineWorldSimple ===")
    print(df_lineworld.to_string(index=False))
    
    # Graphique
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Reward moyen
    axes[0].barh(df_lineworld['Algorithm'], df_lineworld['Mean Reward'])
    axes[0].set_xlabel('Reward Moyen')
    axes[0].set_title('Reward Moyen par Algorithme (LineWorldSimple)')
    axes[0].grid(axis='x', alpha=0.3)
    
    # Taux de succès
    axes[1].barh(df_lineworld['Algorithm'], df_lineworld['Success Rate'])
    axes[1].set_xlabel('Taux de Succès (%)')
    axes[1].set_title('Taux de Succès par Algorithme (LineWorldSimple)')
    axes[1].grid(axis='x', alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("Aucun résultat trouvé pour LineWorldSimple")


### 3.2 GridWorldSimple


In [None]:
# Filtrer les résultats pour GridWorldSimple
gridworld_results = [r for r in all_results if 'GridWorld' in r.get('environment', '')]

if gridworld_results:
    data = []
    for r in gridworld_results:
        data.append({
            'Algorithm': r['algorithm'],
            'Mean Reward': r['evaluation']['mean_reward'],
            'Std Reward': r['evaluation']['std_reward'],
            'Success Rate': r['evaluation']['success_rate'] * 100,
            'Mean Steps': r['evaluation']['mean_steps'],
            'Training Time': r['training']['training_time']
        })
    
    df_gridworld = pd.DataFrame(data)
    df_gridworld = df_gridworld.sort_values('Mean Reward', ascending=False)
    
    print("\n=== Résultats GridWorldSimple ===")
    print(df_gridworld.to_string(index=False))
    
    # Graphique
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    axes[0].barh(df_gridworld['Algorithm'], df_gridworld['Mean Reward'])
    axes[0].set_xlabel('Reward Moyen')
    axes[0].set_title('Reward Moyen par Algorithme (GridWorldSimple)')
    axes[0].grid(axis='x', alpha=0.3)
    
    axes[1].barh(df_gridworld['Algorithm'], df_gridworld['Success Rate'])
    axes[1].set_xlabel('Taux de Succès (%)')
    axes[1].set_title('Taux de Succès par Algorithme (GridWorldSimple)')
    axes[1].grid(axis='x', alpha=0.3)
    
    plt.tight_layout()
    plt.show()
else:
    print("Aucun résultat trouvé pour GridWorldSimple")


## 5. Conclusion

### 5.1 Résumé des Résultats

[À compléter avec vos résultats]  
Exemple : Policy Iteration a obtenu les meilleures performances sur LineWorldSimple avec 100% de taux de succès.

### 5.2 Recommandations

**Pour des environnements simples avec modèle disponible :**
- Utiliser **Policy Iteration** ou **Value Iteration**
- Avantages : Optimal garanti, rapide

**Pour des environnements sans modèle :**
- Utiliser **Q-Learning** ou **SARSA**
- Pour accélérer : **Dyna-Q** si on peut construire un modèle

**Pour des problèmes avec épisodes clairs :**
- **Monte Carlo** peut être approprié

### 5.3 Limitations et Améliorations Possibles

- Les environnements sont relativement simples (peu d'états)
- Possibilité d'étendre à des environnements plus complexes
- Utilisation de fonction approximation pour de grands espaces d'états
- Deep Q-Networks (DQN) pour des environnements avec observations complexes
