# Tutoriel Stable Baselines3 - Premiers pas


Stable-Baselines3 : https://github.com/DLR-RM/stable-baselines3

Documentation : https://stable-baselines3.readthedocs.io/en/master/

RL Baselines3 zoo : https://github.com/DLR-RM/rl-baselines3-zoo


[RL Baselines3 Zoo](https://github.com/DLR-RM/rl-baselines3-zoo) est un framework d’entraînement pour l’Apprentissage par Renforcement (RL), basé sur Stable Baselines3.

Il fournit des scripts pour entraîner des agents, les évaluer, réaliser des recherches d’hyperparamètres, tracer des courbes de résultats et enregistrer des vidéos.

Source:  https://github.com/araffin/rl-tutorial-jnrr19

## Introduction

Dans ce notebook, vous allez apprendre les bases d’utilisation de la librairie Stable Baselines3 : comment créer un modèle RL, l’entraîner et l’évaluer. Comme toutes les algorithmes partagent la même interface, nous verrons qu’il est très simple de passer d’un algorithme à un autre.

## Installer les dépendances et Stable Baselines3 avec Pip

La liste complète des dépendances est disponible dans le [README](https://github.com/DLR-RM/stable-baselines3).

Pour installer :
```
pip install stable-baselines3[extra]
```

---
**Rappels sur l’Apprentissage par Renforcement (AR)**  
- Un agent interagit avec un environnement au fil de pas de temps.  
- À chaque pas, il reçoit un `state` (observation), choisit une `action` et obtient une `reward`.  
- Le but est de maximiser la somme des récompenses.  
- Stable-Baselines3 fournit un ensemble d’algorithmes pour entraîner cet agent sur divers environnements.

*Astuce* : Pour ceux qui découvrent Gym, explorez rapidement `env.action_space` et `env.observation_space` pour comprendre les dimensions et les types d’actions.


In [None]:
# Sous Windows, on ne fait pas d'apt-get.
# %apt-get update && apt-get install ffmpeg freeglut3-dev xvfb  # Pour la visualisation sous Linux
%pip install "stable-baselines3[extra]>=2.0.0a4" moviepy

In [None]:
import stable_baselines3

print(f"{stable_baselines3.__version__=}")

## Imports

Stable-Baselines3 fonctionne avec des environnements qui suivent l’interface [gym](https://stable-baselines.readthedocs.io/en/master/guide/custom_env.html).
Vous pouvez trouver une liste d’environnements disponibles [ici](https://gym.openai.com/envs/#classic_control).

Il est aussi recommandé de regarder le [code source](https://github.com/openai/gym) pour en savoir plus sur l’espace d’observation et d’action de chaque environnement, car gym ne fournit pas de documentation très détaillée.
Tous les algorithmes ne sont pas compatibles avec tous les espaces d’action. Vous trouverez plus d’informations dans ce [tableau récapitulatif](https://stable-baselines.readthedocs.io/en/master/guide/algos.html).

In [None]:
import gymnasium as gym
import numpy as np

print(f"{gym.__version__=}")

La première chose dont vous avez besoin est d’importer la classe de l’algorithme de RL que vous souhaitez utiliser. Consultez la documentation pour savoir quel algorithme utiliser dans quel contexte.

PPO est un algorithme on-policy, ce qui signifie que les données utilisées pour la mise à jour des réseaux proviennent de la politique courante. À l’inverse, un algo off-policy comme DQN peut réutiliser des données issues de politiques antérieures.

In [None]:
from stable_baselines3 import PPO

Ensuite, vous pouvez importer la classe de politique (policy) qui servira à créer les réseaux (pour la fonction de politique et la fonction de valeur). Ce n’est pas obligatoire : vous pouvez directement utiliser des chaînes de caractères lors de la création du modèle, par exemple :
```PPO('MlpPolicy', env)``` au lieu de ```PPO(MlpPolicy, env)```.

Notez que certains algorithmes comme `SAC` ont leur propre `MlpPolicy`, donc l’utilisation de la chaîne de caractères est généralement recommandée.

In [None]:
from stable_baselines3.ppo import MlpPolicy

## Créer l’environnement Gym et instancier l’agent

Dans cet exemple, nous allons utiliser l’environnement CartPole, un problème classique de contrôle.

« Un poteau est attaché par un joint non-actionné à un chariot, qui se déplace le long d’un rail sans frottement. Le système est contrôlé en appliquant une force de +1 ou -1 sur le chariot. Le pendule commence à la verticale, et l’objectif est de l’empêcher de tomber. Une récompense de +1 est accordée à chaque pas de temps pendant lequel le poteau reste en position verticale. »

Environnement CartPole : [https://gymnasium.farama.org/environments/classic_control/cart_pole/](https://gymnasium.farama.org/environments/classic_control/cart_pole/)

![Cartpole](https://cdn-images-1.medium.com/max/1143/1*h4WTQNVIsvMXJTCpXm_TAw.gif)

Les environnements vectorisés (vecenv) permettent de faciliter l’entraînement en parallèle. Ici, nous utilisons un seul processus, donc `DummyVecEnv`.

Nous choisissons `MlpPolicy` car l’entrée de CartPole est un vecteur de caractéristiques (et non une image).

Le type d’action (discrète/continue) sera automatiquement déduit de l’espace d’action de l’environnement.

Ici, nous utilisons [Proximal Policy Optimization](https://stable-baselines.readthedocs.io/en/master/modules/ppo2.html), qui est une méthode Actor-Critic : elle utilise une fonction de valeur pour améliorer la descente de gradient de la politique (en réduisant la variance).

PPO combine des idées d’[A2C](https://stable-baselines.readthedocs.io/en/master/modules/a2c.html) (plusieurs workers et bonus d’entropie pour encourager l’exploration) et de [TRPO](https://stable-baselines.readthedocs.io/en/master/modules/trpo.html) (utilisation d’une région de confiance pour stabiliser l’apprentissage et éviter des chutes drastiques de performance).

PPO est un algorithme on-policy : les trajectoires utilisées pour mettre à jour les réseaux doivent être collectées avec la politique la plus récente.
Il est généralement moins échantillonnement-efficace que des algorithmes off-policy comme [DQN](https://stable-baselines.readthedocs.io/en/master/modules/dqn.html), [SAC](https://stable-baselines.readthedocs.io/en/master/modules/sac.html) ou [TD3](https://stable-baselines.readthedocs.io/en/master/modules/td3.html), mais il est souvent plus rapide en temps d’horloge réel.

In [None]:
env = gym.make("CartPole-v1", render_mode="rgb_array")
model = PPO(MlpPolicy, env, verbose=0)

Nous créons une fonction utilitaire pour évaluer l’agent :

In [None]:
def evaluate(model, num_episodes=100, deterministic=True):
    """
    Évalue un agent RL.
    :param model: (BaseRLModel) l’agent RL
    :param num_episodes: (int) nombre d’épisodes sur lesquels évaluer
    :param deterministic: (bool) si on utilise une politique déterministe
    :return: (float) Récompense moyenne sur les num_episodes derniers épisodes
    """
    # Cette fonction ne fonctionne que pour un seul environnement
    vec_env = model.get_env()
    all_episode_rewards = []
    for i in range(num_episodes):
        episode_rewards = []
        done = False
        obs = vec_env.reset()
        while not done:
            # _states n’est utile que lorsque l’on utilise des politiques LSTM
            action, _states = model.predict(obs, deterministic=deterministic)
            # Ici, action, rewards et dones sont des tableaux
            # car nous utilisons un environnement vectorisé
            obs, reward, done, info = vec_env.step(action)
            episode_rewards.append(reward)

        all_episode_rewards.append(sum(episode_rewards))

    mean_episode_reward = np.mean(all_episode_rewards)
    print("Récompense moyenne :", mean_episode_reward, "Nombre d’épisodes :", num_episodes)

    return mean_episode_reward

En fait, Stable-Baselines3 fournit déjà un utilitaire similaire :

In [None]:
from stable_baselines3.common.evaluation import evaluate_policy

Évaluons l’agent non entraîné ; il devrait agir de façon essentiellement aléatoire.

In [None]:
# Nous utilisons un environnement distinct pour l’évaluation
eval_env = gym.make("CartPole-v1", render_mode="rgb_array")

# Agent aléatoire, avant entraînement
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=100)
print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

## Entraîner l’agent et l’évaluer

**Hyperparamètres clés**  
- `total_timesteps`: nombre total de pas d’entraînement (interactions avec l’environnement).  
- `learning_rate`: définit la vitesse à laquelle les poids sont mis à jour.  
- `n_steps` (ou équivalent): longueur des trajectoires collectées avant chaque mise à jour, etc.  
- `batch_size`: taille de l’échantillon pour chaque itération d’apprentissage.  

*Tip* : N’hésitez pas à ajuster progressivement `total_timesteps` si la convergence n’est pas satisfaisante.


In [None]:
# Entraînons l’agent pendant 10 000 pas
model.learn(total_timesteps=10_000)

In [None]:
# Évaluons l’agent entraîné
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=100)
print(f"mean_reward:{mean_reward:.2f} +/- {std_reward:.2f}")

Visiblement, l’entraînement s’est bien déroulé : la récompense moyenne a beaucoup augmenté !

### Préparer l’enregistrement vidéo

**Note sur la visualisation**  
- Sous Windows, on n’a pas besoin de créer de display virtuel (`xvfb`).  
- Sur Linux, si vous n’avez pas d’interface graphique, vous devrez lancer un display virtuel pour capturer des frames (`xvfb-run`).  
- Les fonctions ci-dessous utilisent `render_mode=\"rgb_array\"` pour récupérer les images directement.


In [None]:
# Sous Windows, pas besoin de lancer un display virtuel.
# On commente donc la partie suivante (utile surtout sous Linux) :
# import os
# os.system("Xvfb :1 -screen 0 1024x768x24 &")
# os.environ['DISPLAY'] = ':1'

In [None]:
import base64
from pathlib import Path
from IPython import display as ipythondisplay

def show_videos(video_path="", prefix=""):
    """
    Inspiré de : https://github.com/eleurent/highway-env

    :param video_path: (str) chemin vers le dossier contenant les vidéos
    :param prefix: (str) filtre sur le préfixe des noms de fichiers vidéo
    """
    html = []
    for mp4 in Path(video_path).glob("{}*.mp4".format(prefix)):
        video_b64 = base64.b64encode(mp4.read_bytes())
        html.append(
            """<video alt="{}" autoplay
                    loop controls style="height: 400px;">
                    <source src="data:video/mp4;base64,{}" type="video/mp4" />
                </video>""".format(
                mp4, video_b64.decode("ascii")
            )
        )
    ipythondisplay.display(ipythondisplay.HTML(data="<br>".join(html)))

Nous allons enregistrer une vidéo à l’aide de [VecVideoRecorder](https://stable-baselines.readthedocs.io/en/master/guide/vec_envs.html#vecvideorecorder). Vous en apprendrez davantage sur ces wrappers dans le prochain notebook.

In [None]:
from stable_baselines3.common.vec_env import VecVideoRecorder, DummyVecEnv

def record_video(env_id, model, video_length=500, prefix="", video_folder="videos/"):
    """
    :param env_id: (str)
    :param model: (RL model)
    :param video_length: (int)
    :param prefix: (str)
    :param video_folder: (str)
    """
    eval_env = DummyVecEnv([lambda: gym.make("CartPole-v1", render_mode="rgb_array")])
    # Commencer la vidéo au pas=0 et enregistrer 500 étapes
    eval_env = VecVideoRecorder(
        eval_env,
        video_folder=video_folder,
        record_video_trigger=lambda step: step == 0,
        video_length=video_length,
        name_prefix=prefix,
    )

    obs = eval_env.reset()
    for _ in range(video_length):
        action, _ = model.predict(obs)
        obs, _, _, _ = eval_env.step(action)

    # Fermer le recorder vidéo
    eval_env.close()

### Visualiser l’agent entraîné


In [None]:
record_video("CartPole-v1", model, video_length=500, prefix="ppo-cartpole")

In [None]:
show_videos("videos", prefix="ppo")

## Bonus : entraîner un modèle RL en une seule ligne

La classe de politique utilisée sera déduite automatiquement et l’environnement sera créé automatiquement également. Cela fonctionne parce que les deux sont [enregistrés](https://stable-baselines.readthedocs.io/en/master/guide/quickstart.html).

In [None]:
model = PPO('MlpPolicy', "CartPole-v1", verbose=1).learn(1000)

## Conclusion

Dans ce notebook, nous avons vu :
- comment définir et entraîner un modèle RL à l’aide de Stable Baselines3 (en une seule ligne de code) ;)
