<a href="https://colab.research.google.com/github/Apofice2/Test-apprentissage-par-renforcement/blob/main/Initiation_A_Gym.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="./assets/Logo_ESEO_GROUPE.jpg" alt="Tech Logo" align="center" height="400" width="400"/>

<h1 align="center"; style="color:#3333cc;font-size:55px">Apprentissage par renforcement</h1>

<h2 align="center"; style="color:#0099cc;font-size:30px">Initiez vous à OpenAI Gym</h2>

Dans ce TP découverte, nous découvrirons les éléments de base de la librairie Gym d'OpenAI. Nous passerons en revue certains éléments comme les environnements, les espaces, les wrappers et les environnements vectorisés.


Pour débuter dans l'apprentissage par renforcement, Gym d'OpenAI est indéniablement le choix le plus populaire pour mettre en place des environnements pour former vos agents. Dans la recherche en apprentissage par renforcement, un large éventail d'environnements qui sont utilisés comme références pour prouver l'efficacité de toute nouvelle méthodologie de recherche sont implémentés dans OpenAI Gym. De plus, OpenAI gym fournit une API simple pour implémenter vos propres environnements.

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>🖱️ <strong>Installation de la librairie</strong></span></h2>

La première chose à faire est de s'assurer que la dernière version de gym est installée. Sinon, il est possible d'utiliser conda ou pip pour installer Gym. Dans notre cas, nous utiliserons pip.

Mais un préalable à l'installation de gym est l'installation de la librairie **pygame**. Installons-la !

In [None]:
!pip3 install pygame

Passons maintenant à l'installation de gym

In [None]:
!pip3 install -U gym==0.19.0

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>🌎 <strong>Les environnements dans Gym</strong></span></h2>

Le bloc de base d'OpenAI Gym est la classe Env. Il s'agit d'une classe Python qui implémente essentiellement un simulateur qui exécute l'environnement dans lequel vous souhaitez former votre agent. Open AI Gym est livré avec de nombreux environnements, comme celui où vous pouvez déplacer une voiture sur une colline, équilibrer un pendule oscillant , obtenir de bons résultats sur les jeux Atari, etc.

Regardons combien d'environnements sont disponibles dans Gym.

In [None]:
from gym import envs
print("Nombre d'environnements disponibles dans Gym : ", len(envs.registry.all()))

Gym vous offre également la possibilité de créer des environnements personnalisés.

Commençons avec un environnement appelé MountainCar, où l'objectif est de conduire une voiture sur une montagne. La voiture est sur une piste unidimensionnelle, positionnée entre deux "montagnes". Le but est, en partant de la vallée, de monter sur la montagne à droite. Cependant, le moteur de la voiture n'est pas assez puissant pour escalader la montagne en une seule fois. Par conséquent, la seule façon de réussir est de faire des allers-retours pour créer une dynamique.

In [None]:
import gym
env = gym.make('MountainCar-v0').env

<img src="./assets/mountain-car-v0.gif" alt="Tech Logo" align="center" height="400" width="400"/>

La structure de base de l'environnement est décrite par les attributs **observation_space** et **action_space** de la classe Env.

L'attribut **espace_observation** définit la structure ainsi que les valeurs pour l'observation de l'état de l'environnement. **espace_observation** peut être différente selon les environnements. La forme la plus courante est une capture d'écran du jeu. Il peut aussi y avoir d'autres formes d'observations, comme certaines caractéristiques de l'environnement décrites sous forme vectorielle.

De même, la classe Env fournit également un attribut appelé **action_space**, qui décrit la structure numérique des actions pouvant être appliquées à l'environnement.

In [None]:
# Observation and action space
obs_space = env.observation_space
action_space = env.action_space
print("The observation space: {}".format(obs_space))
print("The action space: {}".format(action_space))

L'espace d'observation pour l'environnement **"MountainCar"** est un vecteur de deux nombres représentant la vitesse et la position. Le point médian entre les deux montagnes est considéré comme l'origine, la droite étant la direction positive et la gauche la direction négative.

Remarquez que l'espace d'observation ainsi que l'espace d'action sont représentés par des classes appelées **Box** et **Discrete**, respectivement. Il s'agit de l'une des différentes structures de données fournies par Gym afin de mettre en œuvre des espaces d'observation et d'action pour différents types de scénarios (espace d'action discret, espace d'action continue, etc.). Nous approfondirons ces derniers plus loin.

Pour Box et Discrete, l'attribut **n** permet de déterminer le nombre d'états possibles dans l'environnement et le nombre d'actions possibles.

In [None]:
action_space.n

Mais attention, dans des environnements à espaces d'états continus comme MountainCar, le nombre d'états possibles est infini, donc la commande ci-dessous renverra une erreur

In [None]:
obs_space.n

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>🚀 <strong>Les interactions avec l'environnement</strong></span></h2>

Dans cette section, nous découvrirons les fonctions de la classe Env qui aident l'agent à interagir avec l'environnement. Deux de ces fonctions importantes sont :

- **reset** : Cette fonction réinitialise l'environnement à son état initial, et renvoie l'observation de l'environnement correspondant à l'état initial.
- **step** : cette fonction prend une action en entrée et l'applique à l'environnement, ce qui entraîne la transition de l'environnement vers un nouvel état. La fonction reset renvoie quatre choses :
    - ***observation*** : L'observation de l'état de l'environnement.
    - ***récompense*** : la récompense que vous pouvez obtenir de l'environnement après avoir exécuté l'action qui a été donnée en entrée de la fonction d'étape.
    - ***done*** : Indique si l'épisode a été terminé. Si c'est vrai, vous devrez peut-être mettre fin à la simulation ou réinitialiser l'environnement pour redémarrer l'épisode.
    - ***info*** : cela fournit des informations supplémentaires en fonction de l'environnement, telles que le nombre de vies restantes, ou des informations générales pouvant être propices au débogage.

Voyons maintenant un exemple qui illustre les concepts évoqués ci-dessus. On commence d'abord par réinitialiser l'environnement, puis on inspecte une observation. Nous appliquons ensuite une action et inspectons la nouvelle observation.

In [None]:
import matplotlib.pyplot as plt

# reset the environment and see the initial observation
obs = env.reset()
print("L'observation initiale de l'état de l'environnement est : {}".format(obs))

# Choisir une action aléatoire dans l'espace des actions
random_action = env.action_space.sample()

# Effectuer l'action choisie et récupérer l'observation du nouvel état
new_obs, reward, done, info = env.step(random_action)
print("La nouvelle observation de l'état de l'environnement est : {}".format(new_obs))

Dans le cas de cet environnement, l'observation de l'état de l'environnement n'est pas la capture d'écran de la tâche en cours d'exécution. Dans de nombreux autres environnements (comme Atari, comme nous le verrons), l'état est une capture d'écran du jeu.

Dans tous les cas, si vous voulez voir à quoi ressemble l'environnement dans l'état actuel, vous pouvez utiliser la méthode de **render()**.

In [None]:
env.render(mode="human")

Cela devrait afficher l'environnement dans son état actuel dans une fenêtre contextuelle. Vous pouvez fermer la fenêtre à l'aide de la fonction **"close"**.

In [None]:
# env.close()

Si vous souhaitez voir une capture d'écran du jeu sous forme d'image plutôt que sous forme de fenêtre contextuelle, vous devez définir l'argument mode de la fonction de **render()** sur **rgb_array**.

In [None]:
env_screen = env.render(mode = 'rgb_array')

import matplotlib.pyplot as plt
print(env_screen.shape)
plt.imshow(env_screen)

env.close()

En mettant tout bout à bout, le code  pour exécuter votre agent dans l'environnement MountainCar ressemblerait à ce qui suit.

Dans notre cas, nous prenons juste des actions aléatoires, mais vous pouvez bienévidemment avoir un agent qui fait quelque chose de plus intelligent en fonction de l'observation que vous obtenez (c'est même le but).

In [None]:
import time

# Nombre d'étapes à faire exécuter par l'agent
num_steps = 1500

obs = env.reset()

for step in range(num_steps):
    # On choisit ici une action aléatoire
    action = env.action_space.sample()

    # On exécute cette action dans l'environnement
    obs, reward, done, info = env.step(action)

    # On effectue de l'état de l'environnement
    env.render()

    # On attend un peu sinon la vidéo finale sera trop rapide à observer
    time.sleep(0.001)

    # Si l'épisode se termine, on en commence un autre
    if done:
        env.reset()

# AU terme des étapes, on ferme l'environnement
env.close()

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>🌌<strong>Observation de l'espace d'états et d'actions</strong></span></h2>

L'espace des états pour notre environnement était **Box(2,)** et l'espace d'action était **Discrete(2,)**.

Mais qu'est-ce que cela signifie réellement? Box et Discrete sont tous deux des types de structures de données appelées "Spaces" fournies par Gym pour décrire les valeurs légitimes des états et des actions pour les environnements.

Toutes ces structures de données sont dérivées de la classe de base gym.Space

In [None]:
type(env.observation_space)

Box(n,) correspond à l'espace continu à n dimensions.

Dans notre cas n=2, donc l'espace d'observation de notre environnement est un espace 2-D. Bien sûr, l'espace est délimité par des limites supérieures et inférieures qui décrivent les valeurs légitimes que peuvent prendre nos états.

Nous pouvons le déterminer en utilisant les attributs **high** et **low** de l'espace d'état. Celles-ci correspondent respectivement aux positions/vitesses maximales et minimales dans notre environnement.

In [None]:
print("Limite supérieure de l'espace des états : ", env.observation_space.high)
print("Limite inférieure de l'espace des états : ", env.observation_space.low)

La l'objet Discret(n) décrit un espace discret avec [0.....n-1] valeurs possibles. Dans notre cas, n = 3, ce qui signifie que nos actions peuvent prendre des valeurs de 0, 1 ou 2.

Contrairement à Box, Discrete n'a pas de méthode **high** et **low**, car, par définition , l'on sait quel type de valeurs d'actions sont autorisés.

Par exemple, si vous essayez d'entrer des valeurs d'action non valides (dans notre cas, disons, 4) dans la fonction **step()** de notre environnement, cela conduira à une erreur.

In [None]:
# Fonctionne
env.step(2)

In [None]:
# Ne fonctionne pas
env.step(4)


Il existe plusieurs autres espaces disponibles pour divers cas d'utilisation, tels que MultiDiscrete, qui permet d'utiliser plusieurs variables discrètes pour votre espace d'état et d'action.

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>💼<strong>Les Wrappers dans Gym</strong></span></h2>

La classe **Wrapper** dans OpenAI Gym vous offre la possibilité de modifier différentes parties d'un environnement en fonction de vos besoins.

Pourquoi un tel besoin pourrait-il survenir ? Peut-être voulez-vous normaliser votre entrée de pixels, ou peut-être voulez-vous modifier vos récompenses. Bien que vous puissiez généralement accomplir la même chose en créant une autre classe qui sous-classe la classe Env de votre environnement, la classe Wrapper nous permet de le faire de manière plus systématique.

Mais avant de commencer, passons à un environnement plus complexe qui nous aidera vraiment à apprécier l'utilité de Wrapper. Cet environnement complexe va être le jeu Atari **Breakout**.

<img src="./assets/breakout.gif" alt="Tech Logo" align="center" height="300" width="300"/>

Avant de commencer, nous installons les composants Atari de Gym.

In [None]:
!pip3 install opencv-python
!pip3 install gym[atari]

Si vous avez une erreur  ***"AttributeError: le module 'enum' n'a pas d'attribut 'IntFlag'"***, vous devrez peut-être désinstaller le package enum, puis réessayer l'installation.

In [None]:
# pip3 uninstall -y enum34

Exécutons maintenant l'environnement avec des actions aléatoires.

In [None]:
env = gym.make("BreakoutNoFrameskip-v4")

print("Espace d'états : ", env.observation_space)
print("Espace d'actions : ", env.action_space)

obs = env.reset()

for i in range(1000):
    action = env.action_space.sample()
    obs, reward, done, info = env.step(action)
    env.render()
    time.sleep(0.01)
env.close()

Notre espace d'état est un espace continu de dimensions (210, 160, 3) correspondant où chaque élément est un pixel RGB.
Notre espace d'action contient 4 actions discrètes :
- Gauche,
- Droite,
- Ne rien faire
- Feu

Maintenant que notre environnement est chargé, supposons que nous devions apporter certaines modifications à l'environnement Atari. C'est une pratique courante en apprentissage par renforcement de construire notre observation en concaténant ensemble les k images précédente. Nous devons modifier l'environnement BreakOut de sorte que nos fonctions **reset()** et **step()** renvoient des observations concaténées.

Pour cela, nous définissons une classe de type gym.Wrapper pour surcharger les fonctions reset et return de l'environnement Breakout. La classe Wrapper, comme son nom l'indique, est un wrapper au-dessus d'une classe Env qui modifie certains de ses attributs et fonctions.

La fonction **__init__** est définie avec la classe Env pour laquelle le wrapper est écrit, et le nombre de trames passées à concaténer. Notez que nous devons également redéfinir l'espace d'observation puisque nous utilisons maintenant des cadres concaténés comme observations. (Nous modifions l'espace d'observation de (210, 160, 3) à (210, 160, 3 * num_past_frames)

Dans la fonction **reset**, pour initialiser l'environnement, puisque nous n'avons aucune observation précédente à concaténer, nous concaténons uniquement les observations initiales à plusieurs reprises.

In [None]:
from collections import deque
from gym import spaces
import numpy as np

class ConcatObs(gym.Wrapper):
    def __init__(self, env, k):
        gym.Wrapper.__init__(self, env)
        self.k = k
        self.frames = deque([], maxlen=k)
        shp = env.observation_space.shape
        self.observation_space = spaces.Box(low=0, high=255, shape=((k,) + shp), dtype=env.observation_space.dtype)


    def reset(self):
        ob = self.env.reset()
        for _ in range(self.k):
            self.frames.append(ob)

        return self._get_ob()

    def step(self, action):
        ob, reward, done, info = self.env.step(action)
        self.frames.append(ob)
        return self._get_ob(), reward, done, info

    def _get_ob(self):
        return np.array(self.frames)

Maintenant, pour obtenir notre environnement modifié, nous encapsulons notre environnement Env dans le wrapper que nous venons de créer.

In [None]:
env = gym.make("BreakoutNoFrameskip-v4")
wrapped_env = ConcatObs(env, 4)

print("La nouvelle observation est : ", wrapped_env.observation_space)

Vérifions maintenant si les observations sont bien concaténées ou non.

In [None]:
# Réinitialiser l'environnement
obs = wrapped_env.reset()
print("Dimensions de l'état initiale : ", obs.shape)

# Effectuer une action sur l'environnement
obs, _, _, _  = wrapped_env.step(2)
print("Dimensions de l'état après avoir effectué l'action", obs.shape)


Il existe d'autres types de wrappers dans Gym.

Gym fournit également des wrappers spécifiques qui ciblent des éléments spécifiques de l'environnement, tels que des observations, des récompenses et des actions.

- **ObservationWrapper** : Il permet d'apporter des modifications à un état d'un environnement en utilisant la méthode **observation** de la classe wrapper.
- **RewardWrapper** : Il permet d'apporter des modifications à une récompense en utilisant la méthode **reward** de la classe wrapper.
- **ActionWrapper** : Il permet d'apporter des modifications à une action à l'aide de la méthode **action** de la classe wrapper.

<h2 style="text-align: left; color:#0099cc;font-size: 25px"><span>🧮<strong>Les environnements vectoriels dans Gym</strong></span></h2>

De nombreux algorithmes d'apprentissage par renforcement (comme Asynchronous Actor Critic) utilisent des threads parallèles, où chaque thread exécute une instance de l'environnement pour à la fois accélérer le processus de formation et améliorer l'efficacité.

Pour ce faire, nous allons maintenant utiliser une autre bibliothèque, également d'OpenAI, appelée **baselines**. Cette bibliothèque fournit des implémentations performantes de nombreux algorithmes d'apprentissage par renforcement standard avec lesquels comparer n'importe quel nouvel algorithme. En plus de ces implémentations, **baselines** fournit également de nombreuses autres fonctionnalités qui permettent de préparer nos environnements conformément à la manière dont ils ont été utilisés dans les expériences OpenAI.

L'une de ces fonctionnalités comprend des wrappers qui vous permettent d'exécuter plusieurs environnements en parallèle à l'aide d'un seul appel de fonction. Avant de commencer, nous procédons d'abord à l'installation de baselines en exécutant les commandes suivantes dans un terminal.

In [None]:
!git clone https://github.com/openai/baselines
!cd baselines && pip3 install . && cd ..

Vous devrez peut-être redémarrer votre notebook Jupyter pour que le package installé soit disponible.

Le wrapper qui nous intéresse ici s'appelle SubProcEnv, qui exécutera tous les environnements dans une méthode asynchrone.

Nous créons d'abord une liste d'appels de fonction qui renvoient l'environnement que nous exécutons. Dans le code, une fonction lambda est utilisée pour créer une fonction anonyme qui renvoie l'environnement de Gym

In [None]:
# Importer les packages necessaires
import gym
from baselines.common.vec_env.subproc_vec_env import SubprocVecEnv

# Liste des environnements
num_envs = 3
envs = [lambda: gym.make("BreakoutNoFrameskip-v4") for i in range(num_envs)]

# Création de l'environnement vectoriel
envs = SubprocVecEnv(envs)

Cet environnement agit maintenant comme un environnement unique où nous pouvons appeler les fonctions **reset** et **step**. Cependant, ces fonctions renvoient maintenant un tableau d'état/actions, plutôt qu'un seul état/action.

In [None]:
# On se met à l'état initial
init_obs = envs.reset()


# On récupère une liste d'état correspondant à des environnements parallèle
print("Nombre d'environnements:", len(init_obs))

# On vérifie le premier état
one_obs = init_obs[0]
print("Dimensions du premier état", one_obs.shape)

# On prépare une liste d'actions qui sont appliqués à l'environnement
actions = [0, 1, 2]
obs = envs.step(actions)

L'appel de la fonction **render** sur les envs vectorisés affiche des captures d'écran des jeux en mosaïque.

In [None]:
# Import de libraires
import time

# Liste des environnements
num_envs = 3
envs = [lambda: gym.make("BreakoutNoFrameskip-v4") for i in range(num_envs)]

# Création et rendu de l'environnement vectorisé
envs = SubprocVecEnv(envs)

init_obs = envs.reset()

for i in range(1000):
    actions = [envs.action_space.sample() for i in range(num_envs)]
    envs.step(actions)
    envs.render()
    time.sleep(0.001)

envs.close()