## Objectifs


1. Découvrir et apprendre à utiliser certaines librairies (Gym, Gymnasium, StableBaselines)

2. Comprendre comment régler certains paramètres d'algorithmes d'apprentissage (Q-Learning, DQN et PPO) afin d'améliorer leurs performances sur certains problèmes.

3. Comparer les résultats des divers algorithmes et interpréter les observations

## Termes importants


- **step** (ou timestep) : un cycle de trois phases ou l'agent : observe, agit sur l'environnement puis se voit attribuer une récompense immédiate. L'agent n'effectue qu'une unique action par step.

- **épisode** : une succession de steps ammenant l'agent du début de l'épisode à la fin de l'épisode

- **récompense immédiate** : Récompense donnée par l'environnement à l'agent lorsque celui-ci effectue une action

- **récompense** (pour un épisode) : Somme des récompenses immédiates obtenues par l'agent au cours d'un épisode.



Exemple :
  Une partie d'échec est un épisode qui possède un début et une fin.
  La partie correspond à l'épisode et le step correspond au fait de bouger un pion.


- **État de l'environnement** : la configuration à l'instant t de l'environnement

- **Observation de l'agent** : Ce que l'agent observe de son environnement à l'instant t

Exemple :
  Si je fais dos à un porte ouverte, alors dans l'état de mon environnement la porte est ouverte.
  Mais je ne suis pas en mesure de la voir, donc la porte ne fait pas partie de mon observation.

## Les algorithmes

On utilise le Q-Learning tabulaire, DQN et PPO dont on trouvera l'implémentation dans leur fichier python respectif : QLearning.py, DQN.py et PPO.py

Les trois fichiers comportent chacun deux fonctions importantes : train-XXX et test-XXX ou on remplace XXX par l'algorithme à utiliser.

- La fonction train permet d'entraîner un agent et d'en obtenir le modèle ainsi que la suite de récompenses obtenues au cours de l'entraînement

- La fonction test permet de spécifier un environnement ainsi qu'un modèle et de dérouler un épisode



Attention, l'entraînement se fait sur un certains nombre de timesteps fixe.

### QLearning

Le QLearning fonctionne à l'aide d'**une table** où **chaque case est associée à une paire (action, état)**.
Sémantiquement, une case (associée à l'action a et l'état e) contient la récompense d'épisode que l'on peut espérer obtenir en effectuant l'action a en étant dans l'état e.

Grâce à la table nous pouvons modifier chaque case individuellement. Lorsque l'agent apprend quelque chose, il modifie son "intérêt" envers une action uniquement pour un état.


Le QLearning est "**off-policy**", il n'agit pas de la même façon en entraînement et hors entraînement.

- **Hors entraînement**, il suit la policy "**greedy**" : choisir l'action menant à la plus grande récompense d'épisode (d'après la table).

- **En entraînement**, il suit la policy "**epsilon-greedy**" : avec probabilité epsilon j'agis aléatoirement, sinon j'applique la policy greedy.

epsilon est une valeure que nous pouvons influencer à l'aide des paramètres.

#### Paramètres du QLearning

**Paramètres liés à epsilon** : 

- **eps_start** : La valeure de epsilon en début d'entraînement
- **eps_end** : la valeure finale de epsilon
- **eps_fraction** : le "pourcentage" de l'entraînement nécessaire pour que epsilon atteigne eps_end.

La décroissance de epsilon est linéaire.

**Exemple** :

Si nous avons eps_start = 1, eps_end = 0 et eps_fraction = 0.5 et que l'entraînement se fait sur 100 timesteps.

Alors au bout de 100*0.5 = 500 timesteps, epsilon vaudra 0.
Comme la décroissance de epsilon est linéaire alors, au timesteps 250 de l'entraînement la valeur de epsilon sera de 0.5.


**Valeurs par défaut**
- eps_start = 0.9
- eps_end = 0.05
- eps_fraction = 0.3





**Autres paramètres**

- **alpha** (aussi appelé learningRate) : Au plus alpha est élevé au plus ce qui vient d'être observé est important par rapport à ce qui a déjà été appris par l'agent.

Pour le QLearning, alpha est constant.

- **gamma** : Au plus gamma est élevé, au plus les récompenses immédiates dont l'agent anticipe l'obtention dans plusieurs timesteps futurs
seront importantes.


**Valeurs par défaut**
- alpha = 0.1
- gamma = 0.9


### DQN (Deep Q Network)

Se base sur les mêmes principes que le QLearning.

La table est remplacée par un réseau de neurones artificiel.

L'**inconvénient** de ce réseau est que lorsque que l'agent apprend quelque chose, cela peut modifier son "intérêt" pour de multiples actions dans divers états. Cela rend l'apprentissage **plus instable**, pour palier à cela on utilise un second réseau appelé **réseau cible** (target network).

Ce même phénomène est aussi un **avantage** puisqu'il peut apprendre de multiples choses simultanément ce qui peut **accélérer l'entraînement** et surtout le réseau nécessite **moins de mémoire** que la table pour des problèmes complexes.

Tout comme le QLearning, DQN est off-policy et nécessite un epsilon (dont on utilise strictement de la même façon que pour QLearning)


**Les réseaux**

- À chaque step, les informations (état, action, récompense immédiate) sont préservées dans un **buffer**.
- Puis un certains nombre d'exemples issus du buffer sont placés dans le **batch** que l'on utilise pour mettre à jour le réseau principal.
- Au bout d'un certain nombre de timesteps, on copie le réseau principale pour en faire le réseau cible.
- Des paramètres supplémentaires permettent d'influencer les réseaux.

#### Paramètres de DQN (pour StableBaselines3)

**Paramètres liés à epsilon** : 

- **exploration_initial_eps** : La valeure de epsilon en début d'entraînement
- **exploration_final_eps** : la valeure finale de epsilon
- **exploration_fraction** : le "pourcentage" de l'entraînement nécessaire pour que epsilon atteigne eps_end.

La décroissance de epsilon est linéaire.

**Exemple** :

Si nous avons exploration_initial_eps = 1, exploration_final_eps = 0 et exploration_fraction = 0.5 et que l'entraînement se fait sur 100 timesteps.

Alors au bout de 100*0.5 = 500 timesteps, epsilon vaudra 0.
Comme la décroissance de epsilon est linéaire alors, au timesteps 250 de l'entraînement la valeur de epsilon sera de 0.5.


**Valeurs par défaut**
- exploration_initial_eps = 1
- exploration_final_eps = 0.05
- exploration_fraction = 0.3



**Paramètres liés aux réseaux** :
- **net_arch** : L'architecture des réseaux
- **buffer_size** : Le nombre de tuple conservés dans le buffer
- **batch_size** : Le nombre de tuple sélectionnés pour l'entraînement
- **update_freq** : Le nombre de timesteps avant de recopier le réseau sur le réseau cible.
Au plus update_freq est grand, au plus l'entraînement est lent mais stable.
Un update_freq de 1 revient à avoir un unique réseau.

**Valeurs par défaut**
- net_arch = [64, 64]
- buffer_size = 500
- batch_size = 32
- update_freq = 500


**Autres paramètres**

- **learning_rate** (pour learningRate) : Au plus le learning rate est élevé au plus ce qui vient d'être observé est important par rapport à ce qui a déjà été appris par l'agent.

- **gamma** : Au plus gamma est élevé, au plus les récompenses immédiates dont l'agent anticipe l'obtention dans plusieurs timesteps futurs
seront importantes.



**Valeurs par défaut**
- learning_rate = 0.01
- gamma = 0.99


### PPO : À FAIRE

Attention les valeurs par défaut de stable baselines diffèrent selon l'algorithme utilisé.

### Utilisation

In [None]:
"""Entraînement de 2000 steps d'un QLearning sur un environnement avec un alpha de 0.01"""
# env = monEnvironnement(param1, param2)
# QTable, QrewardsTrain, QrewardsExploitation = train_q_learning(env, timesteps = 2000, alpha = 0.01, useProdForReward = True)
"""
Les paramètres non spécifiés prennent la valeur par défaut
- env : on spécifie l'environnement sur lequel l'agent s'entraîne
- timesteps : le nombre de steps d'entraînement effectués
- alpha : dans cet exemple on précise ce paramètre pour qu'il ne prenne pas la valeur par défaut.
- useProdForReward : Si True alors à chaque fin d'épisode pendant l'entraînement, on effectue
épisode d'exploitation duquel on prend la récompense totale obtenue
Si False, alors ces épisodes ne sont pas calculés.


3 choses sont obtenues par l'utilisation de cette méthode :
- QTable : La table Q après entraînement
- QrewardsTrain : la liste des récompenses d'épisodes obtenues pendant l'entraînement (1 valeur = 1 épisode)
- QrewardsExploitation : lorsque useProdForReward vaut True (False par défaut), à chaque fin d'épisode pendant l'entraînement, on effectue
épisode d'exploitation duquel on prend la récompense totale obtenue.
QrewardsExploitation correspond à la liste des récompenses d'épisodes obtenues par ces épisodes d'exploitation

À savoir que si useProdForReward vaut False alors ces épisodes d'exploitation ne sont pas calculés et l'apprentissage est plus rapide.


Pour cet exmeple, on effectue un entraînement sur 2000 timesteps, si au step 2000 l'épisode en cours ne prends pas fin alors l'entraînement
prend tout de même fin mais les récompenses de cet épisode ne sont pas inclus dans les valeurs de retour.
"""






# DQNmodel, DQNrewTrain, DQNrewExpl = train_dqn(env, timesteps = 2000, buffer_size = 1000, useProdForReward = True, maxTimestepsProd = 20)

"""
Pour cet exemple, on entraîne un DQN pendant 2000 steps avec un buffer_size de 1000, les valeurs de retour et les paramètres ont la même
sémantique que pour train_q_learning()

Le paramètre maxTimestepsProd permet de définir le nombre de timesteps maximal qu'effectue l'agent au cours d'un épisode d'exploitation.
Cela permet d'empêcher une boucle infinie pendant le calcul d'une récompense d'exploitation. Par défaut, maxTimestepsProd vaut 100
"""

## Les environnements (Gym et Gymnasium)

Les algorithmes utilisés fonctionnent avec tous les environnement "Gym" qui suivent le schéma suivant :

### Gym

La classe de l'environnement doit hériter de gym.Env


Il faut les méthodes :

- **__init__** : initialise l'environnement

aucun paramètre et ne renvoie rien,

Doit commencer par super(nomClasse, self).__init__()

Doit définir :
1. self.action_space : décrit les actions possibles
2. self.observation_space : décrit les états possibles


- **reset** : reinitialise l'environnement,

ne prend aucun paramètre
renvoie l'état de départ


- **step** : applique une action à l'environnement,
prend l'action en paramètre et renvoie

1. Le nouvel état de l'environnement
2. La récompense immédiate obtenue par l'agent
3. True si l'épisode est fini, False sinon
4. Un dictionnaire contenant des infos complémentaires


- **seed** : initialise les générateurs pseudo-aléatoire

Prend en paramètre la seed que doivent prendre ne paramètre les générateurs

ne renvoie rien

In [1]:
import gym
from gym import spaces

class monEnvironnement(gym.Env) :

    def __init__(self) :
        super(monEnvironnement, self).__init__()
        # J'initialise l'environnement
        self.action_space = spaces.Discrete(2)       #OBLIGATOIRE
        self.observation_space = spaces.Discrete(4)  #OBLIGATOIRE
        pass

    def reset(self) :
        # Je réinitialise l'environnement
        # Je renvoie l'état initial (int)
        pass

    def step(self, action) :
        # J'applique l'action (int) effectué par l'agent dans l'environnement
        # Je renvoie dans cet ordre :
        # Le nouvel état de l'environnement (int)
        # La récompense immédiate octroyée à l'agent (int)
        # True si l'épisode est fini, False sinon (bool)
        # Informations complémentaires (dict)
        pass

    def render(self) :
        # Affiche l'état courant
        # ne renvoie rien
        # non obligatoire pour stableBaselines
        pass

    def seed(self, seedInt) :
        # Prend l'entier comme seed
        # N'est utile que pour les environnements non déterministe 
        # Permet d'affecter aux générateurs aléatoires cette seed précise
        # Ne renvoie rien
        pass

dans la méthode init, deux attributs doivent être définis :
- action_space : représente l'ensemble des actions possibles
- observation_space : représente l'ensemble des états possibles

Pour définir ces attributs on utilise spaces de gym.

### Pour Gymnasium

In [None]:
import gymnasium
from gymnasium import spaces

class monEnvironnement(gymnasium.Env) :

    def __init__(self) :
        super(monEnvironnement, self).__init__()
        # J'initialise l'environnement
        self.action_space = spaces.Discrete(2)       #OBLIGATOIRE
        self.observation_space = spaces.Discrete(4)  #OBLIGATOIRE
        pass

    def reset(self, seed = None, options = None) :
        super().reset(seed = seed)
        # Je réinitialise l'environnement
        # Je renvoie l'état initial (int) puis un dictionnaire d'info
        pass

    def step(self, action) :
        # J'applique l'action (int) effectué par l'agent dans l'environnement
        # Je renvoie dans cet ordre :
        # Le nouvel état de l'environnement (int)
        # La récompense immédiate octroyée à l'agent (int)
        # True si l'épisode est fini, False sinon (bool)
        # Informations complémentaires (dict)
        pass

    def render(self) :
        # Affiche l'état courant
        # ne renvoie rien
        # non obligatoire pour stableBaselines
        pass


### Gym.spaces == Gymnasium.spaces

Pour le moment nos environnements feront usage de spaces.Discrete qui décrivent un ensemble discret.

Exemple :
- spaces.Discrete(2) correspond à l'ensemble {0, 1}
- spaces.Discrete(3, start = -1) correspond à l'ensemble {-1, 0, 1}

Si on définit action_space avec spaces.Discrete(2), alors 2 actions sont possibles, 0 ou 1.

À noter que spaces s'utilise de la même manière entre Gym et Gymnasium il suffit d'utiliser celui correspondant à l'environnement que l'on crée (gym ou gymnasium)

Il existe d'autres spaces pour des situations que nous ne rencontrerons pas dans les environnements étudiés sur ce dépôt.

## StableBaselines

Stable Baselines est une librairie fournissant une implémentation de divers algorithmes, nous l'utiliserons pour les algorithmes de DQN et de PPO.

Voici des exemples montrant comment créer un modèle, l'entraîner, l'utiliser et l'évaluer.


### Créer un modèle

In [14]:
"""On commence par spécifier l'architecture du réseau"""
import torch as th

policy_kwargs = dict(activation_fn=th.nn.ReLU,
                     net_arch=[8, 10])
# Chaque élément est une couche dont la valeur est le nombre de neurone qui s'y trouvent.
# Cela forme les couches intermédiaires, dans cet exemple on a deux couches intermédiaires
# de respectivement 8 et 10 neurones.


env = monEnvironnement()



from stable_baselines3 import DQN

model = DQN("MlpPolicy", env, policy_kwargs = policy_kwargs, verbose = 0)

"""
"MlpPolicy" permet d'utiliser un réseau densse
env précise l'environnement
policy_kwargs = policy_kwargs permet d'utiliser le réseau de notre choix
(par défaut, 2 couches intermédiaires de 64)
verbose = 0 : aucun affichage
"""


'\n"MlpPolicy" permet d\'utiliser un réseau dense\nenv précise l\'environnement\npolicy_kwargs = policy_kwargs permet d\'utiliser le réseau de notre choix\n(par défaut, 2 couches intermédiaires de 64)\nverbose = 0 : aucun affichage\n'

### Le logger : calculer les récompenses

In [12]:
"""
On doit créer un logger pour enregistrer les récompenses.
"""

from stable_baselines3.common.callbacks import BaseCallback


class RewardLogger(BaseCallback) :
    def __init__(self, verbose = 0) :
        super().__init__(verbose)
        self.rewards = []
        self.current_reward = 0

    def _on_step(self) :
        self.current_reward += self.locals["rewards"][0] # Permet d'obtenir la dernière récompense immédiate
        if self.locals["dones"][0] : # Permet de savoir si l'épisode est terminé
            self.rewards += self.current_reward
            self.current_reward = 0
        return True


logger = RewardLogger()

"""
Le logger ci-dessus permet de calculer les récompenses d'épisodes au cours de l'entraînement.
"""

"\nLe logger ci-dessus permet de calculer les récompenses d'épisodes au cours de l'entraînement.\n"

### Entraînement et affichage des récompenses

In [13]:
"""
On effectue l'entraînement puis on affiche les résultats
La partie ci-dessous est commentée car nous n'avons pas d'environnement donc cela ne fonctionnerai pas.
"""

# model.learn(total_timesteps = NombreDeTimesteps, callback = logger)


import matplotlib.pyplot as plt
# plt.plot(logger.rewards)

### Dérouler un épisode

In [None]:
# On peut observer ce qu'effectue l'agent dans un environnement


from stable_baselines3.common.env_util import make_vec_env

# env = ....

"""
preventInfinite = nombreMaxDeStep
done = False

env = make_vec_env(lambda : env, n_env = 1)          Stable Baselines utilise des "environnements vectorisés" 
obs = env.reset()                               Ne pas oublier de réinitialiser l'environnement si on boucle sur ce script.

while not done && preventInfinite > 0 :
    preventInfinite -= 1
    action, _ = model.predict(obs, deterministic = True)    deterministic = True est nécessaire pour éviter d'utiliser les policy d'entraînement
    obs, reward, done, info = env.step(action)             Après avoir déterminé l'action de l'agent, on l'applique à l'environnement
"""

Tout cela est implémenté dans les fichiers DQN.py, il suffit d'utiliser train_dqn() et test_dqn()

## Les différents problèmes

### Problème 1 : Le couloir

La fiche couloir.ipynb traite ce problème.
Ce problème est assez simple, il a pour objectif de prendre en main les différentes librairies et d'établir une méthode à suivre pour l'étude des prochains problèmes.

Un couloir peut être imaginé comme une série de cases les unes à côtés des autres.

La longueur du couloir correspond au nombre de cases qui le représentent

L'agent ne perçoit qu'un entier, celui correspondant à la case où il se trouve.
S'il se trouve sur la première case alors il observe 0, il observera 1 s'il se trouve sur la seconde case etc..

Soit n la position actuelle de l'agent.

À chaque pas, l'agent peut effectuer deux actions, aller à gauche (se déplacer en n-1 pour n non nul) ou aller à droite (se déplacer en n+1).
L'épisode se termine lorsque l'agent se trouve en (taille du couloir - 1)


Les récompenses sont distribuées ainsi :
- Si l'agent n'est pas en taille - 1 : -1
- Si l'agent se trouve en taille - 1 : 10

### Problème 2 : Le Labyrinthe

La fiche Labyrinthe.ipynb traite ce problème.

Ce problème introduit d'avantages d'actions et d'états possibles. Il est basé sur l'environnement FrozenLake

L'objectif est d'atteindre la sortie d'un labyrinthe.
Le labyrinthe est représenté par une succession de cases formant un carré dont on peut choisir la taille.

À chaque case est associé un numéro qui représente sa position dans le labyrinthe.
L'agent ne peut perçevoir que le numéro associé à sa position actuelle.

L'agent résoud les labyrinthes un par un (il s'entraîne sur un unique labyrinthe pour en trouver la solution).



À chaque pas, l'agent peut :
- aller en haut
- aller en bas
- aller à gauche
- aller à droite

Mais il n'est pas possible de sortir des limites du labyrinthe (aller en haut en étant tout en haut n'a donc aucun effet)


Le labyrinthe possède de multiples case :
- "F" : une case libre
- "G" : la sortie du labyrinthe
- "S" : le point de départ de l'agent
- "." : la position actuelle de l'agent
- "H" : un trou

  Dans ce labyrinthe, les murs sont remplacés par des trous.

L'épisode prend fin si :
- l'agent tombe dans un trou
- l'agent trouve la sortie

La "taille" dy labyrinthe fait référence à la longueur du côté du carré le représentant. Il possède en tout taille^2 cases.

Le point de départ de l'agent est toujours en haut à gauche et la sortie toujours en bas à droite.
Quelque soit le labyrinthe, il existe au moins une solution.


Les récompenses sont distribuées de cette façon :
- tomber dans un trou : -1
- arriver sur une case libre : -1 / (taille ^ 2)
- trouver la sortie : 1