## Objectif

Comprendre comment régler de façon optimale certains paramètres des algorithmes d'apprentissage du Q-Learning et de DQN.
Puis comparer leur performances sous leur réglage optimale respectif.

## Les algorithmes

On utilise le Q-Learning tabulaire et DQN dont on trouvera l'implémentation dans leur fichier python respectif : QLearning.py et DQN.py

Les deux fichiers comportent chacun deux fonctions importantes : train-XXX et test-XXX ou on remplace XXX par l'algorithme à utiliser.

- La fonction train permet d'entraîner un agent et d'en obtenir le modèle ainsi que la suite de récompenses obtenues au cours de l'entraînement

- La fonction test permet de spécifier un environnement ainsi qu'un modèle et de dérouler un épisode

## Les environnements

Les algorithmes utilisés fonctionnent avec tous les environnement "Gym" qui suivent le schéma suivant :

In [2]:
import gym

class monEnvironnement(gym.Env) :

    def __init__(self) :
        # J'initialise l'environnement
        pass

    def reset(self) :
        # Je réinitialise l'environnement
        # Je renvoie l'état initial (int)
        pass

    def step(self, action) :
        # J'applique l'action (int) effectué par l'agent dans l'environnement
        # Je renvoie dans cet ordre :
        # Le nouvel état de l'environnement (int)
        # La récompense immédiate octroyée à l'agent (int)
        # True si l'épisode est fini, False sinon (bool)
        # Informations complémentaires (dict)
        pass

    def render(self, mode='human') :
        # Affiche l'état courant
        # ne renvoie rien
        pass

    def seed(self, seedInt) :
        # Prend l'entier comme seed
        # N'est utile que pour les environnements non déterministe 
        # Permet d'affecter aux générateurs aléatoires cette seed précise
        # Ne renvoie rien
        pass

## Les différents problèmes

### Problème 1 : Le couloir

La fiche couloir.ipynb traite ce problème.
Ce problème est assez simple, il a pour objectif de prendre en main les différentes librairies et d'établir une méthode à suivre pour l'étude des prochains problèmes.

Un couloir peut être imaginé comme une série de cases les unes à côtés des autres.

La longueur du couloir correspond au nombre de cases qui le représentent

L'agent ne perçoit qu'un entier, celui correspondant à la case où il se trouve.
S'il se trouve sur la première case alors il observe 0, il observera 1 s'il se trouve sur la seconde case etc..

Soit n la position actuelle de l'agent.

À chaque pas, l'agent peut effectuer deux actions, aller à gauche (se déplacer en n-1 pour n non nul) ou aller à droite (se déplacer en n+1).
L'épisode se termine lorsque l'agent se trouve en (taille du couloir - 1)


Les récompenses sont distribuées ainsi :
- Si l'agent n'est pas en taille - 1 : -1
- Si l'agent se trouve en taille - 1 : 10

### Problème 2 : Le Labyrinthe

La fiche Labyrinthe.ipynb traite ce problème.

Ce problème introduit d'avantages d'actions et d'états possibles. Il est basé sur l'environnement FrozenLake

L'objectif est d'atteindre la sortie d'un labyrinthe.
Le labyrinthe est représenté par une succession de cases formant un carré dont on peut choisir la taille.

À chaque case est associé un numéro qui représente sa position dans le labyrinthe.
L'agent ne peut perçevoir que le numéro associé à sa position actuelle.

L'agent résoud les labyrinthes un par un (il s'entraîne sur un unique labyrinthe pour en trouver la solution).



À chaque pas, l'agent peut :
- aller en haut
- aller en bas
- aller à gauche
- aller à droite

Mais il n'est pas possible de sortir des limites du labyrinthe (aller en haut en étant tout en haut n'a donc aucun effet)


Le labyrinthe possède de multiples case :
- "F" : une case libre
- "G" : la sortie du labyrinthe
- "S" : le point de départ de l'agent
- "." : la position actuelle de l'agent
- "H" : un trou

  Dans ce labyrinthe, les murs sont remplacés par des trous.

L'épisode prend fin si :
- l'agent tombe dans un trou
- l'agent trouve la sortie

La "taille" dy labyrinthe fait référence à la longueur du côté du carré le représentant. Il possède en tout taille^2 cases.

Le point de départ de l'agent est toujours en haut à gauche et la sortie toujours en bas à droite.
Quelque soit le labyrinthe, il existe au moins une solution.


Les récompenses sont distribuées de cette façon :
- tomber dans un trou : -1
- arriver sur une case libre : -1 / (taille ^ 2)
- trouver la sortie : 1