# Introduction au Reinforcement Learning

### Module 1 

Quelques définitions :

Apprentissage supervisé : les données sont labélisées et nous essayons de construire un modèle capable de prédire ces labels.

Apprentissage non-supervisé : les données ne sont pas labélisées et nous essayons de construire un modèle capable de déduire des informations sur la façon dont ces données sont structurées.

Il existe également un troisième type d'apprentissage : le Reinforcement Learning ou l'apprentissage par renforcement, en français. Dans ce configuration, l'objectif est de constuire un algorithme capable d'apprendre directement de son expérience : il se trouve dans un certain environnement et il essaie d'apprendre par lui-même quel chemin prendre pour atteindre un objectif prédéfini.

In [None]:

#----------------------------------------------------------
from gridworld.agents import RandomAgent
from gridworld.environments import VanillaGridWorld, OneVsOneGridWorld, WindyGridWorld, CliffGridWorld


#Instantier un Agent RandomAgent
#----------------------------------------------------------
agent1 = RandomAgent(prefix='vanilla')
agent2 = RandomAgent(prefix='wumpus')
agent3 = RandomAgent(prefix='windy')
agent4 = RandomAgent(prefix='cliff')




# instantier chaque environnement avec l'Agent correspondant 
#sous les noms vanilla_env, wumpus_env, windy_env et cliff_env.
#----------------------------------------------------------
vanilla_env = VanillaGridWorld(agent=agent1)
wumpus_env = OneVsOneGridWorld(agent=agent2)
windy_env = WindyGridWorld(agent=agent3)
cliff_env = CliffGridWorld(agent=agent4)



# visualiser ce qu'il s'est passé
#----------------------------------------------------------
vanilla_env.display_in_jupyter()

#Afficher les épisodes 
#----------------------------------------------------------
wumpus_env.display_in_jupyter()
windy_env.display_in_jupyter()
cliff_env.display_in_jupyter()



#Observation, Récompense, Gain
#----------------------------------------------------------
# importer et utiliser la fonction getsource 
# qui affiche le contenu des méthodes de vanilla_env

from inspect import getsource

print(getsource(vanilla_env.run_episode))

print(getsource(vanilla_env.step))



#----------------------------------------------------------
print(getsource(agent1.ve))

print(getsource(agent1.act))

print(agent1.set_of_actions)

#La fonction d'observation est très importante 
#car c'est celle qui permet à l'Agent d'apprendre.


#agent_position : la position actuelle de l'Agent sur la grille.

#reward : une récompense reçue par l'Agent suite à sa dernière action.

#breeze : une variable booléenne avec une valeur True si un trou est 
#proche de l'Agent.

#smell : une variable booléenne avec une valeur True si un Wumpus est 
#proche de l'Agent.

#end_episode : une variable booléenne avec la valeur True si l'Agent est mort.

#info : une chaîne de caractère donnant des informations sur la façon 
#dont l'Agent est mort.



#Politique
#----------------------------------------------------------
#La politique est la façon dont l'Agent choisit son action. 
#Il s'agit essentiellement du contenu de la méthode agir.

from gridworld.agents import Agent #iport 
new_agent = Agent(prefix='new_agent')  #instance d agent 

# new_agent.act()


#----------------------------------------------------------
import numpy as np 
def act():
    return np.random.choice(['down', 'right'])

new_agent.act = act
new_agent.act()


#Instancier un environnement via VanillaGridWorld avec cet Agent, 
#lancer un épisode et l'afficher.
#----------------------------------------------------------
new_env = VanillaGridWorld(agent=new_agent)

new_env.run_episode()

new_env.display_in_jupyter()

### Module 2 : Les mathématiques derrière l'apprentissage par renforcement 

#### Actions, états, politique - la mécanique derrière


Au cours d'un épisode, chaque pas de temps est indexé par t :  t∈[0, T] , où  T  est le nombre maximal de pas de temps atteignable au cours d'un épisode.

L'ensemble de tous les états possibles est représenté par :  S={s∈S}

L'ensemble de toutes les actions possibles est représenté par :  A={a∈A}
La politique suivie par l'Agent est représentée par  π .



L'une des hypothèses les plus importantes du Reinforcement Learning est celle selon laquelle l'environnement de l'Agent suit un processus de décision de Markov (MDP), ce qui signifie que les actions et les états reposent uniquement sur une partie de l'histoire de l'Agent. En général, nous supposons que l'état et l'action actuels sont suffisants pour déterminer l'action et l'état suivants.

In [None]:


#Importer VanillaGridWorld de gridworld.environments 
#et LoudyAgent de gridworld.agents.

#Instancier une environnement VanillaGridWorld de taille 3 
#et un Agent Loudyagent.
#----------------------------------------------------------
from gridworld.agents import LoudyAgent
from gridworld.environments import VanillaGridWorld

agent = LoudyAgent()
env = VanillaGridWorld(agent=agent, grid_size=3)




#Récompense vs. Gain
#----------------------------------------------------------
#A chaque pas de temps, l'Agent reçoit une récompense notée  Rt
#G = somme (Rt)


#Lancer un épisode de l'environnement et analyser les résultats
#--------------------- 
env.run_episode()

#Visualiser une épisode via la méthode display_in_jupyter
#---------------------
env.display_in_jupyter()





#Les fonctions de valeur
#----------------------------------------------------------
#La fonction de valeur  V  est quelque chose de très important : 
#    elle nous donne le rendement 
#    attendu d'un état dans le cadre d'une politique donnée. 


# variable verbose de l'Agent env.agent à 2 et lancer un épisode
#---------------------
env.agent.verbose = 2

env.run_episode()




#Prédiction vs. Contrôle
#----------------------------------------------------------
#Prédiction : le but des problèmes de prédiction est 
#    d'apprendre à quel point une politique donnée est performante.

#Contrôle : le but des problèmes de contrôle est 
#    d'apprendre une politique qui sera performante.




#Exploration vs. Exploitation
#----------------------------------------------------------
#L'exploration correspond au fait que nous essayons de nouvelles actions 
#        et nous tentons d'explorer de nouveaux états. 
#        Cela nous permet d'augmenter la probabilité de trouver 
#        un meilleur moyen d'atteindre notre objectif.
        
        
#Sous le mode exploitation, nous supposons, au contraire, que le modèle 
#        utilisé pour prédire l'action est suffisamment bon pour l'utiliser.



#Afficher l'ensemble des actions possibles de l'Agent en utilisant 
#l'attribut set_of_actions
#---------------------
print(agent.set_of_actions)



#Créer une matrice optimal_Q de taille 3 x 3 x nombre_actions contenant 1 et 0 
#qui donnera la fonction  Q  optimale greedy
#---------------------

import numpy as np
optimal_Q = np.zeros(shape=(3,3,4))
optimal_Q[0, 0, 1] = 1  # if in position (0, 0) go down
optimal_Q[1, 0, 1] = 1  # if in position (1, 0) go down
optimal_Q[2, 0, 2] = 1  # if in position (2, 0) go right
optimal_Q[2, 1, 2] = 1  # if in position (2, 1) go right



#Fixer l'attribut Q de env.agent à optimal_Q
#---------------------
env.agent.Q = optimal_Q


#Mettez env.agent.EPSILON à 0, puis lancez un épisode et affichez-le
#---------------------
env.agent.EPSILON = 0

env.run_episode(max_length=5)
env.display_in_jupyter()



### Module 3 : Monte Carlo Learning

#Itération sur politique de Monte Carlo
#---------------------
Cet algorithme vise à calculer une valeur précise du rendement attendu pour  QQ  pour chaque état et action.

Il donne en fait une estimation moyenne de la valeur  QQ  de la politique pour chaque couple état-action.

Après n épisodes,

Q(s,a)←G(s,a)¯n 
G(s,a)¯n  est le rendement moyen de l'action  a  dans l'état  s  sur les n premiers épisodes.

Notez que si un couple état-action est visité plusieurs fois dans un même épisode, cela nous donne plusieurs mises à jour.

Comme vous l'avez remarqué, la mise à jour de la fonction  Q  n'est effectuée qu'à la fin de l'épisode. 

Notre Agent n'a que 3 méthodes :

reset : exécutée au début de chaque épisode.

act : exécuté à chaque étape, en choisissant l'action à réaliser.

observe : exécuté à chaque étape, prenant comme arguments des informations sur la position de l'Agent et sur la récompense.

Par ailleurs, l'Agent garde une trace de ses actions et de ses états passés via l'appel de la méthode act. 
De même, il garde en mémoire la valeur de ses récompenses via l'appel de la méthode observe. La mise à jour de la fonction  Q et de  ϵ  est effectuée via la méthode reset.

In [None]:
### # Notre environnement
#---------------------------------------------------------- 

#Importer Agent et RandomAgent de gridworld.agents 
#et instancier un Agent RandomAgent.
#---------------------
from gridworld.agents import Agent, RandomAgent
random_agent = RandomAgent()

#Importer VanillaGridWorld de gridworlds et l'instancier avec l'Agent.
#---------------------
from gridworld.environments import VanillaGridWorld

env = VanillaGridWorld(agent=random_agent)

#Lancer un épisode et visualiser le.
#---------------------
env.run_episode()

env.display_in_jupyter()



# Itération sur politique de Monte Carlo
#---------------------------------------------------------- 

#afficher correctement le pseudo-code de l'algorithme.
#---------------------
from IPython.display import HTML
HTML('''<style>
    .pseudo-code-indent {
    margin-left:20px;
    border-left-width: 5px;
    border-left-style: solid;
    border-left-color: #75DFC1;
    padding-left:10px;
    margin-bottom: 10px;
    font-size: 15px;
    font-family: times;
    }
   .pseudo-code-container {
    margin:20px;
    padding:20px;
    border-width:5px;
    border-radius:5px;
    border-color:#40c6a0;
    border-style: solid;
    }
    
</style>''')



# Implémentation de l'Agent
#---------------------------------------------------------- 

#Implémenter la méthode reset
#---------------------
import numpy as np 

class MonteCarloAgent(Agent):
    def __init__(self, prefix='MC_GLIE', grid_size=(5, 5)):
        
        # préfixe pour nommer les vidéos
        self.prefix = prefix 
        
        # définition de l'ensemble d'actions
        self.set_of_actions = ['up', 'down', 'left', 'right']
        
        # valeur d'epsilon pour la politique epsilon-greedy
        self.EPSILON = 1.
        
        # facteur d'actulisation
        self.GAMMA = .8
        
        # initialisation de la matrice Q
        self.Q_function = np.random.uniform(size=(grid_size[0], grid_size[1], len(self.set_of_actions)))
        
        # création d'une matrice N
        self.N = np.zeros(shape=(grid_size[0], grid_size[1], len(self.set_of_actions)))
        
        # initialisation de la position
        self.position = (0, 0)
        
        # listes pour garder une trace des actions, états et récompenses 
        # dans l'ordre chronologique
        self.actions = []
        self.states = []
        self.rewards = []
        
        # initialisation du compteur d'épisodes
        self.episode = 0
        
        pass
    
    def act(self):
        # ajout de la position actuelle à l'historique des positions
        self.states.append(self.position)
        
        # choix de l'action selon la politique epsilon-greedy
        if np.random.uniform() < self.EPSILON:
            action = np.random.choice(self.set_of_actions)
        else : 
            action = self.set_of_actions[np.argmax(self.Q_function[self.position[0], self.position[1]])]
        
        # ajout de l'action actuelle à l'historique des actions
        self.actions.append(action)
        
        return action
    
    def observe(self, agent_position, reward, breeze, smell, end_episode, info): 
        # ajouter de la récompense à l'historique des récompenses
        self.rewards.append(reward)

        # mise à jour de la position actuelle
        self.position = agent_position
        
        pass
    
    def reset(self):
        
        # incrémentation du nombre d'épisodes
       
        # calcul des rendements

        # calcul et mise à jour des variables Q et N
        
        # mise à jour d'epsilon
        
        # ré-initialisation des historiques
                             
        raise NotImplementedError

        
# Entraînement de l'Agent
#---------------------------------------------------------- 

#Instancier un Agent MonteCarloAgent, nom agent_MC, (taille grille grid_size = 10)
#Instancier un environnement VanillaGridWorld, nom env, (taille de grille grid_size = 10)
#---------------------
agent_MC = MonteCarloAgent(prefix='MC', grid_size=(10, 10))
env = VanillaGridWorld(agent=agent_MC, grid_size=10)


#Exécuter un épisode et le visualiser en utilisant 
#la méthode display_in_jupyter avec l'argument episode_number fixé à 1.
#---------------------
env.run_episode()
env.display_in_jupyter(episode_number=1)

#lancer 5000 épisodes avec l'argument write fixé à False
#---------------------
for i in range(5000):
    env.run_episode(write=False)

    
    
#Résultats
#----------------------------------------------------------

#Afficher la valeur de EPSILON 
#qui est un attribut de l'Agent dans son environnement.
#---------------------
print(env.agent.EPSILON)

#fixer temporairement  ϵ  à 0 
#et donc à lancer un épisode avec une politique greedy (et afficher)
#---------------------
env.display_greedy_episode()


#Les inconvénients des méthodes de Monte Carlo
#----------------------------------------------------------

#L'algorithme implémenté présente certains inconvénients. 
#Parmi eux figure le fait que pour fonctionner, 
#il doit réussir à mettre fin à un épisode en trouvant la pièce d'or.

#Importer WindyGridWorld de gridworlds.py.
#Instancier un Agent Monte Carlo avec une taille de grille grid_size fixée à (7, 10) et un préfixe prefix fixé à 'windy-MC'.
#Instancier un object de classe WindyGridWorldavec cet Agent.
#---------------------
from gridworld.environments import WindyGridWorld
agent = MonteCarloAgent(prefix='windy-MC', grid_size=(7, 10))
env = WindyGridWorld(agent=agent)

#Exécuter un épisode et visualiser le
#---------------------

env.run_episode()
env.display_in_jupyter()

#Lancer 1000 épisodes de l'environnement avec l'argument write fixé à False.
#---------------------
for i in range(1000):
    env.run_episode(write=False)
    
#Appeler la méthode display_greedy_episode de l'environnement.
#---------------------
env.display_greedy_episode()



### Module 4 : Temporal Difference Learning : SARSA

In [None]:

#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
# Notre environnement 

#----------------------------------------------------------

#Importer Agent et 
#RandomAgent de gridworld.agents et 
#instancier un Agent random_agent de classe RandomAgent.
#---------------------
from gridworld.agents import Agent, RandomAgent

random_agent = RandomAgent()


#Importer VanillaGridWorld de gridworld.environments et 
#instancier env avec l'Agent précédent.
#---------------------
from gridworld.environments import VanillaGridWorld

env = VanillaGridWorld(agent=random_agent)

#Lancer un épisode et visualiser le.
#---------------------
env.run_episode()

env.display_in_jupyter()



#SARSA 
#----------------------------------------------------------
from IPython.display import HTML
HTML('''<style>
    .pseudo-code-indent {
    margin-left:20px;
    border-left-width: 5px;
    border-left-style: solid;
    border-left-color: #75DFC1;
    padding-left:10px;
    margin-bottom: 10px;
    font-size: 15px;
    }
   .pseudo-code-container {
    margin:20px;
    padding:20px;
    border-width:5px;
    border-radius:5px;
    border-color:#40c6a0;
    border-style: solid;
    font-family: times;
    }
    
</style>''')



#Implémentation de l'Agent 
#----------------------------------------------------------

# implémenter la méthode observe.
#---------------------

from gridworld.agents import Agent
import numpy as np 


class SarsaAgent(Agent):
    def __init__(self, prefix='SARSA', grid_size=(7,10), starting_position=(3, 0), gold_position = (3,7), epsilon=0.5, gamma=.8, holes_positions=[]):

        # préfixe pour nommer les vidéos
        self.prefix = prefix

        # définition de l'ensemble d'actions
        self.set_of_actions = ['up', 'down', 'right', 'left']
        self.number_of_actions = len(self.set_of_actions)

        # position de départ
        self.starting_position = starting_position

        # initialisation de la matrice Q
        self.Q_function = np.random.uniform(size=(grid_size[0], grid_size[1], self.number_of_actions))
        
        # attribution d'une valeur nulle pour la valeur Q 
        ## de l'état terminal en raison de la pièce d'or
        self.Q_function[gold_position[0], gold_position[1]] = 0
        ## de l'état terminal en raison des trous
        for hole in holes_positions:
            self.Q_function[hole[0], hole[1]] = 0

        # paramètres SARSA
        self.ALPHA = 1
        self.GAMMA = gamma
        self.EPSILON = epsilon

        # paramètres d'apprentissage 
        ## actions
        self.current_action = None
        self.previous_action = None
        ## récompenses
        self.current_reward = None
        self.previous_reward = None
        ## positions
        self.current_position = self.starting_position
        self.previous_position = None
        
        # initialisation du compteur d'épisodes
        self.step_number = 0

        pass

    def act(self):
        """
        renvoie une action parmi l'ensemble des actions possibles 
            - suit une politique d'epsilon-greedy 
            - met à jour les paramètres de l'action en cours et de l'action précédente
        """
        
        # mise à jour de l'action précédente
        self.previous_action = self.current_action

        # choix de l'action basée sur une politique epsilon-greedy 
        if np.random.uniform() < self.EPSILON:
            action = np.random.choice(self.set_of_actions)
        else:
            action_index = np.argmax(self.Q_function[self.current_position[0], self.current_position[1]])
            action = self.set_of_actions[action_index]
    
        # mise à jour d'action actuelle
        self.current_action = action
        
        # augmentation du compteur 
        self.step_number+=1
        
        # mise à jour de alpha
        self.ALPHA = 1/self.step_number
      
        return action

    def observe(self, agent_position, reward, breeze, smell, end_episode, info):
        
        # obtention de l'indice A'

        if self.previous_action is not None:

            # obtention de l'indice A
            
            # obtention de Q(S,A)
            
            # obtention de Q(S',A')
            
            # calcul de la mise à jour
            
            pass

            
        # mise à jour des valeurs  
        # de la position précédente
        
        # de la position en cours
        
        # de la récompense précédente
        
        # de la récompense en cours
        
        
        # mise à jour si l'épisode se termine
        

        
        raise NotImplementedError

    def reset(self):
        self.previous_action = None
        self.previous_reward = None
        self.previous_position = None
        self.current_action = None
        self.current_reward = None
        self.current_position = self.starting_position
        self.step_number = 1
        pass
    
    
    
#nstancier un Agent SarsaAgent avec 
#    une taille de grille de (10, 10) ,
#    une position initiale starting_position de (0, 0) et 
#    la position de la pièce d'or fixée à (9, 9)
#Initialiser un environnementVanillaGridWorld avec cet Agent.
#---------------------
agent = SarsaAgent(prefix='sarsa', grid_size=(10, 10), starting_position=(0, 0), gold_position=(9, 9))
env = VanillaGridWorld(agent=agent)

#ancer 1000 épisode avec l'argument write fixé à False.
#---------------------
for i in range(1000):
     env.run_episode(write=False)


# Résultats 
#----------------------------------------------------------

# Appeler la méthode display_greedy_episode de l'environnement
#---------------------
env.display_greedy_episode()


# Avantages par rapport à la méthode de Monte Carlo 
#----------------------------------------------------------


#Importer WindyGridWorld de gridworld.environments.
#Créer un Agent RandomAgent, 
#un environnement WindyGridWorld et visualiser un épisode.
#---------------------
from gridworld.environments import WindyGridWorld
windy_env = WindyGridWorld(agent=RandomAgent())

windy_env.run_episode()
windy_env.display_in_jupyter(width=500, height=300)


#Créer un Agent SarsaAgent et 
#initialiser un environnement WindyGridWorld avec cet Agent.
#---------------------
agent = SarsaAgent(prefix='sarsa-windy', epsilon=.5)
env = WindyGridWorld(agent=agent)


#Entraîner l'Agent durant 1000 épisodes avec l'argument write fixé à False.
#---------------------
for i in range(1000):
    env.run_episode(write=False)

#Appeler la méthode display_greedy_episode avec cet environnement
#---------------------
env.display_greedy_episode()


### Module 5 : Temporal Difference Learning : Q-Learning¶


Ainsi, nous pouvons constater qu'il y a une légère différence :

l'Agent SARSA prend un chemin plus long pour arriver au but. Il agit avec beaucoup de précaution.
l'Agent QAgent est moins prudent mais il trouve le chemin optimal.
Cet exemple est très intéressant et montre la principale différence entre ces deux algorithmes.

Comme l'Agent SARSA repose sur un algorithme on-policy and que sa politique est  ϵϵ -greedy, il améliorera sa fonction  QQ , sachant que le caractère aléatoire de son comportement pourrait le faire tomber de la falaise. C'est pourquoi il va si loin de la falaise. En revanche, l'Agent Q-Learning apprend à chaque fois en considérant la meilleure action à prendre, indépendamment du fait de son choix de prendre cette action ou pas dans les faits.

In [None]:
#Notre environnement
#----------------------------------------------------------

#Importer Agent et RandomAgent de gridworld.agents et 
#instancier un Agent RandomAgent sous le nom random_agent.
#---------------------
from gridworld.agents import Agent, RandomAgent


#Importer VanillaGridWorld de gridworld.environments et 
#instancier env avec l'Agent précédent.
#---------------------
from gridworld.environments import VanillaGridWorld

env = VanillaGridWorld(agent=random_agent)


#Lancer un épisode et visualiser le.
#---------------------
env.run_episode()

env.display_in_jupyter()


#Q-learning 
#----------------------------------------------------------
#Le premier algorithme que nous allons voir est appelé Q-Learning.
#---------------------
from IPython.display import HTML
HTML('''<style>
    .pseudo-code-indent {
    margin-left:20px;
    border-left-width: 5px;
    border-left-style: solid;
    border-left-color: #75DFC1;
    padding-left:10px;
    margin-bottom: 10px;
    font-size: 15px;
    font-family: times;
    }
   .pseudo-code-container {
    margin:20px;
    padding:20px;
    border-width:5px;
    border-radius:5px;
    border-color:#40c6a0;
    border-style: solid;
    font-size: 15px;
    font-family: times;
    }
    
</style>''')





#Implémentation de l'Agent 
#----------------------------------------------------------

#Implémenter l'algorithme de Q-Learning en complétant la méthode observe.
#---------------------


import numpy as np


class QAgent(Agent):
    def __init__(self, prefix='QAgent', grid_size=(7,10), starting_position=(3, 0), gold_position = (3,7), epsilon=0.5, gamma=.8, holes_positions=[]):

        # préfixe pour nommer les vidéos
        self.prefix = prefix

        # définition de l'ensemble d'actions
        self.set_of_actions = ['up', 'down', 'right', 'left']
        self.number_of_actions = len(self.set_of_actions)

        # position de départ
        self.starting_position = starting_position

        # initialisation de la matrice Q
        self.Q_function = np.random.uniform(size=(grid_size[0], grid_size[1], self.number_of_actions))

        # attribution d'une valeur nulle pour la valeur Q 
        ## de l'état terminal en raison de la pièce d'or
        self.Q_function[gold_position[0], gold_position[1]] = 0
        ## de l'état terminal en raison des trous
        for hole in holes_positions:
            self.Q_function[hole[0], hole[1]] = 0

        # paramètres Q-learning
        self.ALPHA = 1
        self.GAMMA = gamma
        self.EPSILON = epsilon

        # paramètres d'apprentissage 
        ## actions
        self.current_action = None
        self.previous_action = None
        ## récompenses
        self.current_reward = None
        self.previous_reward = None
        ## positions
        self.current_position = self.starting_position
        self.previous_position = None
        
        # initialisation du compteur d'épisodes
        self.step_number = 0

        pass

    def act(self):
        """
        renvoie une action parmi l'ensemble des actions possibles 
            - suit une politique d'epsilon-greedy 
            - met à jour les paramètres de l'action en cours et de l'action précédente
        """
        
        # mise à jour de l'action précédente
        self.previous_action = self.current_action

        # choix de l'action basée sur une politique epsilon-greedy 
        if np.random.uniform() < self.EPSILON:
            action = np.random.choice(self.set_of_actions)
        else:
            action_index = np.argmax(self.Q_function[self.current_position[0], self.current_position[1]])
            action = self.set_of_actions[action_index]
    
        # mise à jour d'action actuelle
        self.current_action = action
        
        # augmentation du compteur 
        self.step_number += 1
        
        # mise à jour de alpha
        self.ALPHA = 1/self.step_number
      
        return action

    def observe(self, agent_position, reward, breeze, smell, end_episode, info):
      
        # obtention de l'indice A'
        
        if self.previous_action is not None:

            # obtention de l'indice A 
            
            # obtention de l'indice A*
            
            # obtention de Q(S,A) 
            
            # obtention de Q(S',A*)
            
            # calcul de la mise à jour
            
            pass
            
        # mise à jour des valeurs  
        # de la position précédente 
        
        # de la position en cours 
        
        # de la récompense précédente
        
        # de la récompense en cours
        
        # mise à jour si l'épisode se termine
            
        raise NotImplementedError

    def reset(self):
        self.previous_action = None
        self.previous_reward = None
        self.previous_position = None
        self.current_action = None
        self.current_reward = None
        self.current_position = self.starting_position
        self.step_number = 1
        pass


    
#Instancier un Agent de classe QAgent avec 
#    une taille de grille grid_size de (10,10), 
#    une position initiale starting_position de (0, 0) et 
#    la position de la pièce d'or fixée à (9, 9).
#Initialiser un environnementVanillaGridWorld avec cet Agent.
#---------------------
agent = QAgent(grid_size=(10, 10), 
               starting_position=(0, 0), 
               gold_position=(9, 9))
env = VanillaGridWorld(agent=agent, grid_size=10)


#Lancer 1000 épisode avec l'argument write fixé à False.
#---------------------
for i in range(1000):
    env.run_episode(write=False)




#Résultats 
#----------------------------------------------------------

#Appeler la méthode display_greedy_episode de l'environnement.
#---------------------
env.display_greedy_episode()




#Différence avec SARSA
#----------------------------------------------------------

#Importer CliffGridWorld de gridworld.environments, lancer et 
#visualiser un épisode avec un Agent ramdom de classe RandomAgent.
#---------------------
from gridworld.environments import CliffGridWorld

env = CliffGridWorld(agent=RandomAgent())

env.run_episode()
env.display_in_jupyter(width=600, height=200)




#Implémenter un Agent de classe SarsaAgent avec les paramètres suivants :
    #grid_size = (4, 12)
    #starting_position = (3, 0)
    #gold_position = (3, 11)
    #holes_positions = [(3,i) for i in range(1,11)]
    #epsilon = .5
#Initialiser un environnement CliffGridWorld avec cet Agent.
#Entraîner le pendant 5000 épisodes.
#---------------------
from gridworld.agents import SarsaAgent
env_sarsa = CliffGridWorld(agent=SarsaAgent(grid_size=(4, 12),
                                            starting_position=(3, 0),
                                            gold_position=(3, 11),
                                            epsilon = .1, 
                                            holes_positions = [(3,i) for i in range(1,11)]
                                        ))


for i in range(5000):
    env_sarsa.run_episode(write=False)
    
    
#Appeler la méthode display_greedy_episode de l'environnement.
#---------------------
env_sarsa.display_greedy_episode()



#Implémenter un Agent de classe QAgent avec les paramètres suivants :
    #grid_size = (4, 12)
    #starting_position = (3, 0)
    #gold_position = (3, 11)
    #holes_positions = [(3,i) for i in range(1,11)]
    #epsilon = .5
#Initialiser un environnement CliffGridWorld avec cet Agent.
#Entraîner le pendant 5000 épisodes.
#---------------------
env_q = CliffGridWorld(agent=QAgent(grid_size=(4, 12),
                                            starting_position=(3, 0),
                                            gold_position=(3, 11),
                                            epsilon = .5, 
                                            holes_positions = [(3,i) for i in range(1,11)]
                                        ))


for i in range(5000):
    env_q.run_episode(write=False)

#appeler la méthode display_greedy_episode de l'environnement
#---------------------
env_q.display_greedy_episode()


### Module 6 : TD Learning ou Monte Carlo : Biais ou inefficacité ?

In [None]:

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------


#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------

#----------------------------------------------------------

#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------
#---------------------


#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------

#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------








#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------

#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------








#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------

#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------






#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------

#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------




#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------

#----------------------------------------------------------

#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------
#----------------------------------------------------------