<h2>INDICATIONS SUR LES JEU</h2>

<h5>ELEMENTS</h5>

- bleu: passager
- fuchsia: déstination
- jaune: taxi vide
- vert: taxi + passager
- autres lettres: lieux divers


<h5>ACTIONS</h5>

- 0: déplacer vers le Sud (bas)
- 1: déplacer vers le Nord (haut)
- 2: déplacer vers l'Est (gauche) 
- 3: déplacer vers le Ouest (droite) 
- 4: prendre passager
- 5: déposer passager


<h5>RECOMPENSES</h5> 

- DONE (fin de jeu) : 20

- Déposer le passager à la mauvaise destination : -10

- Prendre un autre passager que le passager bleu : -10

- Pour toute autre action, parmi les actions de 0 -> 6 : recompense -1


<h5>REGLES</h5>

- Le taxi se déplace selon les actions indiquées.

- On ne peut pas se déplacer à travers un mur.

- Le jeu est fini quand le passager bleu est déposé dans la déstination fuchsia.

Lien du jeu : https://www.gymlibrary.ml/environments/toy_text/taxi/



<h2>INDICATION CODE AVEC GYM et NUMPY</h2>



Choisir une nouvelle action de manière aléatoire : 

    `action = env.action_space.sample()`
    
Choisir la meilleure action pour un état donné `s`: 

    Choisir la plus grande valeur pour `Q[s]`

Prendre une action avec gym :

    `obs, reward, done, info = env.step(action)`
 
 `obs`: nouvel état, `reward`: recompense obtenue, `done`: boolean, indiquant si le jeu est fini, `info`, diverses infos sur l'action

Choisir la plus grande valeur d'un tableau T: 

    `max_val = np.argmax(T)`
    
Dans le tableau Q, la valeur de l'action pour l'état "s" et l'action "a", est un nombre, et se trouve dans la celulle : 

`Q[s,a]` ou bien `Q[s][a]`

In [1]:
!pip install gym
!pip install pygame



#### Import 

In [2]:
import gym
import numpy as np
import time
from IPython.display import clear_output

#### Fonctions epsilon greedy

In [3]:
# Fonction qui choisit une action avec la méthode epsilon greedy 
def get_greedy_action(s,epsilon):
    # On choisit de manière aléatoire un nombre entre 0 et 1
    random_num = np.random.uniform(0, 1) 
    if random_num < epsilon: # exploration : on choisit une action aléatoire
        action_suivante = env.action_space.sample() # Choix aléatoire de la prochaine action     
        
    else: # exploitation : On choisit la meilleure action pour l'état présent : etat_courant
        action_suivante = np.argmax(Q[s]) # Choix de la meilleure action dans la table Q 
    
    return int(action_suivante)     

#### Initialisation de l'environnement

In [4]:
game = "CliffWalking-v0"
env = gym.make(game)

NUM_ACTIONS = env.action_space.n
NUM_STATES = env.observation_space.n
Q = np.zeros([NUM_STATES, NUM_ACTIONS])

gamma =  0.99 # facteur d'actualisation (discount factor)
alpha = 0.1 # taux d'apprentissage (learning rate)
epsilon = 0.0001 # pour epsilon greedy (1e-3 donne un sous apprentissage)


print(NUM_STATES, NUM_ACTIONS)

48 4


#### Formation de l'algorithme

In [5]:
iteration = 0
biggest_change = 0

for episode in range(10_000):
    if episode % 50_000 == 0:
        print("debut de l'épisode:", episode)
    

    # debut d'une episode, donc d'un jeu, on initialise des variables :
    s, _ = env.reset() # on commence le jeu, et on positionne le taxi dans un état aléatoire "s"
    
    # à partir de l'état "s", on choisit une action avec la politique epsilon-greedy :
    a = get_greedy_action(s,epsilon) 
    
    # variable qui indique si le jeu est fini ou non :
    # au début du jeu, il est sur False, donc pas fini
    done = False 
    
    # J'initialise l'état qui suit "s" et l'action que je prends à partir de s_, notamment a_ 
    s_ = None
    a_ = None
    
    while done == False: # tant que le jeu n'est pas fini :
        # Je suis dans l'état s, j'applique l'action a, je vais obtenir s_, reward, done,
        s_, reward, done, _, info = env.step(a) 
        
        # à partir de s_, on choisit une action a_ avec la méthode epsilon-greedy (epsilon-glutonne)
        a_ = get_greedy_action(s_,epsilon)
        
        # On enregistre la valeur de l'action pour (s,a), Q[s,a], avant et après la modification:
        Q[s,a] = Q[s][a]  + alpha*(reward+gamma*Q[s_][a_] - Q[s][a]) # mise à jour avec Sarsa        
        # On reinitialise s et a
        s = s_ 
        a = a_ 
        
    iteration += 1

print(Q)
  
print("End")
    
        

debut de l'épisode: 0


  if not isinstance(terminated, (bool, np.bool8)):


[[-10.55251899 -10.48036802 -10.4895601  -10.59636051]
 [-10.04073164 -10.02216103 -10.13072512 -10.04673389]
 [ -9.50766828  -9.43589669  -9.44632254  -9.53245839]
 [ -8.80991218  -8.77617864  -8.79712151  -8.81498525]
 [ -8.10718417  -8.08496883  -8.16116968  -8.11831591]
 [ -7.41478647  -7.36177403  -7.37208854  -7.44265676]
 [ -6.67807237  -6.61524253  -6.68422639  -6.65686888]
 [ -5.96189062  -5.85652813  -5.91265574  -5.94828573]
 [ -5.24830542  -5.0925415   -5.12925065  -5.21325945]
 [ -4.32568265  -4.32438097  -4.32184158  -4.45731683]
 [ -3.58274823  -3.58559021  -3.58754255  -3.58841477]
 [ -3.01286037  -2.8519746   -2.86002783  -2.93544373]
 [-10.8782696  -10.84635035 -10.85442136 -10.90587378]
 [-10.26896532 -10.27409697 -10.27291316 -10.32042637]
 [ -9.60781542  -9.55799349  -9.63402989  -9.59004235]
 [ -8.81853839  -8.82017489  -8.84835378  -8.89579731]
 [ -8.1304374   -8.05131396  -8.09017685  -8.07026636]
 [ -7.29489283  -7.26290799  -7.29988894  -7.26061446]
 [ -6.5126

#### Vérification de la politique

In [6]:
# On vérifie la politique que nous avons apprise, sur un jeu : 
env = gym.make(game, render_mode="human")
G_retour=0.
obs, _ = env.reset()

done=False
while done != True: 
    env.render()
    action = np.argmax(Q[obs])
    obs2, rew, done, _, info = env.step(action) #on prend l'action, on passe dans un nouvel état, (case)
    G_retour += rew
    env.env.s = obs2
    obs = obs2  

env.render()    
print("Reward:", G_retour, "Done", done)  
            

Reward: -13.0 Done True


In [7]:
import time
env = gym.make(game, render_mode="human")
for i in range(10):
    G_retour = 0 #recompense 
    obs, _ = env.reset()
    
    while True:
        clear_output(wait = True)
        print(f'Episode {i+1}')
        
        env.render()

        action = np.argmax(Q[obs])
        obs, rew, done, _, info = env.step(action)
        G_retour += rew
        print(f'Step reward: {rew}')
        print(f'Total reward: {G_retour}')
        
        time.sleep(0.3)
        
        if done:
            print('Episode done')
            time.sleep(2)
            break

Episode 2
Step reward: -1
Total reward: -8



KeyboardInterrupt

