## Syntaxe des environnements

#### Motivation

- Jusqu'√† pr√©sent, nous avons utilis√© des environnements pr√©d√©finis comme Frozen Like et Google RecSim.
- Pour utiliser RL sur notre propre probl√®me, nous ne pouvons utiliser aucun de ces environnements.
- Nous devrons d√©finir notre propre environnement avec Python.

#### Revue de Frozen Lake

- Rappelle-toi l'environnement de Frozen Lake, du module 1 :

In [1]:
import gym
env = gym.make("FrozenLake-v1")

#### Revue de Frozen Lake

- OpenAI Gym est une source ouverte, nous avons donc pu consulter le [code source de Frozen Lake] (https://github.com/openai/gym/blob/master/gym/envs/toy_text/frozen_lake.py).
- Cependant, il est compliqu√© et contient bien plus que ce dont nous avons besoin.
- Cr√©ons notre propre environnement appel√© Frozen Pond avec les composants de base de Frozen Lake.

#### Composants d'une Env

D√©cisions conceptuelles :

- Espace d'observation
- Espace d'action

En Python, nous devrons impl√©menter, au moins :

- constructeur
- `reset()`
- `step()`

En pratique, nous pouvons aussi vouloir d'autres m√©thodes, comme `render()`

#### D√©cisions conceptuelles

Dans ce cas, comme nous imitons le Lac gel√©, l'espace d'observation et l'espace d'action sont d√©j√† d√©cid√©s.

In [2]:
observation_space = gym.spaces.Discrete(16)
action_space = gym.spaces.Discrete(4)

Plus tard dans ce cours, nous nous plongerons plus profond√©ment dans ces d√©cisions !

#### Coding it up

In [3]:
import gym

class FrozenPond(gym.Env):
    pass

- Remarque que nous commen√ßons par sous-classer `gym.Env`.
- Facultatif : Tu peux lire sur les objets, l'h√©ritage et les sous-classes.
- L'essentiel : Il s'agit d'un `gym.Env` de base et nous pouvons en √©craser les caract√©ristiques.

#### Constructeur

- Le constructeur est appel√© lorsque nous cr√©ons un nouvel objet `FrozenPond`.
- C'est ici que nous d√©finissons l'espace d'observation et l'espace d'action.

In [4]:
import gym

class FrozenPond(gym.Env):
    def __init__(self, env_config=None):
        self.observation_space = gym.spaces.Discrete(16)
        self.action_space = gym.spaces.Discrete(4)        

- Pour la compatibilit√© avec RLlib, le constructeur doit prendre un `env_config` 
- Nous allons simplement ignorer cet argument pour l'instant.

_COPY #### Reset

- La prochaine m√©thode dont nous aurons besoin est la r√©initialisation.
- Le constructeur d√©finit des param√®tres permanents comme l'espace d'observation.
- `reset` configure chaque nouvel √©pisode.
- Il y a une certaine libert√© entre les deux, par exemple pour d√©finir l'emplacement du but.
- Si quelque chose _pourrait_ changer, nous le mettrons dans `reset`.

In [5]:
# HIDDEN
import numpy as np

In [6]:
class FrozenPond(gym.Env):
    def reset(self):
        self.player = (0, 0) # the player starts at the top-left
        self.goal = (3, 3)   # goal is at the bottom-right
        
        self.holes = np.array([
            [0,0,0,0], # FFFF 
            [0,1,0,1], # FHFH
            [0,0,0,1], # FFFH
            [1,0,0,0]  # HFFF
        ])
        
        return 0 # to be changed to return self.observation()

_COPY #### Reset

Testons cela :

In [7]:
fp = FrozenPond()

In [8]:
fp.reset()

0

In [9]:
fp.holes

array([[0, 0, 0, 0],
       [0, 1, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0]])

√áa a l'air bien.

#### √âtape

- La derni√®re m√©thode dont nous avons besoin est `step`.
- C'est la m√©thode la plus compliqu√©e qui contient la logique de base.
- Rappelle-toi que `step` renvoie 4 choses :
  1. Observation
  2. R√©compense
  3. Drapeau fait
  4. Info suppl√©mentaire (nous l'ignorerons)
- Pour plus de clart√©, nous allons √©crire des m√©thodes d'aide pour observation, r√©compense et fait, plus une m√©thode d'aide suppl√©mentaire 

#### √âtape : observation

Rappelle-toi que l'observation est un indice de 0 √† 15 :

```
 0 1 2 3
 4 5 6 7
 8 9 10 11
12 13 14 15
```

Nous pouvons coder cela comme suit :

In [10]:
class FrozenPond(gym.Env):
    def observation(self):
        return 4*self.player[0] + self.player[1]

Par exemple, si le joueur se trouve √† (2,1), nous renvoyons le message suivant

In [11]:
4*2 + 1

9

Remarque : maintenant que `self.observation` est impl√©ment√©, nous devrions changer `reset` en `return self.observation()` plut√¥t que `return 0` pour un code de meilleure qualit√©.

#### √âtape : r√©compense

En suivant l'exemple de Frozen Lake, la r√©compense sera de 1 si l'agent atteint l'objectif, et de 0 sinon :

In [12]:
class FrozenPond(gym.Env):
    def reward(self):
        return int(self.player == self.goal)

Nous modifierons cette fonction de r√©compense plus tard dans le module !

####. √âtape : faite

- Nous avons √©galement besoin de savoir quand un √©pisode est termin√© 
- Selon Frozen Lake, l'√©pisode est termin√© lorsque l'agent atteint l'objectif ou tombe dans l'√©tang.

In [13]:
class FrozenPond(gym.Env):
    def done(self):
        return self.player == self.goal or self.holes[self.player] == 1

#### √âtape : emplacements valides

Enfin, pour simplifier la m√©thode `step`, nous allons √©crire une m√©thode auxiliaire appel√©e `is_valid_loc` qui v√©rifie si un emplacement particulier est dans les limites (de 0 √† 3 dans chaque dimension).

In [14]:
class FrozenPond(gym.Env):
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3:
            return True
        else:
            return False

#### √âtape : assembler le tout

- En utilisant les √©l√©ments ci-dessus, nous pouvons maintenant √©crire la m√©thode `step`.
- `step` prend une _action_, met √† jour l'_√©tat_ et renvoie l'observation, la r√©compense, le drapeau "done" et des informations suppl√©mentaires (ignor√©es).
- Rappelle-toi comment les actions sont cod√©es : 0 pour gauche, 1 pour bas, 2 pour droite, 3 pour haut.
- Nous allons impl√©menter un √©tang gel√© **non glissant** ; en d'autres termes, d√©terministe plut√¥t que stochastique.

In [15]:
class FrozenPond(gym.Env):
    def step(self, action):
        # Compute the new player location
        if action == 0:   # left
            new_loc = (self.player[0], self.player[1]-1)
        elif action == 1: # down
            new_loc = (self.player[0]+1, self.player[1])
        elif action == 2: # right
            new_loc = (self.player[0], self.player[1]+1)
        elif action == 3: # up
            new_loc = (self.player[0]-1, self.player[1])
        else:
            raise ValueError("Action must be in {0,1,2,3}")
        
        # Update the player location only if you stayed in bounds
        # (if you try to move out of bounds, the action does nothing)
        if self.is_valid_loc(new_loc):
            self.player = new_loc
        
        # Return observation/reward/done
        return self.observation(), self.reward(), self.done(), {}

#### Succ√®s !

- C'est fait ! Nous avons impl√©ment√© les pi√®ces n√©cessaires dans Frozen Pond 
  - constructeur
  - `reset`
  - `step`
- Nous ajouterons √©galement une fonction facultative `render` afin de pouvoir dessiner l'√©tat :

In [16]:
class FrozenPond(gym.Env):
    def render(self):
        for i in range(4):
            for j in range(4):
                if (i,j) == self.goal:
                    print("‚õ≥Ô∏è", end="")
                elif (i,j) == self.player:
                    print("üßë", end="")
                elif self.holes[i,j]:
                    print("üï≥", end="")
                else:
                    print("üßä", end="")
            print()

- Pour le plaisir, nous allons utiliser des √©mojis dans le rendu de notre client.
- Le joueur est üßë, le but est ‚õ≥Ô∏è, le segment de lac gel√© est üßä, le trou est üï≥.

#### Tester notre impl√©mentation

In [17]:
# HIDDEN
from envs_03 import FrozenPond

In [18]:
env = FrozenPond()
env.reset()
env.render()

üßëüßäüßäüßä
üßäüï≥üßäüï≥
üßäüßäüßäüï≥
üï≥üßäüßä‚õ≥Ô∏è


#### Tester notre impl√©mentation

Testons la m√©thode `step` :

In [19]:
env.step(2) # 0=left / 1=down / 2=right / 3=up

(1, 0, False, {'player': (0, 1), 'goal': (3, 3)})

In [20]:
env.render()

üßäüßëüßäüßä
üßäüï≥üßäüï≥
üßäüßäüßäüï≥
üï≥üßäüßä‚õ≥Ô∏è


√áa a l'air bien !

#### Tester notre impl√©mentation

Comparons directement les deux environnements :

In [21]:
lake = gym.make("FrozenLake-v1", is_slippery=False)
pond = FrozenPond()

lake.reset()
pond.reset()

print("Iter | gym obs / our obs | gym reward / our reward | gym done / our done")
for i, a in enumerate([0, 2, 2, 1, 1, 1, 1, 2]):
    lake_obs, lake_rew, lake_done, _ = lake.step(a)
    pond_obs, pond_rew, pond_done, _ = pond.step(a)
    print("%2d   |      %2d / %2d      |          %d / %d        |      %5s / %5s" % \
          (i, lake_obs, pond_obs, lake_rew, pond_rew, lake_done, pond_done))

Iter | gym obs / our obs | gym reward / our reward | gym done / our done
 0   |       0 /  0      |          0 / 0        |      False / False
 1   |       1 /  1      |          0 / 0        |      False / False
 2   |       2 /  2      |          0 / 0        |      False / False
 3   |       6 /  6      |          0 / 0        |      False / False
 4   |      10 / 10      |          0 / 0        |      False / False
 5   |      14 / 14      |          0 / 0        |      False / False
 6   |      14 / 14      |          0 / 0        |      False / False
 7   |      15 / 15      |          1 / 1        |       True /  True


Ils sont identiques !

#### Tester notre impl√©mentation

- RLlib est √©galement livr√© avec un v√©rificateur d'env
- Cela ne nous dira pas si notre env est identique √† celle de Frozen Lake
- Mais il effectuera plusieurs v√©rifications utiles :

In [22]:
from ray.rllib.utils.pre_checks.env import check_env

In [23]:
check_env(pond)



- Toutes les v√©rifications ont √©t√© pass√©es, sauf cet avertissement concernant la longueur maximale d'un √©pisode.
- Nous pouvons/devrions le d√©finir pour que les √©pisodes ne puissent pas devenir arbitrairement longs.

#### Nombre maximum d'√©tapes par √©pisode

- Pour d√©finir un nombre maximum de pas par √©pisode, nous pouvons utiliser un `gym` _wrapper_.
- Les wrappers sont des moyens pratiques de modifier les environnements, y compris les observations, les actions et les r√©compenses.
- Ici, nous allons utiliser le wrapper `TimeLimit` pour d√©finir une limite de pas.

In [24]:
from gym.wrappers import TimeLimit

pond_5 = TimeLimit(pond, max_episode_steps=5)

Nous pouvons v√©rifier que cela sera fait apr√®s 5 √©tapes, m√™me si le but n'est pas atteint :

In [25]:
pond_5.reset()
for i in range(5):
    print(pond_5.step(0))

(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, True, {'player': (0, 0), 'goal': (3, 3), 'TimeLimit.truncated': True})


#### Nombre maximum d'√©tapes par √©pisode

Une limite de pas plus raisonnable pourrait √™tre de 50, plut√¥t que de 5.

In [26]:
pond_50 = TimeLimit(pond, max_episode_steps=50)

- Pour info : il est √©galement possible de d√©finir cette limite dans RLlib, juste √† des fins d'entra√Ænement.
- Cela se fait avec le param√®tre `"horizon"` dans la configuration de l'entra√Æneur.

#### Appliquons ce que nous avons appris !

## Les r√©compenses de Frozen Pond
<!-- multiple choice -->

Dans le lac (et l'√©tang) gel√©, la r√©compense est de 1 lorsque l'agent atteint l'objectif, et de 0 sinon. L'agent doit apprendre √† √©viter les trous, mais il n'y a en fait aucune r√©compense n√©gative √† tomber dans un trou - c'est la m√™me r√©compense nulle que de marcher dans un morceau s√ªr du lac gel√© ! Pourquoi cette configuration fonctionne-t-elle toujours, m√™me si la r√©compense est la m√™me pour marcher dans un trou ou sur la terre ferme ?

- [ ] Une fois que l'agent est tomb√© dans un trou, il est coinc√©. Il peut faire d'autres actions, mais elles ne font rien. L'agent apprend donc √† √©viter les trous.
- [ ] Une r√©compense de 0 est la plus petite r√©compense possible ; par cons√©quent, lorsque l'agent re√ßoit une r√©compense de 0 en tombant dans un trou, il sait imm√©diatement que tomber dans un trou est une mauvaise chose.
- [La p√©nalit√© li√©e au fait de tomber dans un trou est indirecte, car l'√©pisode se termine par une r√©compense de z√©ro, ce qui signifie qu'il renonce √† la r√©compense potentielle de 1 qu'il pourrait obtenir en atteignant son objectif. L'agent apprend qu'en tombant dans un trou, il perd des r√©compenses _futures_.
- [Les agents RL pr√©f√®rent les √©pisodes plus longs. Lorsque l'agent tombe dans le trou, l'√©pisode se termine imm√©diatement, ce que l'agent apprend √† √©viter.

## √âtang contre labyrinthe
<!-- coding exercise -->

Disons que nous voulons transformer notre environnement d'√©tang en un environnement de labyrinthe. Dans ce cas, nous avons des murs au lieu de trous. La seule diff√©rence entre l'√©tang et le labyrinthe est le comportement des trous par rapport aux murs. Dans l'√©tang gel√©, marcher dans un trou met fin √† l'√©pisode. Dans l'environnement du labyrinthe, marcher dans un mur ne fait rien (c'est-√†-dire que l'action ne change pas l'emplacement de l'agent, tout comme essayer de marcher sur le bord de la carte). Pour transformer notre lac gel√© en labyrinthe, nous devrons modifier deux m√©thodes : `done` et `is_valid_loc`.

Tu trouveras ci-dessous les m√©thodes `done` et `step` que nous avons vues dans les diapositives ci-dessus. Modifie-les pour que nous ayons maintenant un labyrinthe avec le comportement d√©crit ci-dessus : marcher dans un mur ne fait rien.

Note que la classe `Maze` h√©rite de toutes les autres m√©thodes de `FrozenPond`, tu peux donc la tester !

In [27]:
# EXERCISE
from envs_03 import FrozenPond


class Maze(FrozenPond):
    def done(self):
        return self.player == self.goal or self.holes[self.player] == 1
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3:
            return True
        else:
            return False
    
pond = FrozenPond()
pond.reset()
pond.step(1)
print(pond.step(2))

maze = Maze()
maze.reset()
maze.step(1)
print(maze.step(2))

(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})
(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})


In [28]:
# SOLUTION
from envs_03 import FrozenPond


class Maze(FrozenPond):   
    def done(self):
        return self.player == self.goal
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3 and not self.holes[location]:
            return True
        else:
            return False
    
pond = FrozenPond()
pond.reset()
pond.step(1)
print(pond.step(2))

maze = Maze()
maze.reset()
maze.step(1)
print(maze.step(2))

(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})
(4, 0, False, {'player': (1, 0), 'goal': (3, 3)})
