## Encodage des r√©compenses

In [1]:
# HIDDEN
import ray
import logging
ray.init(log_to_driver=False, ignore_reinit_error=True, logging_level=logging.ERROR); # logging.FATAL

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

#### R√©compenses pour le codage

- Nous avons maintenant discut√© de l'importance de coder les observations.
- Nous pouvons aussi avoir un certain choix sur l'espace d'action, bien qu'ici (et souvent) il soit relativement clair/fixe.
- Mais qu'en est-il des r√©compenses ? 

#### Mise en place du courant

- Actuellement, nous recevons une r√©compense de +1 pour avoir atteint l'objectif 
- C'est une partie de ce qui rend RL si difficile (et impressionnant) :
  - Nous voulons apprendre des actions m√™me si nous ne savons pas tout de suite si l'action √©tait "bonne" 
  - Compare cela √† l'apprentissage supervis√©, o√π chaque pr√©diction que nous faisons sur les donn√©es de formation peut imm√©diatement √™tre compar√©e √† la valeur cible connue.


In [2]:
# TODO: perhaps this next slide can be moved to Module 1, since it's very general?

#### Les agents ne peuvent pas √™tre simplement gourmands

- Les agents peuvent-ils simplement apprendre √† rechercher la meilleure r√©compense imm√©diate ?
- Non. Par exemple, dans un syst√®me de recommandation de vid√©os, montrer √† l'utilisateur une autre vid√©o de chat dr√¥le pourrait le faire cliquer (r√©compense imm√©diate √©lev√©e) mais entra√Æner une perte d'int√©r√™t √† long terme pour le service (faible r√©compense √† long terme).
- Notre lac gel√© est un autre exemple de ce probl√®me : parfois, il n'y a pas du tout de r√©compense imm√©diate dont on peut tirer un enseignement.

In [3]:
# TODO: perhaps this next section on "Learned action probabilities" could be moved much earlier, even as early as Module 1

#### Probabilit√©s d'action apprises

- RLlib nous permet de regarder √† l'int√©rieur du mod√®le la probabilit√© de chaque action compte tenu d'une observation (c'est-√†-dire la politique apprise).
- Chargeons le mod√®le form√© avec nos observations cod√©es :

In [4]:
from envs_03 import RandomLakeObs
from ray.rllib.algorithms.ppo import PPOConfig

ppo_config = (
    PPOConfig()\
    .framework("torch")\
    .rollouts(create_env_on_local_worker=True, horizon=100)\
    .debugging(seed=0, log_level="ERROR")
)
ppo_RandomLakeObs = ppo_config.build(env=RandomLakeObs)

In [5]:
# # HIDDEN

# for i in range(16):
#     ppo_RandomLakeObs.train()
    
# print(ppo_RandomLakeObs.evaluate()["evaluation"]["episode_reward_mean"])

# ppo_RandomLakeObs.save("models/RandomLakeObs-Ray2")

In [6]:
ppo_RandomLakeObs.restore("models/RandomLakeObs-Ray2/checkpoint_000016")

#### Probabilit√©s d'action apprises

Nous utiliserons la fonction `query_Policy` du module 2 :

In [7]:
from utils_03 import query_policy
query_policy(ppo_RandomLakeObs, RandomLakeObs(), [0,0,0,0])

array([0.00902206, 0.5078786 , 0.47434822, 0.00875122], dtype=float32)

- Rappelle-toi l'ordonnancement (gauche, bas, droite, haut).
- Lorsque l'observation est `[0 0 0 0]` (pas de trous ou de bords en vue), l'agent pr√©f√®re aller vers le bas et la droite.

Et s'il y a un trou en dessous de toi ? Nous pouvons introduire une observation diff√©rente dans la politique :

In [8]:
query_policy(ppo_RandomLakeObs, RandomLakeObs(), [0,1,0,0])

array([0.01965651, 0.00299437, 0.9645823 , 0.01276694], dtype=float32)

- Maintenant, il est tr√®s peu probable que l'agent descende et tr√®s probable qu'il aille √† droite !
- Encore une fois, tout cela a √©t√© appris par essais et erreurs, avec une r√©compense obtenue uniquement lorsque l'objectif a √©t√© atteint.

#### R√©compenses Random Lake

- Dans l'exemple de Random Lake, ne peut-on pas faciliter la vie de l'agent en lui donnant des r√©compenses imm√©diates ?

Voici le code de r√©compense actuel :

In [9]:
def reward(self):
    return int(self.player == self.goal)

- L'agent doit apprendre, par essais et erreurs au cours de _vastes √©pisodes_, que se d√©placer vers le bas et la droite est g√©n√©ralement une bonne chose 

#### Red√©finir les r√©compenses

- Essayons plut√¥t de donner une r√©compense _√† chaque √©tape, qui est plus √©lev√©e √† mesure que l'agent se rapproche de l'objectif_ 

In [10]:
from envs_03 import RandomLakeObs

class RandomLakeObsRew(RandomLakeObs):
    def reward(self):
        return 6-(abs(self.player[0]-self.goal[0]) + abs(self.player[1]-self.goal[1]))

- La m√©thode ci-dessus utilise la [Distance de Manhattan] (https://en.wikipedia.org/wiki/Taxicab_geometry) entre le joueur et l'objectif comme r√©compense 
- Lorsque l'agent atteint l'objectif, la r√©compense maximale de 6 est obtenue.
- Lorsque l'agent est le plus √©loign√© du but, la r√©compense minimale de 0 est donn√©e.

#### Red√©finir les r√©compenses

In [11]:
env = RandomLakeObsRew()
env.reset()
env.render()
env.reward()

üßëüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßä‚õ≥Ô∏è


0

‚¨ÜÔ∏è la r√©compense est de 0

‚¨áÔ∏è la r√©compense est de 1 car nous nous sommes rapproch√©s de l'objectif

In [12]:
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßëüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßä‚õ≥Ô∏è


1

#### Red√©finir les r√©compenses

In [13]:
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßë
üßäüßäüßä‚õ≥Ô∏è


5

Maintenant, la r√©compense est de 5. La prochaine fois, elle sera de 6.

In [14]:
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßäüßë


6

#### Comparer les r√©compenses

- Nous avons donc deux fonctions de r√©compense possibles. Laquelle fonctionne le mieux ? 
- Rappelle-toi que la derni√®re fois, apr√®s un entra√Ænement de 8 it√©rations, nous avons r√©ussi √† atteindre l'objectif environ 70 % du temps :

In [15]:
ppo_RandomLakeObs.evaluate()['evaluation']['episode_reward_mean']

0.8166666666666667

#### Comparer les r√©compenses

Entra√Æne-toi avec la nouvelle fonction de r√©compense !

In [16]:
ppo_RandomLakeObsRew = ppo_config.build(env=RandomLakeObsRew)

In [17]:
for i in range(8):
    ppo_RandomLakeObsRew.train()

In [18]:
ppo_RandomLakeObsRew.evaluate()['evaluation']['episode_reward_mean']

101.90566037735849

Attends une minute, qu'est-ce qui se passe ici ?

#### Comparer les r√©compenses ?

- Nous avons essay√© d'am√©liorer notre syst√®me RL en fa√ßonnant la fonction de r√©compense.
- Cela a (vraisemblablement) affect√© la formation, mais aussi notre √©valuation.
- Dans l'apprentissage supervis√©, cela revient √† changer la m√©trique de notation de l'erreur quadratique √† l'erreur absolue.
- Si l'ancien syst√®me a obtenu une erreur quadratique moyenne de 20 000 et le nouveau syst√®me une erreur absolue moyenne de 40, lequel est le meilleur ?
- Nous comparons des pommes et des oranges ici !
- Nous voulons comparer les deux mod√®les sur la m√™me m√©trique, par exemple la m√©trique originale 
- Ici, nous voulons voir √† quelle fr√©quence l'agent atteint l'objectif.

#### Comparer les r√©compenses ?

- Le code ici est un peu plus avanc√©.
- Il est inclus par souci d'exhaustivit√©, mais nous n'entrerons pas dans les d√©tails.

In [19]:
from ray.rllib.agents.callbacks import DefaultCallbacks

class MyCallbacks(DefaultCallbacks):
    def on_episode_end(self, *, worker, base_env, policies, episode, env_index, **kwargs):
        info = episode.last_info_for()
        episode.custom_metrics["goal_reached"] = info["player"] == info["goal"]

In [20]:
ppo_config_callback = (
    PPOConfig()\
    .framework("torch")\
    .rollouts(create_env_on_local_worker=True, horizon=100)\
    .debugging(seed=0, log_level="ERROR")\
    .callbacks(callbacks_class=MyCallbacks)\
    .evaluation(evaluation_config={"callbacks" : MyCallbacks})
)

ppo_RandomLakeObsRew = ppo_config_callback.build(env=RandomLakeObsRew)

Le formateur ci-dessus utilise notre nouveau syst√®me de r√©compense mais signale/mesure √©galement le taux d'atteinte de l'objectif.

#### Comparer les r√©compenses ?

Essayons-le !

In [21]:
for i in range(8):
    ppo_RandomLakeObsRew.train()

In [22]:
# HIDDEN
ppo_RandomLakeObsRew.evaluate()["evaluation"]["episode_reward_mean"]

101.90566037735849

In [23]:
ppo_RandomLakeObsRew.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.04081632653061224

- Hmm, ces r√©sultats sont terribles !
- Nous avions l'habitude d'obtenir un taux de victoire de plus de 70%, et maintenant nous sommes proches de z√©ro.
- Que s'est-il pass√© ? ü§î

#### Qu'est-ce que l'agent optimise vraiment ?

- L'agent optimise vraiment la _r√©compense totale_.
- _Total_ : il valorise toutes les r√©compenses qu'il collecte, pas seulement la r√©compense finale.
- _R√©compens√©_ : il valorise davantage les premi√®res r√©compenses que les derni√®res.
- Notre agent r√©ussit √† maximiser la r√©compense totale actualis√©e, mais cela ne correspond pas √† l'atteinte de l'objectif.
- Mais pourquoi ? L'objectif donne une r√©compense plus √©lev√©e.

#### Exploration vs. exploitation

- Un concept fondamental en RL est _exploration vs. exploitation_
- Lorsque l'agent apprend la politique, il peut choisir de soit :

1. Faire des choses qu'il sait √™tre assez bonnes ("exploiter")
2. Essayer quelque chose de totalement nouveau et fou, juste au cas o√π ("explorer")

In [24]:
# TODO 
# diagram for this?

#### Exploration vs. exploitation

- Avec l'ancienne structure de r√©compense, l'agent re√ßoit une r√©compense de 0 √† moins qu'il n'atteigne l'objectif.
  - Il continue donc √† essayer de trouver quelque chose de mieux.
- Avec la nouvelle structure de r√©compense, l'agent re√ßoit beaucoup de r√©compenses simplement parce qu'il se prom√®ne.
  - Il n'est pas tr√®s motiv√© pour explorer l'environnement.
- En fait, comme il maximise la r√©compense **totale** actualis√©e, trouver le but est une mauvaise chose !
  - Cela entra√Æne la fin de l'√©pisode, ce qui limite la r√©compense totale de l'agent.
  - L'agent apprend en fait √† _√©viter_ le but, surtout au d√©but de l'√©pisode.

#### Concevoir une meilleure structure de r√©compense

- Essayons plut√¥t de p√©naliser l'agent lorsqu'il entre dans un trou ou sort du bord.
- Il sera plus facile d'impl√©menter cela directement dans `step` :

In [25]:
class RandomLakeObsRew2(RandomLakeObs):
    def step(self, action):
        # (not shown) existing code gets new_loc, where the player is trying to go
        
        reward = 0
        
        if self.is_valid_loc(new_loc):
            self.player = new_loc
        else:
            reward -= 0.1 # small penalty
            
        if self.holes[self.player]:
            reward -= 0.1 # small penalty
            
        if self.player == self.goal:
            reward += 1
        
        # Return observation/reward/done
        return self.observation(), reward, self.done(), {"player" : self.player, "goal" : self.goal}

In [26]:
# HIDDEN
from envs_03 import RandomLakeObsRew2

#### Teste-le, encore une fois

In [27]:
# HIDDEN
# redefine ppo_RandomLakeObs to include the new callbacks
# so that you can measure the custom metric instead of the reward
# they will give the same value but this is better for consistency
ppo_RandomLakeObs = ppo_config_callback.build(env=RandomLakeObs)

for i in range(8):
    ppo_RandomLakeObs.train()

In [30]:
ppo_RandomLakeObsRew2 = ppo_config_callback.build(env=RandomLakeObsRew2)

In [31]:
for i in range(8):
    ppo_RandomLakeObsRew2.train()

In [32]:
ppo_RandomLakeObs.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.6853448275862069

In [33]:
ppo_RandomLakeObsRew2.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.734982332155477

Il semble que, cette fois, les deux m√©thodes ont des performances beaucoup plus similaires.

#### Dur√©e de l'√©pisode

- En plus du taux de r√©ussite, nous pouvons calculer d'autres statistiques sur le comportement de l'agent.
- Une mesure int√©ressante est la longueur des √©pisodes.
- RLlib l'enregistre par d√©faut, nous pouvons donc y acc√©der facilement :

In [34]:
ppo_RandomLakeObs.evaluate()["evaluation"]["episode_len_mean"]

8.585470085470085

In [35]:
ppo_RandomLakeObsRew2.evaluate()["evaluation"]["episode_len_mean"]

7.20216606498195

Bien que les deux agents aient le m√™me taux de r√©ussite, le nouveau tend vers des √©pisodes plus courts.

Notes 

- C'est tr√®s int√©ressant car l'agent ne peut pas "voir" la diff√©rence entre les trous et les bords.
- Nous pourrions approfondir cette question en ajoutant d'autres mesures personnalis√©es, par exemple le nombre de bosses dans l'ar√™te.

In [None]:
# TODO
#### disadvantages - loss of generality

#- now only works if goal is at bottom-right
#give a few real-world examples here -> important

## Analogie de l'apprentissage supervis√© : fa√ßonnage de la r√©compense
<!-- multiple choice -->

Plus t√¥t, nous avons fait une analogie entre l'encodage des observations en RL et le pr√©traitement des caract√©ristiques en apprentissage supervis√©. Quel aspect de l'apprentissage supervis√© est la meilleure analogie avec la mise en forme des r√©compenses en RL ?

- [ ] Ing√©nierie des caract√©ristiques 
- [ ] S√©lection de mod√®les [ ] Pas tout √† fait. Mais, comme nous le verrons, la s√©lection de mod√®les a aussi sa place dans l'apprentissage supervis√© !
- [ ] R√©glage des hyperparam√®tres [ ] Pas tout √† fait. Mais, comme nous le verrons, l'ajustement des hyperparam√®tres a √©galement sa place dans RL !
- [S√©lection d'une fonction de perte | Changer la fonction de perte change le "meilleur" mod√®le, tout comme changer les r√©compenses change la "meilleure" politique.

## R√©compenser chaque √©tape : petites r√©compenses n√©gatives
<!-- multiple choice -->

Dans des environnements RL comme Random Lake o√π l'agent doit atteindre un objectif sp√©cifique, imagine que nous attribuions une minuscule r√©compense n√©gative pour _chaque_ √©tape effectu√©e par l'agent. Comment cela affecterait-il g√©n√©ralement/typiquement le temps que l'agent passe jusqu'√† ce qu'il atteigne l'objectif ?

- [ ] L'agent essaiera d'atteindre l'objectif en faisant le moins d'√©tapes possible.
- [ ] L'agent essaiera d'atteindre l'objectif en autant d'√©tapes que possible. | [ ] Si nous p√©nalisons chaque √©tape, le fait de faire plus d'√©tapes entra√Ænera une r√©compense moindre.
- [ ] Aucun changement. | Si nous p√©nalisons chaque √©tape, le fait de faire plus d'√©tapes entra√Ænera une r√©compense moindre.

## Exploration vs. exploitation
<!-- multiple choice -->

Laquelle des affirmations suivantes est correcte concernant le compromis exploration-exploitation dans RL ?

- [ ] Si une personne n'explore que, elle ne trouvera jamais une bonne politique. | Il trouvera de bonnes politiques en fait, mais EXTR√äMEMENT lentement.
- [ ] Si un agent ne fait qu'exploiter, il ne trouvera jamais de bonne politique. | Il peut simplement continuer √† essayer la m√™me chose encore et encore.
- [ ] Les agents trouvent toujours de bonnes politiques m√™me sans exploration/exploitation.

## Cons√©quences involontaires
<!-- coding exercise -->

Dans cet exercice, tu vas essayer une mauvaise id√©e : attribuer une grande r√©compense n√©gative chaque fois que l'agent fait un pas. Nous utiliserons -1 par √©tape. L'agent re√ßoit quand m√™me une r√©compense de +1 pour avoir atteint l'objectif. Mets en place cette r√©compense, entra√Æne l'agent et regarde la longueur moyenne des √©pisodes imprim√©e par le code. Compare-le √† la dur√©e moyenne des √©pisodes d'un agent qui agit simplement de mani√®re al√©atoire. Ensuite, r√©ponds √† la question √† choix multiple sur le comportement de l'agent. √Ä ton avis, que se passe-t-il ici ? 

(Pour info : comme nous l'avons vu pr√©c√©demment, ce type de modification d'un environnement peut aussi √™tre r√©alis√© avec des wrappers de gymnastique)

In [None]:
# EXERCISE
from utils_03 import lake_default_config
from envs_03 import RandomLakeObs

class RandomLakeBadIdea(RandomLakeObs):
    def reward(self):
        old_reward = int(self.player == self.goal) 
        return ____
    
ppo = lake_default_config.build(env=____)

for i in range(8):
    ppo.train()
    
print("Average episode length for trained agent: %.1f" % 
      ppo.evaluate()["evaluation"][____])

random_agent_config = (
    lake_default_config\
    .exploration(exploration_config={"type": "Random"})\
    .evaluation(evaluation_config={"explore" : True})
)
random_agent = random_agent_config.build(env=RandomLakeBadIdea)

print("Average episode length for random agent: %.1f" % 
      random_agent.evaluate()["evaluation"][____])

In [2]:
# SOLUTION
from utils_03 import lake_default_config
from envs_03 import RandomLakeObs

class RandomLakeBadIdea(RandomLakeObs):
    def reward(self):
        old_reward = int(self.player == self.goal) 
        return old_reward - 1

ppo = lake_default_config.build(env=RandomLakeBadIdea)


for i in range(8):
    ppo.train()
    
print("Average episode length for trained agent: %.1f" % 
      ppo.evaluate()["evaluation"]["episode_len_mean"])

random_agent_config = (
    lake_default_config\
    .exploration(exploration_config={"type": "Random"})\
    .evaluation(evaluation_config={"explore" : True})
)
random_agent = random_agent_config.build(env=RandomLakeBadIdea)

print("Average episode length for random agent: %.1f" % 
      random_agent.evaluate()["evaluation"]["episode_len_mean"])

0
1
2
3
4
5
6
7
Average episode length for trained agent: 4.4
Average episode length for random agent: 12.1


#### Comportement de l'agent

Lorsqu'il est entra√Æn√© dans un environnement avec une grande r√©compense n√©gative √† chaque √©tape, que crois-tu que cet agent fait, qui est ind√©sirable ?

- [L'agent reste immobile car on le d√©courage de bouger. | Essaie encore !
- [ ] L'agent n'est pas int√©ress√© par l'atteinte de l'objectif car la r√©compense est relativement faible. | Essaie encore !
- [ ] L'agent apprend √† sauter dans le lac aussi vite qu'il le peut, pour √©viter la r√©compense n√©gative du mouvement. | Yikes ! ü•∂
- [ ] L'agent atteint l'objectif tout de suite. | Ce serait pourtant souhaitable !