## Politiques RL

#### Qu'est-ce qu'une politique ?

Revenons à l'"API" de RL :

[](img/RL-API.jpg)

- La politique est la sortie de RL
- Elle fait correspondre les observations aux actions
- La politique est comme le cerveau de l'agent

#### Qu'est-ce qu'une politique ? Détails.

- Une politique est une fonction qui met en correspondance des observations et des actions.
- Considérons à nouveau l'environnement Frozen Lake :

In [1]:
import gym
env = gym.make("FrozenLake-v1", is_slippery=False)
obs = env.reset()
obs

0

- Nous avons reçu une observation 0. Que devons-nous faire ensuite ? 
- La politique nous le dira.

#### Exemple de politique

Une politique peut ressembler à ceci

| Observation | Action |
|------|-------|
| 0 | 0 |
| 1 | 3 |
| 2 | 1 |
| 3 | 1 |
| ... | ... |
| 14 | 2 |
| 15 | 2 |

- À gauche, nous avons toutes les observations possibles (15 pour Frozen Lake).
- À droite, nous avons l'action correspondante que nous ferons _si nous voyons cette observation_.
- "Si je vois 0, je ferai 0 ; si je vois 1, je ferai 3", etc.

#### Objectif de RL

**Le but de RL est d'apprendre une bonne politique étant donné un environnement.**

#### Politiques non déterministes

- Précédemment, nous avons appris à connaître les environnements déterministes et non déterministes 
- De manière analogue, nous avons des _politiques_ déterministes et non-déterministes.
- Avant, nous avons vu une politique déterministe : une observation donnée suscite une action fixe.
- Voici un exemple de politique non déterministe :

| Observation | P(gauche) | P(bas) | P(droite) | P(haut) | 
|------------|-------|-----------|---------|-------|
| 0 | 0 | 0.9 | 0.01 | 0.04 | 0.05
| 1 | 3 | 0.05 | 0.05 | 0.05 | 0.85
| ... | ... | ... | ...      | ...      | ...
| 15 | 2 | 0.0 | 0.0 | 0.99 | 0.01

"Si je vois 0, je me déplacerai à gauche 99% du temps, vers le bas 1% du temps, à droite 4% du temps et vers le haut 5% du temps"

#### Espaces d'action continus

Et si notre espace d'action est continu ? Nous pouvons quand même avoir une politique. Par exemple :

| Observation | Action |
|------|-------|
| 0 | 0.42 |
| 1 | -3.99 |
| ... | ... |
| 15 | 2.24 |

Une politique non déterministe devrait cependant puiser dans une distribution de probabilité.

#### Espaces d'observation continus

- Et si notre _espace d'observation_ était continu ? 
- Eh bien, maintenant nous ne pouvons plus dessiner la politique sous forme de tableau...
- Dans ce cas, notre politique est une _fonction_ de la valeur d'observation 
- Par exemple, "angle de la pédale d'accélérateur avec le sol (action) = 1,5 x distance de l'obstacle le plus proche (observation)" 
- Cet exemple de jouet dit que si l'obstacle le plus proche est loin, tu peux accélérer la voiture.

In [2]:
# TODO
# too much text around here, need more code and/or images
# I think we can remove some of this stuff (continuous, beyond scalars) and add it back it when it's paired with a concrete example
# it's not very helpful/interesting as just ideas in isolation...

#### Au-delà des scalaires

- Jusqu'à présent, nous avons supposé que l'observation est un nombre unique et que l'action est un nombre unique.
- Cependant, ces deux éléments peuvent être des types de données plus complexes : images, vecteurs, etc 
- Les observations réelles d'une voiture autopilotée peuvent être des dizaines de mesures, d'images, etc.
- Les actions réelles d'une voiture autonome peuvent consister à définir plusieurs valeurs à chaque pas de temps.

#### Penser les politiques comme des fonctions

- En général, c'est une façon utile de penser : la politique est une fonction qui fait correspondre les observations aux actions.
- Dans **l'apprentissage par renforcement profond**, cette fonction est un réseau neuronal.

#### Résumé

- L'"agent" ou le "joueur" sont des personnifications de la politique
- Il n'y a pas d'"intelligence" ou de prise de décision supplémentaire au-delà de la politique
- Par conséquent, nous n'avons techniquement pas besoin de la notion d'agent/joueur
- La politique est le résultat de RL.

#### Appliquons ce que nous avons appris !

## Politique de Frozen Lake
<!-- multiple choice -->

Rappelle-toi l'environnement du lac gelé :

```
P...
.O.O
...O
O..G
```

avec son espace d'observation représenté comme :

```
 0 1 2 3
 4 5 6 7
 8 9 10 11
12 13 14 15
```

et les actions représentées comme

| Action | Signification |
|------|------|
| 0 | gauche |
| 1 | bas |
| 2 | droite |
| 3 | haut |

#### Question 1

La police ci-dessous contient une entrée manquante représentée par un symbole `?`.

| Observation | Action |
|------|-------|
| 0 | 0 |
| 1 | 2 |
| ... | ... |
| 13 | ? |
| 14 | 2 |
| 15 | 0 |

Choisis le meilleur choix pour remplir l'entrée `?`.

- [ ] 0 | Essaie encore !
- [ ] 1 | Essaie encore !
- [ ] 2 | Oui ! En te déplaçant vers la droite, tu te diriges vers l'objectif.
- [ ] 3 | Essaie encore !

#### Question 2

_Dans la version glissante du lac gelé, l'agent a une probabilité de 1/3 de se déplacer dans la direction voulue et 1/3 dans chacune des deux directions perpendiculaires._

L'affirmation ci-dessus concerne-t-elle l'environnement ou l'agent ?

- [ ] Environnement | Tu as compris ! 
- [ ] Politique | Rappelle-toi que la politique décrit comment l'agent réagit aux observations.

#### Question 3

_Dans la version glissante du Lac gelé, il est parfois préférable de ne pas marcher dans la direction où tu veux vraiment aller, parce qu'il est plus important d'éviter le risque de glisser dans un trou._

La phrase ci-dessus est-elle une déclaration sur l'environnement ou sur la politique ?

- [ ] Environnement | La déclaration ci-dessus concerne la meilleure action à entreprendre dans une situation donnée ; celle-ci est déterminée par la politique.
- [ ] Politique | Tu as compris !

## Calculer la récompense attendue
<!-- coding exercise -->

Complète le code ci-dessous de façon à ce qu'il calcule la récompense attendue dans l'environnement glissant (non déterministe) de
Environnement Frozen Lake sur 1000 épisodes. La boucle intérieure boucle sur les étapes d'un seul épisode.
La boucle extérieure est sur les épisodes.

In [3]:
# EXERCISE

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for ____:

    obs = env.reset()
    done = False
    
    while ____:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(____)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.047


In [6]:
# SOLUTION

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.014


## Politique de fabrication à la main
<!-- coding exercise -->

Le code ci-dessous charge l'environnement (non déterministe) glissant Frozen Lake.
Une politique (déterministe) est définie comme un dictionnaire Python qui fait correspondre des observations à des actions.
Le code boucle sur 1000 épisodes. Dans chaque épisode, il itère à travers les étapes de temps (observations et actions) jusqu'à ce que l'épisode soit terminé et qu'une récompense soit obtenue. Il imprime ensuite la récompense moyenne sur les 1000 épisodes. Il obtient généralement une récompense moyenne d'environ 0,05, ce qui signifie que l'objectif est atteint environ 5 % du temps.

**Ta tâche:** modifie la politique de façon à obtenir une récompense moyenne d'au moins 0,02 (c'est-à-dire que l'agent atteint l'objectif 20 % du temps).

In [None]:
# EXERCISE

import gym

# ...

In [4]:
# SOLUTION

import gym

env = gym.make("FrozenLake-v1", is_slippery=True)

policy = {
    0 : 2,
    1 : 2,
    2 : 2,
    3 : 2,
    4 : 1,
    5 : 1,
    6 : 1,
    7 : 1,
    8 : 2,
    9 : 2,
    10: 2,
    11: 0,
    12: 2,
    13: 2,
    14: 2,
    15: 2
}

rewards = []
N = 1000
for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = policy[obs]
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.034
