## Políticas de RL

#### ¿Qué es una política?

Volvamos a la "API" de RL:

![](img/RL-API.jpg)

- La política es el resultado de la RL
- Asigna las observaciones a las acciones
- La política es como el cerebro del agente

#### ¿Qué es una póliza? Los detalles.

- Una política es una función que asigna observaciones a acciones.
- Consideremos de nuevo el entorno de Frozen Lake:

In [1]:
import gym
env = gym.make("FrozenLake-v1", is_slippery=False)
obs = env.reset()
obs

0

- Recibimos una observación 0. ¿Qué hacemos ahora? 
- La política nos lo dirá.

#### Ejemplo de política

Una política podría tener el siguiente aspecto

| Observación: Acción
|------|-------|
| 0 | 0 |
| 1 | 3 |
| 2 | 1 |
| 3 | 1 |
| ... | ... |
| 14 | 2 |
| 15 | 2 |

- A la izquierda, tenemos todas las observaciones posibles (15 para el Lago Helado).
- A la derecha, tenemos la acción correspondiente que realizaremos _si vemos esa observación_.
- "Si veo 0, haré 0; si veo 1, haré 3", etc.

#### Objetivo de RL

**El objetivo de la RL es aprender una buena política dado un entorno.**

#### Políticas no deterministas

- Anteriormente aprendimos sobre los entornos deterministas y no deterministas 
- Análogamente, tenemos _políticas_ deterministas y no deterministas.
- Antes vimos una política determinista: una observación dada provoca una acción fija.
- Aquí tenemos un ejemplo de política no determinista:

| Observación: P(izquierda), P(abajo), P(derecha), P(arriba) 
|------------|-------|-----------|---------|-------|
| 0 | 0 | 0.9 | 0.01 | 0.04 | 0.05
| 1 | 3 | 0.05 | 0.05 | 0.05 | 0.85
| ... | ... | ... | ...      | ...      | ...
| 15 | 2 | 0.0 | 0.0 | 0.99 | 0.01

"Si veo el 0, me moveré hacia la izquierda el 99% de las veces, hacia abajo el 1% de las veces, hacia la derecha el 4% de las veces y hacia arriba el 5% de las veces"

#### Espacios de acción continua

¿Y si nuestro espacio de acción es continuo? Podemos seguir teniendo una política. Por ejemplo:

| Observación | Acción | |
|------|-------|
| 0 | 0.42 |
| 1 | -3.99 |
| ... | ... |
| 15 | 2.24 |

Sin embargo, una política no determinista tendría que extraerse de una distribución de probabilidad.

#### Espacios de observación continua

- ¿Y si nuestro espacio de _observación_ es continuo? 
- Bueno, ahora ya no podemos dibujar la política como una tabla...
- En este caso, nuestra política es una _función_ del valor de observación 
- Por ejemplo, "ángulo del acelerador con el suelo (acción) = 1,5 x distancia al obstáculo más cercano (observación)" 
- Este ejemplo de juguete dice que si el obstáculo más cercano está lejos, puedes acelerar el coche.

In [2]:
# TODO
# too much text around here, need more code and/or images
# I think we can remove some of this stuff (continuous, beyond scalars) and add it back it when it's paired with a concrete example
# it's not very helpful/interesting as just ideas in isolation...

#### Más allá de los escalares

- Hasta ahora hemos asumido que la observación es un único número y la acción es un único número.
- Sin embargo, ambos pueden ser tipos de datos más complejos: imágenes, vectores, etc 
- Las observaciones reales de un coche autoconducido pueden ser decenas de mediciones, imágenes, etc.
- Las acciones reales de un coche autoconducido pueden ser la fijación de múltiples valores en cada paso de tiempo.

#### Pensar en las políticas como funciones

- En general, ésta es una forma útil de pensar: la política es una función que mapea las observaciones a las acciones.
- En el **aprendizaje profundo por refuerzo**, esta función es una red neuronal.

#### Resumen

- El "agente" o "jugador" son personificaciones de la política
- No hay "inteligencia" adicional ni toma de decisiones más allá de la política
- Por tanto, técnicamente no necesitamos la noción de agente/jugador
- La política es el resultado de la RL.

#### ¡Apliquemos lo que hemos aprendido!

## Política del Lago Congelado
<!-- multiple choice -->

Recuerda el entorno del lago congelado:

```
P...
.O.O
...O
O..G
```

con su espacio de observación representado como

```
 0 1 2 3
 4 5 6 7
 8 9 10 11
12 13 14 15
```

y las acciones representadas como

| Acción | Significado ||
|------|------|
| 0 izquierda
| 1. Abajo
| 2. Derecha
| 3. Arriba

#### Pregunta 1

En la política que aparece a continuación falta una entrada representada por el símbolo ``.

| Observación: Acción
|------|-------|
| 0 | 0 |
| 1 | 2 |
| ... | ... |
| 13 | ? |
| 14 | 2 |
| 15 | 0 |

Selecciona la mejor opción para rellenar la entrada `?`.

- [ ] 0 | ¡Intenta de nuevo!
- [ ] 1 | ¡Inténtalo de nuevo!
- [x] 2 | ¡Sí! Moverte hacia la derecha te lleva a la meta.
- [ ] 3 | ¡Inténtalo de nuevo!

#### Pregunta 2

en la versión resbaladiza del Lago Helado, el agente tiene una probabilidad de 1/3 de moverse en la dirección prevista y 1/3 en las dos direcciones perpendiculares

¿Es lo anterior una afirmación sobre el entorno o la política?

- [x] Entorno | ¡Lo tienes! 
- [ ] Política | Recuerda que la política describe cómo responde el agente a las observaciones.

#### Pregunta 3

en la versión resbaladiza del Lago Helado, a veces es mejor no caminar en la dirección que realmente quieres ir, porque es más importante evitar la posibilidad de resbalar en un agujero._

¿Es lo anterior una afirmación sobre el medio ambiente o la política?

- [ ] Entorno | La afirmación anterior se refiere a la mejor acción a realizar en una situación; ésta viene determinada por la política.
- [x] Política | ¡Lo tienes!

## Cálculo de la recompensa esperada
<!-- coding exercise -->

Completa el código de abajo para que calcule la recompensa esperada en el resbaladizo (no determinista)
Entorno del Lago Congelado a lo largo de 1000 episodios. El bucle interior hace un bucle sobre los pasos de un solo episodio.
El bucle exterior es sobre los episodios.

In [3]:
# EXERCISE

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for ____:

    obs = env.reset()
    done = False
    
    while ____:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(____)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.047


In [6]:
# SOLUTION

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.014


## Política artesanal
<!-- coding exercise -->

El código siguiente carga el entorno (no determinista) de Frozen Lake.
Una política (determinista) se define como un diccionario de Python que mapea de observaciones a acciones.
El código hace un bucle sobre 1000 episodios. Dentro de cada episodio, itera a través de los pasos de tiempo (observaciones y acciones) hasta que el episodio haya terminado y se haya obtenido una recompensa. A continuación, imprime la recompensa media de los 1000 episodios. Normalmente obtiene una recompensa media de alrededor de 0,05, lo que significa que el objetivo se alcanza alrededor del 5% de las veces.

**Tu tarea:** modificar la política para que se consiga una recompensa media de al menos 0,02 (es decir, que el agente alcance el objetivo el 20% de las veces).

In [None]:
# EXERCISE

import gym

# ...

In [4]:
# SOLUTION

import gym

env = gym.make("FrozenLake-v1", is_slippery=True)

policy = {
    0 : 2,
    1 : 2,
    2 : 2,
    3 : 2,
    4 : 1,
    5 : 1,
    6 : 1,
    7 : 1,
    8 : 2,
    9 : 2,
    10: 2,
    11: 0,
    12: 2,
    13: 2,
    14: 2,
    15: 2
}

rewards = []
N = 1000
for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = policy[obs]
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.034
