![](https://drive.google.com/uc?export=view&id=1-5X9OUkA-C2Ih1gOS9Jd7GmkTWUEpDg1)

# Laboratorio 06: Aprendizaje por reforzamiento

## _Deep Learning_
   
<center>
    <img src='images/diagram-rl.png'style="width: 600px;">
</center>

**Profesor**: Juan Bekios Calfa

**Carreras**: ICCI, IECI e IenCI

## Introducción

* Considere el escenario de enseñarle nuevos trucos a un perro. El perro no entiende nuestro idioma, por lo que no podemos decirle qué hacer. En cambio, seguimos una estrategia diferente. 
* Emulamos una situación (o una señal) y el perro intenta responder de muchas formas diferentes.
  * Si la respuesta del perro es la deseada, lo premiamos con bocadillos. 
  * Del mismo modo, los perros tenderán a aprender qué no hacer cuando se enfrenten a experiencias negativas.

## Introducción

Elementos identificados:
* El perro es un **"agente"** que está expuesto al **medio ambiente**. El **medio ambiente** podría ser una casa, contigo.
* Las situaciones a los que el agente se encuentra son análogas a un **estado**. Un ejemplo de un **estado** podría ser un perro parado.
* Los **agentes** reaccionan realizando una **acción** para pasar de un "estado" a otro "estado". Por ejemplo, su perro pasa de estar de pie a sentado.
* Después de la transición, pueden recibir una recompensa o una penalización a cambio. ¡Les das un regalo! O un "No" como penalización.
* La **política** es la estrategia de elegir una **acción** desde un estado con la expectativa de obtener mejores resultados.


## Introducción

El **aprendizaje por refuerzo** se encuentra entre el espectro del **aprendizaje supervisado** y el **aprendizaje no supervisado**. Sin embargo, hay algunos elementos importantes a considerar:

1. **Ser codicioso no siempre funciona**. Hay cosas que son fáciles de hacer para obtener una gratificación instantánea, y hay cosas que proporcionan recompensas a largo plazo. El objetivo es **no ser codicioso** buscando recompensas inmediatas rápidas, sino optimizar para obtener las máximas recompensas todo el entrenamiento.
2. **La secuencia importa en el aprendizaje por refuerzo**. El agente **recompenzado** no solo depende del estado actual, sino de toda la historia de los estados. A diferencia del aprendizaje supervisado y no supervisado, el tiempo es importante aquí.


## El proceso de aprendizaje por refuerzo

<center>
    <img src='images/rl-animation.gif'style="width: 600px;">
</center>

El **aprendizaje por refuerzo** es la ciencia de tomar decisiones óptimas utilizando experiencias.

## Proceso


1. Observación del medio ambiente.
2. Decidir cómo actuar usando alguna estrategia.
3. Actuando en consecuencia.
4. Recibir una recompensa o una penalización.
5. Aprender de las experiencias y perfeccionar nuestra estrategia.
6. Iterar hasta encontrar una estrategia óptima.


## Problema:

La tarea de un _Smartcap_ es recoger a un pasajero de un lugar y dejarlo en otro. Aquí hay algunas especificaciones solicitadas para resolver el problema:

* Deje al pasajero en el lugar correcto.
* Ahorre tiempo a pasajero tomando el mínimo tiempo.
* Cuidar las normas de seguridad y tráfico.

## Modelamiento para el aprendizaje automático

### 1. Premios

* El agente debe recibir una alta **recompensa positiva** por un abandono exitoso.
* El agente debe ser **penalizado** si intenta dejar a un pasajero en lugares incorrectos.
* El agente debería obtener una recompensa levemente negativa por no llegar al destino después de cada paso de tiempo. La idea es que el agente llegue lo más rápido posible a la meta.

## Modelamiento para el aprendizaje automático

### 2. Espacios de estado (I)

En el aprendizaje por refuerzo, el agente se encuentra con un estado y luego actúa de acuerdo con el estado en el que se encuentra.

El **espacio de estados** (_state space_) es el conjunto de todas las situaciones posibles en las que podría vivir nuestro taxi. El estado debe contener información útil que el agente necesita para realizar la acción correcta.

El **espacio de estados** es el área de entrenamiento del _Smartcab_ donde le **enseñamos** a transportar personas de un **estacionamiento** a cuatro ubicaciones diferentes **(R, G, Y, B)**.


## Modelamiento para el aprendizaje automático

### 2. Espacios de estado (II)

<center>
    <img src='images/taxi.png'style="width: 600px;">
</center>

## Modelamiento para el aprendizaje automático

### 2. Espacio de estados (III)

* _Smartcab_ es el único vehículo en el estacionamiento.
* El estacionamiento se puede representar como una cuadrícula de $5\times 5$.
* El taxi puede estar en 25 ubicaciones. Por ejemplo, (3, 1) en la figura.
* Hay cuatro ubicaciones donde podemos recoger al pasajero (R, G, Y, B).
* También, se debe contabilizar **un estado adicional** dentro del taxi.
* Hay 4 ubicaciones para destino.
* 5 para posibles ubicaciones de toma de pasajeros.

El **total de estados es**: $5\times5\times5\times4=500$.

## Modelamiento para el aprendizaje automático

### 3. Espacios de acción

El agente se encuentra en uno de los **500 estados** y realiza **una acción**. La acción en nuestro caso puede ser moverse en una dirección o decidir recoger / dejar a un pasajero.

Acciones posibles:

1.    south
2.    north
3.    east
4.    west
5.    pickup (Tomar un pasajero)
6.    dropoff ( Dejar un pasajero)

El **taxi** no puede realizar ciertas por restricciones del **medio ambiente**. En el código, simplemente, se penaliza como -1 por cada golpe en la pared. 

## Implementación con Python

Para resolver este problema utilizaremos **Gym** (https://gym.openai.com/) que nos permite simular diferentes ambientas para realizar simulaciones.

**Gym** proporciona diferentes **entornos de juego** que podemos conectar a nuestro código y probar un agente. La biblioteca se encarga de la API para proporcionar toda la información que nuestro agente requeriría, como posibles acciones, puntaje y estado actual. 

Usaremos el entorno Gym llamado `Taxi-V2`, del que se extrajeron todos los detalles explicados anteriormente. Los objetivos, recompensas y acciones son todos iguales.

### Cargando ambiente para _Smartcab_ (Taxi)

In [65]:
import gym

env = gym.make('Taxi-v3').env
env.render()

+---------+
|[35mR[0m: | : :G|
|[43m [0m: | : : |
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+



### Librerías

La interfaz principal del **Gym** es `env`, que es la interfaz del entorno unificado. Los siguientes son los envmétodos que nos serían de gran ayuda:

`env.reset`: Restablece el entorno y devuelve un estado inicial aleatorio.
`env.step(action)`: Paso el entorno en un paso de tiempo. Devoluciones
* **observación** (_observation_) : Observaciones del medio ambiente
* **recompensa** (_reward_): si su acción fue beneficiosa o no
* **done** : Indica si hemos recogido y dejado a un pasajero, también llamado episodio
* **info** : información adicional como el rendimiento y la latencia para fines de depuración
    
`env.render`: Renderiza un fotograma del entorno (útil para visualizar el entorno)

Nota: Estamos usando el `.env` al final de `make` para evitar que el entrenamiento se detenga en 200 iteraciones, que es el valor predeterminado para la nueva versión de Gym.


### Recordemos el problema


Aquí está nuestra declaración de problema reestructurada (de los documentos de Gym):

"Hay 4 ubicaciones (etiquetadas con letras diferentes) y nuestro trabajo es recoger al pasajero en una ubicación y dejarlo en otra. Recibimos +20 puntos por una entrega exitosa y perdemos 1 punto por cada vez. paso que da. También hay una penalización de 10 puntos por acciones ilegales de recoger y dejar ".

Sumérjase más en el medio ambiente.


In [84]:
env.reset() # reset environment to a new, random state
env.render()

print("Espacio de acción {}".format(env.action_space))
print("Espacio de estado {}".format(env.observation_space))

+---------+
|R: | : :[35mG[0m|
| : | : : |
| : : : :[43m [0m|
| | : | : |
|Y| : |[34;1mB[0m: |
+---------+

Espacio de acción Discrete(6)
Espacio de estado Discrete(500)


* El cuadrado amarillo representa al taxi.
* "|" representa una pared.
* R, G, Y, B son las posibles ubicaciones de recogida y destino. La **letra azul** representa la **ubicación actual** y la **letra morada** es el destino actual.

Los **espacio de acción** se codifican como: 

    0 = sur
    1 = norte
    2 = este
    3 = oeste
    4 = recogida
    5 = abandono

### Configurar el problema  de la figura

In [95]:
state = env.encode(3, 1, 2, 0) # (fila del taxi , columna taxi,  indice pasajero, indice )
print("State:", state)

env.s = state
env.render()

State: 328
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| |[43m [0m: | : |
|[34;1mY[0m| : |B: |
+---------+



También, podemos establecer el estado del **entorno** manualmente `env.s` usando ese número codificado. Puede jugar con los números y verá que el taxi, el pasajero y el destino se mueven.

### Tabla de recompensas

In [102]:
env.P[328]




{0: [(1.0, 428, -1, False)],
 1: [(1.0, 228, -1, False)],
 2: [(1.0, 348, -1, False)],
 3: [(1.0, 328, -1, False)],
 4: [(1.0, 328, -10, False)],
 5: [(1.0, 328, -10, False)]}

**Estructura de diccionario**: {acción: [(probabilidad, próximo estado, recompensa, hecho-logrado)]}

Algunas cosas a tener en cuenta:

*    El 0-5 corresponde a las acciones (sur, norte, este, oeste, recogida, bajada) que el taxi puede realizar en nuestro estado actual en la ilustración.
*    En este entorno, la **probabilidad** siempre es 1.0.
*    El **próximo estado** el estado en el que estaríamos si tomamos la acción en este índice del dict
*    Todas las acciones de movimiento tienen una recompensa de -1 y las acciones de recoger/dejar tienen una recompensa de -10 en este **estado en particular**. Si estamos en un estado en el que el taxi tiene un pasajero y está en la parte superior del destino correcto, veríamos una recompensa de 20 en la acción de devolución (5).
*    **Hecho-logrado** se utiliza para indicarnos cuándo hemos dejado a un pasajero en el lugar correcto. Cada abandono exitoso es el final de un episodio.


### Resolviendo el ambiente sin aprendizaje por reforzamiento

Resolveremos el problema por **fuerza bruta**.

Dado que tenemos P (tabla de recompensas) predeterminadas en cada estado, podemos intentar que nuestro taxi navegue solo con eso.

Crearemos un bucle infinito que se ejecutará hasta que un pasajero llegue a un destino (un episodio ), o en otras palabras, cuando la recompensa recibida sea 20. El `env.action_space.sample()` método selecciona automáticamente una acción aleatoria del conjunto de todas las acciones posibles.

In [121]:
env.s = 328  # set environment to illustration's state

epochs = 0
penalties, reward = 0, 0

frames = [] # for animation

done = False

while not done:
    action = env.action_space.sample()
    state, reward, done, info = env.step(action)

    if reward == -10:
        penalties += 1
    
    # Put each rendered frame into dict for animation
    frames.append({
        'frame': env.render(mode='ansi'),
        'state': state,
        'action': action,
        'reward': reward
        }
    )

    epochs += 1
    
    
print("Timesteps taken: {}".format(epochs))
print("Penalties incurred: {}".format(penalties))

Timesteps taken: 209
Penalties incurred: 63


In [122]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.2)
        
print_frames(frames)

+---------+
|[35m[34;1m[43mR[0m[0m[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |B: |
+---------+
  (Dropoff)

Timestep: 209
State: 0
Action: 5
Reward: 20
