# Aprendizaje por refuerzo

### Espacio de discusión

#### ¿Cómo resolverían el problema del Pong?

<div><img src="files/images/pong.gif" width="30%" style="float: right; margin: 10px;" align="middle"></div>

* El juego: 
  * controlar una paleta
  * +1 pto si la pelota atraviesa la línea del contrario
  * -1 pto si la pelota atraviesa la línea de la paleta que estamos controlando
  * 0 ptos si la pelota no atraviesa ninguna línea.
  
* Entrada: Una imagen de 210x160x3
* Salida: una acción (arriba o abajo)


# Qué es Aprendizaje por refuerzo? 

Es un tipo de aprendizaje que permite a un agente aprender de la **interacción** con un ambiente por medio de prueba y error, recibiendo como feedback solo un **refuerzo positivo o negativo**.

Lo aprendido lo vamos a llamar **política**, la cual es un mapeo de un estado a una acción.

El objetivo es maximizar la recompensa acumulada.

![](files/images/rl_notion.svg)

# Por qué? Cuándo?

Cuando necesitamos que un modelo aprenda a **maximizar un objetivo** realizando **acciones en un ambiente**, que pueden tener consecuencias positivas o negativas para el objetivo.


Lo aplicamos cuando necesitamos aprender **a partir de los resultados de acciones** que realizamos en el ambiente.

- Es posible **simular el ambiente**, pero no se conocen las mejores acciones en cada estado
- Son problemas donde se incluye un razonamiento a largo plazo (ej: ajedrez, conducir un auto, etc)


# Algunos ejemplos: Super Mario Bros

<img src="images/rl_mario.jpeg" alt="Drawing" style="width: 800px"/>


# Algunos ejemplos: Doom

<img src="images/rl_doom.jpg" alt="Drawing" style="width: 800px"/>


# Algunos ejemplos: Robots que cocinan

<img src="images/rl_robot.png" alt="Drawing" style="width: 800px"/>

# Algunos ejemplos: Stock market

<img src="images/rl_stock.png" alt="Drawing" style="width: 800px"/>


# Política

La política es lo que **determina qué acción tomar** dado un estado. 

**Es por lo general, el objetivo del aprendizaje.**

Hay varias formas de modelar un agente que aprende por refuerzos:

### Agente basado en utilidad

Aprende una **función** que le dice qué tan **útil** es un **estado**. ```f(estado) = utilidad del estado```

*Requiere un modelo del ambiente para tomar decisiones*

### Agente Q-Learning

Aprende una **función Q** que le dice qué tan **útil** es una **acción dada en un estado dado**. ```f(estado, acción) = utilidad de tomar esa acción en ese estado```

### Agente reflejo

Aprende una función que mapea **estados a acciones**. ```f(estado) = acción a tomar```

# Aprendizaje Pasivo vs Activo

Dependiendo de qué nos interesa...

- En aprendizaje por refuerzo **pasivo**, buscamos **estimar la utilidad** (qué tan buena es) de una política.
- En aprendizaje por refuerzo **activo**, buscamos **crear una política** que sea útil.

En ambos casos, el aprendizaje se hace principalmente a partir de las **recompensas** que el ambiente nos otorga por nuestras **acciones**. Las usamos para actualizar la utilidad estimada de nuestra política, o para modificarla y mejorarla.

# Credit assignment problem

Las recompensas se reciben luego de cada acción tomada, pero...

*¿qué sucede cuando la verdadera recompensa demora tiempo en llegar?*

*¿Cuánta importancia tuvo cada acción previa para recibir este reward?*

<img src="images/pong_games.png" style="float: left; margin: 40px; width: 500px"/>
<img src="images/checkmate.jpeg" style="height: 300px"/>

## ¿En qué momento el agente **actualiza su política** en base a las recompensas recibidas?


### Métodos de Monte Carlo

Al final de cada "episodio", actualizamos los valores de toda nuestra política entera, en base a la sumatoria de recompensas recibidas en cada acción. Solo es aplicable cuando tenemos episodios, no cuando es un problema contínuo. Ej: Pong

### Métodos de aprendizaje por diferencia temporal (TD)

Al final de cada "acción", actualizamos los valores relevantes de nuestra política, en base a la recompensa recibida por la acción tomada. Ej: stocks, Pong



### Recompensas en el tiempo

*¿Todas las acciones son igual de importantes?*

*¿Las últimas son más importantes que las primeras?*

#### Recompensas aditivas

La recompensa en un monento dado, es la **suma de todas las recompensas desde ese momento**

#### Recompensas depreciativas

La recompensa en un momento dado, es la **suma de las recompensas desde ese momento**, pero depreciando las recompensas a medida que son más tardías:

$R_{t} = \sum\limits_{k=0}^{\infty} \gamma^k R_{t + k}$

El parámetro 𝛾 (tasa de descuento) varía entre 0 y 1.

# Selección de acción en aprendizaje activo


Repasamos los modelos de políticas:

* Agente basado en utilidad: ```f(estado) = utilidad del estado```
* Agente Q-Learning: ```f(estado, acción) = utilidad de tomar esa acción en ese estado```
* Agente reflejo: ```f(estado) = acción a tomar```


**Dado un modelo, ¿Qué acción debemos tomar?**


*Notar la necesidad de un modelo del ambiente en el primer agente*

**¿Qué ocurre cuando la política que estamos utilizando aún no fue ajustada?**

**¿Qué necesitamos hacer para aprender?**

**¿Cual es la utilidad de una acción desconocida?**

### Exploración vs Explotación

Necesitamos **explorar** más al inicio (aprender conocimiento), y **explotar** más al final (usar conocimiento aprendidos).

Esto lo determina la **función de exploración**: función que dado un estado y acciones disponibles en un momento dado, me determina cuál elijo.

### Algunas políticas para determinar la acción

* **Greedy:** elige siempre la acción que maximiza los rewards esperados
* **Epsilon greedy:** elige greedy con probabilidad $1-\epsilon$ y al azar con probabilidad $\epsilon$
* **Decaying epsilon greedy:** epsilon decae a medida que pasa el tiempo

<img src="images/rewards1.png" style="width: 800px"/>


# Resumiendo hasta ahora:

- Idea de política.
- Acciones y recibir recompensas en ambiente. Episodios o no.
- Armar una política nueva (apr. activo) vs evaluar qué tan buena es una política (apr. pasivo).
- Política: función de valores para los estados, función de valores para los pares [estado, acción a realizar], o tabla estado->acción.
- Actualizar la política al final del episodio (monte carlo) vs al final de cada acción (TD).
- Recompensas aditivas vs depreciativas.
- Durante aprendizaje: hacerle o no caso a la política (función de exploración: exploración vs explotación dependiendo del tiempo).

# Ejemplo: Q-Learning

- Para armar una política nueva (apr. activo).
- Política: función de valores para los pares [estado, acción a realizar].
- Actualizar la política al final de cada acción (TD).
- Recompensas depreciativas.
- La función de exploración no está definida (podemos elegir la que queramos).

```python
Q = {}  # Q[state, action] -> Q expected utility for that action in that state. Defaults = 0
N = {}  # N[state, action] -> Number of times that action was done from that state. Defaults = 0

def q_learning_agent(prev_state, prev_action, state, reward, possible_actions):
    # we need to update the knowledge of what happens when we do prev_action in prev_state
    # we can only do this *after* that already happened, that's why we need "prev_" variables
    if prev_state is not None:
        # we did the prev_action, count that
        N[prev_state, prev_action] += 1
        
        # how good are the actions we can do now, from where we are??
        estimated_rewards_for_possible_actions = [Q[state, action] for action in possible_actions]
        best_estimated_next_reward = gamma * max(estimated_rewards_for_possible_actions)
        
        # update utility estimation of prev_state,prev_action: it's the old value
        # (reduced a little bit) plus the new value we know estimate (reduced a lot)
        Q[prev_state, prev_action] = (1 - learn_rate) * Q[prev_state, prev_action] + \
                                     learn_rate * (reward + best_estimated_next_reward)          

    action = exploration_function(state, possible_actions, Q, N)
    return action
```

# Generalización

*¿Qué sucede si queremos aplicar lo visto al Pong usando tablas?*

* Esas tablas van a ser muy grandes (probablemente imposible de mantenerlas)
* Es imposible pasar por cada posible estado la suficiente cantidad de veces para aprender

**La solución es usar aproximación de funciones** 

*Encontrar una representación del estado que no sea una tabla y una función para convertir ese estado en esa representación*

### Deep Reinforcement Learning

Se puede usar una red neuronal como función de aproximación del estado.

<img src="images/policy_gradients.png" style="float: right; margin: 40px; width: 500px"/>


Hay varias implementaciones, dos de las más nombradas se basan en ideas antiguas:

* Policy gradients
* Deep Q-Networks

