# Aprendizaje por refuerzo

# Qué es? 

Es un tipo de aprendizaje que permite a un agente aprender de la **interacción** con un ambiente por medio de prueba y error, recibiendo como feedback solo un **refuerzo positivo o negativo**.

Lo aprendido lo vamos a llamar **política**, la cual es un mapeo de un estado a una acción.



![](files/images/rl_notion.svg)

# Por qué? Cuándo?

Cuando necesitamos que un modelo aprenda a **maximizar un objetivo** realizando **acciones en un ambiente**, que pueden tener consecuencias positivas o negativas para el objetivo.


Lo aplicamos cuando necesitamos aprender **a partir de los resultados de acciones** que realizamos en el ambiente.

- **No conocemos** del todo el ambiente, necesitamos **explorar** para aprender qué cosas dan buenos resultados.
- O lo conocemos, pero resulta **impráctico/imposible** analizar **todos** los posibles estados.


![](files/images/rl_mario.jpeg)

![](files/images/rl_doom.jpg)

![](files/images/rl_robot.png)

![](files/images/rl_stock.png)

El aprendizaje se hace **"en vivo"** (online), mientras el agente va realizando acciones en un ambiente (real o simulado).

Puede que esto suceda en **"episodios"** (ej: N partidas de super mario, independientes), o de forma **continua** (ej: acciones en la bolsa).

# Política y resultados

La política es lo que me **determina qué acción tomar** en un momento dado. Es por lo general, el objetivo de mi aprendizaje (salvo en pasivo).

Hay varias maneras de modelarlo!

### Agente basado en utilidad

Aprende una **función** que le dice qué tan **útil** es un **estado**. ```f(estado) = utilidad del estado```


### Agente Q-Learning

Aprende una **función Q** que le dice qué tan **útil** es una **acción dada en un estado dado**. ```f(estado, acción) = utilidad de tomar esa acción en ese estado```

### Agente reflejo

Aprende una **"tabla"** que mapea **estados a acciones**. ```tabla[estado] = acción a tomar```

Nosotros nos vamos a centrar en Q-Learning.

# Pasivo vs Activo

Dependiendo de qué nos interesa...

- En aprendizaje por refuerzo **pasivo**, buscamos **estimar la utilidad** (qué tan buena es) de una política.
- En aprendizaje por refuerzo **activo**, buscamos **crear una política** que sea útil.

En ambos casos, el aprendizaje se hace principalmente a partir de las **recompensas** que el ambiente nos otorga por nuestras **acciones**. Las usamos para actualizar la utilidad estimada de nuestra política, o para modificarla y mejorarla.

# Recompensas en el tiempo

En qué momento el agente **recibe** las recompensas?

Luego de cada acción realizada.

Pero en qué momento el agente **actualiza su política** en base a las recompensas recibidas?

Esto depende: podemos actualizarla al final de cada "episodio", o podemos ir actualizando después de cada acción.

### Métodos de Monte Carlo

Al final de cada "episodio", actualizamos los valores de toda nuestra política entera, en base a la sumatoria de recompensas recibidas en cada acción. Solo es aplicable cuando tenemos episodios, no cuando es un problema contínuo.

### Métodos de aprendizaje por diferencia temporal (TD)

Al final de cada "acción", actualizamos los valores relevantes de nuestra política, en base a la recompensa recibida por la acción tomada.



Y finalmente, vale lo mismo una recompensa inmediata, que una recompensa demorada?

Tenemos dos enfoques:

### Recompensas aditivas

La recompensa en un monento dado, es la **suma de todas las recompensas hasta ese momento**:

```R = Rt1 + Rt2 + Rt3 + ...```

### Recompensas depreciativas

La recompensa en un monento dado, es la **suma de las recompensas hasta ese momento**, pero depreciando las recompensas a medida que son más tardías:

```R = 𝛾Rt1 + 𝛾²Rt2 + 𝛾³Rt3 + ...```

El parámetro 𝛾 varía entre 0 y 1. Cuando es 1, las recompensas no pierden valor. Cuanto más cercano a 1, menos valor pierden. Y viceversa.



# Selección de acción en aprendizaje activo

Sabemos qué vamos a hacer con la recompensa después de que tomemos la acción (la usamos para evaluar y/o mejorar nuestra política). Pero qué acción tomamos??

Siempre la que creemos **mejor** en base a nuestra política?

Pan duro en frente del agente, vs torta en otra habitación. Nunca va a conocer las mejores recompensas, se va a quedar solo con las primeras que encuentre.

Cualquiera? Al **azar**?

Vamos a estar años y años realizando acciones al azar. En la mayoría de los problemas, son más las acciones inútiles o malas, que las que dan buenos resultados.

Vamos a demorar eternidades en encontrar una buena política!

### Exploración vs Explotación

Necesitamos **explorar** más al inicio (aprender conocimiento), y **explotar** más al final (usar conocimiento aprendidos).

Esto lo determina la **función de exploración**: función que dado un estado y acciones disponibles en un momento dado, me determina cuál elijo.

Ejemplo simple y malo: 
```
if t < X: 
    al azar
else:
    la mejor
```

Normalmente buscamos funciones con transición más suave.

Inteligentes como para al inicio dar **más chances** a acciones **no realizadas** en estados **no vistos**, etc.

# Selección de acción vs modelado de la política

Repasamos los modelos de políticas:

* Agente basado en utilidad: ```f(estado) = utilidad del estado```
* Agente Q-Learning: ```f(estado, acción) = utilidad de tomar esa acción en ese estado```
* Agente reflejo: ```tabla[estado] = acción a tomar```

Qué pasa cuando el agente basado en utilidad recibe un estado y debe tomar una acción? Cómo elije qué acción tomar de las disponibles?

Necesita poder **predecir** el estado al que va a llegar con cada acción, para ver cuál es el mejor, y elegir la acción correspondiente.

Esto **no pasa** con los otros dos agentes, que solo elijen una acción, sin necesariamente conocer a qué estado lleva.

El agente basado en utilidad necesita **un modelo mental del ambiente**. No siempre tenemos eso.

# Resumiendo hasta ahora:

- Idea de política.
- Acciones y recibir recompensas en ambiente. Episodios o no.
- Armar una política nueva (apr. activo) vs evaluar qué tan buena es una política (apr. pasivo).
- Política: función de valores para los estados, función de valores para los pares [estado, acción a realizar], o tabla estado->acción.
- Actualizar la política al final del episodio (monte carlo) vs al final de cada acción (TD).
- Recompensas aditivas vs depreciativas.
- Durante aprendizaje: hacerle o no caso a la política (función de exploración: exploración vs explotación dependiendo del tiempo).

# Ejemplo: Q-Learning

- Mejor con episodios.
- Para armar una política nueva (apr. activo).
- Política: función de valores para los pares [estado, acción a realizar].
- Actualizar la política al final de cada acción (TD).
- Recompensas depreciativas.
- La función de exploración no está definida (podemos elegir la que queramos).

```python
Q = {}  # Q[state, action] -> Q expected utility for that action in that state. Defaults = 0
N = {}  # N[state, action] -> Number of times that action was done from that state. Defaults = 0

def q_learning_agent(prev_state, prev_action, state, reward, possible_actions):
    # we need to update the knowledge of what happens when we do prev_action in prev_state
    # we can only do this *after* that already happened, that's why we need "prev_" variables
    if prev_state is not None:
        # we did the prev_action, count that
        N[prev_state, prev_action] += 1
        
        # how good are the actions we can do now, from where we are??
        estimated_rewards_for_possible_actions = [Q[state, action] for action in possible_actions]
        best_estimated_next_reward = gamma * max(estimated_rewards_for_possible_actions)
        
        # update utility estimation of prev_state,prev_action: it's the old value
        # (reduced a little bit) plus the new value we know estimate (reduced a lot)
        Q[prev_state, prev_action] = (1 - learn_rate) * Q[prev_state, prev_action] + \
                                     learn_rate * (reward + best_estimated_next_reward)          

    action = exploration_function(state, possible_actions, Q, N)
    return action
```

# Y redes neuronales?

Pueden las redes neuronales aportar algo a aprendizaje por refuerzo?

### Deep Reinforcement Learning

Muy **similar a Q-Learning**. 

En lugar de armar a mano la **función Q(estado, acción)**, lo que hacemos es que **una red neuronal sea esa función**, y que se **entrene a partir de las recompensas** que va recibiendo.

![](files/images/qlearning_vs_drl.svg)

**La red neuronal es la política.**