# 2 - Aprendizaje por refuerzo

**Sumario**

1. Introducción
2. El framewok de aprendizaje por refuerzo
3. Métodos de aprendizaje por refuerzo basados en valor
4. Q-Learning
5. Construyendo un agente para FrozenLake
6. Deep Reinforcement Learning

## 2.1 - Introducción

Cuando reflexionamos sobre la palabra **aprendizaje**, es posible que lo primero que nos venga a la mente sea **la forma en la que los seres humanos aprendemos mediante la interacción con nuestro entorno**.

Así, uno de los primeros ejemplos que seguramente visualicemos sea el proceso de aprendizaje que experimentan los niños y las niñas cuando empiezan a andar, donde interactúan con el entorno mediante un modelo de causa y efecto que voluciona con experimentación. De este modo, los seres humanos vamos adaptando poco a poco nuestro sistema motriz cada vez que se producen caidas (**"penalizan" el modelo**) o que conseguimos alcanzar una determinada localización en nuestro entorno (**"refuerzan"** el modelo).

<table>
    <tr>
        <td><img src="images_2/humans.jpg" width="500" data-align="center"></td>
    </tr>
</table>

Dicho sistema de **penalización** y **refuerzo** se utilizó como inspiración para definir **el aprendizaje por refuerzo** (Sutton, 1998). El cual define un modelo de comportamiento que simula el proceso de interacción entre un agente y un entorno mediante la utilización de estímulos (refuerzos) que le indicasen cuales son las decisiones mas prometedoras para alcanzar un determinado objetivo.

Comenzó con acermientos basados en **programación dinámica**, y luego fue evolucionando hacia los **algoritmos basados en tablas**, como *Q-Learning* o *SARSA*, los cuales construyen una tabla (normalmente llamada **tabla Q**) donde para cada estado, se incluía un valor de calidad para cada una de las posibles acciones que se podrian realizar en un determinado estado.

Este tipo de acercamientos implicaban un gran **problema computacional** ya que hacia que muchos problemas resultasen intratables por la **combinación de estados y acciones que definía el tamaño de la tabla**. Este inconveniente se solventó con el surgimiento del aprendizaje profundo (*Deep Learning*), permitiendo que el aprendizaje por refuerzo pudiera resolver problemas antes inabordables, es decir, problemas donde el tamaño de la tabla Q seria demasiado grande.

En el **aprendizaje por refuerzo profundo** (***Deep Reinforcement Learning***) utilizamos una red neuronal en vez de una tabla Q para dar un valor "aproximado" de la calidad de una acción para un determinado estado. Este tipo de acercamiento fue un gran avance en el área, permitiendo desarrollar modelos para tareas impensables hasta el momento, como videojuegos (e.g., [**Atari**](https://openai.com/research/gym-retro) o [**Starcraft II**](https://www.deepmind.com/blog/alphastar-grandmaster-level-in-starcraft-ii-using-multi-agent-reinforcement-learning)), [**el juego de Go**](https://www.youtube.com/watch?v=WXuK6gekU1Y) o [**el plegamiento de proteinas**](https://www.deepmind.com/research/highlighted-research/alphafold).

<table>
    <tr>
        <td><img src="images_2/alphago.jpg" width="500" data-align="center"></td>
    </tr>
</table>

A lo largo de esta unidad, describiremos los conceptos básicos asociados al aprendizaje por refuerzo y estudiaremos cómo este ha evolucionado desde los algoritmos tradicionales hasta las redes de neuronas por refuerzo, que utilizaremos, finalmente, para construir un agente que aprenda a jugar a un videojuego.

## 2.2 - El framework de aprendizaje por refuerzo

La idea detrás del aprendizaje por refuerzo es que un **agente** (una IA) aprenderá del **entorno** interactuando con él (a través de prueba y error) y recibiendo **recompensas** (negativas o positivas) como retroalimentación por realizar acciones.

Por ejemplo, imagina poner a tu hermano pequeño frente a un videojuego que nunca jugó, darle un controlador y dejarlo solo. Tu hermano podria interactuar con el "entorno" (el videojuego) pulsando los botones del mando. Si obtiene una moneda, recibirá un recompensa positivo (e.g., +1). En cambio, si toca un enemigo, recibirá una recompensa negativa (e.g., -1).

Al interactuar con su entorno a través de prueba y error, tu hermano acabaría entendiendo que necesita recolectar monedas y evitar enemigos. Sin ninguna supervisión el niño mejoraría  cada vez más en el juego.

<table>
    <tr>
        <td><img src="images_2/RL_process_game.jpg" width="500" data-align="center"></td>
    </tr>
</table>

* **Agente**. La entidad que interactúa con el entorno obteniendo información de éste y modificándolo  mediante acciones.
* **Entorno**. La representación virtual del mundo con el que interactúa el agente.
* **Estado**. La representación completa del entorno en un instante específico de tiempo, así como la representación del agente en dicho instante.
* **Acción**. Aquella que ejecuta el agente ene el entorno con el fin de producir una variación en este.
* **Recompensa o refuerzo**. Valor numérico obtenido tras la ejecución de una acción en el entorno. Se utiliza como medida para evaluar si la ejecución de la acción ha resultado positiva o negativa para el agente

**Este proceso es un bucle, donde el objetivo del agente es maximizar la recompensa acumulada, que representa el retorno esperado**.

Hay varios componentes/asunciones relevantes en el framework del aprendizaje por refuerzo (los veremos ahora uno por uno):
* La hipótesis de recompensa.
* La propiedad de Markov.
* El grado de observabilidad del entorno (total o parcial).
* El espacio de acción (finito o infinito).
* Las recompensa y el factor de descuento.
* *Tradeoff* entre exploración y explotación
* Enfoque de aprendizaje (basado en política o en valor)

### 2.2.1 - La hipótesis de recompensa

El aprendizaje por refuerzo se basa en la **hipótesis de recompensa**, la cual indica que **cualquier meta puede describirse como la maximización del rendimiento esperado** (recompensa acumulada esperada).

Es por eso que en el aprendizaje por refuerzo, para tener **el mejor comportamiento**, nuestro objetivo es aprender a **tomar acciones que maximicen la recompensa acumulada esperada**.

### 2.2.2 - La propiedad de Markov

El proceso de RL también se denomina **Proceso de decisión de Markov** (*Markov Decission Process*, *MDP* por sus siglas en inglés).

La propiedad de Markov implica que **nuestro agente solo necesita el estado actual para decidir qué acción tomar** y no el historial de todos los estados y acciones que tomó antes.

### 2.2.3 - El grado de observabilidad del entorno

<table>
    <tr>
        <td><img src="images_2/obs_space.jpg" width="600" data-align="center"></td>
    </tr>
</table>

-----

**Nota**: Ciertos autores hacen la distinción entre "estado" y "observación" para nombrar a $S_{t}$ en el bucle de aprendizaje por refuerzo.

-----

### 2.2.4 - El espacio de acción

<table>
    <tr>
        <td><img src="images_2/action_space.jpg" width="600" data-align="center"></td>
    </tr>
</table>

### 2.2.5 - La recompensa y el factor de descuento

La recompensa es un elemento fundamental en el proceso de aprendizaje automático porque **es el único feedback que recibe nuestro agente**. Gracias a ella, sabe si esta acción ha sido **positiva o negativa**.

La recompensa acumulada para un instante de tiempo $t$ se puede escribir como:

<table>
    <tr>
        <td><img src="images_2/rewards_1.png" width="400" data-align="center"></td>
    </tr>
</table>

Esto es equivalente a:

$$
R(\tau) = \sum_{k=0}^{\infty} r_{t+k+1}
$$

Sin embargo, en realidad, no podemos simplemente agregar las recompensas así. Las recompensas que llegan antes (al comienzo del juego) **tienen más probabilidades de suceder**, ya que son más predecibles que las recompensas futuras a largo plazo.

Digamos que tu agente es este pequeño ratón que puede mover una ficha en cada paso de tiempo, y tu oponente es el gato (que también puede moverse). **El objetivo del ratón es comer la máxima cantidad de queso antes de ser comido por el gato.**

En consecuencia, la recompensa cerca del gato, aunque sea más grande (más queso), **estará más rebajada ya que no estamos muy seguros de poder comérnoslo**.

<table>
    <tr>
        <td><img src="images_2/rewards_3.jpg" width="400" data-align="center"></td>
    </tr>
</table>

Para descontar las recompensas, procedemos así:

1. Definimos una tasa de descuento $\gamma$. Debe estar entre 0 y 1. Normalmente suele tomar valores cercanos a 0.99 o 0.95.
    * Cuanto mayor sea $\gamma$, **menor será el descuento**. Esto implica que el agente se centra más la **recompensa futura**.
    * cuanto menor sea $\gamma$, **mayor será el duescuento**. Esto implica que el agente se centra más en la **recompensa cercana**.
2. Luego, cada recompensa será descontada por $\gamma$ elevada al instante de tiempo actual. A medida que aumenta el paso de tiempo, el gato se acerca a nosotros, por lo que la recompensa futura es cada vez menos probable.

La recompensa acumulada (**descontada**) para un instante de tiempo $t$ se puede escribir como:

<table>
    <tr>
        <td><img src="images_2/rewards_2.png" width="400" data-align="center"></td>
    </tr>
</table>

$$
R(\tau) = \sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1}
$$

### 2.2.6 - *Tradeoff* entre exploración y explotación

Antes de describir los diferentes enfoques de aprendizaje, debemos entender un aspecto muy importante en los problemas de aprendizaje por refuerzo: **el *tradeoff* entre exploración y explotación**.

Recordemos que el objetivo de nuestro agente es el de maximizar la recompensa acumulada. Sin embargo, **podemos caer en una trampa común**. Para entenderla, consideremos el siguiente juego donde nuestro ratón puede tener una cantidad *infinita* de queso (+1 por cada uno que recoge), pero en la parte superior del "laberinto" hay una cantidad gigante de queso (+1000).

<table>
    <tr>
        <td><img src="images_2/exp_1.jpg" width="400" data-align="center"></td>
    </tr>
</table>

Si solo nos centramos en **recoger el queso más cercano sin explorar nuestro entorno**, nuestro agente nunca llegara a la suma gigante de queso. Sin embargo, **si realiza algo de exploración  (perdiendo algo de recompensa en el corto espacio de tiempo) podriamos conseguir una recompensa aún mayor**. Esto es lo que denominamos como el *tradeoff* entre exploración y explotación.

<table>
    <tr>
        <td><img src="images_2/expexpltradeoff.jpg" width="600" data-align="center"></td>
    </tr>
</table>

### 2.2.7 - Enfoque de aprendizaje

**La política $\pi$ es la que define el comportamiento del agente de tal forma que sus acciones maximicen la recompensa acumulada**. Podemos verla como el **"cerebro" del agente**.

Nuestro objetivo es encontrar la política óptima $\pi^{*}$, la cual **maximiza la el retorno esperado** (i.e., la recompensa acumulada) cuando el agente actúa de acuerdo con ella. **La política óptima $\pi^{*}$ se encuentra mediante el entrenamiento.**

Hay dos posibles acercamientos para entrenar a nuestro agente a encontrar la política óptima $\pi^{*}$:
* **Directamente**, enseñando al agente que acción debe tomar en cada estado: **Policy-based methods**.
* **Indirectamente**, enseñando al agente que estado es más valioso, de tal forma que tome acciones que le lleven a estados valiosos: **Value-based methods**.

<table>
    <tr>
        <td><img src="images_2/two_approaches.png" width="600" data-align="center"></td>
    </tr>
</table>

## 2.3 - Métodos de aprendizaje por refuerzo basados en valor

Aprendemos una función que asigna a cada estado el valor esperado de estar en él. Dicho valor es el rendimiento descontado esperado que el agente puede obtener si comienza en ese estado y luego actúa de acuerdo con nuestra política.

-----

<span style="color:red"><b>Pregunta:</b></span> Pero, ¿que significa actuar con respecto a nuestra política? Al fin y al cabo, no tenemos una política en métodos basados en valor dado que lo que aprendemos es una función de valor, no una política en sí misma.

<span style="color:blue"><b>Respuesta</b></span> En este caso, la política es "latente", no definimos a mano el comportamiento de nuestra política; **es el entrenamiento el que indirectamente la definirá**. Ahora, dado que la política no está entrenada/aprendida, **necesitamos especificar su comportamiento**. Por ejemplo, si queremos una política que, dada la función de valor, realice acciones que siempre conduzcan a la mayor recompensa, crearemos una **política codiciosa**.

-----

Tenemos dos posibles acercamientos:
* Métodos de **estado-valor**.
* Métodos de **acción-estado-valor**.


### 2.3.1 - Métodos de estado-valor

Para cada estado $s$, la función devuelve el retorno esperado si el agente empieza en ese estado y sigue la política los siguientes instantes de tiempo.

<table>
    <tr>
        <td><img src="images_2/state-value-function-2.png" width="600" data-align="center"></td>
    </tr>
</table>

Escribimos la función de valor para un estado $s$ bajo una política $\pi$ de la siguiente forma:

<!-- $$
V_{\pi}(s) = \mathbf{E}_{\pi}[G_{t}[S_{t} = s]]
$$
 -->
 
<table>
    <tr>
        <td><img src="images_2/state-value-function-1.png" width="600" data-align="center"></td>
    </tr>
</table>

### 2.3.2 - Métodos de acción-estado-valor

En este caso, la función devuelve el valor para cada par de acción-estado. Es decir, el retorno esperado si el agente comenzase en ese estado, tomáse esa acción y siguiese su política hasta terminar el episodio.

<table>
    <tr>
        <td><img src="images_2/action-state-value-function-2.jpg" width="600" data-align="center"></td>
    </tr>
</table>

El valor de tomar la acción $a$ en el estado $s$ bajo la política $\pi$ es:

<table>
    <tr>
        <td><img src="images_2/action-state-value-function-1.png" width="600" data-align="center"></td>
    </tr>
</table>

### 2.3.3 - Ecuación de Bellman

El problema es que para calcular el valor de cada estado debemos **sumar todas las recompensas que el agente puede obtener si empieza en dicho estado**. Esto puede ser computacionalmente muy caro, especialmente si tenemos un gran número de estados posibles. 

<table>
    <tr>
        <td><img src="images_2/bellman2.png" width="600" data-align="center"></td>
    </tr>
</table>

Para remediarlo, existe la <span style="color:blue"><b>ecuación de Bellman</b></span>.

La ecuación de Bellman es una función recursiva inspirada en la [programación dinámica](https://es.wikipedia.org/wiki/Programaci%C3%B3n_din%C3%A1mica) que "acumula" la suma local de recompensas para cada estado de tal forma que podamos agilizar el proceso de cómputo. Consideramos cada estado como **la recompensa inmediata $R_{t+1}$ (es decir, la recompensa de pasar al siguiente estado) + el valor descontado del estado siguiente** ($\gamma * V(S_{t+1})$).

<table>
    <tr>
        <td><img src="images_2/bellman4.png" width="600" data-align="center"></td>
    </tr>
</table>

### 2.3.2 - *Monte Carlo* vs *Temporal Difference*

Existen dos estrategias con las que aprender nuestra función de valor:
* ***Monte Carlo***. Utiliza la experiencia obtenida de todo un episodio antes de aprender.
* ***Temporal Difference***. Utiliza la experiencia obtnida después de cada paso en el episodio para aprender.

#### *Monte Carlo*

Monte Carlo espera hasta terminar el episodio, calcula el retorno $G_{t}$ obtenido para cada paso $t$ realizado y utiliza esta información como referencia para actualizar el valor de cada estado $V(S_{t})$:

<table>
    <tr>
        <td><img src="images_2/monte-carlo-approach.jpg" width="600" data-align="center"></td>
    </tr>
</table>

Consideremos el juego del ratón y el gato presentado anteriormente como ejemplo:

* Ponemos un límite al episodio. Por ejemplo:
    * Si el gato se come al ratón
    * Si el ratón realiza > 10 pasos
* Siempre empezamos el episodio en el **mismo punto de inicio**.
* **El agente realizará acciones con respecto a su política especificada**. Por ejemplo, puede usar una política codiciosa $\epsilon$ (i.e., $\epsilon$-*Greedy Strategy*), la cual alterna entre exploración y explotación de forma probabilística.
* En cada instante de tiempo del episodio, obtenemos la **recompensa para ese estado** y cual es el **siguiente estado al que ir**.
* Al final del episodio, **sumamos las recompensas que ha obtenido** el agente (para ver cuan bien lo ha hecho).
* **Actualizamos el valor de cada estado** $V(S_{t})$ según la fórmula.
* Comenzar un nuevo episodio con este nuevo conocimiento.

Consideremos el siguiente episodio de ejemplo para ver como realizamos estos pasos:

<table>
    <tr>
        <td><img src="images_2/MC-4p.jpg" width="600" data-align="center"></td>
    </tr>
</table>

Una vez terminado el episodio, tenemos una lista con los diferentes estados en los que ha estado el agente asi como las recompensas correspondientes. A partir de esto, podemos calcular el **retorno total** $G_{t}$ del episodio:

* $G_{t} = R_{t+1} + R_{t+2} + R_{t+3} + \dots$
* $G_{t} = 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0 = 3$

Con esta información y si asumimos que la tasa de aprendizaje ($\alpha$) es $0.1$ podemos el valor del estado $S_{0}$:

* $V(S_{0})^{\text{new}} = V_{S_{0}} + \alpha * [G_{t} - V(S_{0})]$
* $V(S_{0})^{\text{new}} = 0 + 0.1 * [3 - 0] = 0.3$

Podemos repetir este mismo procedimiento para el resto de estados $S_{1}$, $S_{2}$, etc.

#### *Temporal Difference*

*Temporal Difference* (TD) simplemente espera una iteración (un instante de tiempo) $S_{t+1}$ para generar un **retorno parcial** y actualizar $V(S_{t})$ utilizando $R_{t+1}$ y ($\gamma * V(S_{t+1})$).

Dado que no hemos experimento todo el episodio, no tenemos $G_{t}$ (el retorno total). **El retorno parcial aproxima $G_{t}$ mediante la suma de la recomensa inmidiatamente posterior $R_{t+1}$ y el valor descontado del siguiente estado $\gamma * V(S_{t+1})$**:

<table>
    <tr>
        <td><img src="images_2/TD-1.jpg" width="600" data-align="center"></td>
    </tr>
</table>

Si tomamos el mismo ejemplo que en el caso de *Monte Carlo* (juego del ratón y el gato):
* Consideramos que es el comienzo del entrenamiento, asi que el valor de todo los estados es $0$.
* Nuestra tasa de aprendizaje $\alpha$ es $0.1$ y nuestra tasa de descuento $\gamma$ es 1 (no se descuenta, recordemos que $0$ implica máximo descuento).
* Nuestro ratón **decide explorar el entorno y toma una acción aleatoria**: e.g., va hacia la izquierda.
* Recibe una recompensa $R_{t+1}$ ya que come una pieza de queso.

Con esta información podemos actualizar el valor del estado $S_{0}$:
* $V(S_{0})^{\text{new}} = V(S_{0}) + \alpha * [R_{t+1} + \gamma * V(S_{1}) - V(S_{0})]$
* $V(S_{0})^{\text{new}} = 0 + 0.1 * [1 + 1 * 0 - 0] = 0.1$

El agente continuaria actualizando su función de valor mientras interactúa con el entorno. En este caso con la versión actualizada de $V(S_{0})$. Al igual que con Monte Carlo, una vez termine el episodio, podemos repetirlo para seguir aprendiendo.

## 2.4 - Q-learning

Q-learning es un metodo de aprendizaje por refuerzo basado en valor que utiliza una estrategia *Temporal Difference* para aprender su función de acción-estado-valor. **Q-learning es el algoritmo que utilizamos para aprender nuestra funcíon Q**, la cual es del tipo **acción-estado-valor** y determina el valor de tomar una determinada acción en un estado particular.

<table>
    <tr>
        <td><img src="images_2/Q-function.png" width="600" data-align="center"></td>
    </tr>
</table>

Dado un estado y una acción, nuestra función Q devuelve un valor (llamado valor Q).

**La "Q" se origina de la palabra "Quality", que indica la calidad de tomar dicha acción en ese estado**. Recordemos brevemente  la diferencia entre "valor" y "recompensa":
* El **valor de un estado, o de un par estado-acción** es la recompensa acumulada esperada si nuestro agente empieza en dicho estado (o empieza con ese par estado-acción) y después actua siguiendo su política hasta el final.
* La **recompensa** es el feedback que el agente recibe del entorno al realizar una acción en dicho estado.

**Internamente, nuestra función Q tiene una tabla Q, donde cada celda corresponde con el valor de un par estado-acción.** <span style="color:blue"><b>Podemos pensar en esta tabla como la "memoria" de nuestra función Q.</b></span>

Tomemos el siguiente "minijuego" como ejemplo:

<table>
    <tr>
        <td><img src="images_2/Maze-3.png" width="600" data-align="center"></td>
    </tr>
</table>

Como resumen, <span style="color:blue">Q-learning</span> es un algoritmo de aprendizaje por refuerzo que:

* Aprende una función Q (del tipo **acción-estado-valor**) que internamente es **una tabla con todos los pares estado-acción posibles**.
* Dado un estado y una acción, nuestra función Q **busca en su tabla Q el valor correspondiente**.
* **Cuando el entrenamiento ha terminado, tenemos una función Q óptima, lo que significa que tenemos una tabla Q óptima**.
* Si tenemos una función Q óptima, **tenemos una política óptima porque sabemos para cada estado cual es la mejor acción a tomar**.

Sin embargo, al principio del aprendizaje nuestra tabla Q es "inútil" porque contiene valores arbitrarios para cada par estado-acción (la mayor parte del tiempo inicializamos la tabla con 0s). **Según el agente va explorando el entorno y actulizamos la tabla Q, nos devolverá mejores aproximaciones de la política óptima**:

<table>
    <tr>
        <td><img src="images_2/Q-learning-1.png" width="600" data-align="center"></td>
    </tr>
</table>

### 2.4.1 - Algoritmo

Ahora que tenemos una idea de cómo funciona el algoritmo Q-learning, podemos introducirnos más en los pasos específicos que lo componen:

<table>
    <tr>
        <td><img src="images_2/Q-learning-2.png" width="600" data-align="center"></td>
    </tr>
</table>

**Pseudocódigo:**

```
Initialize Q-table
For episode in the total of training episodes:

Reduce epsilon (since we need less and less exploration)
Reset the environment

  For step in max timesteps:    
    Choose the action At using epsilon greedy policy
    Take the action (a) and observe the outcome state(s') and reward (r)
    Update the Q-value Q(s,a) using Bellman equation Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
    If done, finish the episode
    Our next state is the new state
```

#### Paso 1: Inicializar la tabla Q (generalmente con 0s)

<table>
    <tr>
        <td><img src="images_2/Q-learning-3.png" width="600" data-align="center"></td>
    </tr>
</table>

#### Paso 2: Escoger una acción siguiendo la política codiciosa $\epsilon$

<table>
    <tr>
        <td><img src="images_2/Q-learning-4.png" width="600" data-align="center"></td>
    </tr>
</table>

La idea de esta política es que empecemos con un valor inicial de $\epsilon = 1.0$, de tal forma que:
* Con probabilidad $1 - \epsilon$: **explotamos el entorno** (i.e., nuestro agente selecciona la accion con el máximo valor)
* con probabilibilidad $\epsilon$: **exploramos el entorno** (i.e., nuestro agente realiza una acción al azar)

Al comienzo del entrenamiento la probabilidad de que el agente explore es muy alta dado que **$\epsilon$ tiene un valor muy elevado**. Sin embargo, según avance el entrenamiento y nuestra tabla Q se vuelva mejor y mejor en sus estimaciones, **iremos reduciendo el valor $\epsilon$** de tal manera que necesitaremos menos exploración y más explotación.

<table>
    <tr>
        <td><img src="images_2/Q-learning-5.png" width="250" data-align="center"></td>
    </tr>
</table>

#### Paso 3: Realizar una acción $A_{t}$, obtener recompensa $R_{t+1}$ y el siguiente estado $S_{t+1}$

<table>
    <tr>
        <td><img src="images_2/Q-learning-6.png" width="600" data-align="center"></td>
    </tr>
</table>

#### Paso 4: Actualizar $Q(S_{t}, A_{t})$

Recordemos que según la estrategia de *Temporal Difference*, actualizamos nuestra función de valor tras cada interacción que haga el agente con el entorno. Para Q-learning la fórmula toma la siguiente forma:

<table>
    <tr>
        <td><img src="images_2/Q-learning-8.png" width="600" data-align="center"></td>
    </tr>
</table>

Esto implica que para actualizar nuestra función $Q(S_{t}, A_{t})$ necesitamos:
* Las variables $S_{t}$, $A_{t}$, $R_{t+1}$, $S_{t+1}$
* El TD-target

**¿Cómo obtenemos el TD-target?**

1. Obtenemos la recompensa inmediata $R_{t+1}$ de tomar la acción $A_{t}$.
2. Para obtener el siguiente par de estado-acción, utilizamos una política codiciosa. Nótese que no es la política codiciosa $\epsilon$. En este caso seleccionamos directamente aquella accion con el valor Q más alto.

Si nos fijamos, **el algoritmo Q-learning utiliza una política distinta al actuar (inferencia) y al actualizar el valor Q (aprendizaje)**. A este comportamiento se le denaomina ***off-policy***. En el caso de que fuera *on-policy* tendria que utilizar la política codiciosa $\epsilon$ tanto al actual como al actualizar el valor Q. [Este es el caso de un algoritmo llamado SARSA, muy similar a Q-learning](https://en.wikipedia.org/wiki/State%E2%80%93action%E2%80%93reward%E2%80%93state%E2%80%93action).

<table>
    <tr>
        <td><img src="images_2/off-on-4.png" width="600" data-align="center"></td>
    </tr>
</table>


### 2.4.3 - Ejemplo de ejecución

Para comprender mejor el funcionamiento del algoritmo Q-learning, consideremos el siguiente ejemplo.

<table>
    <tr>
        <td><img src="images_2/q-ex-1.jpg" width="600" data-align="center"></td>
    </tr>
</table>

Las recompensas del "juego" son:
* +0: ir a un estado que no tiene queso
* +1: ir a un estado con queso
* +10: ir a un estado con una gran pila de queso
* -10: ir al estado con veneno

Vamos a presentar un ejemplo con 3 instantes de tiempo (i.e., $t=0$, $t=1$, $t=2$)

#### $t=0$:

Solo podemos ejecutar el paso 1 del algoritmo (i.e., inicializar)

##### **Paso 1: Inicializar tabla Q**

<table>
    <tr>
        <td><img src="images_2/Example-1.png" width="600" data-align="center"></td>
    </tr>
</table>

#### $t=1$:

Ejecutamos los pasos 2, 3 y 4 del algoritmo

##### **Paso 2: Escoger una acción mediante la estrategia codiciosa $\epsilon$**

<table>
    <tr>
        <td><img src="images_2/q-ex-3.jpg" width="600" data-align="center"></td>
    </tr>
</table>

##### **Paso 3: Realizar acción $A_{t}$, obtener $R_{t+1}$ y $S_{t+1}$

<table>
    <tr>
        <td><img src="images_2/q-ex-3.jpg" width="600" data-align="center"></td>
    </tr>
</table>

El ratón va a la derecha, obtiene queso (i.e., $R_{t+1} = 1$) y se encuentra en un nuevo estado.

##### **Paso 4: Actualizar $Q(S_{t}, A_{t})$**

<table>
    <tr>
        <td><img src="images_2/q-ex-5.jpg" width="600" data-align="center"></td>
    </tr>
</table>

<table>
    <tr>
        <td><img src="images_2/Example-4.png" width="600" data-align="center"></td>
    </tr>
</table>



#### $t=2$:

Ejecutamos los pasos 2, 3 y 4 del algoritmo

##### **Paso 2: Escoger una acción mediante la estrategia codiciosa $\epsilon$**

Dado que epsilon es todavia muy alto (i.e., $0.99$), el ratón toma una acción aleatoria de nuevo, la cual le lleva al veneno y por tanto terminaria el episodio.

<table>
    <tr>
        <td><img src="images_2/q-ex-6.jpg" width="600" data-align="center"></td>
    </tr>
</table>

##### **Paso 3: Realizar acción $A_{t}$, obtener $R_{t+1}$ y $S_{t+1}$

<table>
    <tr>
        <td><img src="images_2/q-ex-7.jpg" width="600" data-align="center"></td>
    </tr>
</table>

##### **Paso 4: Actualizar $Q(S_{t}, A_{t})$**

<table>
    <tr>
        <td><img src="images_2/q-ex-8.jpg" width="600" data-align="center"></td>
    </tr>
</table>

En este momento, terminaria el episodio, pero el entrenamiento no acaba ahi. Empezariamos uno nuevo con la información aprendida de tal forma que el agente es más inteligente ahora que al principio de nuestro entrenamiento (sabe que el queso es bueno y que el veneno no lo se). **Según vayamos explroando y explotando el entorno, la tabla Q nos irá dando mejores y mejores aproximaciones de la política óptima.**

## 2.5 - Construyendo un agente para FrozenLake

Vamos a entrenar nuestro agente con el algoritmo Q-learning para que aprenda a navegar por el entorno de Frozen Lake.

* <a href="https://gymnasium.farama.org/environments/toy_text/frozen_lake/"><span style="color:blue"><b>Documentación sobre el entorno <i>FrozenLake</i></b></span></a>
* <a href="https://gymnasium.farama.org/tutorials/training_agents/FrozenLake_tuto/"><span style="color:blue"><b>Versión extendida del ejemplo</b></span></a>

### 2.5.1 - Importación de librerías

A la hora de construir nuestro agente, es necesario instalar una serie de librerías que nos permitan jugar al
videojuego y obtener la información referente al entorno (imagen y puntuación), así como aplicar acciones sobre
él. En este sentido, utilizaremos el instalador de paquetes de Python para poder ejecutar las siguientes librerías:

```
pip install gymnasium
pip install imageio
pip install imageio_ffmpeg
pip install gymnasium[toy-text]
```

In [1]:
import numpy as np
import gymnasium as gym
import random
import imageio
import os
import tqdm

from tqdm.notebook import tqdm

### 2.5.2 - Crear el entorno

El entorno cuenta con 4 tipo de estados:
* **S**: el estado inicial.
* **G**: el estado objetivo.
* **F**: estados por las que se puede andar.
* **H**: estados "agujero" que se deberian evitar.

El tamaño del mapa viene dado por su nombre:
* `map_name="4x4"`: un mapa de tamaño 4x4.
* `map_name="8x8"`: un mapa de tamaño 8x8.

El entorno tiene dos modos:
* `is_slippery=False`. El agente se mueve siempre en la dirección deseada (deterministico).
* `is_slippery=True`. El agente no siempre se mueve en la dirección deseada data la naturaleza resbaladiza del suelo (estocástico).

In [2]:
env = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False)

Podriamos crear nuestro propio mapa de la siguiente forma (aunque vamos a usar el mapa por defecto):

In [3]:
desc=["SFFF", "FHFH", "FFFH", "HFFG"]
gym.make('FrozenLake-v1', desc=desc, is_slippery=True)

<TimeLimit<OrderEnforcing<PassiveEnvChecker<FrozenLakeEnv<FrozenLake-v1>>>>>

El mapa de 4x4 tiene 16 posibles observaciones que van del 0 al 15, siendo el 0 el estado de inicio y el 15 el estado objetivo.

<table>
    <tr>
        <td><img src="images_2/frozenlake_map.png" width="300" data-align="center"></td>
    </tr>
</table>

In [4]:
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space", env.observation_space)
print("Sample observation", env.observation_space.sample()) # Obtenemos una observación aleatoria

_____OBSERVATION SPACE_____ 

Observation Space Discrete(16)
Sample observation 1


El espacio de acciones que puede tomar el agente es el siguiente:
* **0**: Izquierda
* **1**: Abajo
* **2**: Derecha
* **3**: Arriba

La función de recompensa es la siguiente:
* **Estado objetivo (G)**: +1
* **Estado agujero (H)**: 0
* **Estado congelado (F)**: 0

### 2.5.3 - Crear e inicializar la tabla Q

In [5]:
state_space = env.observation_space.n
print("There are ", state_space, " possible states")

action_space = env.action_space.n
print("There are ", action_space, " possible actions")

# Let's create our Qtable of size (state_space, action_space) and initialized each values at 0 using np.zeros
def initialize_q_table(state_space, action_space):
    Qtable = np.zeros((state_space, action_space))
    return Qtable

Qtable_frozenlake = initialize_q_table(state_space, action_space)
Qtable_frozenlake

There are  16  possible states
There are  4  possible actions


array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 2.5.4 - Definir nuestras políticas

Recordemos que en Q-learning utilizamos políticas diferentes para **actuar** y para **actualizar nuestra función de valor**:
* **Actuar**: politica codiciosa $\epsilon$
* **Actualizar**: política codiciosa

In [6]:
# Política codiciosa para actuar
def greedy_policy(Qtable, state):
  # Explotación: tomamos la acción que nos lleva al estado de más valor
  action = np.argmax(Qtable[state][:])
  
  return action

In [7]:
# Política codiciosa epsilon para actualizar la función de valor
def epsilon_greedy_policy(Qtable, state, epsilon):
  # Generamos un número aleatorio entre 0 y 1
  random_int = random.uniform(0,1)
  # Si el número > epsilon --> exploitación (acción que nos lleva al estado de más valor)
  if random_int > epsilon:
    action = greedy_policy(Qtable, state)
  # En caso contrario --> exploración (acción aleatoria)
  else:
    action = env.action_space.sample()
  
  return action

### 2.5.5 - Definir hiperparámetros

In [8]:
# Training parameters
n_training_episodes = 10000  # Número total de episodios de entrenamiento
learning_rate = 0.7          # Ratio de aprendizaje

# Evaluation parameters
n_eval_episodes = 100        # Número total de episodios de test

# Environment parameters
env_id = "FrozenLake-v1"     # Nombre del entorno
max_steps = 99               # Número máximo de pasos por episodio
gamma = 0.95                 # Ratio de descuento para la función de valor
eval_seed = []               # Semilla para el entorno de evaluación

# Exploration parameters
max_epsilon = 1.0             # Probabilidad de exploración al inicio
min_epsilon = 0.05            # Probabilidad mínima de exploración
decay_rate = 0.0005           # Tasa de decaimiento exponencial para la exploración

### 2.5.6 - Entrenamiento

In [9]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
    
    for episode in tqdm(range(n_training_episodes)):
        # Reducimos epsilon (porque cada vez necesitamos menos exploración)
        epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
        # Reseteamos el entorno para que el agente parta de 0
        state, info = env.reset()
        step = 0
        terminated = False
        truncated = False

        # Repetimos para cada paso t
        for step in range(max_steps):
            # Escogemos una acción A_t mediante la política codiciosa epsilon
            action = epsilon_greedy_policy(Qtable, state, epsilon)

            # Tomamos la acción A_t y observamos R_t+1 y S_t+1
            new_state, reward, terminated, truncated, info = env.step(action)

            # Actualizamos la función de valor Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
            Qtable[state][action] = Qtable[state][action] + learning_rate * (reward + gamma * np.max(Qtable[new_state]) - Qtable[state][action])   

            # Si terminated == True o truncated == True, terminamos el episodio
            if terminated or truncated:
                break
                
            # "Movemos" el agente, actualizando su estado
            state = new_state
            
    return Qtable

In [10]:
# Entrenamos nuestro agente con 10000 episodios
Qtable_frozenlake = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_frozenlake)

  0%|          | 0/10000 [00:00<?, ?it/s]

In [11]:
Qtable_frozenlake

array([[0.73509189, 0.77378094, 0.77378094, 0.73509189],
       [0.73509189, 0.        , 0.81450625, 0.77378094],
       [0.77378094, 0.857375  , 0.77378094, 0.81450625],
       [0.81450625, 0.        , 0.77378094, 0.77378094],
       [0.77378094, 0.81450625, 0.        , 0.73509189],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.        , 0.81450625],
       [0.        , 0.        , 0.        , 0.        ],
       [0.81450625, 0.        , 0.857375  , 0.77378094],
       [0.81450625, 0.9025    , 0.9025    , 0.        ],
       [0.857375  , 0.95      , 0.        , 0.857375  ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.95      , 0.857375  ],
       [0.9025    , 0.95      , 1.        , 0.9025    ],
       [0.        , 0.        , 0.        , 0.        ]])

### 2.5.7 - Evaluación

Evaluación muy sencilla para comprobar que el agente ha aprendido a llegar correctamente al estado objetivo en el entorno que le hemos preparado.

In [12]:
def evaluate_agent(env, max_steps, n_eval_episodes, Q, seed):
    
    episode_rewards = []
    for episode in tqdm(range(n_eval_episodes)):
        if seed:
            state, info = env.reset(seed=seed[episode])
        else:
            state, info = env.reset()
        step = 0
        truncated = False
        terminated = False
        total_rewards_ep = 0

        for step in range(max_steps):
            # Tomamos la acción (indice) que tiene la maxima recompensa futura dado ese estado
            action = greedy_policy(Q, state)
            new_state, reward, terminated, truncated, info = env.step(action)
            total_rewards_ep += reward

            if terminated or truncated:
                break
            state = new_state
        episode_rewards.append(total_rewards_ep)
        
    mean_reward = np.mean(episode_rewards)
    std_reward = np.std(episode_rewards)

    return mean_reward, std_reward

In [13]:
# Evaluamos nuestro agente con 100 episodios de prueba
mean_reward, std_reward = evaluate_agent(env, max_steps, n_eval_episodes, Qtable_frozenlake, eval_seed)
print(f"Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")

  0%|          | 0/100 [00:00<?, ?it/s]

Mean_reward=1.00 +/- 0.00


## 2.6 - Deep Reinforcement Learning

Hemos visto que Q-Learning es un algoritmo para entrenar la función Q, una función que determina el valor de estar en un estado particular y realizar una acción específica en ese estado. 

El problema es que internamente **esta función es una tabla** lo cual hace que el método **no sea escalable**. Por ejemplo, si queremos aprender un agente que sepa jugar a videojuegos de Atari. En ese caso el número de estados sería demasiado grande para el algoritmo tradicional de Q-learning. 

<table>
    <tr>
        <td><img src="images_2/atari-envs.gif" width="600" data-align="center"></td>
    </tr>
</table>

En el caso de un videojuego de Atari, podemos hacer que el agente **tome la información directamente de los frames de pantalla**. En ese caso, si tenemos imagenes RGB de 210x160 pixeles (donde cada pixel contiene un valor que va de 0 a 255), contariamos con un espacio de estados posibles de $256^{210 \times 160 \times 3} = 256^{100800}$.

Por lo tanto, crear y actualizar una tabla Q no sería eficiente para este problema. Es necesario aproximar los valores Q mediante una función parametrizada $Q_{\theta}(s,a)$. Esta función parametrizada sería la red neuronal.

<table>
    <tr>
        <td><img src="images_2/deep_q_learning.jpg" width="600" data-align="center"></td>
    </tr>
</table>

Este tipo de redes de neuronas se denominan redes de neuronas profundas de aprendizaje por refuerzo (*Reinforcement Learning Deep NN*) o redes de neuronas profundas de tipo Q (*Deep Q Neural Network*, *DQNN* por sus siglas en inglés).

La primera implementación fue desarrollada por los ingenieros de la empresa Deep Mind Technologies, donde demostraron cómo una máquina era capaz de aprender a jugar a los videojuegos de una Atari 2600 mediante el **análisis de los píxeles de las imágenes que representaban el estado del juego**. Uno de los elementos más destacables de esta implementación es que había sido entrenada para jugar a **siete videojuegos diferentes que utilizaban la misma interfaz de control** (muestra de "generalización").

<table>
    <tr>
        <td><img src="images_2/deep-q-network.jpg" width="600" data-align="center"></td>
    </tr>
</table>

### 2.6.1 - Preprocesamiento para RL con imágenes

Cuando pasamos las imágenes a nuestra red para entrenar el modelo, necesitamos realizar dos preprocesamientos:
* **Reducir la dimensionalidad** (i.e., número de pixeles) para reducir la complejidad de computación
* **Agrupar varios frames para eliminar la limitación temporal** (i.e., *temporal limitation*)

<table>
    <tr>
        <td><img src="images_2/preprocessing.jpg" width="600" data-align="center"></td>
    </tr>
</table>

**El problema de la limitación temporal aprece cuando aprendemos a partir de información visual**. Ee observa en el hecho de que con un único frame no sabemos como va a evolucionar el entorno.

<table>
    <tr>
        <td><img src="images_2/temporal-limitation.jpg" width="600" data-align="center"></td>
        <td><img src="images_2/temporal-limitation-2.jpg" width="600" data-align="center"></td>
    </tr>
</table>