# Aprendizaje por refuerzo

## Q-Learning

En el algoritmo Q-Learning, La "Q" de su nombre proviene de *quality* y tiene su raz√≥n de ser porque cada valor de la tabla $Q$ indica la calidad de cada acci√≥n para llegar a una recompensa futura.

## Ejemplo

Supongamos que tenemos un robot cuyo objetivo es aprender a salir de una casa, como la que muestra el plano de la figura siguiente. Para ello, va a realizar una serie de m√∫ltiples intentos, obteniendo recompensa √∫nicamente cuando consiga salir. En cada intento el robot partir√° desde alguna habitaci√≥n aleatoria. A estos "intentos" le daremos el nombre de "episodios". Denominaremos **episodio** al conjunto de acciones que el robot toma desde que parte inicialmente de una habitaci√≥n hasta que consigue salir.

<img src="imgs/plano.png" width="40%">

Las puertas que dan directamente al exterior tienen una recompensa de 100. El resto de puertas no tienen recompensa. El plano de la casa puede ser visto como un grafo (figura siguiente). Cuando el robot llega al estado n√∫mero 5 del grafo el intento se da por finalizado.

<img src="imgs/grafo.png" width="40%">

Este grafo puede ser representado tambi√©n por una matriz donde las filas representan los estados y las columnas las acciones que se pueden tomar. En este caso en particular, las acciones corresponden a los estados a los que se puede ir. As√≠ que, en este caso, la matriz es cuadrada.
Vamos a llamar a esta matriz $R$, **matriz de recompensas**.  El valor $-1$ significa que una determinada acci√≥n no es posible para un determinado estado.


$$R = \begin{pmatrix}
-1 & -1 & -1 & -1 & 0 & -1 \\
-1 & -1 & -1 & 0 & -1 & 100 \\
-1 & -1 & -1 & 0 & -1 & -1 \\
-1 & 0 & 0 & -1 & 0 & -1 \\
0 & -1 & -1 & 0 & -1 & 100 \\
-1 & 0 & -1 & -1 & 0 & 100
\end{pmatrix}$$

Este algoritmo de aprendizaje por refuerzo almacena en una tabla el conocimiento que va adquiriendo, que llamaremos **tabla $Q$**. Inicialmente estar√° vac√≠a. 

$$Q = \begin{pmatrix}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0
\end{pmatrix}$$


A medida que el robot vaya deambulando por la casa y completando episodios ir√° acumulando recompensas. 

Supongamos que el robot parte de la habitaci√≥n (estado) 1. En ese momento, el robot no tiene ning√∫n tipo de conocimiento de la casa, no sabe qu√© puerta elegir para llegar antes a la salida. Por supuesto, no tiene acceso a la matriz de recompensas. En esas condiciones, el robot solo puede hacer una elecci√≥n aleatoria de una de las dos puertas, supongamos que elige la inferior (v√©ase el plano de la casa). Es decir, elige la acci√≥n ‚Äúir al estado 3‚Äù. 

Una vez en la habitaci√≥n 3 descubre que no recibe ninguna recompensa y que vuelve a encontrarse en la misma situaci√≥n, ¬øqu√© puerta elegir? Todas, incluso ir de nuevo al estado 1, son para el robot elecciones aceptables, puesto que todas le proporcionan la misma incertidumbre. De nuevo, mediante una selecci√≥n totalmente aleatoria, selecciona la puerta izquierda, ‚Äúir al estado 4‚Äù.

Ya en el estado 4 la situaci√≥n se repite. De nuevo, no recibe ninguna recompensa. Otra vez de forma aleatoria, elige la puerta inferior ‚Äúir al estado 5‚Äù.

Llegado al estado 5, el robot descubre que recibe 100 puntos (puntos, dinero, gallifantes... cualquier cosa vale) de recompensa. En ese momento el robot actualizar√° su tabla $Q$, dado que hay algo de informaci√≥n nueva. Actualizar√°, por tanto, la entrada $(4,5)$ con el valor $100$. D√©monos cuenta de que $4$ representa el estado en el que se encontraba el robot y $5$ es la acci√≥n que tom√≥ ("ir al estado 5"). En otras palabras significar√≠a que debemos apuntar en una libreta que si estamos en la habitaci√≥n 4 y vamos por la puerta inferior obtendremos 100 puntos de recompensa. La pr√≥xima vez que estemos en la habitaci√≥n $4$, ya sabremos qu√© elegir.


Finalmente, como el robot ya ha salida de la casa, el episodio termina.

La tabla $Q$ actualizada ser√°:

$$Q = \begin{pmatrix}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 100 \\
0 & 0 & 0 & 0 & 0 & 0
\end{pmatrix}$$



Empezamos, por tanto, un nuevo episodio. Supongamos que, por una cuesti√≥n aleatoria, el robot parte de la habitaci√≥n 3. Y, de nuevo, el azar nos lleva a seleccionar la puerta de la izquierda, (ir al estado 4).
Tengo que confesarte que, por simplificar, en el episodio anterior no expliqu√© completamente c√≥mo se actualiza la tabla $Q$. Ahora s√≠ que la vamos a ir actualizando correctamente. Para ello, vamos a hacer uso de esta f√≥rmula, denominada **ecuaci√≥n de Bellman**:

$$Q(s,a) = R(s,a) + \gamma max[Q(s',a')]$$

Significa lo siguiente, cuando el robot se encuentra en el estado $s$ y toma la acci√≥n $a$ pasa al estado $s‚Äô$. Una vez en el estado $s‚Äô$ podemos consultar la tabla $Q$ para ver qu√© acci√≥n $a‚Äô$ es la que tiene la recompensa m√°xima, $max[Q(s‚Äô,a‚Äô)]$. Por tanto, la actualizaci√≥n de $Q(s,a)$ se compone de dos partes. En primer lugar, la recompensa directa por haber pasado de $s$ a $s‚Äô$ mediante la acci√≥n $a$, que en este caso es $R(3,4) = 0$. Y, en segundo lugar, la recompensa m√°xima que se puede obtener desde $s‚Äô$ tomando la acci√≥n $a‚Äô$ adecuada. El factor $\gamma$ debe tener un valor mayor que $0$ y menor que $1$, pong√°mosle $0.8$. Su cometido es rebajar proporcionalmente la recompensa que est√° dos pasos m√°s all√° del estado $s$. Por tanto, la nueva actualizaci√≥n de $Q(3,4)$ ser√°:

$$Q(3,4) = R(3,4) + \gamma \cdot max[Q(4,0),Q(4,3),Q(4,5)]$$

Que es:

$$Q(3,4) = 0 + 0.8 \cdot max[0, 0, 100]$$

Los nuevos valores de $Q$ ser√°n:

$$Q = \begin{pmatrix}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 80 & 0 \\
0 & 0 & 0 & 0 & 0 & 100 \\
0 & 0 & 0 & 0 & 0 & 0
\end{pmatrix}$$

Por tanto, ¬øqu√© almacena la tabla $Q$? Realmente, no almacena recompensas, sino informaci√≥n. Los valores de la tabla $Q$ nos dan una referencia sobre la cercan√≠a o lejan√≠a a la que la recompensa real est√°.

A√∫n no hemos terminado este segundo episodio. Nos encontramos en el estado 4. Si el robot consulta la tabla $Q$ puede ver que si elige la acci√≥n ‚Äúir al estado 5‚Äù obtendr√° mayor recompensa que si toma cualquiera de las otras opciones, que, por el momento, est√°n a $0$. Supongamos que elige ‚Äúir al estado 5‚Äù y el episodio termina.

Comencemos con el tercer episodio. El robot parte de la habitaci√≥n 1 (por azar). Si escoge la acci√≥n ‚Äúir al estado 3‚Äù deber√° actualizar la tabla $Q$ de la siguiente forma:

$$Q(1,3) = R(1,3) + \gamma \cdot max[Q(3,1), Q(3,2), Q(3,4)]$$

Lo cual es:

$$Q(1,3) = 64  = 0 + 0.8 \cdot max[0, 0, 80] $$

Con lo que la tabla $Q$ quedar√≠a:

$$Q = \begin{pmatrix}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 64 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 80 & 0 \\
0 & 0 & 0 & 0 & 0 & 100 \\
0 & 0 & 0 & 0 & 0 & 0
\end{pmatrix}$$

A partir de aqu√≠ el robot podr√≠a ir utilizando la informaci√≥n de la tabla $Q$ para guiar su toma de decisiones, pasando del estado $3$ al $4$ y del $4$ al $5$, finalizando el tercer episodio.


Supongamos ahora que en un cuarto episodio el robot parte de nuevo desde la habitaci√≥n 1. Si se gu√≠a por la informaci√≥n de la tabla $Q$ podr√≠a llegar a la salida en tres pasos. Sin embargo, si elige la salida superior (por supuesto, la puerta est√° cerrada y no sabe a d√≥nde lleva) llegar√≠a a la salida en un solo paso, lo cual es mucho mejor. A medida que el robot recaba nueva informaci√≥n, puede reutilizarla en episodios posteriores, es decir, puede **explotar** la informaci√≥n que ya tiene. O, por el contrario, puede aventurarse a descubrir nuevos caminos, es decir, **explorar** nuevas v√≠as que, en ocasiones, pueden llevarle a mucho mejores resultados.




### Explotaci√≥n vs. exploraci√≥n

El algoritmo Q-Learning debe acompasar una estrategia que combine cierta explotaci√≥n con cierta exploraci√≥n. Al principio, es evidente que lo √∫nico que se puede hacer es explorar, puesto que nuestra tabla ùëÑQ est√° vac√≠a, no hay informaci√≥n. Pero, a medida que vamos completando episodios, debemos explotar esta informaci√≥n para obtener recompensas seguras.

Al tipo de combinaci√≥n que hagamos sobre exploraci√≥n y explotaci√≥n es lo que se denomina **pol√≠tica**.

### Convergencia

¬øCu√°ndo termina el algoritmo Q-Learning? La primera respuesta ser√≠a: cuando la tabla $Q$ converja. Esto significa que cuando hayamos hecho los suficientes episodios, la tabla $Q$ ya no modificar√° m√°s sus valores, a esta tabla la llamaremos $Q^*$. Esto ocurre f√°cilmente en casos como el de nuestro ejemplo. Pero en casos complejos, la tabla puede ser muy grande y ser√≠a necesario mucho tiempo (m√°s del disponible) para que la tabla llegue a converger. Por tanto, la segunda respuesta es que no termina nunca. Siempre se estar√° ejecutando una determinada pol√≠tica que alterne, de la manera m√°s eficiente posible, explotaci√≥n y exploraci√≥n.

### Implementaci√≥n del algoritmo

Establecemos los par√°metros del algoritmo

In [1]:
import random

discount = 0.8 # gamma
learning_rate = 0.5 # alfa
final_state = 5

Inicializamos la tabla de recompensas

In [2]:
rewards = [[-1., -1., -1., -1., 0., -1.],
           [-1., -1., -1., 0., -1., 100.],
           [-1., -1., -1., 0., -1., -1.],
           [-1., 0., 0., -1., 0., -1.],
           [0., -1., -1., 0., -1., 100.],
           [-1., 0., -1., -1., 0., 100.]]

Inicializamos la tabla $Q$ a cero o cualquier valor.

In [6]:
Q = [[0., 0., 0., 0., 0., 0.],
     [0., 0., 0., 0., 0., 0.],
     [0., 0., 0., 0., 0., 0.],
     [0., 0., 0., 0., 0., 0.],
     [0., 0., 0., 0., 0., 0.],
     [0., 0., 0., 0., 0., 0.]]

import random
        
from tabulate import tabulate
print(tabulate(Q, tablefmt="grid"))

+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+
| 0 | 0 | 0 | 0 | 0 | 0 |
+---+---+---+---+---+---+


F√≥rmula de actualizaci√≥n de la matriz $Q$ 

$$Q(s,a) = R(s,a) + \gamma max[Q(s',a')]$$

In [7]:
def qlearning1(s, a):
    Q[s][a] = rewards[s][a] + discount * max(Q[a])
    return

In [9]:
for _ in range(100):

    s = random.randint(0, 5)
    while s == final_state:
        s = random.randint(0, 5)

    keep = True
    while keep:
        a = random.randint(0, 5)
        while rewards[s][a] == -1:
            a = random.randint(0, 5)
        qlearning1(s, a)
        s = a
        if s == final_state:
            keep = False 
            
print(tabulate(Q, tablefmt="grid"))

+----+----+------+----+----+-----+
|  0 |  0 |  0   |  0 | 80 |   0 |
+----+----+------+----+----+-----+
|  0 |  0 |  0   | 64 |  0 | 100 |
+----+----+------+----+----+-----+
|  0 |  0 |  0   | 64 |  0 |   0 |
+----+----+------+----+----+-----+
|  0 | 80 | 51.2 |  0 | 80 |   0 |
+----+----+------+----+----+-----+
| 64 |  0 |  0   | 64 |  0 | 100 |
+----+----+------+----+----+-----+
|  0 |  0 |  0   |  0 |  0 |   0 |
+----+----+------+----+----+-----+


### Ejercicios pr√°cticos

* Actualiza la tabla $Q$ realizando a mano un episodio con el siguiente recorrido $0\rightarrow4\rightarrow3\rightarrow1\rightarrow5$.


* Crea una funci√≥n que, a partir de la matriz $Q^*$, nos lleve a la salida por el camino √≥ptimo desde cualquier habitaci√≥n.


* ¬øQu√© pasar√≠a si el factor $\gamma$ fuera $1$?
