**Curso de Inteligencia Artificial y Aprendizaje Profundo**


# Introducción al aprendizaje reforzado

## Q-learning

##  Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Oleg Jarma, ojarmam@unal.edu.co
4. Maria del Pilar Montenegro, pmontenegro88@gmail.com

## Contenido

* [Introducción](#Introducción)
* [Función de valor](#Función-de-valor)
* [Q-Learning](#Q-Learning)
* [El código](#El-código)


## Referencias

1. Adaptado de Markel Sanz, [Introducción al aprendizaje por refuerzo](https://medium.com/@markelsanz14/introducci%C3%B3n-al-aprendizaje-por-refuerzo-parte-2-q-learning-883cd42fb48e)
2. Sutton, R. S., & Barto, A. G. (2018). [Reinforcement learning: An introduction. MIT press](https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf).

## Introducción

En la lección del bandido multibrazo, hemos descrito el problema del bandido multibrazo, y hemos introducido varios conceptos, como el estado, la acción, la recompensa, etc. 

Sin embargo, el problema del bandido multibrazo no representa el problema completo del aprendizaje reforzado. 

En los problemas de bandidos multibrazo, cada acción es completamente independiente de las anteriores, y el estado siempre es el mismo, como en el ejemplo de la lección del bandido multibrazo, donde siempre teníamos los 5 mismos brazos y su probabilidad de éxito no cambiaba en ningún momento.


En el problema completo de aprendizaje por refuerzo, el estado cambia cada vez que ejecutamos una acción. Podemos representar el problema de la siguiente manera. 

1. El **agente** recibe el **estado** (state) en el que se encuentra el **entorno** (environment), el cual representaremos con la letra **s** (state). 
2. El agente ejecuta entonces la **acción** que elija, representada con la letra **a** (action). 
3. Al ejecutar esa acción, el entorno responde proporcionando una **recompensa**, representada con la letra **r** (reward).
4. El entorno se traslada a un **nuevo estado**, representado con **s’** (next state)  y se lo comunica al agente

Este ciclo se puede observar en la siguiente imagen.


<figure>
<center>
<img src="../Imagenes/Reinforcement_learning_diagram.png" width="400" height="300" align="center"/>
</figure>

Fuente: [Wikipedia](https://es.wikipedia.org/wiki/Aprendizaje_por_refuerzo)

Por lo tanto, **la acción que el agente escoja no debe sólo depende de la recompensa a que vaya a recibir a corto plazo. Debe elegir las acciones que a largo plazo le traerán la máxima recompensa (o retorno) posible en todo el episodio (episode)**. 

Este ciclo trae una secuencia de estados, acciones y recompensas, desde el primer paso del ciclo hasta el último: 

$$
s_1, a_1, r_1; s_2, a_2, r_2; \ldots; s_T, a_T, r_T. 
$$

Aquí, $T$ indica el fin del episodio.

## Función de valor

Para cuantificar cuanta recompensa obtendrá el agente a largo plazo desde cada estado, introducimos la función de valor $V(s)$. 

Esta función produce una estimación de la recompensa que obtendrá el agente hasta el final del episodio, empezando desde el estado s. 

Si conseguimos estimar este valor correctamente, podremos decidir ejecutar la acción que nos lleve al estado con el valor más alto.

## Q-Learning

Para resolver el problema del aprendizaje reforzado, el agente debe aprender a escoger la mejor acción posible para cada uno de los estados posibles. 

Para ello, el algoritmo **Q-Learning** intenta aprender cuanta recompensa obtendrá a largo plazo para cada pareja de estados y acciones $(s,a)$. 

A esa función se la llama la **función de acción-valor** (action-value function) y este algoritmo la representa como la función $Q(s,a)$, la cual devuelve la recompensa que el agente recibirá al ejecutar la acción a desde el estado $s$, y asumiendo que seguirá la misma política dictada por la función $Q$ hasta el final del episodio. 


Por lo tanto, si desde el estado $s$, tenemos dos acciones disponibles, $a_1$ y $a_2$, la función $Q$ nos proporcionará los **valores-Q** (Q-values) de cada una de las acciones. 

Por ejemplo, si $Q(s,a_1)=1$ y $Q(s,a_2)=4$, el agente sabe que la acción $a_2$ es mejor y le traerá mayor recompensa, por lo que será la acción que ejecutará, una vez haya sido entrenado.

## Ejemplo: Entorno de cuadrícula

En este ejemplo, tenemos un entorno en el que el agente empieza en el estado inicial $s_i$, y debe elegir entre moverse a la izquierda o a la derecha. 

1. Si llega al estado de más a la izquierda, el episodio termina y el agente recibe una recompensa de -5. 
2. Por otro lado, si llega al estado de más a la derecha, el episodio termina y el agente recibe una recompensa de +5. 

El agente debe aprender a evitar el estado de -5 y moverse hacia el estado de +5. 

Si la política que aprende siempre termina en el estado con mayor recompensa, diremos que ha encontrado la **política óptima**(optimal policy).


<figure>
<center>
<img src="../Imagenes/Ejemplo_cuadricula.jpeg" width="400" height="300" align="center"/>
</figure>

Fuente: [Introducción al aprendizaje por refuerzo](https://medium.com/@markelsanz14/introducci%C3%B3n-al-aprendizaje-por-refuerzo-parte-2-q-learning-883cd42fb48e)

Para resolver el problema, el algoritmo  *Q-Learning* utiliza la **ecuación de Bellman**. 

Esta ecuación se usa para aprender los *valores-Q* y es dada por

$$
\huge
Q(s,a) = r + \lambda \max_{a^{'}}  Q(s^{'},a^{'}).
$$

La explicación para esta ecuación es la siguiente.

1. El *valor-Q* del estado *s* y la acción *a* ($Q(s, a)$) debe ser igual a la recompensa *r* obtenida al ejecutar esa acción, más el *valor-Q* de ejecutar la mejor acción posible $a'$ desde el próximo estado $s'$, multiplicado por un **factor de descuento**  (discount factor), que es un valor con rango $\lambda \in (0, 1]$. 

Este valor $\lambda$ se usa para decidir cuánto peso le queremos dar a las recompensas a corto y a largo plazo, y es un hiperparámetro que debemos decidir nosotros.

## El código

Empecemos definiendo nuestro entorno. 

1. Las recompensas son 0 para todos los estados, excepto para el estado de más a la izquierda y el de más a la derecha, que tienen recompensas de -5 y +5 respectivamente. 
2. También definimos una lista que define si un estado es final/terminal o no. 
3. Por último creamos la lista de variables llamada *Q_values*, donde guardaremos los *valores-Q* para todos los pares de estados y acciones.

In [14]:
import numpy as np

state_rewards = [-5, 0, 0, 0, 0, 0, 5]
final_state = [True, False, False, False, False, False, True]
Q_values = [[0.0, 0.0], 
            [0.0, 0.0],
            [0.0, 0.0],
            [0.0, 0.0],
            [0.0, 0.0],
            [0.0, 0.0],
            [0.0, 0.0]] # (s,a) matrix. [left,right]

Ahora crearemos una función que escoja una acción usando la política **ε-voraz** para un estado que pasaremos como parámetro.

In [1]:
def select_epsilon_greedy_action(epsilon, state):
    """Take random action with probability epsilon, else take best action."""
    result = np.random.uniform()
    if result < epsilon:
        # exploration
        return np.random.randint(0, 2) # Random action (left or right)
    else:
        # explotation
        return np.argmax(Q_values[state]) # Greedy action for state

### Nota

Q_values[state] contiene los Q-values para cada una de las dos acciones. Entonces la función responde con la acción que tiene mayor Q-value para el *state* pasado a la función (que corresponde al estdo actual del environment), en el caso de explotación. En el caso de exploración regrese aleatoriamente y con probabilidad epsilon cualquier accón disponible (en este caso alguna de las dos posibles acciones).

También crearemos una función que ejerza de entorno. 

Le pasaremos el estado y la acción seleccionada por el agente, y nos devolverá la recompensa **r** y el siguiente estado **s’**.


In [3]:
def apply_action(state, action):
    """Applies the selected action and get reward and next state."""
    if action == 0:
        next_state = state-1
    else:
        next_state = state+1
    
    return state_rewards[next_state], next_state

Por último, decidimos varios hiperparámetros y ejecutamos el algoritmo que aprende usando el algoritmo de *Q-Learning* y la *ecuación de Bellman*.


In [15]:
num_episodes = 1000
epsilon = 0.2
discount = 0.9 # Change to 1 to simplify Q-value results

for episode in range(num_episodes+1):
    initial_state = 3 # State in the middle
    state = initial_state
    while not final_state[state]: # Run until the end of the episode
        # the gent selects an  action
        action = select_epsilon_greedy_action(epsilon, state)
        # inform action to the environment
        # and th environment change its state, 
        #  return the reward of next state and the next state
        reward, next_state = apply_action(state, action)
        # Improve Q-values with Bellman Equation
        if final_state[next_state]:
            Q_values[state][action] = reward
        else:
            Q_values[state][action] = reward + discount * max(Q_values[next_state])
        state = next_state
        # print
        print('episode: ', episode, 'Q_values:', Q_values)
         
# Print Q-values to see if action right is always better than action left
# except for states 0 and 6, which are terminal states and you cannot take
# any action from them, so it does not matter.
print('Q-values are:')
print(Q_values)
action_dict = {0:'left', 1:'right'}
state = 0

for Q_vals in Q_values:
    print('Best action for state {} is {}'.format(state, 
                                             action_dict[np.argmax(Q_vals)]))
    state += 1

episode:  0 Q_values: [[0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  0 Q_values: [[0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  0 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  1 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  1 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  1 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  2 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  2 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  2 Q_values: [[0.0, 0.0], [-5, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0], [0.0, 0.0]]
episode:  2 Q_values: [[0.0, 0.0], [-5, 0.0]

Al terminar, observamos los *valores-Q* aprendidos y la mejor acción para cada estado. 

Al ejecutarlo vemos que ha aprendido exactamente lo que queríamos, la política óptima, a moverse hacia la derecha siempre. H

Hay que tener en cuenta que los *valores-Q* han sido descontados por el factor de descuento, que en este caso es 0.9. 

Los estados de la derecha y la izquierda tienen valores de 0.0 porque son terminales y el episodio termina al llegar a ellos.