**Curso de Inteligencia Artificial y Aprendizaje Profundo**


# Introducción al aprendizaje reforzado

## Q-Learning con redes neuronales, algoritmo Double DQN y Dueling DQN.

##  Autores

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Oleg Jarma, ojarmam@unal.edu.co
4. Maria del Pilar Montenegro, pmontenegro88@gmail.com

## Contenido

* [Introducción](#Introducción)
* [Algortimos basados en el modelo](#Algortimos-basados-en-el-modelo)
* [Algortimos basados en la política](#Algortimos-basados-en-la-política)
* [Double DQN](#Double-DQN)
* [Dueling DQN](#Dueling-DQN)
* [El código](#El-código)


## Referencias

1. Adaptado de Markel Sanz, [Introducción al aprendizaje por refuerzo](https://medium.com/@markelsanz14/introducci%C3%B3n-al-aprendizaje-por-refuerzo-parte-3-q-learning-con-redes-neuronales-algoritmo-dqn-bfe02b37017f)
2. Sutton, R. S., & Barto, A. G. (2018). [Reinforcement learning: An introduction. MIT press](https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf).
3.  Van Hasselt, Hado, Arthur Guez, and David Silver. [Deep reinforcement learning with double q-learning.](https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/view/12389/11847) Thirtieth AAAI conference on artificial intelligence. 2016.
4.  Wang, Ziyu, et al. [Dueling network architectures for deep reinforcement learning](https://arxiv.org/pdf/1511.06581.pdf)

## Introducción

En la lección DQN-Learning hemos visto cómo funciona el algoritmo DQN, y cómo éste puede aprender a solucionar problemas complejos.

En esta lección veremos dos nuevos algoritmos que suponen mejoras respecto a DQN, son *Double DQN* y *Dueling DQN*. Pero antes, introduzcamos algunos términos que hemos pasado por alto.


Los algoritmos de aprendizaje reforzado se pueden clasificar en varias familias. 

## Algortimos basados en el modelo

La primera de estas familias depende de si el algoritmo aprende cómo funciona el entorno de manera explícita o no. 

Si el algoritmo utiliza la dinámica del entorno (también conocido como modelo) durante la toma de decisiones, entonces el algoritmo es **basado en el modelo** (model based), y si no lo hace será **libre de modelo** (model free). Un algoritmo basado en el modelo tiene que aprender (o tener acceso a) todas las probabilidades de transición de un estado a otro. 

Como muchos entornos son estocásticos (probabilísticos) y sus dinámicas desconocidas, el algoritmo debe aprender el modelo detrás de estas transiciones probabilísticas. 

Una vez aprendidas, utilizará esa información para tomar mejores decisiones. Por ejemplo, si tomar la acción 1 te llevará al estado A con probabilidad 0.9 y recibirás una recompensa de -10, o  llevará al estado B con una probabilidad de 0.1 y recibirás recompensa de +10; pero tomar la acción 2 te llevará al estado C con probabilidad de 1.0 y obtendrás una recompensa de +5, la mejor decisión es tomar la acción 2, ya que aunque la posible recompensa del estado B es muy grande, la probabilidad de terminar en ese estado es muy baja. 

Por lo tanto, no solo es importante usar las recompensas en la toma de decisiones, sino también el modelo. En el futuro hablaremos más de los algoritmos basados en el modelo.

## Algoritmos basados en la política

La segunda familia en la que se pueden clasificar los algoritmos son **fuera-de-la-política** (off policy) y **dentro-de-la-política** (on-policy).

Los algoritmos fuera-de-la-política aprenden la función de valor (value function), sin importar qué acciones tome el agente. 

Es decir, que la política de comportamiento (behavior policy) y la política objetivo (target policy) pueden ser distintas. 

La primera es la que utiliza el agente para explorar el entorno y recoger datos, mientras que la segunda es la que el agente intenta aprender y mejorar. 

Ésto significa que el agente puede explorar el entorno de forma completamente aleatoria con la política de comportamiento, y usar esos datos para aprender una política objetivo que sea capaz de obtener una recompensa muy alta en el futuro. En los algoritmos dentro-de-la-política, la política de comportamiento y la objetivo deben ser las mismas. 

Los algoritmos aprenden de los datos que deben recibir tras seguir la misma política que están aprendiendo.

A partir de ahora, clasificaremos los algoritmos en estas dos familias. 

Por ejemplo, tanto el algoritmo *Q-Learning* como *DQN* son algoritmos libre de modelo y *fuera-de-la-política*. 

Los dos algoritmos que veremos en esta parte, *Double DQN* y *Dueling DQN*, también son algoritmos libre de modelo y fuera-de-la-política.

## Double DQN

El problema con el algoritmo DQN es que **sobreestima las recompensas reales**; es decir, *los valores-Q*
que aprende piensan que van a obtener una recompensa mayor de lo que en realidad obtendrá. Para solucionarlo, los autores del algoritmo **Double DQN [1]** proponen un sencillo truco: separar la selección y evaluación de la acción en dos pasos diferentes. En lugar de usar la ecuación de Bellman del algoritmo DQN, este algoritmo la cambia y se convierte en:

$$
\large
Q(s,a; \theta) = r + \lambda Q(\arg \max_{a^{'}}  Q(s^{'},a^{'}; \theta);\theta^{'}).
$$

Primero la red neuronal principal $\theta$ decide cuál es la mejor acción entre todas las posibles, y luego la red objetivo evalúa esa acción para conocer su *valor-Q*. 

Este simple cambio ha demostrado **reducir las sobreestimaciones** y resultar en mejores políticas.

## Dueling DQN

Este algoritmo divide los *valores-Q* en dos partes distintas, la función de valor (value function) $V(s)$ y la función de ventaja (advantage function) $A(s, a)$.

La función de valor $V(s)$ nos dice cuánta recompensa obtendremos desde el estado *s*. La función de ventaja A$(s, a)$ nos dice cuánto mejor es una acción respecto a las demás. Combinando el valor *V* y la ventaja *A* de cada acción, obtenemos los *valores-Q*:

$$
\large
Q(s,a) = V(s) + A(s,a).
$$

Lo que propone el **algoritmo Dueling DQN es que la misma red neuronal divida su capa final en dos, una para estimar el valor del estado** *s* $(V(s))$ y otra para estimar la ventaja de cada acción *a* ($A(s, a)$), y al final juntar ambas partes en una sola, la cual estimará los *valores-Q*. 

Este cambio ayuda en algunos casos, porque a veces no es necesario saber exactamente al valor de cada acción, por lo que aprender el valor del estado puede ser suficiente

<figure>
<center>
<img src="../Imagenes/red_Dueling.png" width="400" height="300" align="center"/>
    <figcaption>
<p style="text-align:center">Red neronal asociada al algortimo Dueling DNQ</p>
</figcaption>
</figure>

Fuente: [Introducción al aprendizaje por refuerzo](https://medium.com/@markelsanz14/introducci%C3%B3n-al-aprendizaje-por-refuerzo-parte-4-double-dqn-y-dueling-dqn-b24ac0a5a46c)

Sin embargo, entrenar la red neuronal de esta simple manera, sumando el valor y la ventaja en la capa final, no es posible. 

Si se tiene $Q=V+A$, dada la función $Q$, no podemos determinar $V$ y $A$, es decir, el problema es **no-identificable**. 

Para solucionarlo, el artículo propone un truco: forzar al *valor-Q* más alto a ser igual al valor *V*, haciendo que el valor más alto en la función de ventaja sea cero, y los demás valores sean negativos. 

Esto  dirá exactamente cuál es el valor de $V$, y se pueden calcular los valores de la función de ventaja desde ahí, solucionando el problema. Así es como se entrenaría el algoritmo:


$$
\large
Q(s,a) = V(s) +( A(s,a)- \max_{a'\in|A|} A(s,a)) .
$$

Sin embargo, el artículo sugiere un pequeño cambio a estas ecuaciones. En lugar de usar el máximo, usaremos la media de las ventajas, así que eso será lo que hagamos (vea el artículo para más detalles). Así es como entrenaremos el algoritmo:

$$
\large
Q(s,a) = V(s) +( A(s,a)- \frac{1}{|A|} \sum_{a'} A(s,a)) .
$$

## El código

Solucionaremos uno del los juegos de la saga Atari 2600 usando OpenAI Gym. 

El juego que he seleccionado es el de Pong, ya que es fácil de visualizar y entender, y es uno de los juegos más sencillos de solventar con aprendizaje por refuerzo profundo. 

Usaremos el código de la clase *DQN learning* como referencia. Pero esta vez cambiaremos la arquitectura de la red neuronal para dividir la capa final en dos, *las funciones de valor y de ventaja* (*V* y *A* en el código), y luego combinarlas para formar los *valores-Q*. 

También cambiaremos los tipos de capas de la red neuronal. Como el agente aprenderá directamente de los pixeles, las capas densas (dense o fully connected) no son la mejor opción. 

Usaremos capas convolucionales. El número de unidades en cada capa y los parámetros será el mismo que en el artículo *Dueling DQN*.

<figure>
<center>
<img src="../Imagenes/Atari.gif" width="400" height="300" align="center"/>
    <figcaption>
<p style="text-align:center">Ejemplo del juego Atari</p>
</figcaption>
</figure>

Fuente: [Introducción al aprendizaje por refuerzo](https://medium.com/@markelsanz14/introducci%C3%B3n-al-aprendizaje-por-refuerzo-parte-3-q-learning-con-redes-neuronales-algoritmo-dqn-bfe02b37017f)

In [None]:
class DuelingDQN(tf.keras.Model):
  """Convolutional neural network for the Atari games."""
  def __init__(self, num_actions):
    super(DuelingDQN, self).__init__()
    self.conv1 = tf.keras.layers.Conv2D(
        filters=32, kernel_size=8, strides=4, activation="relu",
    )
    self.conv2 = tf.keras.layers.Conv2D(
        filters=64, kernel_size=4, strides=2, activation="relu",
    )
    self.conv3 = tf.keras.layers.Conv2D(
        filters=64, kernel_size=3, strides=1, activation="relu",
    )
    self.flatten = tf.keras.layers.Flatten()
    self.dense1 = tf.keras.layers.Dense(units=512, activation="relu")
    self.V = tf.keras.layers.Dense(1)
    self.A = tf.kears.layers.Dense(num_actions)

  @tf.function
  def call(self, states):
    """Forward pass of the neural network with some inputs."""
    x = self.conv1(states)
    x = self.conv2(x)
    x = self.conv3(x)
    x = self.flatten(x)
    x = self.dense1(x)
    V = self.V(x)
    A = self.A(x)
    Q = V + tf.subtract(A, tf.reduce_mean(A, axis=1, keepdims=True))
    return Q


Después, cambiaremos la función que ejecuta un paso de entrenamiento usando el descenso de gradiente. La modificaremos para implementar el paso de entrenamiento del algoritmo *Double DQN* en lugar del *DQN normal*. 

Esto significa que la ecuación de Bellman será la descrita anteriormente en este artículo, que es ligeramente diferente a la descrita en la lección *DQN-Learning*

In [None]:
@tf.function
def train_step(states, actions, rewards, next_states, dones):
    """Perform a training iteration on a batch of data."""
    # Select best next action using main_nn.
    next_qs_main = main_nn(next_states)
    next_qs_argmax = tf.argmax(next_qs_main, axis=-1)
    next_action_mask = tf.one_hot(next_qs_argmax, num_actions)
  
    # Evaluate that best action using target_nn to know its Q-value.
    next_qs_target = target_nn(next_states)
    masked_next_qs = tf.reduce_sum(next_action_mask * next_qs_target, axis=-1)
  
    # Create target using the reward and the discounted next Q-value.
    target = rewards + (1. - dones) * discount * masked_next_qs
    with tf.GradientTape() as tape:
        # Q-values for the current state.
        qs = main_nn(states)
        action_mask = tf.one_hot(actions, num_actions)
        masked_qs = tf.reduce_sum(action_mask * qs, axis=-1)
        loss = loss_fn(target, masked_qs)
    
    grads = tape.gradient(loss, main_nn.trainable_variables)
    optimizer.apply_gradients(zip(grads, main_nn.trainable_variables))
    return loss


Ejecutaremos el bucle principal de entrenamiento de la misma forma que en las partes anteriories, recogiendo datos y guardándolos en el buffer para usarlos más tarde. 

Tras entrenar el algoritmo durante 1000 episodios, esto será lo que escriba. El retorno indica cuantos goles ha marcado cada jugador.