# Aprendizaje por Refuerzo

El aprendizaje por refuerzo (RL) se basa en la idea de que un agente aprende a tomar decisiones interactuando con un entorno. De esta forma, el agente aprende a maximizar una recompensa basada en sus acciones, lo que le permite aprender a realizar tareas complejas a través de la exploración del entorno y la adaptación a los cambios en él.

En el presente trabajo, se utilizará RL para entrenar a un agente que controle el movimiento del robot `Acrobot`, utilizando el paquete gym de OpenAI. 

El entorno Acrobot consiste en un robot de dos brazos que puede girar alrededor de su base. El robot se encuentra en un estado inicial colgando hacia abajo y debe alcanzar una posición objetivo que se define como el momento en que el extremo superior del segundo brazo del robot alcanza una altura específica. En la siguiente figura se representa un movimiento posible de este robot desde su posición inicial sin alcanzar la recompensa:

![Movimiento acrobot](Images/acrobot.gif)

Veamos en profundidad el espacio de acciones y el entorno del agente

In [3]:
import gym
env = gym.make('Acrobot-v1')
env.seed(42)

env.action_space

Discrete(3)

Como se puede ver en el resultado de la celda anterior el espacio de acciones del agente es dicreto y contiene únicamente 3 acciones. Siguiendo la misma nomenclatura que en la documentación, las acciones posibles son las siguientes:
* Acción 0: Aplicar torque negativo a la primera articulación (-1)
* Acción 1: No aplicar torque (0)
* Acción 2: Aplicar torque positivo a la primera articulación (1)

In [4]:
env.reset()

array([ 0.9996832 , -0.02516867,  0.9999951 , -0.00313228,  0.08415417,
       -0.0036109 ], dtype=float32)

Por otro lado, el entorno viene dado por un vector de seis dimensiones representando las posiciones y velocidades los eslabones del acrobot. Denominando $\theta_1$ al ángulo de la primera unión y $\theta_2$ al de la segunda, los parámetros del entorno son los siguientes

* $\cos{(\theta_1)}$

* $\sin{(\theta_1)}$

* $\cos{(\theta_2)}$

* $\sin{(\theta_2)}$

* $\dot{\theta_1}$: Velocidad angular de $\theta_1$ 

* $\dot{\theta_1}$: Velocidad angular de $\theta_2$

Las funciones trigonométricas toman valores entre $[-1,1]$, trivialmente, y las velocidades angulares varían entre $[-4\pi,4\pi]$ y $[-9\pi, 9\pi]$ para $\dot{\theta_1}$ y $\dot{\theta_2}$, respectivamente

## Objetivos establecidos

El objetivo del trabajo es entrenar un agente que sea capaz de controlar con éxito el movimiento del robot Acrobot y alcanzar la posición objetivo en el menor número de episodios posible. Además, se busca analizar y comparar la eficacia de los métodos seleccionados para resolver el problema y así identificar el método más eficiente para la tarea en cuestión.

## Métodos seleccionados

La selección de los métodos de aprendizaje por refuerzo utilizados en este trabajo se basa en un análisis detallado del entorno Acrobot y en la adaptabilidad de los métodos de RL a este entorno en particular. 

En primer lugar, cabe destacar que debido al espacio de observaciones continuo no se puede usar `Q-Learning` y, por extensión, tampoco `Double Q-Learning`. Por otro lado, como el espacio de acciones es discreto también es necesario descartar `DDPG` y `TD3` ya que ambos trabajan sobre un espacio continuo de acciones.

Por lo tanto, se han elegido los métodos más adecuados para el problema que se desea resolver.

- `DQN` es una buena opción ya que es una generalización de Q-learning que utiliza una red neuronal profunda para aproximar el valor de Q. Se ha demostrado que funciona bien en espacios de observaciones continuos como Acrobot, lo que lo convierte en una opción viable para nuestro problema.

- `Double DQN` es una mejora de DQN que ayuda a reducir la sobreestimación del valor de Q, lo que lo hace aún más efectivo en entornos complejos. Al igual que DQN, se ha demostrado que funciona bien en entornos continuos.

- `Reinforce` es un método de gradiente de políticas que funciona bien en entornos con acciones continuas y puede ser útil para explorar diferentes estrategias de acción en Acrobot.

## Entorno de trabajo

In [2]:
import gym
env = gym.make("Acrobot-v1")

## DQN

## Double DQN

## Reinforce