# Estudio de métodos de control con aproximaciones

Este estudio pertenece a la parte 2 de la práctica 1 correspondiente a la asignatura Extensiones de Machine Learning del máster de IA en la Universidad de Murcia.

El grupo de alumnos que han realizado el estudio está conformado por:

- Tomás Díaz Díaz
- Jose Antonio Sánchez Fernández

## Introducción

Este notebook explora técnicas de aprendizaje por refuerzo que requieren aproximación de funciones:
- SARSA semi-gradiente
- Deep Q-Learning (DQN)

Para la realización del estudio, se utilizará el entorno ***Gymnasium***. Ambas técnicas serán evaluadas en el escenario `CartPole-v1`, consistente en un carro que debe mantener una barra en equilibrio mediante el movimento a izquierda. El espacio de estados en este escenario es continuo y el espacio de acciones es discreto, como veremos durante la creación del entorno. Cada episodio del experimento termina cuando la barra cae o transcurren 500 pasos.

## Imports y configuración

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from collections import deque
from tqdm import tqdm
import random

import torch
import torch.nn as nn
import torch.optim as optim

import sys
sys.path.append('src/')
from AgentSARSASemiGradiente import AgentSARSASemiGradiente
from AgentDeepQLearning import QNetwork, AgentDQLearning

## Preparación del entorno

In [None]:
# Declaramos una semilla para la reproducibilidad de los resultados y modificación del entorno CartPole
SEMILLA = 42
env = gym.make("CartPole-v1", render_mode="rgb_array")
# TODO Posible sustitución por un Wrapper para observar mejor las dimensiones del entorno
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
print(f"Estado: {state_dim} dimensiones, Acciones: {action_dim}")
print(f"Dimensiones: {env.observation_space}")

Estado: 4 dimensiones, Acciones: 2
Dimensiones: Box([-4.8               -inf -0.41887903        -inf], [4.8               inf 0.41887903        inf], (4,), float32)


**¿Qué estamos viendo en este entorno?**

Lo que nos dice esta salida de las características del entorno es que disponemos de 4 dimensiones basadas en las variables que influyen en la localización espacial del carrito, y 2 acciones que podemos realizar con él.
Sobre las dimensiones, por la documentación del escenario concreto, sabemos que consisten en las siguientes:

| Dimensión                    | Rango mostrado                 | Límites mostrados               | Tipo de dato |
|------------------------------|--------------------------------|---------------------------------|--------------|
| Posición del carrito (x)     | [-4.8, 4.8]                    | [-4.8, 4.8]                     | `float32`    |
| Velocidad del carrito (v)    | No acotado (realmente es ±20)  | [-inf, inf]                     | `float32`    |
| Ángulo del poste en radianes | [-0.418, 0.418] (~±24°)        | [-0.41887903, 0.41887903]       | `float32`    |
| Velocidad angular del poste  | No acotado (realmente es ±50)  | [-inf, inf]                     | `float32`    |

Estas dimensiones son las que influyen en la cantidad de estados de los que dispondrán nuestros agentes para moverse y alcanzar una política. Sin embargo, al haber variables sin un rango discreto, vemos que habrá una cantidad infinita de estados, por lo que los métodos tabulares dejan de ser viables en un escenario como este. Es por ello que utilizaremos este entorno para demostrar la funcionalidad de los métodos de control por aproximaciones.

## Creación de agentes

In [None]:
sarsa_agent = AgentSARSASemiGradiente(env, SEMILLA, alpha=0.1, gamma=0.99, epsilon=0.1, n_episodes=1000)

dql_agent = AgentDQLearning(env, SEMILLA, alpha=0.1, gamma=0.99, epsilon=0.1, n_episodes=1000)

## Entrenamiento

In [None]:
sarsa_agent.train()
dql_agent.train()

## Evaluación

In [9]:
# TODO Graficas recompensas por episodio, rendimiento promedio
# Disponibles en http://gymnasium.farama.org/introduction/train_agent/

## Análisis de resultados

In [None]:
# TODO Mostrar diferencias en rendimiento y comportamiento