<a href="https://colab.research.google.com/github/MrCharli03/RL_BFRRCE/blob/main/notebook1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a aprendizaje en entornos complejos

Anteriormente trabajamos en el problema del bandido de k-brazos, lo cual nos sirvió como introducción al aprendizaje por refuerzo. Sin embargo, dichos ejemplos no suelen ser aplicables a situaciones cotidianas. Por esta razón, en esta práctica utilizaremos Gymnasium para definir diversos entornos y resolverlos mediante algoritmos basados en las ecuaciones de Bellman. Entonces, el propósito principal es familiarizarnos con Gymnasium y aplicar algoritmos de aprendizaje por refuerzo en entornos complejos, de modo que los agentes sean capaces de alcanzar su objetivo por la ruta más óptima posible.

## 1. Contexto del Problema

En entornos complejos, a diferencia de problemas más simples como el bandido de k-brazos, se deben considerar múltiples aspectos:

- **Dinamismo y No-Estacionariedad**: Los entornos pueden cambiar a lo largo del tiempo, lo que exige a los algoritmos adaptarse continuamente.
- **Alta Dimensionalidad**: Los espacios de estados y acciones pueden ser muy grandes, requiriendo técnicas de aproximación en lugar de métodos tabulares.
- **Interacción Secuencial**: El agente debe aprender una política óptima a través de interacciones sucesivas, donde cada acción afecta el estado futuro y la recompensa.


## 2. Experimentos llevados a cabo

Para realizar esta practica se han realizado en dos entornos distintos:  
- Taxi
- FrozenLake (tanto resbaladizo como no resbaladizo)

Estos entornos han sido elegidos debido a su simplicidad estructural, que permite entender fácilmente los conceptos fundamentales del RL como la toma de decisiones, exploración-explotación y aprendizaje mediante recompensas. Estos entornos ofrecen tambien una gran claridad e interpretabilidad, facilitando observar cómo las decisiones del agente afectan directamente los resultados, además de permitir la evaluación de algoritmos en contextos deterministas (FrozenLake no resbaladizo) y en condiciones probabilísticas o inciertas (FrozenLake resbaladizo). Además, al ser ampliamente usados como benchmarks estándar en la literatura, resultan adecuados para comparar y validar fácilmente resultados con otros estudios, fomentando la reproducibilidad y rápida ejecución debido a su bajo costo computacional, lo que proporciona bases sólidas para luego abordar problemas más complejos en aprendizaje por refuerzo profundo.


### 2.1. Taxi

El entorno Taxi de Gymnasium es un clásico escenario de aprendizaje por refuerzo en el que un agente (taxi) debe aprender a recoger un pasajero en diferentes posiciones de una cuadrícula y llevarlo a su destinos de la forma más eficiente posible, obteniendo recompensas por realizar correctamente la tarea y penalizaciones por movimientos incorrectos o tardar demasiado tiempo. El entorno consiste en una cuadrícula de 5x5 con cuatro ubicaciones específicas de recogida y destino, y el agente dispone de seis acciones posibles: moverse hacia arriba, abajo, izquierda o derecha, recoger un pasajero y dejarlo en su destino. El estado se representa mediante una codificación simple que considera tanto la posición del taxi como la del pasajero y el destino objetivo, generando así un espacio de estados discreto y limitado.  

### 2.2. FrozenLake
El entorno FrozenLake de Gymnasium representa un escenario tipo cuadrícula que simula un lago congelado, donde el agente debe navegar desde un punto inicial hasta un objetivo evitando caer en agujeros ocultos. Existen dos versiones principales: una determinista (no resbaladiza), en la que cada movimiento realizado por el agente ocurre exactamente según lo planeado, y otra estocástica (resbaladiza), en la que cada acción del agente puede resultar en movimientos inesperados debido a que la superficie está resbaladiza, introduciendo así incertidumbre en el aprendizaje. El agente obtiene una recompensa únicamente al alcanzar la meta, enfrentándose a un desafío de balance entre exploración y explotación debido a la ausencia de recompensas intermedias.

## 2. Tipos de Algoritmos básicos

## 3. Algoritmos Utilizados

### **3.1. Métodos Tabulares**

#### **a) Monte Carlo (On-Policy y Off-Policy):**  
  - **On-Policy**: Aprende directamente de los episodios generados por la política actual (ε-greedy). Actualiza la función de valor \( Q(s,a) \) promediando los retornos completos de cada par estado-acción visitado.  
  - **Off-Policy**: Utiliza una política de comportamiento (exploratoria) para generar datos, pero actualiza una política objetivo (greedy) mediante *muestreo por importancia*. Esto permite aprender una política óptima sin seguirla explícitamente durante la exploración.  

#### **b) Diferencias Temporales (SARSA y Q-Learning):**
- **SARSA (On-Policy)**:  
  - Actualiza \( Q(s,a) \) usando la recompensa inmediata y el valor \( Q(s',a') \), donde \( a' \) es la acción elegida por la política actual (ε-greedy). Tiene como ventaja que es conservador, ya que considera la exploración en la política actual.

- **Q-Learning (Off-Policy)**:  
  - Actualiza \( Q(s,a) \) usando el máximo valor \( Q(s',a') \) para el siguiente estado, independientemente de la acción realmente tomada. Su principal ventaje es que el aprendizaje es agresivo  hacia la política óptima, ignorando la exploración en futuros pasos.

### **3.2. Control con Aproximaciones**

#### **a) SARSA Semi-Gradiente**:  
- **Descripción**:  
  Aproxima \( Q(s,a) \) mediante una función lineal (no una tabla). Utiliza el gradiente de la función para ajustar los pesos, pero ignora el gradiente en el objetivo (*semi-gradiente*).  
- **Ventaja**: Permite manejar espacios de estado grandes mediante generalización.  
- **Uso en el estudio**: Logró un equilibrio entre estabilidad y eficiencia, con una convergencia más rápida que los métodos tabulares pero menos eficiente que Deep Q-Learning.  

#### **b) Deep Q-Learning (DQN)**:  
- **Descripción**:  
  Aproxima \( Q(s,a) \) con una red neuronal. Incluye *experience replay* (almacenar experiencias pasadas) y *target network* (red secundaria para calcular objetivos estables).  
- **Ventaja**: Escala a entornos complejos y continuos.  
- **Uso en el estudio**: Aunque el entrenamiento fue más lento, alcanzó recompensas cercanas a cero y episodios cortos, demostrando su capacidad para aprender políticas sofisticadas.  

## 4. Métricas de Evaluación

Para analizar el rendimiento de los algoritmos se han utilizado diversas métricas, las cuales son:

- **Recompensa acumulada por episodio**  
Esta métrica calcula la suma total de recompensas obtenidas por el agente en cada episodio. Su objetivo principal es evaluar la capacidad del agente para maximizar las recompensas asociadas a acciones correcta. En el estudio, se utilizó para analizar el desempeño global de los algoritmos mediante gráficas que mostraban la **proporción de recompensas** a lo largo de los episodios.

- **Longitud de los episodios**  
Esta métrica registra el número de pasos que el agente requiere para completar un episodio, reflejando su eficiencia en la navegación del entorno. Su propósito es determinar si el agente logra optimizar su ruta, reduciendo al mínimo las acciones necesarias para cumplir la tarea. Durante el estudio, se graficó la **evolución de la longitud de los episodios**, demostrando cómo los algoritmos mejoraban gradualmente su eficiencia a medida que aprendían.

## 5. Conclusión

**Conclusión**  

Los experimentos realizados en los entornos Taxi y FrozenLake mediante algoritmos de aprendizaje por refuerzo han permitido analizar el comportamiento de distintos métodos en escenarios con diferentes grados de complejidad. En primer lugar, se observó que los métodos tabulares, como Q-Learning y SARSA, demostraron ser eficaces en entornos pequeños y discretos, como Taxi y FrozenLake no resbaladizo. Q-Learning destacó por su capacidad para converger rápidamente hacia políticas óptimas al utilizar una estrategia *off-policy*, mientras que SARSA, al ser *on-policy*, mostró mayor estabilidad en entornos estocásticos como FrozenLake resbaladizo, donde la incertidumbre en las transiciones exige considerar acciones futuras basadas en la política exploratoria actual. Por otro lado, los métodos basados en Monte Carlo, aunque robustos, presentaron limitaciones en términos de velocidad de convergencia debido a su dependencia de episodios completos para actualizar las estimaciones.   

Las métricas de evaluación, como la recompensa acumulada y la longitud de los episodios, proporcionaron insights claros sobre el progreso del aprendizaje y sobre si es eficiente o no.

Finalmente, el estudio refuerza la idea de que no existe un algoritmo único óptimo para todos los escenarios. La elección debe basarse en factores como la naturaleza del entorno (determinista vs. estocástico), la dimensionalidad del espacio de estados y la disponibilidad de recursos computacionales. Futuros trabajos podrían explorar la combinación de métodos tabulares con aproximaciones profundas, o la incorporación de técnicas avanzadas como policy gradients, para abordar entornos aún más complejos y dinámicos.