<a href="https://colab.research.google.com/github/MrCharli03/RL_BFRRCE/blob/main/notebook1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a aprendizaje en entornos complejos

Este documento presenta el análisis y estudio de algoritmos de aprendizaje por refuerzo aplicados a entornos complejos. Se integra tanto la teoría como la implementación práctica mediante experimentos en entornos dinámicos utilizando, por ejemplo, la librería [Gymnasium](https://gymnasium.farama.org/).


## 1. Contexto del Problema

En entornos complejos, a diferencia de problemas más simples como el bandido de k-brazos, se deben considerar múltiples aspectos:

- **Dinamismo y No-Estacionariedad**: Los entornos pueden cambiar a lo largo del tiempo, lo que exige a los algoritmos adaptarse continuamente.
- **Alta Dimensionalidad**: Los espacios de estados y acciones pueden ser muy grandes, requiriendo técnicas de aproximación en lugar de métodos tabulares.
- **Interacción Secuencial**: El agente debe aprender una política óptima a través de interacciones sucesivas, donde cada acción afecta el estado futuro y la recompensa.


## 2. Tipos de Algoritmos básicos

Para abordar el aprendizaje en entornos complejos se utilizan diversas familias de algoritmos:

- **Métodos Tabulares**:
  - *Monte Carlo (on-policy y off-policy)*: Estiman la función de valor mediante la simulación completa de episodios.
  - *Diferencias Temporales (SARSA, Q-Learning)*: Actualizan de forma incremental la estimación del valor tras cada acción.
  
- **Métodos Basados en Aproximación**:
  - *Deep Q-Learning*: Utiliza redes neuronales para aproximar la función Q, permitiendo el manejo de espacios de estados de alta dimensionalidad.
  
- **Métodos de Política Directa**:
  - *Métodos Actor-Crítico*: Optimizan directamente la política del agente, combinando la aproximación del valor y la actualización de la política.

Estos algoritmos se eligen en función de la complejidad del entorno y la representación del espacio de estados y acciones.


## 3. Algoritmos Utilizados

En este estudio se implementaron y compararon distintos algoritmos, entre los que destacan:

- **Monte Carlo**:
  - Implementación on-policy y off-policy para la estimación de la función de valor mediante episodios completos.
- **SARSA y Q-Learning**:
  - Métodos de diferencias temporales que permiten actualizar la función de valor en tiempo real.
- **Deep Q-Learning**:
  - Utilización de redes neuronales (por ejemplo, con PyTorch) para aproximar la función Q en entornos con alta dimensionalidad.


## 4. Métricas de Evaluación

Para analizar el rendimiento de los algoritmos se han utilizado diversas métricas:

- **Recompensa Acumulada**: Suma total de recompensas obtenidas en cada episodio, que indica la efectividad de la política del agente.
- **Regret Acumulado**: Diferencia entre la recompensa óptima y la obtenida, útil para evaluar el equilibrio entre exploración y explotación.
- **Tasa de Convergencia**: Número de episodios necesarios para que el agente alcance una política estable.
- **Estadísticas de Selección de Acciones**: Análisis de la frecuencia y distribución de las acciones seleccionadas, que ayuda a comprender el comportamiento del algoritmo.

Estas métricas permiten comparar cuantitativamente la eficacia de cada algoritmo y detectar fortalezas y debilidades en su desempeño.


## 5. Conclusión

El estudio de algoritmos en entornos complejos permite concluir que:

- **Adaptabilidad**: La capacidad de adaptarse a entornos dinámicos es crucial, y los métodos basados en diferencias temporales (como SARSA y Q-Learning) ofrecen una buena aproximación en muchos casos.
- **Escalabilidad**: En entornos de alta dimensionalidad, el uso de aproximadores (como en Deep Q-Learning) mejora la capacidad del agente para generalizar y aprender de forma eficiente.
- **Desafíos y Oportunidades**: La selección del algoritmo óptimo depende del problema específico, y es frecuente que se requiera un balance entre métodos tabulares y aproximados para obtener un rendimiento óptimo.

Se sugiere continuar explorando mejoras en la optimización de hiperparámetros y la integración de técnicas híbridas para potenciar aún más el aprendizaje en entornos complejos.
