<a href="https://colab.research.google.com/github/GonzaloMA-17/RL_FJLGM/blob/main/main.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Asignatura**: Extensiones de Machine Learning, 2024/2025

**Alumnos**:<br>
- Gonzalo Marcos Andrés (gonzalo.marcosa@um.es)
- Francisco José López Fernández (franciscojose.lopezf@um.es)

**Máster de Inteligencia Artificial**

| **Facultad de Informática** | **Universidad de Murcia** |
|-----------------------------|---------------------------|
| ![](https://www.um.es/image/layout_set_logo?img_id=175281&t=1726728636242) | ![](https://www.um.es/o/um-lr-principal-um-home-theme/images/logo-um.png) |


# Notebook principal para la práctica 2: prendizaje en entornos complejos

## Conexión al repositorio de gitHub en collab:


In [7]:
!  git clone https://github.com/GonzaloMA-17/RL_FJLGM.git

Cloning into 'RL_FJLGM'...
remote: Enumerating objects: 105, done.[K
remote: Counting objects: 100% (105/105), done.[K
remote: Compressing objects: 100% (73/73), done.[K
remote: Total 105 (delta 54), reused 75 (delta 31), pack-reused 0 (from 0)[K
Receiving objects: 100% (105/105), 3.16 MiB | 20.37 MiB/s, done.
Resolving deltas: 100% (54/54), done.


In [8]:
%cd RL_FJLGM

/content/RL_FJLGM/RL_FJLGM/RL_FJLGM


## Librerías del entorno:


In [9]:
! pip install -r requirements.txt

# Ejercicios

## Apartado A.

Para la implementación y análisis del aprendizaje por refuerzo en este proyecto, es necesario acceder a las carpetas y módulos que contienen la lógica de los agentes y las funciones de visualización de resultados.

### 1. **Implementación de los Agentes**
Los distintos agentes utilizados en el estudio se encuentran en la carpeta src_agents. La estructura de estos agentes sigue un enfoque basado en herencia, donde todos los métodos comparten una lógica común definida en la clase abstracta Agente. Esta clase se encuentra en el archivo:

```bash
src_agents/
│-- agent.py  # Clase base abstracta para todos los agentes
```

Todos los demás agentes, como Monte Carlo On-Policy, Monte Carlo Off-Policy, SARSA y Q-Learning, heredan de esta clase y sobrescriben los métodos necesarios según su implementación específica.

Para facilitar la importación y el uso de estos agentes en otros módulos, el archivo __init__.py permite estructurar src_agents como un paquete de Python. Gracias a esto, se pueden realizar importaciones de manera más sencilla.


### 2. **Generación de Gráficos**
Para analizar la evolución de los algoritmos, se generan gráficos de desempeño en términos de recompensas y longitudes de los episodios. Para esto, se utiliza la carpeta src_plotting, donde encontramos la función necesaria para trazar la evolución de la duración de los episodios:

```bash
src_plotting/
│-- plotting.py  # Contiene funciones de visualización de los resultados
```

En este archivo se encuentra la función plot_episode_lengths, cuya implementación permite representar gráficamente la longitud de los episodios durante el entrenamiento del agente. A continuación, se muestra el código de la función:

```python
def plot_episode_lengths(episode_lengths, window=50, ax=None,
                         label_episode="Longitud de episodio",
                         label_trend="Tendencia (Media Móvil)"):
    """
    Grafica la longitud de los episodios a lo largo del entrenamiento.

    Parámetros:
    -----------
    episode_lengths : list
        Lista con las longitudes de cada episodio.
    window : int, opcional (por defecto 50)
        Tamaño de la ventana para calcular la media móvil.
    ax : matplotlib.axes.Axes, opcional
        Eje donde se dibujará el gráfico. Si es None, se crea una figura nueva.
    label_episode : str, opcional
        Etiqueta para la curva principal (longitud de episodio).
    label_trend : str, opcional
        Etiqueta para la curva de la media móvil (tendencia).
    """
    # Si no se especifica un eje, creamos uno nuevo
    if ax is None:
        fig, ax = plt.subplots(figsize=(6, 3))

    indices = list(range(len(episode_lengths)))
    ax.plot(indices, episode_lengths, label=label_episode, alpha=0.6)

    # Media móvil para suavizar la curva
    if len(episode_lengths) >= window:
        moving_avg = np.convolve(episode_lengths, np.ones(window) / window, mode="valid")
        ax.plot(range(window - 1, len(episode_lengths)), moving_avg,
                label=label_trend, color='red')

    ax.set_title("Longitud de los episodios")
    ax.set_xlabel("Episodio")
    ax.set_ylabel("Longitud")
    ax.grid(True)
    ax.legend()
```

Esta función toma la lista de longitudes de los episodios y genera una representación visual del progreso del entrenamiento. Además, incluye una media móvil para suavizar las fluctuaciones y proporcionar una mejor interpretación de la tendencia.



### Repuesta a la pregunta de ¿Por qué esta gráfica también es un buen indicador de aprendizaje?


La gráfica de la longitud de los episodios es un buen indicador de aprendizaje porque muestra cómo el agente optimiza sus acciones con el tiempo para resolver el entorno de manera más eficiente. A medida que el agente aprende, se espera que la duración de los episodios disminuya y se estabilice, lo que indica que ha encontrado estrategias efectivas para alcanzar su objetivo con menos pasos.

## Apartado B.

In [10]:
import sys
sys.path.append('/content/k_brazos_FJLGM')

print(sys.path)

['/content', '/env/python', '/usr/lib/python311.zip', '/usr/lib/python3.11', '/usr/lib/python3.11/lib-dynload', '', '/usr/local/lib/python3.11/dist-packages', '/usr/lib/python3/dist-packages', '/usr/local/lib/python3.11/dist-packages/IPython/extensions', '/root/.ipython', '/content/k_brazos_FJLGM']


In [11]:
# prompt: debo generar un enlace para abrir el notebook1.ipynb en collab

# Assuming your notebook is in a public repository:
github_repo_urls = ["https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/main.ipynb",
                    "https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/notebook_tabulares_4x4.ipynb",
                    "https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/notebook_aproximaciones_4x4.ipynb"
                    ]

for i in range(len(github_repo_urls)):

    print(f"GitHub Link al notebook {i}: {github_repo_urls[i]}")

GitHub Link al notebook 0: https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/main.ipynb
GitHub Link al notebook 1: https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/notebook_tabulares_4x4.ipynb
GitHub Link al notebook 2: https://github.com/GonzaloMA-17/RL_FJLGM/blob/main/notebook_aproximaciones_4x4.ipynb
