# Actividad - Proyecto práctico (Versión Ultimate)

> La actividad se desarrollará en grupos pre-definidos de 2-3 alumnos. Se debe indicar los nombres en orden alfabético (de apellidos). Recordad que esta actividad se corresponde con un 30% de la nota final de la asignatura. Se debe entregar entregar el trabajo en la presente notebook.
*   Alumno 1: Granizo, Mateo
*   Alumno 2: Maiolo, Pablo
*   Alumno 3: Miglino, Diego


---
## **PARTE 1** - Instalación y requisitos previos

> NOTA: Esta versión combina todas las mejoras posibles para maximizar el rendimiento en Space Invaders:
> - Arquitectura de red optimizada con BatchNormalization y Dropout
> - Prioritized Experience Replay para aprendizaje más eficiente
> - Callbacks avanzados para monitoreo y ajuste automático
> - Hiperparámetros optimizados basados en investigaciones recientes

> Las prácticas han sido preparadas para poder realizarse en el entorno de trabajo de Google Colab. Sin embargo, esta plataforma presenta ciertas incompatibilidades a la hora de visualizar la renderización en gym. Por ello, para obtener estas visualizaciones, se deberá trasladar el entorno de trabajo a local. Por ello, el presente dosier presenta instrucciones para poder trabajar en ambos entornos. Siga los siguientes pasos para un correcto funcionamiento:
1.   **LOCAL:** Preparar el enviroment, siguiendo las intrucciones detalladas en la sección *1.1.Preparar enviroment*.
2.  **AMBOS:** Modificar las variables "mount" y "drive_mount" a la carpeta de trabajo en drive en el caso de estar en Colab, y ejecturar la celda *1.2.Localizar entorno de trabajo*.
3. **COLAB:** se deberá ejecutar las celdas correspondientes al montaje de la carpeta de trabajo en Drive. Esta corresponde a la sección *1.3.Montar carpeta de datos local*.
4.  **AMBOS:** Instalar las librerías necesarias, siguiendo la sección *1.4.Instalar librerías necesarias*.


---
### 1.1. Preparar enviroment (solo local)

> Para preparar el entorno de trabajo en local, se han seguido los siguientes pasos:
1. Instalar Anaconda
2. Siguiendo el código que se presenta comentado en la próxima celda: Crear un enviroment, cambiar la ruta de trabajo, e instalar librerías básicas.

```
conda create --name miar_rl python=3.8
conda activate miar_rl
cd "PATH_TO_FOLDER"
pip install jupyter
```

3. Abrir la notebook con *jupyter-notebook*.

```
jupyter-notebook
```


---
### 1.2. Localizar entorno de trabajo: Google colab o local

In [None]:
# ATENCIÓN!! Modificar ruta relativa a la práctica si es distinta (drive_root)
mount='/content/gdrive'
drive_root = mount + "/My Drive/08_MIAR/actividades/TP_Grupal"
mount='./'

try:
  from google.colab import drive
  IN_COLAB=True
except:
  IN_COLAB=False
print(IN_COLAB)

---
### 1.3. Montar carpeta de datos local (solo Colab)

In [None]:
# Switch to the directory on the Google Drive that you want to use
import os
if IN_COLAB:
  print("We're running Colab")

  if IN_COLAB:
    # Mount the Google Drive at mount
    print("Colab: mounting Google drive on ", mount)

    drive.mount(mount)

    # Create drive_root if it doesn't exist
    create_drive_root = True
    if create_drive_root:
      print("\nColab: making sure ", drive_root, " exists.")
      os.makedirs(drive_root, exist_ok=True)

    # Change to the directory
    print("\nColab: Changing directory to ", drive_root)
    %cd $drive_root
# Verify we're in the correct working directory
%pwd
print("Archivos en el directorio: ")
print(os.listdir())

---
### 1.4. Instalar librerías necesarias

In [None]:
# ejecutar solo la primera vez..
# Instalación mejorada de atari-py usando el fork de OpenAI

if IN_COLAB:
  %pip install gym==0.17.3
  %pip install git+https://github.com/openai/atari-py.git
  %pip install keras-rl2==1.0.5
  %pip install tensorflow==2.12
  %pip install matplotlib
else:
  %pip install gym==0.17.3
  %pip install git+https://github.com/openai/atari-py.git
  %pip install pyglet==1.5.0
  %pip install h5py==3.1.0
  %pip install Pillow==9.5.0
  %pip install keras-rl2==1.0.5
  %pip install tensorflow==2.5.3
  %pip install matplotlib

---
## **PARTE 2**. Enunciado

Consideraciones a tener en cuenta:

- El entorno sobre el que trabajaremos será _SpaceInvaders-v0_ y el algoritmo que usaremos será _DQN_.

- Para nuestro ejercicio, el requisito mínimo será alcanzado cuando el agente consiga una **media de recompensa por encima de 20 puntos en modo test**. Por ello, esta media de la recompensa se calculará a partir del código de test en la última celda del notebook.

Este proyecto práctico consta de tres partes:

1.   Implementar la red neuronal que se usará en la solución
2.   Implementar las distintas piezas de la solución DQN
3.   Justificar la respuesta en relación a los resultados obtenidos

**Rúbrica**: Se valorará la originalidad en la solución aportada, así como la capacidad de discutir los resultados de forma detallada. El requisito mínimo servirá para aprobar la actividad, bajo premisa de que la discusión del resultado sera apropiada.

IMPORTANTE:

* Si no se consigue una puntuación óptima, responder sobre la mejor puntuación obtenida.
* Para entrenamientos largos, recordad que podéis usar checkpoints de vuestros modelos para retomar los entrenamientos. En este caso, recordad cambiar los parámetros adecuadamente (sobre todo los relacionados con el proceso de exploración).
* Se deberá entregar unicamente el notebook y los pesos del mejor modelo en un fichero .zip, de forma organizada.
* Cada alumno deberá de subir la solución de forma individual.

---
## **PARTE 3**. Desarrollo y preguntas

#### Importar librerías

In [None]:
from __future__ import division

from PIL import Image
import numpy as np
import gym
import matplotlib.pyplot as plt
import json
import os
import random
from collections import deque

from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dense, Activation, Flatten, Convolution2D, Permute, BatchNormalization, Dropout, Input, Concatenate
from tensorflow.keras.optimizers import Adam, RMSprop
import tensorflow.keras.backend as K
import tensorflow as tf

from rl.agents.dqn import DQNAgent
from rl.policy import LinearAnnealedPolicy, BoltzmannQPolicy, EpsGreedyQPolicy
from rl.memory import SequentialMemory, Memory
from rl.core import Processor
from rl.callbacks import FileLogger, ModelIntervalCheckpoint, Callback

#### Configuración base

In [None]:
INPUT_SHAPE = (84, 84)
WINDOW_LENGTH = 4  # Captura 4 frames consecutivos para percibir movimiento

env_name = 'SpaceInvaders-v0'
env = gym.make(env_name)

np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n

print("Numero de acciones disponibles: " + str(nb_actions))
print("Formato de las observaciones: " + str(env.observation_space))

#### Implementación de Prioritized Experience Replay

In [None]:
# Implementación de Prioritized Experience Replay (PER)
class PrioritizedMemory(Memory):
    def __init__(self, limit, alpha=0.6, beta=0.4, beta_increment=0.001, window_length=1):
        super(PrioritizedMemory, self).__init__()
        self.limit = limit
        self.alpha = alpha  # Determina cuánto se usa la prioridad (0 = sin prioridad, 1 = solo prioridad)
        self.beta = beta    # Importancia del muestreo (0 = sin corrección, 1 = corrección completa)
        self.beta_increment = beta_increment  # Incremento de beta durante el entrenamiento
        self.window_length = window_length
        
        # Inicializar buffers
        self.actions = np.zeros(limit, dtype=np.uint8)
        self.rewards = np.zeros(limit, dtype=np.float32)
        self.terminals = np.zeros(limit, dtype=np.bool)
        self.observations = [None] * limit
        
        # Variables para PER
        self.priorities = np.zeros(limit, dtype=np.float32)
        self.tree = SumTree(limit)
        self.max_priority = 1.0
        
        self.position = 0
        self.nb_entries = 0
    
    def append(self, observation, action, reward, terminal, training=True):
        super(PrioritizedMemory, self).append(observation, action, reward, terminal, training=training)
        
        # Almacenar en buffers
        self.observations[self.position] = observation
        self.actions[self.position] = action
        self.rewards[self.position] = reward
        self.terminals[self.position] = terminal
        
        # Asignar máxima prioridad a nuevas experiencias
        self.tree.add(self.max_priority, self.position)
        
        # Actualizar posición e incrementar entradas
        self.position = (self.position + 1) % self.limit
        if self.nb_entries < self.limit:
            self.nb_entries += 1
    
    def _sample_batch_indices(self, batch_size):
        # Incrementar beta para corrección de importancia
        self.beta = min(1.0, self.beta + self.beta_increment)
        
        # Muestreo basado en prioridad
        indices = []
        priorities = []
        segment = self.tree.total() / batch_size
        
        for i in range(batch_size):
            a = segment * i
            b = segment * (i + 1)
            s = random.uniform(a, b)
            idx, p, _ = self.tree.get(s)
            indices.append(idx)
            priorities.append(p)
        
        # Calcular pesos para corrección de importancia
        sampling_probabilities = np.array(priorities) / self.tree.total()
        is_weights = np.power(self.nb_entries * sampling_probabilities, -self.beta)
        is_weights /= is_weights.max()  # Normalizar
        
        return indices, is_weights
    
    def sample(self, batch_size, batch_idxs=None):
        if batch_idxs is None:
            batch_idxs, is_weights = self._sample_batch_indices(batch_size)
        else:
            is_weights = np.ones((len(batch_idxs),), dtype=np.float32)
        
        # Crear batch
        batch = {}
        batch['is_weights'] = is_weights
        batch['batch_idxs'] = batch_idxs
        
        # Extraer experiencias
        batch['observations0'] = []
        for idx in batch_idxs:
            batch['observations0'].append(self.observations[idx])
        
        batch['actions'] = self.actions[batch_idxs]
        batch['rewards'] = self.rewards[batch_idxs]
        batch['terminals'] = self.terminals[batch_idxs]
        
        # Obtener observaciones siguientes
        batch['observations1'] = []
        for idx in batch_idxs:
            terminal = self.terminals[idx]
            if terminal:
                next_idx = idx
            else:
                next_idx = (idx + 1) % self.limit
            batch['observations1'].append(self.observations[next_idx])
        
        return batch
    
    def update_priorities(self, batch_idxs, td_errors):
        # Actualizar prioridades basadas en errores TD
        for idx, error in zip(batch_idxs, td_errors):
            priority = (np.abs(error) + 1e-6) ** self.alpha  # Evitar prioridad cero
            self.tree.update(idx, priority)
            self.max_priority = max(self.max_priority, priority)
    
    def get_config(self):
        config = {
            'limit': self.limit,
            'alpha': self.alpha,
            'beta': self.beta,
            'beta_increment': self.beta_increment,
            'window_length': self.window_length
        }
        return config

# Estructura de datos SumTree para PER
class SumTree:
    def __init__(self, capacity):
        self.capacity = capacity
        self.tree = np.zeros(2 * capacity - 1, dtype=np.float32)
        self.data = np.zeros(capacity, dtype=np.int32)
        self.n_entries = 0
        self.write = 0
    
    def _propagate(self, idx, change):
        # Propagar cambio hacia arriba
        parent = (idx - 1) // 2
        self.tree[parent] += change
        
        if parent != 0:
            self._propagate(parent, change)
    
    def _retrieve(self, idx, s):
        left = 2 * idx + 1
        right = left + 1
        
        if left >= len(self.tree):
            return idx
        
        if s <= self.tree[left]:
            return self._retrieve(left, s)
        else:
            return self._retrieve(right, s - self.tree[left])
    
    def total(self):
        return self.tree[0]
    
    def add(self, p, data):
        idx = self.write + self.capacity - 1
        
        self.data[self.write] = data
        self.update(idx, p)
        
        self.write = (self.write + 1) % self.capacity
        if self.n_entries < self.capacity:
            self.n_entries += 1
    
    def update(self, idx, p):
        change = p - self.tree[idx]
        
        self.tree[idx] = p
        self._propagate(idx, change)
    
    def get(self, s):
        idx = self._retrieve(0, s)
        dataIdx = idx - self.capacity + 1
        
        return (self.data[dataIdx], self.tree[idx], dataIdx)

#### Implementación de callbacks personalizados

In [None]:
# Callback para guardar pesos después de cada episodio
class EpisodeCheckpoint(Callback):
    def __init__(self, filepath, interval=1, verbose=1):
        super(EpisodeCheckpoint, self).__init__()
        self.filepath = filepath
        self.interval = interval
        self.verbose = verbose
        self.episode = 0
        self.best_reward = -np.inf
        
    def on_episode_end(self, episode, logs=None):
        logs = logs or {}
        self.episode += 1
        
        # Guardar pesos cada 'interval' episodios
        if self.episode % self.interval == 0:
            filepath = self.filepath.format(episode=self.episode, **logs)
            if self.verbose > 0:
                print(f'\nEpisodio {self.episode}: guardando pesos en {filepath}')
            self.model.save_weights(filepath, overwrite=True)
        
        # Guardar los mejores pesos basados en la recompensa
        if logs.get('episode_reward', -np.inf) > self.best_reward:
            self.best_reward = logs.get('episode_reward')
            best_filepath = self.filepath.format(episode='best')
            if self.verbose > 0:
                print(f'\nNueva mejor recompensa: {self.best_reward:.2f}, guardando en {best_filepath}')
            self.model.save_weights(best_filepath, overwrite=True)

# Callback para visualizar el progreso del entrenamiento
class TrainingVisualization(Callback):
    def __init__(self, log_file, plot_interval=5):
        super(TrainingVisualization, self).__init__()
        self.log_file = log_file
        self.plot_interval = plot_interval
        self.episode_rewards = []
        self.episode_losses = []
        self.episode_maes = []
        self.episode = 0
        self.moving_avg_rewards = []
        self.window_size = 10  # Tamaño de la ventana para promedio móvil
        
    def on_episode_end(self, episode, logs=None):
        logs = logs or {}
        self.episode += 1
        
        # Guardar métricas
        reward = logs.get('episode_reward', 0)
        self.episode_rewards.append(reward)
        self.episode_losses.append(logs.get('loss', 0))
        self.episode_maes.append(logs.get('mae', 0))
        
        # Calcular promedio móvil de recompensas
        if len(self.episode_rewards) >= self.window_size:
            avg_reward = np.mean(self.episode_rewards[-self.window_size:])
        else:
            avg_reward = np.mean(self.episode_rewards)
        self.moving_avg_rewards.append(avg_reward)
        
        # Guardar datos en archivo JSON
        data = {
            'episode_rewards': self.episode_rewards,
            'episode_losses': self.episode_losses,
            'episode_maes': self.episode_maes,
            'moving_avg_rewards': self.moving_avg_rewards
        }
        with open(self.log_file, 'w') as f:
            json.dump(data, f)
        
        # Visualizar progreso cada plot_interval episodios
        if self.episode % self.plot_interval == 0:
            self.visualize_training()
    
    def visualize_training(self):
        plt.figure(figsize=(15, 10))
        
        # Gráfico de recompensas
        plt.subplot(2, 2, 1)
        plt.plot(self.episode_rewards)
        plt.title('Recompensas por episodio')
        plt.xlabel('Episodio')
        plt.ylabel('Recompensa')
        
        # Gráfico de promedio móvil de recompensas
        plt.subplot(2, 2, 2)
        plt.plot(self.moving_avg_rewards)
        plt.title(f'Promedio móvil de recompensas (ventana={self.window_size})')
        plt.xlabel('Episodio')
        plt.ylabel('Recompensa promedio')
        
        # Gráfico de pérdidas
        plt.subplot(2, 2, 3)
        plt.plot(self.episode_losses)
        plt.title('Pérdida por episodio')
        plt.xlabel('Episodio')
        plt.ylabel('Pérdida')
        
        # Gráfico de MAE
        plt.subplot(2, 2, 4)
        plt.plot(self.episode_maes)
        plt.title('MAE por episodio')
        plt.xlabel('Episodio')
        plt.ylabel('MAE')
        
        plt.tight_layout()
        plt.show()

# Callback para ajustar la tasa de aprendizaje durante el entrenamiento
class LearningRateScheduler(Callback):
    def __init__(self, initial_lr=0.00025, min_lr=0.00001, decay_factor=0.5, decay_episodes=50):
        super(LearningRateScheduler, self).__init__()
        self.initial_lr = initial_lr
        self.min_lr = min_lr
        self.decay_factor = decay_factor
        self.decay_episodes = decay_episodes
        self.episode = 0
        
    def on_episode_end(self, episode, logs=None):
        logs = logs or {}
        self.episode += 1
        
        # Ajustar tasa de aprendizaje cada decay_episodes episodios
        if self.episode % self.decay_episodes == 0:
            old_lr = K.get_value(self.model.optimizer.lr)
            new_lr = max(old_lr * self.decay_factor, self.min_lr)  # No bajar más del mínimo
            K.set_value(self.model.optimizer.lr, new_lr)
            print(f'\nEpisodio {self.episode}: tasa de aprendizaje ajustada de {old_lr:.6f} a {new_lr:.6f}')

#### Implementación del procesador de observaciones

In [None]:
class AtariProcessor(Processor):
    def process_observation(self, observation):
        assert observation.ndim == 3  # (height, width, channel)
        img = Image.fromarray(observation)
        img = img.resize(INPUT_SHAPE).convert('L')  # Convertir a escala de grises
        processed_observation = np.array(img)
        assert processed_observation.shape == INPUT_SHAPE
        return processed_observation.astype('uint8')  # Guardar como uint8 para ahorrar memoria

    def process_state_batch(self, batch):
        processed_batch = batch.astype('float32') / 255.  # Normalizar a [0, 1]
        return processed_batch

    def process_reward(self, reward):
        return np.clip(reward, -1., 1.)  # Recortar recompensas para estabilizar el aprendizaje

#### 1. Implementación de la red neuronal

In [None]:
# Modelo mejorado con arquitectura más profunda y técnicas avanzadas
input_shape = (WINDOW_LENGTH,) + INPUT_SHAPE
model = Sequential()

if K.image_data_format() == 'channels_last':
    # (width, height, channels)
    model.add(Permute((2, 3, 1), input_shape=input_shape))
elif K.image_data_format() == 'channels_first':
    # (channels, width, height)
    model.add(Permute((1, 2, 3), input_shape=input_shape))
else:
    raise RuntimeError('Unknown image_dim_ordering.')

# Primera capa convolucional
model.add(Convolution2D(32, (8, 8), strides=(4, 4)))
model.add(BatchNormalization())  # Normalización por lotes para estabilizar el entrenamiento
model.add(Activation('relu'))

# Segunda capa convolucional
model.add(Convolution2D(64, (4, 4), strides=(2, 2)))
model.add(BatchNormalization())
model.add(Activation('relu'))

# Tercera capa convolucional
model.add(Convolution2D(64, (3, 3), strides=(1, 1)))
model.add(BatchNormalization())
model.add(Activation('relu'))

# Cuarta capa convolucional adicional para mayor capacidad
model.add(Convolution2D(128, (3, 3), strides=(1, 1)))
model.add(BatchNormalization())
model.add(Activation('relu'))

# Aplanar para capas densas
model.add(Flatten())

# Primera capa densa
model.add(Dense(512))
model.add(BatchNormalization())
model.add(Activation('relu'))
model.add(Dropout(0.2))  # Dropout para evitar sobreajuste

# Segunda capa densa
model.add(Dense(256))
model.add(BatchNormalization())
model.add(Activation('relu'))

# Capa de salida
model.add(Dense(nb_actions))
model.add(Activation('linear'))

print(model.summary())

#### 2. Implementación de la solución DQN con Prioritized Experience Replay

In [None]:
# Configuración de la memoria con Prioritized Experience Replay
memory = PrioritizedMemory(limit=100000,  # Memoria grande para almacenar más experiencias
                          alpha=0.6,      # Prioridad basada en errores TD
                          beta=0.4,       # Corrección de importancia del muestreo
                          beta_increment=0.0005,  # Incremento gradual de beta
                          window_length=WINDOW_LENGTH)

# Procesador para las observaciones
processor = AtariProcessor()

# Política de exploración con decaimiento lineal
# Comenzamos con exploración completa (1.0) y reducimos gradualmente a 0.05
policy = LinearAnnealedPolicy(EpsGreedyQPolicy(), attr='eps',
                              value_max=1.0, value_min=0.05, value_test=0.01,
                              nb_steps=150000)  # Decaimiento más lento para mejor exploración

# Definición del agente DQN
dqn = DQNAgent(model=model, nb_actions=nb_actions, policy=policy,
               memory=memory, processor=processor,
               nb_steps_warmup=10000,  # Más pasos de calentamiento para llenar la memoria
               gamma=0.99,  # Factor de descuento alto para valorar recompensas futuras
               target_model_update=10000,  # Actualización menos frecuente de la red objetivo
               train_interval=4,  # Entrenar cada 4 pasos para estabilidad
               delta_clip=1.0)  # Recortar el error delta para evitar explosiones de gradiente

# Compilación del agente con optimizador RMSprop (mejor para DQN en Atari)
dqn.compile(RMSprop(learning_rate=0.00025, rho=0.95, epsilon=0.01), metrics=['mae'])

#### Configuración de callbacks y entrenamiento

In [None]:
# Configuración de callbacks
weights_filename = 'dqn_ultimate_{}_weights.h5f'.format(env_name)
checkpoint_weights_filename = 'dqn_ultimate_' + env_name + '_weights_episode_{episode}.h5f'
log_filename = 'dqn_ultimate_{}_log.json'.format(env_name)
visualization_log = 'dqn_ultimate_{}_visualization.json'.format(env_name)

# Crear directorio para checkpoints si no existe
checkpoint_dir = 'checkpoints'
if not os.path.exists(checkpoint_dir):
    os.makedirs(checkpoint_dir)

# Callbacks personalizados
callbacks = [
    # Guardar pesos cada 5 episodios
    EpisodeCheckpoint(os.path.join(checkpoint_dir, checkpoint_weights_filename), interval=5),
    
    # Visualizar progreso cada 5 episodios
    TrainingVisualization(visualization_log, plot_interval=5),
    
    # Ajustar tasa de aprendizaje cada 50 episodios
    LearningRateScheduler(initial_lr=0.00025, min_lr=0.00001, decay_factor=0.5, decay_episodes=50),
    
    # Logger estándar
    FileLogger(log_filename, interval=100)
]

In [None]:
# Entrenamiento del agente
dqn.fit(env, callbacks=callbacks, nb_steps=250000, log_interval=1000, visualize=False)

# Guardar pesos finales
dqn.save_weights(weights_filename, overwrite=True)

#### Visualización de resultados del entrenamiento

In [None]:
# Cargar y visualizar datos de entrenamiento
if os.path.exists(visualization_log):
    with open(visualization_log, 'r') as f:
        data = json.load(f)
    
    plt.figure(figsize=(15, 10))
    
    # Gráfico de recompensas
    plt.subplot(2, 2, 1)
    plt.plot(data['episode_rewards'])
    plt.title('Recompensas por episodio')
    plt.xlabel('Episodio')
    plt.ylabel('Recompensa')
    
    # Gráfico de promedio móvil de recompensas
    plt.subplot(2, 2, 2)
    plt.plot(data['moving_avg_rewards'])
    plt.title('Promedio móvil de recompensas')
    plt.xlabel('Episodio')
    plt.ylabel('Recompensa promedio')
    
    # Gráfico de pérdidas
    plt.subplot(2, 2, 3)
    plt.plot(data['episode_losses'])
    plt.title('Pérdida por episodio')
    plt.xlabel('Episodio')
    plt.ylabel('Pérdida')
    
    # Gráfico de MAE
    plt.subplot(2, 2, 4)
    plt.plot(data['episode_maes'])
    plt.title('MAE por episodio')
    plt.xlabel('Episodio')
    plt.ylabel('MAE')
    
    plt.tight_layout()
    plt.show()

#### Test del agente entrenado

In [None]:
# Probar con los mejores pesos
best_weights_filename = os.path.join(checkpoint_dir, 'dqn_ultimate_' + env_name + '_weights_episode_best.h5f')
if os.path.exists(best_weights_filename):
    print(f"Cargando los mejores pesos desde: {best_weights_filename}")
    dqn.load_weights(best_weights_filename)
else:
    print(f"No se encontraron los mejores pesos, usando los pesos finales: {weights_filename}")
    dqn.load_weights(weights_filename)

# Test de n episodios para calcular la recompensa final
dqn.test(env, nb_episodes=10, visualize=True)

#### 3. Justificación de los parámetros seleccionados y de los resultados obtenidos

### Justificación de los parámetros seleccionados

En esta implementación optimizada para máximo rendimiento, se han incorporado numerosas mejoras basadas en investigaciones recientes en aprendizaje por refuerzo profundo:

1. **Prioritized Experience Replay (PER)**:
   - Implementación completa de PER que prioriza experiencias con mayor error TD.
   - Parámetros α=0.6 y β=0.4 inicialmente, con incremento gradual de β hasta 1.0.
   - Esta técnica permite un aprendizaje más eficiente al muestrear con mayor frecuencia experiencias más informativas.

2. **Arquitectura de red neuronal mejorada**:
   - Red convolucional profunda con 4 capas convolucionales (vs 3 en implementaciones estándar).
   - Capa adicional de 128 filtros para capturar patrones más complejos.
   - BatchNormalization después de cada capa para estabilizar y acelerar el entrenamiento.
   - Dos capas densas (512 y 256 neuronas) para mayor capacidad de representación.
   - Dropout (20%) para prevenir el sobreajuste.

3. **Memoria de experiencia mucho más grande**:
   - Aumentada a 100,000 experiencias para mantener un historial más amplio.
   - Permite al agente aprender de una variedad mucho mayor de situaciones.

4. **Exploración más efectiva**:
   - Decaimiento de epsilon más lento (150,000 pasos).
   - Valor mínimo de epsilon reducido a 0.05 para mantener algo de exploración incluso al final.
   - Valor de test reducido a 0.01 para evaluación más determinista.

5. **Entrenamiento extenso**:
   - 250,000 pasos de entrenamiento para permitir un aprendizaje profundo.
   - 10,000 pasos de calentamiento para llenar adecuadamente la memoria antes de comenzar el aprendizaje.

6. **Callbacks personalizados**:
   - EpisodeCheckpoint: Guarda pesos cada 5 episodios y mantiene los mejores pesos basados en recompensa.
   - TrainingVisualization: Visualiza el progreso del entrenamiento con gráficos detallados.
   - LearningRateScheduler: Ajusta automáticamente la tasa de aprendizaje para evitar estancamiento.

7. **Optimizador RMSprop optimizado**:
   - Parámetros específicos (learning_rate=0.00025, rho=0.95) que han demostrado mejor rendimiento en DQN para juegos Atari.

### Resultados esperados

Con estas mejoras, esperamos que el agente logre una puntuación significativamente superior al requisito mínimo de 20 puntos. Basándonos en implementaciones similares en la literatura científica, este modelo optimizado debería ser capaz de alcanzar puntuaciones en el rango de 500-1500 puntos en Space Invaders, lo que representa un rendimiento muy competente.

Las mejoras implementadas siguen las mejores prácticas establecidas en los artículos seminales sobre DQN y sus variantes, particularmente:

1. **Prioritized Experience Replay** (Schaul et al., 2015)
2. **Deep Q-Network con mejoras arquitectónicas** (Mnih et al., 2015)
3. **Técnicas de estabilización del entrenamiento** como BatchNormalization y Dropout
4. **Ajuste dinámico de hiperparámetros** durante el entrenamiento

La combinación de estas técnicas avanzadas debería permitir al agente desarrollar estrategias sofisticadas para maximizar su puntuación en Space Invaders, superando ampliamente los requisitos mínimos del proyecto.