# Actividad - Proyecto práctico


> La actividad se desarrollará en grupos pre-definidos de 2-3 alumnos. Se debe indicar los nombres en orden alfabético (de apellidos). Recordad que esta actividad se corresponde con un 30% de la nota final de la asignatura. Se debe entregar entregar el trabajo en la presente notebook.
*   Alumno 1:
*   Alumno 2:
*   Alumno 3:






---
## **PARTE 1** - Instalación y requisitos previos

> Las prácticas han sido preparadas para poder realizarse en el entorno de trabajo de Google Colab. Sin embargo, esta plataforma presenta ciertas incompatibilidades a la hora de visualizar la renderización en gym. Por ello, para obtener estas visualizaciones, se deberá trasladar el entorno de trabajo a local. Por ello, el presente dosier presenta instrucciones para poder trabajar en ambos entornos. Siga los siguientes pasos para un correcto funcionamiento:
1.   **LOCAL:** Preparar el enviroment, siguiendo las intrucciones detalladas en la sección *1.1.Preparar enviroment*.
2.  **AMBOS:** Modificar las variables "mount" y "drive_mount" a la carpeta de trabajo en drive en el caso de estar en Colab, y ejecturar la celda *1.2.Localizar entorno de trabajo*.
3. **COLAB:** se deberá ejecutar las celdas correspondientes al montaje de la carpeta de trabajo en Drive. Esta corresponde a la sección *1.3.Montar carpeta de datos local*.
4.  **AMBOS:** Instalar las librerías necesarias, siguiendo la sección *1.4.Instalar librerías necesarias*.


---
### 1.1. Preparar enviroment (solo local)



> Para preparar el entorno de trabajo en local, se han seguido los siguientes pasos:
1. En Windows, puede ser necesario instalar las C++ Build Tools. Para ello, siga los siguientes pasos: https://towardsdatascience.com/how-to-install-openai-gym-in-a-windows-environment-338969e24d30.
2. Instalar Anaconda
3. Siguiendo el código que se presenta comentado en la próxima celda: Crear un enviroment, cambiar la ruta de trabajo, e instalar librerías básicas.


```
conda create --name miar_rl python=3.8
conda activate miar_rl
cd "PATH_TO_FOLDER"
conda install git
pip install jupyter
```


4. Abrir la notebook con *jupyter-notebook*.



```
jupyter-notebook
```


---
### 1.2. Localizar entorno de trabajo: Google colab o local

In [74]:
# ATENCIÓN!! Modificar ruta relativa a la práctica si es distinta (drive_root)
mount='/content/gdrive'
drive_root = mount + "/My Drive/refuerzo"

try:
  from google.colab import drive
  IN_COLAB=True
except:
  IN_COLAB=False

---
### 1.3. Montar carpeta de datos local (solo Colab)

In [75]:
# Switch to the directory on the Google Drive that you want to use
import os
if IN_COLAB:
  print("We're running Colab")

  if IN_COLAB:
    # Mount the Google Drive at mount
    print("Colab: mounting Google drive on ", mount)

    drive.mount(mount)

    # Create drive_root if it doesn't exist
    create_drive_root = True
    if create_drive_root:
      print("\nColab: making sure ", drive_root, " exists.")
      os.makedirs(drive_root, exist_ok=True)

    # Change to the directory
    print("\nColab: Changing directory to ", drive_root)
    %cd $drive_root
# Verify we're in the correct working directory
%pwd
print("Archivos en el directorio: ")
print(os.listdir())

We're running Colab
Colab: mounting Google drive on  /content/gdrive
Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).

Colab: making sure  /content/gdrive/My Drive/refuerzo  exists.

Colab: Changing directory to  /content/gdrive/My Drive/refuerzo
/content/gdrive/My Drive/refuerzo
Archivos en el directorio: 
['weights', 'checkpoints', '08MIAR_dqn.ipynb', 'Proyecto_practico.ipynb']


---
### 1.4. Instalar librerías necesarias

In [76]:
if IN_COLAB:
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install keras-rl2==1.0.5
  %pip install tensorflow==2.12
else:
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install pyglet==1.5.0
  %pip install h5py==3.1.0
  %pip install Pillow==9.5.0
  %pip install keras-rl2==1.0.5
  %pip install Keras==2.2.4
  %pip install tensorflow==2.5.3
  %pip install torch==2.0.1
  %pip install agents==1.4.0

Collecting git+https://github.com/Kojoley/atari-py.git
  Cloning https://github.com/Kojoley/atari-py.git to /tmp/pip-req-build-4x0dsjot
  Running command git clone --filter=blob:none --quiet https://github.com/Kojoley/atari-py.git /tmp/pip-req-build-4x0dsjot
  Resolved https://github.com/Kojoley/atari-py.git to commit 86a1e05c0a95e9e6233c3a413521fdb34ca8a089
  Preparing metadata (setup.py) ... [?25l[?25hdone


In [77]:
!nvidia-smi

/bin/bash: line 1: nvidia-smi: command not found


In [78]:
import tensorflow as tf
import os

print("TensorFlow versión:", tf.__version__)
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    print("✅ GPU detectada:", gpus)
    tf.config.experimental.set_memory_growth(gpus[0], True)
else:
    print("❌ No se detecta GPU. Ve a Entorno de ejecución > Cambiar tipo de entorno de ejecución > GPU")

tf.config.experimental.enable_tensor_float_32_execution(True)

physical_devices = tf.config.list_physical_devices('GPU')

print("GPU:", tf.config.list_physical_devices('GPU'))
print("Num GPUs:", len(physical_devices))

TensorFlow versión: 2.12.0
❌ No se detecta GPU. Ve a Entorno de ejecución > Cambiar tipo de entorno de ejecución > GPU
GPU: []
Num GPUs: 0


---
### 1.5. Definir directorios de pesos y checkpoints

In [79]:
WEIGHTS_DIR = os.path.join(drive_root, "weights")
CHECKPOINT_DIR = os.path.join(drive_root, "checkpoints")
# Asegurar que existen los directorios
os.makedirs(WEIGHTS_DIR, exist_ok=True)
os.makedirs(CHECKPOINT_DIR, exist_ok=True)

print("Directorio de pesos:", WEIGHTS_DIR)
print("Directorio de checkpoints:", CHECKPOINT_DIR)
print("Archivos existentes en checkpoints:", os.listdir(CHECKPOINT_DIR))

Directorio de pesos: /content/gdrive/My Drive/refuerzo/weights
Directorio de checkpoints: /content/gdrive/My Drive/refuerzo/checkpoints
Archivos existentes en checkpoints: []


---
## **PARTE 2**. Enunciado

Consideraciones a tener en cuenta:

- El entorno sobre el que trabajaremos será _SpaceInvaders-v0_ y el algoritmo que usaremos será _DQN_.

- Para nuestro ejercicio, el requisito mínimo será alcanzado cuando el agente consiga una **media de recompensa por encima de 20 puntos en modo test**. Por ello, esta media de la recompensa se calculará a partir del código de test en la última celda del notebook.

Este proyecto práctico consta de tres partes:

1.   Implementar la red neuronal que se usará en la solución
2.   Implementar las distintas piezas de la solución DQN
3.   Justificar la respuesta en relación a los resultados obtenidos

**Rúbrica**: Se valorará la originalidad en la solución aportada, así como la capacidad de discutir los resultados de forma detallada. El requisito mínimo servirá para aprobar la actividad, bajo premisa de que la discusión del resultado sera apropiada.

IMPORTANTE:

* Si no se consigue una puntuación óptima, responder sobre la mejor puntuación obtenida.
* Para entrenamientos largos, recordad que podéis usar checkpoints de vuestros modelos para retomar los entrenamientos. En este caso, recordad cambiar los parámetros adecuadamente (sobre todo los relacionados con el proceso de exploración).
* Se deberá entregar unicamente el notebook y los pesos del mejor modelo en un fichero .zip, de forma organizada.
* Cada alumno deberá de subir la solución de forma individual.

---
## **PARTE 3**. Desarrollo y preguntas

#### Importar librerías

In [80]:
from __future__ import division

from PIL import Image
import numpy as np
import gym
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, Flatten, Convolution2D, Permute
from tensorflow.keras.optimizers.legacy import Adam
import tensorflow.keras.backend as K

from rl.agents.dqn import DQNAgent
from rl.policy import LinearAnnealedPolicy, BoltzmannQPolicy, EpsGreedyQPolicy
from rl.memory import SequentialMemory
from rl.core import Processor
from rl.callbacks import FileLogger, ModelIntervalCheckpoint
import os
import glob
from rl.callbacks import Callback
import re

#### Configuración base

In [81]:
INPUT_SHAPE = (84, 84)
WINDOW_LENGTH = 4

env_name = 'SpaceInvaders-v0'
env = gym.make(env_name)

np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n
print("Las acciones son : ",nb_actions," y son las siguientes:")

Las acciones son :  6  y son las siguientes:


In [82]:
class AtariProcessor(Processor):
    def process_observation(self, observation):
        assert observation.ndim == 3  # (height, width, channel)
        img = Image.fromarray(observation)
        img = img.resize(INPUT_SHAPE).convert('L')
        processed_observation = np.array(img)
        assert processed_observation.shape == INPUT_SHAPE
        return processed_observation.astype('uint8')

    def process_state_batch(self, batch):
        processed_batch = batch.astype('float32') / 255.
        return processed_batch

    def process_reward(self, reward):
        return np.clip(reward, -1., 1.)

1. Implementación de la red neuronal

In [97]:
# prompt: implementa una red neuronal para trabajar con el spaceinvaders de keras rl
model_name = 'Model_1'
weights_path = os.path.join(CHECKPOINT_DIR, f'dqn_{model_name}.h5')           # pesos
steps_path   = os.path.join(CHECKPOINT_DIR, f'dqn_{model_name}_steps.txt')

input_shape = (WINDOW_LENGTH,) + INPUT_SHAPE
model = Sequential()
model.add(Permute((2, 3, 1), input_shape=input_shape))
model.add(Convolution2D(32, (8, 8), strides=(4, 4), activation='relu'))
model.add(Convolution2D(64, (4, 4), strides=(2, 2), activation='relu'))
model.add(Convolution2D(64, (3, 3), strides=(1, 1), activation='relu'))
model.add(Flatten())
model.add(Dense(512, activation='relu'))
model.add(Dense(nb_actions, activation='linear'))
print(model.summary())


Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 permute_8 (Permute)         (None, 84, 84, 4)         0         
                                                                 
 conv2d_24 (Conv2D)          (None, 20, 20, 32)        8224      
                                                                 
 conv2d_25 (Conv2D)          (None, 9, 9, 64)          32832     
                                                                 
 conv2d_26 (Conv2D)          (None, 7, 7, 64)          36928     
                                                                 
 flatten_8 (Flatten)         (None, 3136)              0         
                                                                 
 dense_16 (Dense)            (None, 512)               1606144   
                                                                 
 dense_17 (Dense)            (None, 6)                

2. Implementación de la solución DQN

In [108]:
#Hiperparámetros
# Hiperparámetros optimizados para Space Invaders DQN
MEMORY_LIMIT = 1000000          # Aumentado para mejor experiencia replay
NB_STEPS = 1000000             # Mínimo recomendado para resultados decentes
NB_STEPS_WARMUP = 20000        # Mantener, es adecuado
GAMMA = 0.99                   # Valor estándar para Atari games
TARGET_MODEL_UPDATE = 10000    # Mantener, es correcto
TRAIN_INTERVAL = 4             # Frecuencia de entrenamiento estándar para DQN
LEARNING_RATE = 0.00025        # Valor estándar y probado para DQN
CALLBACK_INTERVAL = 10000      # Aumentado para mejor monitoreo
CALLBACK_INTERVAL_LOGGER = 10000  # Mantener consistente
FIT_NB_STEPS = 1000000         # Mantener igual que NB_STEPS
LOG_INTERVAL = 10000           # Aumentado para logs más espaciados
MODEL_CHECKPOINT_STEPS = 1000


In [109]:
memory = SequentialMemory(limit=MEMORY_LIMIT, window_length=WINDOW_LENGTH)

In [110]:
processor = AtariProcessor()

In [111]:
policy = BoltzmannQPolicy()

In [112]:
#implementacion checkpoints

def load_steps(steps_file):
    if os.path.exists(steps_file):
        with open(steps_file, 'r') as f:
            try:
                data=int(f.read().strip())
                print(data)
                return data
            except ValueError:
                pass
    return 0

class SaveLastWeights(Callback):                           # [3]
    def __init__(self, weights_path, steps_path,
                 interval_steps=10_000):
        super().__init__()
        self.weights_path   = weights_path
        self.steps_path     = steps_path
        self.interval_steps = interval_steps
        self.global_step    = load_steps(steps_path)       # contador persistente

    def on_step_end(self, _step, logs=None):
        # _step no es global: lo ignoramos y llevamos nuestro propio contador
        self.global_step += 1
        if self.global_step % self.interval_steps == 0:
            self.model.save_weights(self.weights_path, overwrite=True)
            with open(self.steps_path, 'w') as f:
                f.write(str(self.global_step))
            print(f'💾  Checkpoint guardado | paso global: {self.global_step:,}')

In [113]:
# Define the agent
dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory,
               processor=processor,
               nb_steps_warmup=NB_STEPS_WARMUP,
               gamma=GAMMA,
               target_model_update=TARGET_MODEL_UPDATE,
               train_interval=TRAIN_INTERVAL,
               policy=policy)

dqn.compile(Adam(learning_rate=LEARNING_RATE), metrics=['mae'])

In [None]:
# En lugar de crear el logger al inicio
# logger = FileLogger('training_log.json', interval=LOG_INTERVAL)

steps_done = load_steps(steps_path)
if os.path.exists(weights_path):
    dqn.load_weights(weights_path)
    print(f'✅  Pesos cargados| pasos completados: {steps_done:,}')
else:
    print('🆕  Entrenamiento nuevo (sin checkpoint previo)')

remaining_steps = max(1, NB_STEPS - steps_done)

In [115]:
#entrenar
save_cb = SaveLastWeights(weights_path, steps_path,
                          interval_steps=MODEL_CHECKPOINT_STEPS)

# Entrenar solo los pasos restantes
try:
    dqn.fit(env,
            nb_steps=remaining_steps,
            callbacks=[save_cb],
            log_interval=LOG_INTERVAL,
            verbose=2)
except KeyboardInterrupt:
    print("⏹️  Entrenamiento interrumpido manualmente")

# Guardar pesos finales con nombre del modelo
final_steps = load_steps(steps_path)
dqn.save_weights(weights_path, overwrite=True)
with open(steps_path, 'w') as f:
    f.write(str(final_steps))
print(f'Entrenamiento detenido. Pasos totales: {final_steps:,}')


219000
Training for 781000 steps ...


  updates=self.state_updates,


    941/781000: episode: 1, duration: 6.032s, episode steps: 941, steps per second: 156, episode reward: 20.000, mean reward:  0.021 [ 0.000,  1.000], mean action: 2.495 [0.000, 5.000],  loss: --, mae: --, mean_q: --
💾  Checkpoint guardado | paso global: 220,000
   1885/781000: episode: 2, duration: 5.083s, episode steps: 944, steps per second: 186, episode reward: 16.000, mean reward:  0.017 [ 0.000,  1.000], mean action: 2.525 [0.000, 5.000],  loss: --, mae: --, mean_q: --
💾  Checkpoint guardado | paso global: 221,000
done, took 14.166 seconds
221000
Entrenamiento detenido. Pasos totales: 221,000


In [None]:
weights_filename = os.path.join(CHECKPOINT_DIR, f'dqn_{model_name}.h5')

if not os.path.exists(weights_filename):
    raise FileNotFoundError(f'❌  No se encontró {weights_filename}')
dqn.load_weights(weights_filename)
print(f'✅  Pesos cargados desde {weights_filename}')
history  = dqn.test(env, nb_episodes=10, visualize=False)
rewards  = np.array(history.history['episode_reward'])
mean_reward = rewards.mean()
print(f"Media de recompensa obtenida en las pruebas: {mean_reward:.2f}")

✅  Pesos cargados desde /content/gdrive/My Drive/refuerzo/checkpoints/dqn_Model_1.h5
Testing for 10 episodes ...
Episode 1: reward: 8.000, steps: 643
Episode 2: reward: 9.000, steps: 731
Episode 3: reward: 6.000, steps: 441
Episode 4: reward: 4.000, steps: 388
Episode 5: reward: 21.000, steps: 1053
Episode 6: reward: 20.000, steps: 1204
Episode 7: reward: 13.000, steps: 1160
Episode 8: reward: 9.000, steps: 896


3. Justificación de los parámetros seleccionados y de los resultados obtenidos

---