# Actividad - Proyecto práctico


> La actividad se desarrollará en grupos pre-definidos de 2-3 alumnos. Se debe indicar los nombres en orden alfabético (de apellidos). Recordad que esta actividad se corresponde con un 30% de la nota final de la asignatura. Se debe entregar entregar el trabajo en la presente notebook.
*   Alumno 1: Granizo, Mateo
*   Alumno 2: Maiolo, Pablo
*   Alumno 3: Miglino, Diego






---
## **PARTE 1** - Instalación y requisitos previos

> Las prácticas han sido preparadas para poder realizarse en el entorno de trabajo de Google Colab. Sin embargo, esta plataforma presenta ciertas incompatibilidades a la hora de visualizar la renderización en gym. Por ello, para obtener estas visualizaciones, se deberá trasladar el entorno de trabajo a local. Por ello, el presente dosier presenta instrucciones para poder trabajar en ambos entornos. Siga los siguientes pasos para un correcto funcionamiento:
1.   **LOCAL:** Preparar el enviroment, siguiendo las intrucciones detalladas en la sección *1.1.Preparar enviroment*.
2.  **AMBOS:** Modificar las variables "mount" y "drive_mount" a la carpeta de trabajo en drive en el caso de estar en Colab, y ejecturar la celda *1.2.Localizar entorno de trabajo*.
3. **COLAB:** se deberá ejecutar las celdas correspondientes al montaje de la carpeta de trabajo en Drive. Esta corresponde a la sección *1.3.Montar carpeta de datos local*.
4.  **AMBOS:** Instalar las librerías necesarias, siguiendo la sección *1.4.Instalar librerías necesarias*.


---
### 1.1. Preparar enviroment (solo local)



> Para preparar el entorno de trabajo en local, se han seguido los siguientes pasos:
1. En Windows, puede ser necesario instalar las C++ Build Tools. Para ello, siga los siguientes pasos: https://towardsdatascience.com/how-to-install-openai-gym-in-a-windows-environment-338969e24d30.
2. Instalar Anaconda
3. Siguiendo el código que se presenta comentado en la próxima celda: Crear un enviroment, cambiar la ruta de trabajo, e instalar librerías básicas.


```
conda create --name miar_rl python=3.8
conda activate miar_rl
cd "PATH_TO_FOLDER"
conda install git
pip install jupyter
```


4. Abrir la notebook con *jupyter-notebook*.



```
jupyter-notebook
```


---
### 1.2. Localizar entorno de trabajo: Google colab o local

In [3]:
# ATENCIÓN!! Modificar ruta relativa a la práctica si es distinta (drive_root)
mount='/content/gdrive'
drive_root = mount + "/My Drive/08_MIAR/actividades/TP_Grupal"
mount='./'

try:
  from google.colab import drive
  IN_COLAB=True
except:
  IN_COLAB=False
print(IN_COLAB)

False


---
### 1.3. Montar carpeta de datos local (solo Colab)

In [4]:
# Switch to the directory on the Google Drive that you want to use
import os
if IN_COLAB:
  print("We're running Colab")

  if IN_COLAB:
    # Mount the Google Drive at mount
    print("Colab: mounting Google drive on ", mount)

    drive.mount(mount)

    # Create drive_root if it doesn't exist
    create_drive_root = True
    if create_drive_root:
      print("\nColab: making sure ", drive_root, " exists.")
      os.makedirs(drive_root, exist_ok=True)

    # Change to the directory
    print("\nColab: Changing directory to ", drive_root)
    %cd $drive_root
# Verify we're in the correct working directory
%pwd
print("Archivos en el directorio: ")
print(os.listdir())

Archivos en el directorio: 
['.git', '.ipynb_checkpoints', 'anaconda_projects', 'apr_g9_dqn_SpaceInvaders-v0_log.json', 'apr_g9_dqn_SpaceInvaders-v0_weights.h5f.data-00000-of-00001', 'apr_g9_dqn_SpaceInvaders-v0_weights.h5f.index', 'APR_Grupo_9.ipynb', 'checkpoint', 'README.md']


---
### 1.4. Instalar librerías necesarias

In [None]:
# ejecutar solo la primera vez..

if IN_COLAB:
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install keras-rl2==1.0.5
  %pip install tensorflow==2.12
else:
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install pyglet==1.5.0
  %pip install h5py==3.1.0
  %pip install Pillow==9.5.0
  %pip install keras-rl2==1.0.5
  %pip install Keras==2.2.4
  %pip install tensorflow==2.5.3
  %pip install torch==2.0.1
  %pip install agents==1.4.0

---
## **PARTE 2**. Enunciado

Consideraciones a tener en cuenta:

- El entorno sobre el que trabajaremos será _SpaceInvaders-v0_ y el algoritmo que usaremos será _DQN_.

- Para nuestro ejercicio, el requisito mínimo será alcanzado cuando el agente consiga una **media de recompensa por encima de 20 puntos en modo test**. Por ello, esta media de la recompensa se calculará a partir del código de test en la última celda del notebook.

Este proyecto práctico consta de tres partes:

1.   Implementar la red neuronal que se usará en la solución
2.   Implementar las distintas piezas de la solución DQN
3.   Justificar la respuesta en relación a los resultados obtenidos

**Rúbrica**: Se valorará la originalidad en la solución aportada, así como la capacidad de discutir los resultados de forma detallada. El requisito mínimo servirá para aprobar la actividad, bajo premisa de que la discusión del resultado sera apropiada.

IMPORTANTE:

* Si no se consigue una puntuación óptima, responder sobre la mejor puntuación obtenida.
* Para entrenamientos largos, recordad que podéis usar checkpoints de vuestros modelos para retomar los entrenamientos. En este caso, recordad cambiar los parámetros adecuadamente (sobre todo los relacionados con el proceso de exploración).
* Se deberá entregar unicamente el notebook y los pesos del mejor modelo en un fichero .zip, de forma organizada.
* Cada alumno deberá de subir la solución de forma individual.

---
## **PARTE 3**. Desarrollo y preguntas

#### Importar librerías

In [4]:
from __future__ import division

from PIL import Image
import numpy as np
import gym

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, Flatten, Convolution2D, Permute
from tensorflow.keras.optimizers import Adam
import tensorflow.keras.backend as K

from rl.agents.dqn import DQNAgent
from rl.policy import LinearAnnealedPolicy, BoltzmannQPolicy, EpsGreedyQPolicy
from rl.memory import SequentialMemory
from rl.core import Processor
from rl.callbacks import FileLogger, ModelIntervalCheckpoint

#### Configuración base

In [5]:
INPUT_SHAPE = (84, 84)
WINDOW_LENGTH = 4  # Cambiado de 1 a 4 para capturar secuencia de frames

env_name = 'SpaceInvaders-v0'
env = gym.make(env_name)

np.random.seed(123)
env.seed(123)
nb_actions = env.action_space.n

print("Numero de acciones disponibles: " + str(nb_actions))
print("Formato de las observaciones: " + str(env.observation_space))

Numero de acciones disponibles: 6
Formato de las observaciones: Box(0, 255, (210, 160, 3), uint8)


In [6]:
class AtariProcessor(Processor):
    def process_observation(self, observation):
        assert observation.ndim == 3  # (height, width, channel)
        img = Image.fromarray(observation)
        img = img.resize(INPUT_SHAPE).convert('L')
        processed_observation = np.array(img)
        assert processed_observation.shape == INPUT_SHAPE
        return processed_observation.astype('uint8')

    def process_state_batch(self, batch):
        processed_batch = batch.astype('float32') / 255.
        return processed_batch

    def process_reward(self, reward):
        return np.clip(reward, -1., 1.)

1. Implementación de la red neuronal

In [20]:
# modelo simple - no usar

# model = Sequential()
# model.add(Flatten(input_shape=(1,) + env.observation_space.shape))
# model.add(Dense(16))
# model.add(Activation('relu'))
# model.add(Dense(16))
# model.add(Activation('relu'))
# model.add(Dense(16))
# model.add(Activation('relu'))
# model.add(Dense(nb_actions))
# model.add(Activation('linear'))
# print(model.summary())

In [7]:
# modelo mas complejo - usar este
input_shape = (WINDOW_LENGTH,) + INPUT_SHAPE
model = Sequential()
print(K.image_data_format())
print(input_shape)
if K.image_data_format() == 'channels_last':
    # (width, height, channels)
    model.add(Permute((2, 3, 1), input_shape=input_shape))
elif K.image_data_format() == 'channels_first':
    # (channels, width, height)
    model.add(Permute((1, 2, 3), input_shape=input_shape))
else:
    raise RuntimeError('Unknown image_dim_ordering.')

model.add(Convolution2D(32, (8, 8), strides=(4, 4)))
model.add(Activation('relu'))
model.add(Convolution2D(64, (4, 4), strides=(2, 2)))
model.add(Activation('relu'))
model.add(Convolution2D(64, (3, 3), strides=(1, 1)))
model.add(Activation('relu'))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(nb_actions))
model.add(Activation('linear'))
print(model.summary())

2. Implementación de la solución DQN

In [8]:
# memoria para almacenar la experiencia del agente
memory = SequentialMemory(limit=50000, window_length=WINDOW_LENGTH)  # Aumentado de 500 a 50000

# processor
processor = AtariProcessor()

# policy que el agente va a seguir
#policy = BoltzmannQPolicy()
policy = LinearAnnealedPolicy(EpsGreedyQPolicy(), attr='eps',
                              value_max=1., value_min=.1, value_test=.05,
                              nb_steps=50000)  # Aumentado de 100 a 50000

# definicion del agente
dqn = DQNAgent(model=model, nb_actions=nb_actions, policy=policy,
               memory=memory, processor=processor,
               nb_steps_warmup=1000, gamma=.99,  # Aumentado warmup de 500 a 1000
               target_model_update=1000,  # Aumentado de 100 a 1000
               train_interval=4)

# compilacion del agente
dqn.compile(Adam(learning_rate=.00025), metrics=['mae'])

In [9]:
# entrenamiento del agente
weights_filename = 'apr_g9_dqn_{}_weights.h5f'.format(env_name)
checkpoint_weights_filename = 'apr_g9_dqn_' + env_name + '_weights_{step}.h5f'
log_filename = 'apr_g9_dqn_{}_log.json'.format(env_name)
callbacks = [ModelIntervalCheckpoint(checkpoint_weights_filename, interval=5000)]  # Aumentado de 2500 a 5000
callbacks += [FileLogger(log_filename, interval=100)]  # Aumentado de 10 a 100
dqn.fit(env, callbacks=callbacks, nb_steps=50000, log_interval=1000, visualize=False)  # Aumentado de 1500 a 50000 y log_interval de 100 a 1000

# se graban los pesos finales luego de finalizar el entrenamiento
dqn.save_weights('apr_g9_dqn_{}_weights.h5f'.format(env_name), overwrite=True)

In [11]:
# test de n episodios para calcular la recompensa final
weights_filename = 'apr_g9_dqn_{}_weights.h5f'.format(env_name)
dqn.load_weights(weights_filename)
dqn.test(env, nb_episodes=10, visualize=True)

3. Justificación de los parámetros seleccionados y de los resultados obtenidos

### Justificación de los parámetros seleccionados

En esta implementación, se han realizado varias modificaciones importantes para mejorar el rendimiento del agente DQN en el entorno Space Invaders:

1. **WINDOW_LENGTH = 4 (antes era 1)**: 
   - En juegos Atari como Space Invaders, la dirección y velocidad de los objetos son cruciales para tomar decisiones óptimas.
   - Con WINDOW_LENGTH=1, el agente solo veía un frame estático, lo que le impedía percibir movimiento.
   - Al aumentar a 4 frames consecutivos, el agente puede detectar la dirección y velocidad de los aliens y proyectiles, permitiéndole anticipar movimientos y tomar mejores decisiones.

2. **Memoria aumentada (de 500 a 50000)**:
   - La memoria de experiencia es fundamental en DQN para el aprendizaje estable.
   - 500 experiencias es extremadamente limitado para un entorno complejo como Space Invaders.
   - Con 50000 experiencias, el agente puede recordar y aprender de una variedad mucho mayor de situaciones, mejorando su capacidad de generalización.

3. **nb_steps en LinearAnnealedPolicy (de 100 a 50000)**:
   - Este parámetro controla la velocidad con que decae epsilon (tasa de exploración).
   - Con solo 100 pasos, el agente pasaba de exploración completa a casi nula demasiado rápido.
   - Al aumentar a 50000, la exploración disminuye gradualmente, permitiendo un mejor balance entre exploración y explotación durante todo el entrenamiento.

4. **Duración del entrenamiento (de 1500 a 50000 pasos)**:
   - 1500 pasos es insuficiente para que el agente aprenda estrategias efectivas en Space Invaders.
   - Con 50000 pasos, el agente tiene muchas más oportunidades de experimentar diferentes situaciones y refinar su política.

5. **Otros parámetros ajustados**:
   - nb_steps_warmup aumentado de 500 a 1000: Permite más tiempo para llenar la memoria antes de comenzar el aprendizaje.
   - target_model_update aumentado de 100 a 1000: Actualiza la red objetivo con menos frecuencia, estabilizando el aprendizaje.
   - Intervalos de checkpoint y logging ajustados para adaptarse a la mayor duración del entrenamiento.

### Resultados esperados

Con estos cambios, esperamos que el agente logre una puntuación media superior a 20 puntos en el modo test, cumpliendo con el requisito mínimo del ejercicio. Los cambios realizados abordan las principales limitaciones de la implementación original:

1. Capacidad para percibir movimiento (crucial en Space Invaders)
2. Memoria suficiente para aprender de experiencias diversas
3. Balance adecuado entre exploración y explotación
4. Tiempo de entrenamiento suficiente para desarrollar estrategias efectivas

Estos ajustes siguen las mejores prácticas establecidas en la literatura de aprendizaje por refuerzo para entornos Atari, particularmente las recomendaciones del artículo original de DQN de DeepMind.

---