# Practica 0 - Introduccion a Gym

> En la presente sesión, se va a realizar una introduccion a la libreria gym. Esta libreria de acceso abierto, desarrollada por OpenAI, ofrece entornos para distintos juegos de Atari. En dichos entornos, se pueden desarrollar, implementar, y comparar distintas soluciones de aprendizaje por refuerzo, de forma flexible.






---
## **PARTE 1** - Instalación y requisitos previos

> Las prácticas han sido preparadas para poder realizarse en el entorno de trabajo de Google Colab. Sin embargo, esta plataforma presenta ciertas incompatibilidades a la hora de visualizar la renderización en gym. Por ello, para obtener estas visualizaciones, se deberá trasladar el entorno de trabajo a local. Por ello, el presente dosier presenta instrucciones para poder trabajar en ambos entornos. Siga los siguientes pasos para un correcto funcionamiento:
1.   **LOCAL:** Preparar el enviroment, siguiendo las intrucciones detalladas en la sección *1.1.Preparar enviroment*.
2.  **AMBOS:** Modificar las variables "mount" y "drive_mount" a la carpeta de trabajo en drive en el caso de estar en Colab, y ejecturar la celda *1.2.Localizar entorno de trabajo*.
3. **COLAB:** se deberá ejecutar las celdas correspondientes al montaje de la carpeta de trabajo en Drive. Esta corresponde a la sección *1.3.Montar carpeta de datos local*.
4.  **AMBOS:** Instalar las librerías necesarias, siguiendo la sección *1.4.Instalar librerías necesarias*.



---
### 1.1. Preparar enviroment (solo local)



> Para preparar el entorno de trabajo en local, se han seguido los siguientes pasos:
1. En Windows, puede ser necesario instalar las C++ Build Tools. Para ello, siga los siguientes pasos: https://towardsdatascience.com/how-to-install-openai-gym-in-a-windows-environment-338969e24d30.
2. Instalar Anaconda
3. Siguiendo el código que se presenta comentado en la próxima celda: Crear un enviroment, cambiar la ruta de trabajo, e instalar librerías básicas.


```
conda update --all
conda create --name miar_rl python=3.8
conda activate miar_rl
cd "PATH_TO_FOLDER"
conda install git
pip install jupyter
```


4. Abrir la notebook con *jupyter-notebook*.



```
jupyter-notebook
```




---
### 1.2. Localizar entorno de trabajo: Google colab o local

In [1]:
# ATENCIÓN!! Modificar ruta relativa a la práctica si es distinta (drive_root)
mount='/content/gdrive'
drive_root = mount + "/My Drive/08_MIAR/sesiones_practicas/sesion_practica_0"

try:
  from google.colab import drive
  IN_COLAB=True
except:
  IN_COLAB=False

---
### 1.3. Montar carpeta de datos local (solo Colab)

In [2]:
# Switch to the directory on the Google Drive that you want to use
import os
if IN_COLAB:
  print("We're running Colab")

  if IN_COLAB:
    # Mount the Google Drive at mount
    print("Colab: mounting Google drive on ", mount)

    drive.mount(mount)

    # Create drive_root if it doesn't exist
    create_drive_root = True
    if create_drive_root:
      print("\nColab: making sure ", drive_root, " exists.")
      os.makedirs(drive_root, exist_ok=True)

    # Change to the directory
    print("\nColab: Changing directory to ", drive_root)
    %cd $drive_root
# Verify we're in the correct working directory
%pwd
print("Archivos en el directorio: ")
print(os.listdir())

Archivos en el directorio: 
['.ipynb_checkpoints', '08MIAR_intro_gym.ipynb']


---
### 1.4. Instalar librerías necesarias


In [4]:
if IN_COLAB:
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install keras-rl2==1.0.5
  %pip install tensorflow==2.8
else:
  %pip install --upgrade pip
  %pip install gym==0.17.3
  %pip install git+https://github.com/Kojoley/atari-py.git
  %pip install pyglet==1.5.0
  %pip install h5py==3.1.0
  %pip install Pillow==9.5.0
  %pip install keras-rl2==1.0.5
  %pip install Keras==2.2.4
  %pip install tensorflow==2.5.3
  %pip install torch==2.0.1
  %pip install agents==1.4.0

Note: you may need to restart the kernel to use updated packages.
Collecting gym==0.17.3
  Downloading gym-0.17.3.tar.gz (1.6 MB)
     ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
      --------------------------------------- 0.0/1.6 MB 325.1 kB/s eta 0:00:05
     --- ------------------------------------ 0.1/1.6 MB 1.1 MB/s eta 0:00:02
     ----------------- ---------------------- 0.7/1.6 MB 4.0 MB/s eta 0:00:01
     -------------------------------- ------- 1.3/1.6 MB 5.8 MB/s eta 0:00:01
     ---------------------------------------  1.6/1.6 MB 6.6 MB/s eta 0:00:01
     ---------------------------------------- 1.6/1.6 MB 5.5 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting scipy (from gym==0.17.3)
  Downloading scipy-1.10.1-cp38-cp38-win_amd64.whl (42.2 MB)
     ---------------------------------------- 0.0/42.2 MB ?

  Running command git clone --filter=blob:none --quiet https://github.com/Kojoley/atari-py.git 'C:\Users\hernane2\AppData\Local\Temp\1\pip-req-build-vqcbh9gi'


Note: you may need to restart the kernel to use updated packages.
Collecting h5py==3.1.0
  Downloading h5py-3.1.0-cp38-cp38-win_amd64.whl (2.7 MB)
     ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
     ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
     ---------------------------------------- 0.0/2.7 MB 330.3 kB/s eta 0:00:09
     -- ------------------------------------- 0.2/2.7 MB 1.0 MB/s eta 0:00:03
     ----------- ---------------------------- 0.7/2.7 MB 3.9 MB/s eta 0:00:01
     ------------------ --------------------- 1.3/2.7 MB 5.8 MB/s eta 0:00:01
     --------------------------- ------------ 1.9/2.7 MB 6.6 MB/s eta 0:00:01
     ----------------------------------- ---- 2.4/2.7 MB 7.3 MB/s eta 0:00:01
     ---------------------------------------  2.7/2.7 MB 7.5 MB/s eta 0:00:01
     ---------------------------------------  2.7/2.7 MB 7.5 MB/s eta 0:00:01
     ---------------------------------------- 2.7/2.7 MB 5.8 MB/s eta 0:00:00
Install

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow-intel 2.13.0 requires keras<2.14,>=2.13.1, but you have keras 2.2.4 which is incompatible.


Note: you may need to restart the kernel to use updated packages.Collecting tensorflow==2.5.3
  Downloading tensorflow-2.5.3-cp38-cp38-win_amd64.whl (428.2 MB)
     ---------------------------------------- 0.0/428.2 MB ? eta -:--:--
     ---------------------------------------- 0.0/428.2 MB ? eta -:--:--
     -------------------------------------- 0.0/428.2 MB 325.1 kB/s eta 0:21:58
     -------------------------------------- 0.1/428.2 MB 930.9 kB/s eta 0:07:40
     ---------------------------------------- 0.7/428.2 MB 4.2 MB/s eta 0:01:43
     ---------------------------------------- 1.3/428.2 MB 5.7 MB/s eta 0:01:15
     ---------------------------------------- 1.9/428.2 MB 7.0 MB/s eta 0:01:02
     ---------------------------------------- 2.5/428.2 MB 7.9 MB/s eta 0:00:55
     ---------------------------------------- 3.1/428.2 MB 8.2 MB/s eta 0:00:52
     ---------------------------------------- 3.6/428.2 MB 8.6 MB/s eta 0:00:50
     ---------------------------------------- 4.1/428.

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
async-lru 2.0.4 requires typing-extensions>=4.0.0; python_version < "3.11", but you have typing-extensions 3.7.4.3 which is incompatible.
tensorflow-intel 2.13.0 requires absl-py>=1.0.0, but you have absl-py 0.15.0 which is incompatible.
tensorflow-intel 2.13.0 requires flatbuffers>=23.1.21, but you have flatbuffers 1.12 which is incompatible.
tensorflow-intel 2.13.0 requires keras<2.14,>=2.13.1, but you have keras 2.2.4 which is incompatible.
tensorflow-intel 2.13.0 requires numpy<=1.24.3,>=1.22, but you have numpy 1.19.5 which is incompatible.
tensorflow-intel 2.13.0 requires tensorboard<2.14,>=2.13, but you have tensorboard 2.11.2 which is incompatible.
tensorflow-intel 2.13.0 requires tensorflow-estimator<2.14,>=2.13.0, but you have tensorflow-estimator 2.5.0 which is incompatible.


Collecting torch==2.0.1
  Downloading torch-2.0.1-cp38-cp38-win_amd64.whl (172.4 MB)
     ---------------------------------------- 0.0/172.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/172.4 MB ? eta -:--:--
     -------------------------------------- 0.0/172.4 MB 487.6 kB/s eta 0:05:54
     ---------------------------------------- 0.6/172.4 MB 3.9 MB/s eta 0:00:44
     ---------------------------------------- 1.1/172.4 MB 5.8 MB/s eta 0:00:30
     ---------------------------------------- 1.6/172.4 MB 6.9 MB/s eta 0:00:25
      --------------------------------------- 2.2/172.4 MB 7.7 MB/s eta 0:00:23
      --------------------------------------- 2.7/172.4 MB 8.2 MB/s eta 0:00:21
      --------------------------------------- 3.2/172.4 MB 8.9 MB/s eta 0:00:19
      --------------------------------------- 3.9/172.4 MB 9.3 MB/s eta 0:00:19
      --------------------------------------- 4.1/172.4 MB 8.7 MB/s eta 0:00:20
     - -------------------------------------- 5.1

---
## **PARTE 2** - *Librerias de RL*

> A continuacion, se introducen una serie de librerias para desarrollar soluciones de deep learning para el aprendizaje profundo.

>**Librerias focalizadas en implementar entrenamiento:**
*   Tensorflow: https://www.tensorflow.org/
*   Keras-rl: https://github.com/keras-rl/keras-rl
*   Pytorch: https://pytorch.org/
*   SpinningUp: https://spinningup.openai.com/en/latest/

>**Librerias centradas en trabajar con entornos:**
*   Gym: https://gym.openai.com/
*   Retro: https://github.com/openai/retro
*   Unity: https://unity.com/es/products/machine-learning-agents
*   Carla:  https://github.com/carla-simulator/carla



## Notas iniciales ()
- Stickiness of actions: forma de exploración, donde en vez de realizar una acción aleatoria repites la acciión antes realizada.

---
## **PARTE 3** - *Ejemplo de entornos con gym*

In [3]:
import gym  # Importamos libreria - Si no os salta error, lo tenéis bien instalado. Especial Atención a las librerías de C++.

---

In [4]:
# Crear el entorno sobre el cual vamos a ejecutar nuestro agente
env = gym.make("BreakoutDeterministic-v4") # determinista, a partir de un camino siempre se generan los mismos patrones
env.seed(123)

[123, 151010689]

In [5]:
# Observamos dimensiones de espacio de observaciones y acciones
print("Dimension del espacio de observaciones")
print(env.observation_space.shape)

Dimension del espacio de observaciones
(210, 160, 3)


In [7]:
# Observamos dimensiones de espacio de observaciones y acciones
print("Dimension del espacio de acciones")
print(env.action_space)

Dimension del espacio de acciones
Discrete(4)


In [11]:
# Bucle básico de ejecución
env = gym.make("BreakoutDeterministic-v4")
observation = env.reset()  # Reseteamos el entorno y nos da observación inicial
steps = 10000 # Iteraciones a realizar dentro de nuestra trayectoria (limite máximo)

for _ in range(steps):
    # Renderizar - visualizar steps 
    if not IN_COLAB:
        env.render()

    # Seleccionamos acción aleatoria
    action = env.action_space.sample()
    # Pasarale al entorno la acción seleccionada por el agente
    observation, reward, done, info = env.step(action)

    # Simulamos hasta el done, entonces reseteamos
    if done: 
        observation = env.reset()

env.close()

In [13]:
# Bucle bueno para entrenar y testear
env = gym.make("BreakoutDeterministic-v4")
observation = env.reset()  # Reseteamos el entorno y nos da observación inicial
episodes = 100
steps_max = 1000 # T (from t=0:T #pseudocódigo)

for episode in range(episodes): # bucle
    done = False # Flag para terminar episodio
    episode_reward = 0 # Calculamos recompensa del episodio

    step_i = 0 # c
    while not done: # bucle de los steps (itreaciones)
        step_i += 1
        # Renderizar - visualizar steps 
        if not IN_COLAB:
            env.render()

        # Seleccionamos accción aleatoria
        action = env.action_space.sample()
        # Pasarale al entorno la acción seleccionada por el agente
        observation, reward, done, info = env.step(action)

        # KPI: recompensa total de la trayectoria
        episode_reward += reward

        if done: # se ha acabado la simulación
            observation = env.reset()
        if steps_max < step_i: # ha llegado al número máximo de steps
            done = True
            observation = env.reset()
    
    # Simulación ha terminado: display de recompensa total
    print("Recompensa obtenida en episodio: " + str(episode_reward))
env.close()

Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 2.0
Recompensa obtenida en episodio: 4.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 2.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 1.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 2.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 1.0
Recompensa obtenida en episodio: 2.0
Recompensa obtenida en episodio: 2.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 4.0
Recompensa obtenida en episodio: 4.0
Recompensa obtenida en episodio: 3.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 3.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 3.0
Recompensa obtenida en episodio: 0.0
Recompensa obtenida en episodio: 2.0
R