# INTRODUCCIÓN A OPENAI GYM

[OpenAI Gym](https://gym.openai.com/) es una librería de Python desarrollada por [OpenAI](https://openai.com/) (una de las compañías de investigación en Inteligencia Artificial más importantes a nivel mundial) y que permite implementar diferentes algoritmos de Aprendizaje por Refuerzo y simular la interacción entre Agentes y Entornos.

## 1. Instalación

In [None]:
# Modificación septiembre 2/2022
# Se requiere la versión 0.17.3 de OpenAI Gym para poder
# usar el método "render". Versiones más recientes no
# permiten usar este método desde Google Colab
!pip install gym==0.17.3

Collecting gym==0.17.3
  Downloading gym-0.17.3.tar.gz (1.6 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.6 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/1.6 MB[0m [31m6.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.6/1.6 MB[0m [31m20.8 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.6/1.6 MB[0m [31m20.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyglet<=1.5.0,>=1.4.0 (from gym==0.17.3)
  Downloading pyglet-1.5.0-py2.py3-none-any.whl.metadata (7.6 kB)
Collecting cloudpickle<1.7.0,>=1.2.0 (from gym==0.17.3)
  Downloading cloudpickle-1.6.0-py3-none-any.whl.metadata (4.3 kB)
Downloading 

## 2. Entornos

Los [entornos](https://gym.openai.com/envs/FrozenLake-v0/) son el bloque fundamental de OpenAi Gym.

Básicamente implementan en Python un simulador del entorno en el cual queremos entrenar nuestro Agente.

OpenAI Gym contiene ya pre-instalados varios entornos útiles en problemas básicos (como el que veremos en esta lección) y en áreas como el control, la robótica o incluso los videojuegos. Además permite la creación de entornos personalizados.

En esta lección usaremos el entorno [*Frozen Lake*](https://gym.openai.com/envs/FrozenLake-v0/) (o "El lago congelado") que en esencia es el Tablero Bidimensional Estocástico que hemos venido trabajando:

In [None]:
# Importemos la librería ("gym") y creemos el objeto que contendrá
# el entorno ("env")
import gym
env = gym.make('FrozenLake-v0')

Con el método `render` podemos visualizar el entorno y su estado actual:

In [None]:
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


La variable `observation_space` contiene el "espacio de observaciones",
que en nuestro caso es el mismo espacio de estados:

In [None]:
S = env.observation_space
print(S)

Discrete(16)


La variable `action_space` contiene el espacio de acciones:

In [None]:
A = env.action_space
print(A)

Discrete(4)


Y la variable `P` contiene la función de transición:

In [None]:
P = env.P
print(P)

{0: {0: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 4, 0.0, False)], 1: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 1, 0.0, False)], 2: [(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)], 3: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False)]}, 1: {0: [(0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 5, 0.0, True)], 1: [(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 5, 0.0, True), (0.3333333333333333, 2, 0.0, False)], 2: [(0.3333333333333333, 5, 0.0, True), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False)], 3: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)]}, 2: {0: [(0.3333333333333333, 2, 0.0, False), (0.3333333333333333

Esta función de transición es un diccionario que tendrá un tamaño igual al número de estados:

In [None]:
len(P)

16

Si por ejemplo escribimos `P[0][2]` lo que obtendremos será la función de transición partiendo del estado *s=0* y tomando la acción *a=2*:

In [None]:
P[14][2]

[(0.3333333333333333, 14, 0.0, False),
 (0.3333333333333333, 15, 1.0, True),
 (0.3333333333333333, 10, 0.0, False)]

¿Cómo se lee este resultado?

- `(0.33, 14, 0.0, False)`: desde el estado 14, y tomando la acción 2, hay un **0.33** de probabilidad de permanecer en el estado **14**, obteniendo una recompensa de **0.0** y el estado al que llegaría no es terminal (`False`)
- `(0.33, 15, 1.0, True)`: desde el estado 14, y tomando la acción 2, hay un **0.33** de probabilidad de llegar al estado **15**, obteniendo una recompensa de **1.0** y el estado al que llegaría es terminal (`True`)
- `(0.33, 10, 0.0, False)`: desde el estado 14, y tomando la acción 2, hay un **0.33** de probabilidad de llegar al estado **10**, obteniendo una recompensa de **0.0** y el estado al que llegaría no es terminal (`False`)

## 3. Interactuando con el entorno

Además, el entorno contiene métodos útiles que permiten la interacción del Agente.

`reset` reinicia el entorno al estado inicial y retorna el valor de dicho estado:

In [None]:
s = env.reset()
print(s)
env.render()

0

[41mS[0mFFF
FHFH
FFFH
HFFG


`step` ejecuta una acción por parte del Agente dentro del Entorno.

Como habrá una transición de estado, retorna:
- observation (el nuevo estado, s')
- reward (la recompensa obtenida, r)
- done ("True" si el episodio terminó)
- info (datos adicionales que dependen del entorno)

In [None]:
# Seleccionar una acción aleatoria
a = env.action_space.sample()
print(a)

3


In [None]:
# Aplicar "step"
s_, r, done, info = env.step(a)

print(f'Nuevo estado: {s_}')
print(f'Recompensa: {r}')
print(f'¿Terminó el episodio?: {done}')
print(f'Información adicional: {info}')

Nuevo estado: 2
Recompensa: 0.0
¿Terminó el episodio?: False
Información adicional: {'prob': 0.3333333333333333}


In [None]:
# Renderizar el entorno actualizado
env.render()

  (Up)
SF[41mF[0mF
FHFH
FFFH
HFFG
