#### Introducción al Gym:

**Por qué necesitamos de un Gym en RL?**

Existen dos problemas fundamentales cuando se hacen investigaciones en RL. El primero es que no existe un benchmark final para los algoritmos que salen dentro del campo, a comparación de otras ramas de la Inteligencia Artificial donde se poseen datasets gigantescos para poder comparar el desempeño de múltiples algoritmos. Por eso, OpenAI propone una serie de **environments predeterminados** donde los investigadores pueden probar sus algoritmos bajo las mismas características y de forma fácil ahorrando tiempo y maximizando eficiencia. El seguno motivo es que la **estandarización** de los environment a través de las publicaciones no es estricta, es decir, deja mucha posibilidad a desregularizaciones o mal-especificaciones. Esto lleva a que los papers sean difíciles de replicar, pues los environments no son exactamente replicados. 



Qué ofrece la librería Gym?:
Poder establecer y estandarizar una cantidad diversa de environments para probar nuestros algoritmos de RL: [LISTA DE ENVIRONMENTS](https://gym.openai.com/envs/)

Podemos importar esta cantidad de environments, pero para poder mostrar qué conceptos usaremos en primera instancia cogeremos de ejemplo dos juegos: FrozenLake y Taxi.

**Frozen Lake**

El agente está en un espacio de 4x4, donde tiene que ir de un punto S(Start) hacia un punto G (Goal) sin pasar por los puntos H(Hold) porque en ese caso, pierde.

**Taxi**

El agente es un taxista, que tiene que recoger pasajeros en una locación, y luego dejarlos en otra. Reciben 20 puntos si lo deja de manera exitosa, pero como cualquier taxista debe de tener en cuenta: el tiempo es dinero. Entonces, el agente perderá 1 punto cada vez que se demore un turno y, además, se le restan 10 puntos por cada recogida ilegal que el agente hace.

In [1]:
import gym

#Cargaremos el environment FrozenLake y lo almacenamos en una variable.
lake_env = gym.make('FrozenLake-v0')
#Veremos el environment:
lake_env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [2]:
#Cargamos el environment Taxi
blackjack_env = gym.make('Taxi-v3')
blackjack_env.render()

+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| |[43m [0m: | : |
|Y| : |[34;1mB[0m: |
+---------+



#### ¿Cuáles son las características de estos environments?

Cada environment viene con sus variables descriptivas que podemos llamar bajo diversos métodos, esto nos será útil para preocuparnos solamente del proceso de optimización y no de la configuración del sistema. A grandes rasgos tenemos:

``.observation_space``: El Espacio en el cual se podrá mover el agente.

``.action_space``: El diverso número de acciones que puede tomar el agente a través de todo el environment. En su mayoría está encodeado de la forma: {0: Izquierda, 1: Abajo, 2: Derecha, 3:Arriba}

``.P``: Nos dará un diccionario con la matriz de transición, en donde cada elemento estará ordenado por [estado] y [acción]. Esto nos es útil porque podemos ver cuáles son las probabilidades de transición, el estado al que lleva esa acción implicada, el reward o pago que obtendremos por hacer esa acción y el Estado de la acción (si es el final o no).

In [3]:
print(lake_env.observation_space)
print(lake_env.action_space)
print(lake_env.P[0][2])
print(lake_env.P[0][0])
print(lake_env.P[1][2])

Discrete(16)
Discrete(4)
[(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)]
[(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 4, 0.0, False)]
[(0.3333333333333333, 5, 0.0, True), (0.3333333333333333, 2, 0.0, False), (0.3333333333333333, 1, 0.0, False)]


In [4]:
print(blackjack_env.observation_space)
print(blackjack_env.action_space)
print(lake_env.P[0][2])
print(lake_env.P[0][0])

Discrete(500)
Discrete(6)
[(0.3333333333333333, 4, 0.0, False), (0.3333333333333333, 1, 0.0, False), (0.3333333333333333, 0, 0.0, False)]
[(0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 0, 0.0, False), (0.3333333333333333, 4, 0.0, False)]


#### Ambientes dinámicos:


Los ambientes dinámicos necesitan ser invocados en una iteración, pues es un agente que posee un intervalo de vida que si no se define incurre en error. Además, existen ambientes en 2D y 3D y la complejidad es proporcional a sus dimensiones porque tenemos un mayor espacio de acción. Sin embargo, el tener espacios en 3D posibilita la aplicación de estos algoritmos en robótica!

In [None]:
#De la documentación oficial:

car_env = gym.make('MountainCarContinuous-v0')
observation = car_env.reset()

for _ in range(1000):
    car_env.render()
    action = car_env.action_space.sample() #Obtengo una acción random para el agente.
    
    observation, reward, done, info = car_env.step(action)
    
    if done:
        observation = car_env.reset()
        
car_env.close() #Siempre tenemos que cerrar el ambiente al finalizar.

La clase Box es un espacio en R^n que representa un producto cartesiano de los n intervalos más cercanos.

In [8]:
#El Espacio de observación del agente está definido por el Objeto Box. 
#Recuerda que en espacios discretos esto era Discrete
car_env.observation_space

Box(-1.2000000476837158, 0.6000000238418579, (2,), float32)

In [4]:
car_env.action_space

Box(-1.0, 1.0, (1,), float32)

In [10]:
#Podemos imprimirlo de esta manera
print('Espacio de acción Continuo: (%.4f to %.4f)'%(env.action_space.low, env.action_space.high))
print('Rango de rewards: %s'%(str(env.reward_range)))
for dimension in range(len(env.observation_space.low)):
    print('Rango de Observación para la dimensión %d: (%.4f to %.4f)'%
         (dimension, env.observation_space.low[dimension], env.observation_space.high[dimension]))

Espacio de acción Continuo: (-1.0000 to 1.0000)
Rango de rewards: (-inf, inf)
Rango de Observación para la dimensión 0: (-1.2000 to 0.6000)
Rango de Observación para la dimensión 1: (-0.0700 to 0.0700)
