### La Verdad sobre Convertirse en un Ingeniero de Aprendizaje Automático (ML)

¡El aprendizaje automático es increíblemente fascinante y divertido! Sin embargo, un juego que compras en la tienda no estará diseñado para ser jugado por una computadora (algoritmo de ML), lo que nos lleva a un problema y probablemente a una de las partes más intensivas en tiempo de ser un ingeniero de ML: alimentar las entradas de un entorno (virtual o real) en nuestro algoritmo.

Afortunadamente, existe una biblioteca de Python (un paquete de código) que ya existe y eliminará este problema por nosotros!

<img src="gymnasium-text.png" alt="gymnasium" width="400"/>

# ________________________________________________________

<p float="left">
  <img src="adventure.gif" width="98" />
  <img src="car_racing.gif" width="225" /> 
  <img src="frozen_lake.gif" width="150" />
  <img src="taxi.gif" width="235" />
</p>

Gymnasium, de OpenAI, los creadores de ChatGPT, nos dará acceso a un número infinito de entornos, permitiéndonos probar y entrenar nuestros futuros algoritmos de ML.

<p float="left">
    <img src="AE_loop (1).png" alt="drawing" width="400"/>
</p>

Gymnasium implementa el bucle clásico de agente y entorno (como se ve arriba) utilizado para el aprendizaje por refuerzo. El Agente (o Algoritmo de Aprendizaje por Refuerzo RL) obtiene una observación inicial del entorno (su "Estado") luego el agente realiza una acción ("Acción") y obtiene de vuelta una observación ("Estado") y una recompensa ("Recompensa"). La recompensa se otorga cuando el Agente alcanza un objetivo o subobjetivo y esto fomenta o refuerza el aprendizaje (de allí el nombre de aprendizaje por refuerzo). El Agente también puede obtener información adicional, como si el juego terminó o se detuvo prematuramente ("Terminado" o "Truncado").

Términos:
- **Agente**: Nuestro algoritmo de aprendizaje por refuerzo (o nosotros si estamos jugando el juego)
- **Entorno**: El mundo virtual con el que interactúa el Agente
- **Acción**: La acción realizada sobre el entorno
- **Estado**: La posición actual del Agente o lo que puede observar actualmente.
- **Recompensa**: La recompensa dada por ganar el juego o realizar una acción deseada.
- **Terminado**: Juego terminado por éxito o fracaso.
- **Truncado**: Juego terminado inesperadamente.

## Paso 1: Inicializar Nuestro Entorno

Primero necesitamos importar el paquete gymnasium

``` python
import gymnasium as gym
```

Luego necesitamos inicializar nuestro objeto de entorno

``` python
env = gym.make('CartPole-v1', render_mode='rgb_array')
```

Este objeto "env" es con lo que interactuaremos para recopilar información sobre nuestro entorno de juego. gym.make() toma un argumento que le dice a gymnasium qué juego quieres cargar. En este caso es Cart Pole (un juego de equilibrio).

### Ejercicio 1: Inicializar el entorno Cliff Walking

Inicializa el entorno como se muestra con el juego Cliff Walking. Mira un gif del entorno a continuación.

<img src="cliff_walking.gif" width="400" />

``` python
"CliffWalking-v0"
```

## Paso 2: Obtener observaciones iniciales

Luego, usa el método reset() para obtener observaciones iniciales (o "Estado") del objeto de entorno ("env")

También devolverá información que no utilizaremos.

``` python
state, info = env.reset()
```

### Ejercicio 2: Obtener e imprimir la observación inicial

En el siguiente bloque de código, obtén el estado e imprímelo con el método print() que usamos en nuestro tutorial de python.

Nota que se devolvió un número (o entero int). Este int corresponde a la posición del personaje en este entorno, que resulta ser un mundo de cuadrícula con cada espacio teniendo un número como se muestra a continuación. ¿Puedes ver dónde está el personaje?

|  0  |  1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9  | 10 | 11 |
|---|-----|-----|-----|-----|-----|-----|-----|-----|-----|----|----|
| 12  | 13  | 14  | 15  | 16  | 17  | 18  | 19  | 20  | 21  | 22 | 23 |
| 24  | 25  | 26  | 27  | 28  | 29  | 30  | 31  | 32  | 33  | 34 | 35 |
| 36  | 37  | 38  | 39  | 40  | 41  | 42  | 43  | 44  | 45  | 46 | 47 |

Podemos obtener una imagen del estado actual del juego obteniendo primero una matriz de colores rgb y luego mostrándola con una biblioteca simple llamada matplotlib.

``` python
import matplotlib.pyplot as plt

rgb_array = env.render(mode='rgb_array')

plt.imshow(rgb_array)
plt.show()
```

## Paso 3: Dar un Paso en una Dirección Específica

Ahora que hemos inicializado nuestro entorno, es hora de comenzar a interactuar con él. En lugar de dejar que la computadora elija acciones al azar, tú serás quien decida en qué dirección moverse. Piensa en ti mismo como el agente en el juego, tratando de navegar a través del entorno.

### Acciones que Puedes Realizar:

- `0`: Mover hacia arriba
- `1`: Mover a la derecha
- `2`: Mover hacia abajo
- `3`: Mover a la izquierda

Cada acción resultará en una nueva observación del entorno, una recompensa por la acción, y una indicación de si el episodio (juego) ha terminado.

### Ejemplo 3: Dar un Paso a la Derecha

Vamos a empezar dando un paso hacia la derecha. Aquí te explico cómo hacerlo:

```python
# Define la acción como moverse a la derecha
action = 1  # 1 significa moverse a la derecha

# Da un paso en la dirección elegida
state, reward, terminated, truncated, info = env.step(action)

# Muestra el estado, la recompensa y si el juego ha terminado
print(state, reward, terminated)

# Muestra la imagen si lo deseas
rgb_array = env.render()
plt.imshow(rgb_array)
plt.show()
```

En este ejemplo, estás moviendo al agente a la derecha. El entorno te dirá cómo se ve después del movimiento (`observación`), qué tan bueno o malo fue el movimiento (`recompensa`), si el juego ha terminado (`terminado`), y cualquier información adicional (`info`).

Si lograste mover al personaje a la derecha, probablemente estés muerto, lo que significa que deberías haber recibido una recompensa de -1. Además, después de morir, tu personaje es movido nuevamente a la posición inicial 36.

## Paso 4: ¡Obtén la recompensa!

Ahora tienes suficiente conocimiento para guiar al jugador hasta la meta y obtener la recompensa. ¡Inténtalo!

Recuerda:

- `0`: Mover hacia arriba
- `1`: Mover a la derecha
- `2`: Mover hacia abajo
- `3`: Mover a la izquierda

Pista: puedes copiar y pegar tu código anterior para hacer pasos repetidos, además de que puedes usar un bucle para ahorrar tiempo escribiendo código.

Ejemplo de bucle:
``` python
for i in range(5):
    # Haz algo 5 veces
```