## Intro Aprendizaje por Refuerzo

Considera el escenario de enseñarle nuevos trucos a un perro. El perro no entiende nuestro lenguaje, así que no podemos decirle qué hacer. En cambio, seguimos una estrategia diferente. Emulamos una situación (o una señal), y el perro intenta responder de muchas maneras diferentes. Si la respuesta del perro es la deseada, lo recompensamos con golosinas. Ahora, adivina qué, la próxima vez que el perro se enfrenta a la misma situación, ejecuta una acción similar con aún más entusiasmo esperando más comida. Esto es como aprender "qué hacer" a partir de experiencias positivas. De manera similar, los perros tienden a aprender qué no hacer cuando se enfrentan a experiencias negativas.


## Entendiendo cómo funciona el Aprendizaje por Refuerzo

En un sentido más amplio, así es como funciona el Aprendizaje por Refuerzo:

* Tu perro es un "agente" que está expuesto al entorno. El entorno podría ser tu casa, contigo.
* Las situaciones que encuentran son análogas a un estado. Un ejemplo de un estado podría ser tu perro de pie y tú usando una palabra específica con cierto tono en tu sala de estar.
* Nuestros agentes reaccionan realizando una acción para pasar de un "estado" a otro "estado"; por ejemplo, tu perro pasa de estar de pie a sentarse.
* Después de la transición, pueden recibir una recompensa o una penalización a cambio. ¡Les das una golosina! O un "No" como penalización.
* La política es la estrategia de elegir una acción dada un estado en espera de mejores resultados.


El Aprendizaje por Refuerzo se encuentra entre el espectro del Aprendizaje Supervisado y el No Supervisado, y hay algunas cosas importantes que tener en cuenta:

#### No siempre es beneficioso ser codicioso

**Ser codicioso no siempre funciona:**

* Hay cosas que son fáciles de hacer para obtener una gratificación instantánea, y hay cosas que proporcionan recompensas a largo plazo. El objetivo no es ser codicioso buscando las recompensas inmediatas, sino optimizar las recompensas máximas durante todo el entrenamiento.

#### La secuencia importa en el Aprendizaje por Refuerzo

**La secuencia importa en el Aprendizaje por Refuerzo:**

* La recompensa del agente no solo depende del estado actual, sino de toda la historia de estados. A diferencia del aprendizaje supervisado y no supervisado, el tiempo es importante aquí.


## El proceso

<img src="./img/Reinforcement-Learning-Animation.gif" alt="drawing" width="650"/>

En cierto sentido, el Aprendizaje por Refuerzo es la ciencia de tomar decisiones óptimas utilizando experiencias. Desglosándolo, el proceso de Aprendizaje por Refuerzo involucra estos pasos simples:

1. Observación del entorno.
2. Decidir cómo actuar utilizando alguna estrategia.
3. Actuar en consecuencia.
4. Recibir una recompensa o penalización.
5. Aprender de las experiencias y refinar nuestra estrategia.
6. Iterar hasta encontrar una estrategia óptima.

Ahora vamos a entender el Aprendizaje por Refuerzo desarrollando un agente para aprender a jugar un juego automáticamente por sí mismo.

## Comenzando con Gymnasium

Gymnasium es un conjunto de herramientas para desarrollar y comparar algoritmos de aprendizaje por refuerzo. Es la versión mantenida y moderna de OpenAI Gym, compatible con NumPy 2.0 y otras dependencias actuales.

La biblioteca Gymnasium es una colección de problemas de prueba, o entornos, que puedes usar para desarrollar tus algoritmos de aprendizaje por refuerzo. Estos entornos tienen una interfaz compartida, lo que te permite escribir algoritmos generales.

In [1]:
# =============================================================================
# INSTALACIÓN DE LIBRERÍAS NECESARIAS
# =============================================================================

# Gymnasium: Versión moderna y mantenida de OpenAI Gym
# Compatible con NumPy 2.0 y Python moderno
# pip install gymnasium

# Pygame: Para renderizar gráficamente los entornos
# pip install pygame

## Entornos

Aquí tienes un ejemplo mínimo para comenzar a ejecutar algo. Esto ejecutará una instancia del entorno CartPole-v0 durante 1000 pasos de tiempo, representando el entorno en cada paso.

 Consiste en equilibrar un poste (péndulo) montado en la parte superior de un carrito móvil:
 * El **objetivo** es mantener el poste en posición vertical mientras el carrito se mueve hacia adelante y hacia atrás en una pista. 
 * El **agente** (o jugador) tiene dos acciones disponibles en cada paso de tiempo: empujar el carrito hacia la izquierda o hacia la derecha. 
 * El **desafío** radica en tomar decisiones adecuadas para evitar que el poste caiga mientras se mueve el carrito. 
 
 Este problema es un ejemplo comúnmente utilizado para probar algoritmos de aprendizaje por refuerzo debido a su simplicidad y naturaleza desafiante.

Documentación oficial de Gymnasium:

https://gymnasium.farama.org/api/env/

**Nota:** Gymnasium es el sucesor mantenido de OpenAI Gym, compatible con NumPy 2.0 y versiones modernas de Python.

In [2]:
# =============================================================================
# DEMOSTRACIÓN BÁSICA: ENTORNO MOUNTAINCAR CON ACCIONES ALEATORIAS
# =============================================================================

# Importamos Gymnasium (la versión moderna de Gym)
import gymnasium as gym
import warnings
warnings.filterwarnings("ignore")  # Suprimimos advertencias para una salida más limpia

# import time  # Opcional: para añadir pausas entre frames

# Creamos el entorno MountainCar-v0
# - MountainCar: Un coche debe subir una montaña usando impulso
# - render_mode="human": Muestra la ventana gráfica en tiempo real
env = gym.make('MountainCar-v0', render_mode="human")

# Reseteamos el entorno al estado inicial
# En Gymnasium, reset() devuelve (observación, info)
state, info = env.reset()

# Ejecutamos 300 pasos de simulación
for i in range(300):
    # Renderizamos el frame actual (ya está en modo "human", así que se muestra automáticamente)
    env.render()
    
    # time.sleep(0.1)  # Descomentar para ralentizar la animación
    
    # Tomamos una acción ALEATORIA del espacio de acciones
    # env.action_space.sample() devuelve un número aleatorio entre 0 y 2
    # 0 = acelerar izquierda, 1 = no acelerar, 2 = acelerar derecha
    action = env.action_space.sample()
    
    # Ejecutamos la acción en el entorno
    # En Gymnasium, step() devuelve 5 valores:
    # - observation: nuevo estado
    # - reward: recompensa obtenida
    # - terminated: si el episodio terminó exitosamente
    # - truncated: si el episodio fue truncado por límite de tiempo
    # - info: información adicional
    state, reward, terminated, truncated, info = env.step(action)
    
    # Si el episodio terminó o fue truncado, paramos
    if terminated or truncated:
        break

# Cerramos el entorno y liberamos recursos
env.close()

## Experimentando con diferentes entornos

Si deseas ver otros entornos en acción, intenta reemplazar `MountainCar-v0` con otros entornos como:
- `CartPole-v1`: Equilibrar un péndulo sobre un carro móvil
- `LunarLander-v2`: Aterrizar una nave espacial suavemente
- `Acrobot-v1`: Balancear un robot de dos eslabones

Todos los entornos descienden de la clase base `Env` de Gymnasium y comparten la misma interfaz.

**Nota sobre Gymnasium:** Si encuentras código antiguo que usa `import gym`, simplemente reemplázalo por `import gymnasium as gym` en la mayoría de los casos. Gymnasium es compatible con la API de Gym pero está activamente mantenido y soporta dependencias modernas como NumPy 2.0.

## Observations

## Observaciones

Si queremos hacer algo mejor que tomar acciones aleatorias en cada paso, probablemente sería bueno saber realmente qué están haciendo nuestras acciones en el entorno.

La función `step` del entorno devuelve exactamente lo que necesitamos. De hecho, `step` devuelve cinco valores en Gymnasium. Estos son:

* `observation` (object): un objeto específico del entorno que representa tu observación del entorno. Por ejemplo, datos de píxeles de una cámara, ángulos de articulación y velocidades de articulación de un robot, o el estado del tablero en un juego de mesa.
* `reward` (float): cantidad de recompensa lograda por la acción anterior. La escala varía entre entornos, pero el objetivo es siempre aumentar tu recompensa total.
* `terminated` (bool): si el episodio ha terminado exitosamente (el agente alcanzó el objetivo). La mayoría (pero no todas) de las tareas están divididas en episodios bien definidos, y `terminated` siendo True indica que el episodio ha terminado de forma natural.
* `truncated` (bool): True si el episodio se trunca debido a un límite de tiempo o una razón que no está definida como parte de la tarea MDP.
* `info` (dict): información de diagnóstico útil para la depuración. A veces puede ser útil para el aprendizaje (por ejemplo, podría contener las probabilidades crudas detrás del último cambio de estado del entorno). Sin embargo, no se permite usar esto para el aprendizaje en las evaluaciones oficiales de tu agente.

Esto es simplemente una implementación del clásico "bucle agente-entorno". En cada paso de tiempo, el agente elige una acción, y el entorno devuelve una observación y una recompensa.

In [3]:
# =============================================================================
# CREACIÓN DEL ENTORNO MOUNTAINCAR (SIN VISUALIZACIÓN)
# =============================================================================

# Creamos el entorno sin render_mode para trabajar con él más rápido
# Esto es útil cuando solo queremos analizar el espacio de acciones y estados
env = gym.make('MountainCar-v0')

In [4]:
# =============================================================================
# INSPECCIÓN DEL ESPACIO DE ACCIONES
# =============================================================================

# env.action_space nos dice qué acciones puede tomar el agente
# Discrete(3) significa que hay 3 acciones discretas posibles: 0, 1, 2
env.action_space

Discrete(3)

## Espacio de Acciones

Hay 3 acciones discretas determinísticas:

| Num | Observación          | Valor | Unidad       |
|-----|----------------------|-------|--------------|
| 0   | Acelerar a la izquierda | Inf   | posición (m) |
| 1   | No acelerar              | Inf   | posición (m) |
| 2   | Acelerar a la derecha    | Inf   | posición (m) |


In [5]:
# =============================================================================
# INSPECCIÓN DEL ESPACIO DE OBSERVACIONES
# =============================================================================

# env.observation_space.shape nos dice las dimensiones del estado
# (2,) significa que el estado es un vector de 2 elementos:
# - Elemento 0: Posición del coche en el eje X
# - Elemento 1: Velocidad del coche
print(env.observation_space.shape)

(2,)


## Espacio de Observación

La observación es un ndarray con forma (2,), donde los elementos corresponden a lo siguiente:

| Num | Observación                    | Mínimo | Máximo | Unidad        |
|-----|--------------------------------|--------|--------|---------------|
| 0   | posición del coche a lo largo del eje x | -Inf   | Inf    | posición (m) |
| 1   | velocidad del coche             | -Inf   | Inf    | velocidad (m) |


In [6]:
# =============================================================================
# DEMOSTRACIÓN: SELECCIÓN ALEATORIA DE ELEMENTOS
# =============================================================================

import numpy as np

# np.random.choice() selecciona aleatoriamente un elemento de un array
# Esto es útil cuando quieres elegir entre varias opciones
np.random.choice(np.array([1, 2, 3]))

np.int64(3)

In [7]:
# =============================================================================
# BUCLE COMPLETO DE ENTRENAMIENTO: 3 EPISODIOS CON ACCIONES ALEATORIAS
# =============================================================================

# Creamos el entorno con visualización humana
env = gym.make('MountainCar-v0', render_mode='human')

# Ejecutamos 3 episodios completos
for i_episode in range(3):
    print("Intento", i_episode)
    
    # Reseteamos el entorno al inicio de cada episodio
    # En Gymnasium, reset() devuelve (observación, info)
    observation, info = env.reset()
    
    # Ejecutamos hasta 100 pasos por episodio
    for t in range(100):
        # Cada 10 pasos, imprimimos información de debug
        if t % 10 == 0:
            print("Accion", t)
            print("Observación", observation)
        
        # Renderizamos el frame actual
        # (en render_mode='human' esto se hace automáticamente)
        env.render()
        
        # Elegimos una acción ALEATORIA del espacio de acciones
        # 0 = acelerar izquierda, 1 = no acelerar, 2 = acelerar derecha
        action = env.action_space.sample()
        
        # Ejecutamos la acción en el entorno
        # step() devuelve 5 valores en Gymnasium:
        # - observation: nuevo estado (array con [posición, velocidad])
        # - reward: recompensa obtenida (normalmente -1 por cada paso)
        # - terminated: True si alcanzamos el objetivo (llegar a la bandera)
        # - truncated: True si se acabó el tiempo máximo
        # - info: diccionario con información adicional
        observation, reward, terminated, truncated, info = env.step(action)
        
        # Si el episodio terminó (éxito o truncado), salimos del bucle
        if terminated or truncated:
            print("Episode finished after {} timesteps".format(t+1))
            break

# Cerramos el entorno al finalizar
env.close()

Intento 0
Accion 0
Observación [-0.47985008  0.        ]
Accion 10
Observación [-0.50268555 -0.00379564]
Accion 20
Observación [-0.54379946 -0.00186527]
Accion 30
Observación [-5.352816e-01  5.029060e-04]
Accion 40
Observación [-0.5236577   0.00205248]
Accion 50
Observación [-5.0771111e-01  4.1508456e-04]
Accion 60
Observación [-0.50030196  0.0011197 ]
Accion 70
Observación [-0.49893996 -0.0008852 ]
Accion 80
Observación [-0.5294612  -0.00496277]
Accion 90
Observación [-0.5606577  -0.00228768]
Intento 1
Accion 0
Observación [-0.5880612  0.       ]
Accion 10
Observación [-0.568869    0.00218481]
Accion 20
Observación [-0.49628976  0.00951739]
Accion 30
Observación [-0.4364022   0.00313993]
Accion 40
Observación [-0.45278108 -0.00421663]
Accion 50
Observación [-0.5052383 -0.0068862]
Accion 60
Observación [-0.58757293 -0.00525783]
Accion 70
Observación [-0.6142896   0.00292763]
Accion 80
Observación [-0.5483299   0.00657334]
Accion 90
Observación [-0.45727062  0.0116558 ]
Intento 2
Accion