In [None]:
!pip install gymnasium stable_baselines3

Entrenamiento de la política con SB3. Al activar el flag de verbose, observamos que SB3 nos ofrece estadísticas tales como reward total, número de pasos hasta cambiar de episodio, etcétera. Acordémonos que el CartPole se resetea automáticamente a los 500 episodios o bien si el péndulo se cae.



In [None]:
import gymnasium as gym
from stable_baselines3 import DQN
import cv2

# Crear el entorno
env = gym.make("CartPole-v1", render_mode="rgb_array")

# Entrenar el modelo DQN
model = DQN("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=100000)


Probamos la política en el entorno

In [None]:
# Listado de cuadros para guardar el video
frames = []

# Reset del entorno
observation, info = env.reset(seed=42)

for _ in range(1000):
    # Capturar el cuadro actual del entorno
    frame = env.render()
    frames.append(frame)  # Guardar el cuadro en la lista de cuadros

    # Generar la acción usando el modelo entrenado en lugar de una política aleatoria
    action, _ = model.predict(observation, deterministic=True)

    # Ejecutar un paso en el entorno con la acción predicha
    observation, reward, terminated, truncated, info = env.step(action)

    # Si el episodio ha sido terminado o truncado, reiniciar el entorno
    if terminated or truncated:
        observation, info = env.reset()

# Cerrar el entorno
env.close()

Guardamos el vídeo

In [None]:
# Crear el video a partir de los cuadros guardados
video_filename = "cartpole_dqn_policy.mp4"
height, width, _ = frames[0].shape  # Obtener dimensiones de los cuadros

# Configuración de salida para formato MP4
fourcc = cv2.VideoWriter_fourcc(*'mp4v')
video = cv2.VideoWriter(video_filename, fourcc, 30.0, (width, height))

# Escribir cada cuadro en el video
for frame in frames:
    video.write(cv2.cvtColor(frame, cv2.COLOR_RGB2BGR))  # Convertir de RGB a BGR para OpenCV

# Liberar el objeto VideoWriter
video.release()

print(f"Video guardado como {video_filename}")


Visualizamos el vídeo

In [None]:
from IPython.display import HTML
from base64 import b64encode
import os

# Input video path
save_path = "cartpole_dqn_policy.mp4"

# Compressed video path
compressed_path = "result_compressed.mp4"

os.system(f"ffmpeg -i {save_path} -vcodec libx264 {compressed_path}")
# Show video
mp4 = open(compressed_path,'rb').read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()
HTML("""
<video width=800 controls>
      <source src="%s" type="video/mp4">
</video>""" % data_url)

¿Qué observas con respecto al CartPole aleatorio?