In [3]:
# lunar_humano_gui.py
# ------------------------------------------------------------
# Juega LunarLander-v2 en TIEMPO REAL con interfaz gráfica.
# Controles:
#   W o ↑ : motor principal (acción 2)
#   A o ← : motor lateral izquierdo (acción 1)
#   D o → : motor lateral derecho (acción 3)
#   ESC   : salir
# Notas:
# - Usa render_mode="human" (abre ventana con pygame).
# - Corre perfecto como script .py. En Jupyter también, pero bloquea el kernel mientras juegas.
# ------------------------------------------------------------

import gymnasium as gym
import pygame

ACCION_NOOP = 0
ACCION_IZQ  = 1
ACCION_MAIN = 2
ACCION_DER  = 3

def decidir_accion_desde_teclado(keys) -> int:
    """
    Conjunto de acciones es DISCRETO, así que escogemos prioridad simple:
    1) Motor principal (W/Up) > 2) Izquierda (A/Left) > 3) Derecha (D/Right) > 4) No-op
    """
    if keys[pygame.K_w] or keys[pygame.K_UP]:
        return ACCION_MAIN
    elif keys[pygame.K_a] or keys[pygame.K_LEFT]:
        return ACCION_IZQ
    elif keys[pygame.K_d] or keys[pygame.K_RIGHT]:
        return ACCION_DER
    return ACCION_NOOP

def main():
    # Crea entorno con ventana gráfica
    env = gym.make("LunarLander-v2", render_mode="human")
    obs, info = env.reset(seed=42)

    # Pygame loop
    pygame.init()
    clock = pygame.time.Clock()

    terminado = False
    truncado = False
    recompensa_total = 0.0

    try:
        while not (terminado or truncado):
            # Procesa eventos de ventana (cierre/ESC)
            for event in pygame.event.get():
                if event.type == pygame.QUIT:
                    terminado = True
                elif event.type == pygame.KEYDOWN and event.key == pygame.K_ESCAPE:
                    terminado = True

            keys = pygame.key.get_pressed()
            accion = decidir_accion_desde_teclado(keys)

            # Paso de simulación
            obs, r, terminado, truncado, info = env.step(accion)
            recompensa_total += float(r)

            # Render explícito (algunos entornos actualizan en step, pero es seguro llamar render())
            env.render()

            # Limitar FPS ~60 para experiencia fluida
            clock.tick(60)

    finally:
        env.close()
        pygame.quit()
        print(f"Recompensa total del episodio: {recompensa_total:+.2f}")

if __name__ == "__main__":
    main()


Recompensa total del episodio: -137.27


In [4]:
# lunar_humano_gui_v2.py
# Ventana Pygame propia + LunarLander con render_mode="rgb_array"
# Controles: W/↑ = motor principal | A/← = izquierda | D/→ = derecha | ESC=cerrar
import os, sys, time, platform
import pygame
import gymnasium as gym
import numpy as np

# Si algún proceso dejó esto en modo headless, lo limpiamos
os.environ.pop("SDL_VIDEODRIVER", None)

ACCION_NOOP, ACCION_IZQ, ACCION_MAIN, ACCION_DER = 0, 1, 2, 3

def decidir_accion(keys):
    if keys[pygame.K_w] or keys[pygame.K_UP]:
        return ACCION_MAIN
    if keys[pygame.K_a] or keys[pygame.K_LEFT]:
        return ACCION_IZQ
    if keys[pygame.K_d] or keys[pygame.K_RIGHT]:
        return ACCION_DER
    return ACCION_NOOP

def main():
    # Detección de headless típico (WSL/SSH). Si no hay GUI, avisamos y salimos.
    if platform.system() == "Linux" and not os.environ.get("DISPLAY") and not os.environ.get("WAYLAND_DISPLAY"):
        print("Sin servidor gráfico (DISPLAY vacío). Ejecuta en Windows/macOS local o inicia un X server.")
        sys.exit(1)

    # Entorno en rgb_array y nosotros dibujamos
    env = gym.make("LunarLander-v2", render_mode="rgb_array")
    obs, info = env.reset(seed=42)

    pygame.init()
    pygame.display.set_caption("LunarLander — Humano")
    # Hacemos un primer render para conocer tamaño
    frame = env.render()
    h, w = frame.shape[:2]
    surface = pygame.display.set_mode((w, h))
    clock = pygame.time.Clock()

    terminado = truncado = False
    recompensa_total = 0.0

    try:
        while not (terminado or truncado):
            for event in pygame.event.get():
                if event.type == pygame.QUIT:
                    terminado = True
                elif event.type == pygame.KEYDOWN and event.key == pygame.K_ESCAPE:
                    terminado = True

            keys = pygame.key.get_pressed()
            accion = decidir_accion(keys)

            obs, r, terminado, truncado, info = env.step(accion)
            recompensa_total += float(r)

            frame = env.render()                      # ndarray (H,W,3) uint8
            pygame.surfarray.blit_array(surface, np.transpose(frame, (1,0,2)))
            pygame.display.flip()

            clock.tick(60)  # ~60 FPS
    finally:
        env.close()
        pygame.quit()
        print(f"Recompensa total: {recompensa_total:+.2f}")

if __name__ == "__main__":
    main()


Recompensa total: -137.27


In [5]:
import subprocess, sys, os
# Limpia variable que a veces pone Pygame en headless en notebooks
os.environ.pop("SDL_VIDEODRIVER", None)
p = subprocess.Popen([sys.executable, "lunar_humano_gui_v2.py"])
print("Proceso lanzado con PID", p.pid)


Proceso lanzado con PID 35488


In [6]:
import os, pygame, time
print("SDL_VIDEODRIVER=", os.environ.get("SDL_VIDEODRIVER"))
pygame.init()
screen = pygame.display.set_mode((400, 300))
pygame.display.set_caption("Test Pygame")
screen.fill((40,40,60)); pygame.display.flip()
time.sleep(2)
pygame.quit()


SDL_VIDEODRIVER= None


In [None]:
# app.py
# ---------------------------------------------
# Flask + Flask-SocketIO (eventlet) para streamear
# frames de LunarLander-v2 al navegador.
# Incluye:
#  - Botón "Demo" (piloto heurístico simple)
#  - Botones Modelo 1..4 (carga perezosa de SB3 si existen .zip)
# ---------------------------------------------

import os
import base64
from io import BytesIO
import logging

import eventlet
eventlet.monkey_patch()

from flask import Flask, render_template, request
from flask_socketio import SocketIO

import numpy as np
from PIL import Image
import gymnasium as gym

# ---- Config Flask/SocketIO ----
app = Flask(__name__, template_folder="templates")
socketio = SocketIO(app, async_mode="eventlet", cors_allowed_origins="*")

logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")

# ---- Modelos SB3 (opcional, carga cuando se usen) ----
MODELOS_ESPERADOS = ["modelo_1", "modelo_2", "modelo_3", "modelo_4"]
_modelos_cache = {}   # nombre -> instancia SB3

def _cargar_modelo(nombre: str):
    """Carga perezosamente un modelo SB3 si existe modelo_X.zip."""
    if nombre in _modelos_cache:
        return _modelos_cache[nombre]
    ruta = f"{nombre}.zip"
    if not os.path.exists(ruta):
        return None
    # import tardío para no requerir SB3 si solo usas el modo demo
    from stable_baselines3 import DQN
    modelo = DQN.load(ruta)
    _modelos_cache[nombre] = modelo
    logging.info(f"✅ Cargado {ruta}")
    return modelo

# ---- Utilidades ----
def frame_to_dataurl(frame: np.ndarray) -> str:
    """Convierte ndarray (H,W,3) uint8 a data URL PNG."""
    if frame.dtype != np.uint8:
        frame = frame.clip(0, 255).astype(np.uint8)
    im = Image.fromarray(frame)
    buf = BytesIO()
    im.save(buf, format="PNG")
    return "data:image/png;base64," + base64.b64encode(buf.getvalue()).decode("ascii")

def politica_demo(obs: np.ndarray) -> int:
    """
    Heurística simple para volar 'más o menos':
    - Enciende motor principal si cae muy rápido
    - Corrige inclinación con laterales
    Acciones: 0 no-op, 1 izq, 2 principal, 3 der
    """
    x, y, vx, vy, theta, vtheta, lc, rc = obs
    if vy < -0.4:      # cae rápido
        return 2
    if theta > 0.1:    # inclinado a la derecha -> empuja izquierda
        return 1
    if theta < -0.1:   # inclinado a la izquierda -> empuja derecha
        return 3
    return 0

def simular(sid: str, modo: str, modelo_id: str | None = None, seed: int | None = None):
    """
    Ejecuta un episodio completo y envía:
      - 'frame_update' con cada frame
      - 'juego_terminado' con la recompensa final
    modo: "demo" | "modelo"
    """
    env = None
    recompensa_total = 0.0
    try:
        env = gym.make("LunarLander-v2", render_mode="rgb_array")
        obs, info = env.reset(seed=seed)
        terminado = truncado = False
        pasos = 0
        max_pasos = 2000

        # Modelo (si aplica)
        modelo = None
        if modo == "modelo" and modelo_id:
            modelo = _cargar_modelo(modelo_id)
            if modelo is None:
                socketio.emit("estado", {"mensaje": f"No se encontró {modelo_id}.zip"}, to=sid)
                return
            socketio.emit("estado", {"mensaje": f"Ejecutando {modelo_id}..."}, to=sid)
        else:
            socketio.emit("estado", {"mensaje": "Ejecutando demo heurística..."}, to=sid)

        # Primer frame
        frame = env.render()
        if frame is not None:
            socketio.emit("frame_update", {"frame": frame_to_dataurl(frame)}, to=sid)

        while not (terminado or truncado) and pasos < max_pasos:
            if modelo is not None:
                accion, _ = modelo.predict(obs, deterministic=True)
                accion = int(accion)
            else:
                accion = politica_demo(obs)

            obs, r, terminado, truncado, info = env.step(accion)
            recompensa_total += float(r)

            frame = env.render()
            if frame is not None:
                socketio.emit("frame_update", {"frame": frame_to_dataurl(frame)}, to=sid)

            pasos += 1
            eventlet.sleep(0)  # cede al loop (ajusta p.ej. 0.01 si quieres limitar fps)

    except Exception as e:
        logging.exception(f"Error en simulación: {e}")
    finally:
        if env is not None:
            env.close()
        socketio.emit("juego_terminado", {"recompensa_total": recompensa_total}, to=sid)

# ---- Rutas / Eventos ----
@app.route("/")
def index():
    return render_template("index.html", esperados=MODELOS_ESPERADOS)

@socketio.on("connect")
def on_connect():
    socketio.emit("estado", {"mensaje": "Conectado. Elige 'Demo' o un modelo."}, to=request.sid)

@socketio.on("jugar_demo")
def on_jugar_demo(data=None):
    sid = request.sid
    seed = int(np.random.randint(0, 10_000))
    socketio.start_background_task(simular, sid, "demo", None, seed)

@socketio.on("jugar_con_ia")
def on_jugar_con_ia(data):
    sid = request.sid
    modelo_id = (data or {}).get("modelo_id")
    if not modelo_id:
        socketio.emit("estado", {"mensaje": "Falta 'modelo_id'."}, to=sid)
        return
    seed = int(np.random.randint(0, 10_000))
    socketio.start_background_task(simular, sid, "modelo", modelo_id, seed)

if __name__ == "__main__":
    port = int(os.environ.get("PORT", 5000))
    logging.info(f"Sirviendo en http://0.0.0.0:{port}")
    socketio.run(app, host="0.0.0.0", port=port, debug=False)
