# Taller sobre clustering aglomerativo y DBSCAN
# Agente Come Frutas

## Integrantes: Ayala Ivonne, Cumbal Mateo, Garc√©s Boris, Morales David, Pereira Alicia



### Introducci√≥n
El presente informe detalla el proceso de dise√±o, implementaci√≥n y experimentaci√≥n para el desarrollo de un agente aut√≥nomo de Inteligencia Artificial en el marco del proyecto "Agente Come-Frutas". El desaf√≠o se centra en un problema cl√°sico de toma de decisiones secuenciales en un entorno din√°mico y con riesgos, sirviendo como un caso de estudio pr√°ctico para la aplicaci√≥n de t√©cnicas avanzadas de Machine Learning.

El problema consiste en un entorno de rejilla de 5x5 en el que un agente debe aprender a navegar de manera eficiente. El objetivo principal es maximizar una puntuaci√≥n recolectando "frutas" (que otorgan recompensas positivas) y evitando "venenos" (que imponen castigos negativos). La meta final es desarrollar una pol√≠tica de comportamiento √≥ptima que permita al agente limpiar el tablero de todas las frutas, garantizando su supervivencia al esquivar todos los venenos presentes.

Para alcanzar este objetivo, el proyecto transit√≥ por un riguroso proceso de experimentaci√≥n, explorando m√∫ltiples paradigmas de la Inteligencia Artificial. Se inici√≥ con un enfoque en el Aprendizaje por Refuerzo (Reinforcement Learning), implementando y depurando algoritmos de vanguardia como Deep Q-Networks (DQN) y su variante mejorada, Double DQN (DDQN).

Frente a los desaf√≠os cl√°sicos de convergencia y estabilidad inherentes a RL, la investigaci√≥n se expandi√≥ para incluir otras estrategias. Se exploraron los Algoritmos Gen√©ticos, un enfoque basado en principios de evoluci√≥n, y el Aprendizaje por Imitaci√≥n, una potente t√©cnica de aprendizaje supervisado que requiri√≥ el desarrollo de un "or√°culo" experto basado en el algoritmo de b√∫squeda A*.

A continuaci√≥n, se presenta el c√≥digo documentado de la implementaci√≥n final, reflejando la culminaci√≥n de este profundo y multifac√©tico proceso de desarrollo.

### Q-Learning

In [None]:
# Importamos las bibliotecas necesarias
import pygame
import numpy as np
import random
import time
import os


In [None]:
# --- CONSTANTES DE CONFIGURACI√ìN DEL JUEGO Y LA PANTALLA ---
# Estas constantes definen el tama√±o del tablero, de cada celda y de la ventana del juego.
GRID_WIDTH = 5
GRID_HEIGHT = 5
CELL_SIZE = 120
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE

# Colores (formato RGB) para los elementos de la interfaz.
COLOR_FONDO = (25, 25, 25)
COLOR_LINEAS = (40, 40, 40)
COLOR_AGENTE = (60, 100, 255)
COLOR_PARED = (80, 80, 80)
COLOR_TEXTO = (230, 230, 230)
COLOR_CURSOR = (255, 255, 0)

# --- PAR√ÅMETROS DEL APRENDIZAJE POR REFUERZO (Q-LEARNING) ---
# Estos son los "hiperpar√°metros" que controlan c√≥mo aprende el agente.
RECOMPENSA_FRUTA = 100         # Puntuaci√≥n alta por encontrar una fruta.
CASTIGO_VENENO = -100           # Castigo fuerte por tocar un veneno.
RECOMPENSA_MOVIMIENTO = -0.1    # Peque√±o castigo por cada movimiento para incentivar la eficiencia.
ALPHA = 0.1                     # Tasa de aprendizaje.
GAMMA = 0.9                     # Factor de descuento.
EPSILON = 1.0                   # Tasa de exploraci√≥n inicial.
EPSILON_DECAY = 0.9995          # Factor de decaimiento de epsilon.
MIN_EPSILON = 0.01              # M√≠nima tasa de exploraci√≥n.
NUM_EPISODIOS_ENTRENAMIENTO = 20000 # N√∫mero de partidas que jugar√° el agente para aprender.


In [None]:
# --- CLASE DEL AGENTE ---
# Define el "cerebro" del agente. Contiene la Tabla Q y la l√≥gica para aprender y decidir.
class AgenteQLearning:
    def __init__(self, num_estados, num_acciones):
        self.num_acciones = num_acciones
        # La Tabla Q es una matriz que almacena el "valor" de cada acci√≥n en cada estado posible.
        # Aqu√≠, el estado est√° definido por la posici√≥n (x, y) del agente en el tablero.
        self.q_table = np.zeros((num_estados[0], num_estados[1], num_acciones))
        self.epsilon = EPSILON  # Tasa de exploraci√≥n (curiosidad).

    def elegir_accion(self, estado):
        """Decide qu√© acci√≥n tomar usando la estrategia epsilon-greedy."""
        # Con probabilidad epsilon, toma una acci√≥n aleatoria (exploraci√≥n).
        if random.uniform(0, 1) < self.epsilon:
            return random.randint(0, self.num_acciones - 1)
        # De lo contrario, elige la mejor acci√≥n conocida seg√∫n la Tabla Q (explotaci√≥n).
        else:
            return np.argmax(self.q_table[estado])

    def actualizar_q_table(self, estado, accion, recompensa, nuevo_estado):
        """Actualiza el valor en la Tabla Q usando la f√≥rmula de Bellman."""
        valor_antiguo = self.q_table[estado][accion]
        # El valor futuro es el m√°ximo valor Q que se puede obtener desde el nuevo estado.
        valor_futuro_maximo = np.max(self.q_table[nuevo_estado])
        
        # F√≥rmula de Q-Learning: se actualiza el valor antiguo basado en la recompensa
        # obtenida y el valor futuro esperado.
        nuevo_q = valor_antiguo + ALPHA * (
            recompensa + GAMMA * valor_futuro_maximo - valor_antiguo
        )
        self.q_table[estado][accion] = nuevo_q

    def decaimiento_epsilon(self):
        """Reduce gradualmente el valor de epsilon para pasar de explorar a explotar."""
        if self.epsilon > MIN_EPSILON:
            self.epsilon *= EPSILON_DECAY

In [None]:
# --- CLASE DEL ENTORNO ---
# Define las reglas del juego, el tablero y c√≥mo interact√∫a el agente con √©l.
class EntornoGrid:
    def __init__(self):
        self.agente_pos = (0, 0)
        # Usamos 'sets' para un manejo eficiente de las posiciones de los objetos.
        self.frutas = set()
        self.venenos = set()
        self.paredes = set()
        self.reset_a_configuracion_inicial()

    def reset_a_configuracion_inicial(self):
        """Resetea la posici√≥n del agente al inicio (esquina superior izquierda)."""
        self.agente_pos = (0, 0)
        return self.agente_pos

    def limpiar_entorno(self):
        """Elimina todos los objetos del tablero."""
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion, modo_juego):
        """
        Ejecuta un paso en el juego.
        El agente toma una 'accion' y el entorno devuelve el 'nuevo_estado',
        la 'recompensa' y si el juego ha 'terminado'.
        """
        x, y = self.agente_pos
        # Acciones: 0=arriba, 1=abajo, 2=izquierda, 3=derecha
        if accion == 0: y -= 1
        elif accion == 1: y += 1
        elif accion == 2: x -= 1
        elif accion == 3: x += 1

        # Comprueba si el movimiento es v√°lido (dentro de los l√≠mites y no choca con una pared).
        if (x < 0 or x >= GRID_WIDTH or y < 0 or y >= GRID_HEIGHT or (x, y) in self.paredes):
            # Si el movimiento es inv√°lido, el agente no se mueve y recibe una peque√±a penalizaci√≥n.
            return self.agente_pos, RECOMPENSA_MOVIMIENTO, False

        # Actualiza la posici√≥n del agente si el movimiento es v√°lido.
        self.agente_pos = (x, y)
        nuevo_estado = self.agente_pos
        terminado = False

        if nuevo_estado in self.frutas:
            recompensa = RECOMPENSA_FRUTA
            self.frutas.remove(nuevo_estado)
            # El episodio solo termina con √©xito si ya no quedan m√°s frutas.
            if not self.frutas:
                terminado = True
        elif nuevo_estado in self.venenos:
            recompensa = CASTIGO_VENENO
            terminado = True  # Tocar un veneno siempre termina el juego.
        else:
            recompensa = RECOMPENSA_MOVIMIENTO

        return nuevo_estado, recompensa, terminado

    def dibujar(self, pantalla, modo_juego, cursor_pos, img_fruta, img_veneno, img_pared, img_agente):
        """Dibuja todos los elementos del juego en la pantalla."""
        pantalla.fill(COLOR_FONDO)

        # Dibuja la cuadr√≠cula.
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Dibuja las paredes, frutas, venenos y el agente usando sus im√°genes.
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0] * CELL_SIZE, pared[1] * CELL_SIZE))
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0] * CELL_SIZE, fruta[1] * CELL_SIZE))
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0] * CELL_SIZE, veneno[1] * CELL_SIZE))
        pantalla.blit(img_agente, (self.agente_pos[0] * CELL_SIZE, self.agente_pos[1] * CELL_SIZE))

        # En modo SETUP, dibuja un cursor para indicar d√≥nde se colocar√°n los objetos.
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE, cursor_pos[1] * CELL_SIZE, CELL_SIZE, CELL_SIZE
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Dibuja la informaci√≥n de ayuda y el modo de juego actual en la parte inferior.
        font = pygame.font.Font(None, 24)
        texto_modo = font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO)
        controles_setup = font.render(
            "SETUP: Mover con flechas. F=Fruta, V=Veneno, W=Pared. 'C' para limpiar.", True, COLOR_TEXTO
        )
        controles_run = font.render(
            "'T' para Entrenar, 'P' para Jugar, 'S' para Setup.", True, COLOR_TEXTO
        )

        pantalla.blit(texto_modo, (10, SCREEN_HEIGHT + 5))
        pantalla.blit(controles_setup, (10, SCREEN_HEIGHT + 30))
        pantalla.blit(controles_run, (10, SCREEN_HEIGHT + 55))



In [None]:
# --- FUNCI√ìN PRINCIPAL DEL JUEGO ---
# Orquesta todo el juego: inicializaci√≥n, bucle principal, manejo de eventos y modos.
def main():
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente Come-Frutas üçì vs ‚ò†Ô∏è (Q-Learning)")

    # --- Carga de im√°genes ---
    # Intenta cargar los archivos de imagen. Si no los encuentra, usa cuadrados de colores como respaldo.
    try:
        ruta_fruta = os.path.join(os.path.dirname(__file__), "fruta.png")
        img_fruta_original = pygame.image.load(ruta_fruta).convert_alpha()
        img_fruta = pygame.transform.scale(img_fruta_original, (CELL_SIZE, CELL_SIZE))
    except pygame.error:
        print("Advertencia: No se encontr√≥ 'fruta.png'. Se usar√° un cuadrado verde.")
        img_fruta = pygame.Surface((CELL_SIZE, CELL_SIZE)); img_fruta.fill((40, 200, 40))

    try:
        ruta_veneno = os.path.join(os.path.dirname(__file__), "veneno.png")
        img_veneno_original = pygame.image.load(ruta_veneno).convert_alpha()
        img_veneno = pygame.transform.scale(img_veneno_original, (CELL_SIZE, CELL_SIZE))
    except pygame.error:
        print("Advertencia: No se encontr√≥ 'veneno.png'. Se usar√° un cuadrado rojo.")
        img_veneno = pygame.Surface((CELL_SIZE, CELL_SIZE)); img_veneno.fill((255, 50, 50))

    try:
        ruta_pared = os.path.join(os.path.dirname(__file__), "pared.png")
        img_pared_original = pygame.image.load(ruta_pared).convert_alpha()
        img_pared = pygame.transform.scale(img_pared_original, (CELL_SIZE, CELL_SIZE))
    except pygame.error:
        print("Advertencia: No se encontr√≥ 'pared.png'. Se usar√° un cuadrado gris.")
        img_pared = pygame.Surface((CELL_SIZE, CELL_SIZE)); img_pared.fill(COLOR_PARED)

    try:
        ruta_agente = os.path.join(os.path.dirname(__file__), "agente.png")
        img_agente_original = pygame.image.load(ruta_agente).convert_alpha()
        img_agente = pygame.transform.scale(img_agente_original, (CELL_SIZE, CELL_SIZE))
    except pygame.error:
        print("Advertencia: No se encontr√≥ 'agente.png'. Se usar√° un cuadrado azul.")
        img_agente = pygame.Surface((CELL_SIZE, CELL_SIZE)); img_agente.fill(COLOR_AGENTE)

    # Inicializaci√≥n del entorno y el agente.
    entorno = EntornoGrid()
    agente = AgenteQLearning(num_estados=(GRID_HEIGHT, GRID_WIDTH), num_acciones=4)

    reloj = pygame.time.Clock()
    corriendo = True
    modo_juego = "SETUP"  # El juego comienza en modo de configuraci√≥n.
    cursor_pos = [0, 0]

    # Guarda la configuraci√≥n inicial del tablero para poder resetearlo.
    frutas_iniciales = entorno.frutas.copy()
    venenos_iniciales = entorno.venenos.copy()

    # --- BUCLE PRINCIPAL DEL JUEGO ---
    while corriendo:
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            # Manejo de eventos de teclado para cambiar de modo y configurar el tablero.
            if evento.type == pygame.KEYDOWN:
                # --- MODO ENTRENAMIENTO (T) ---
                if evento.key == pygame.K_t:
                    if modo_juego != "TRAINING":
                        print("--- INICIANDO ENTRENAMIENTO ---")
                        modo_juego = "TRAINING"
                        # Crea un nuevo agente con una Tabla Q vac√≠a.
                        agente = AgenteQLearning(num_estados=(GRID_HEIGHT, GRID_WIDTH), num_acciones=4)
                        # Muestra un mensaje de "Entrenando..." en pantalla.
                        pantalla.fill(COLOR_FONDO)
                        font = pygame.font.Font(None, 50)
                        texto_entrenando = font.render("Entrenando...", True, COLOR_TEXTO)
                        rect = texto_entrenando.get_rect(center=(SCREEN_WIDTH / 2, SCREEN_HEIGHT / 2))
                        pantalla.blit(texto_entrenando, rect)
                        pygame.display.flip()

                        # Bucle de entrenamiento principal.
                        for episodio in range(NUM_EPISODIOS_ENTRENAMIENTO):
                            # Resetea el entorno a la configuraci√≥n definida en modo SETUP.
                            entorno.frutas = frutas_iniciales.copy()
                            entorno.venenos = venenos_iniciales.copy()
                            estado = entorno.reset_a_configuracion_inicial()
                            terminado = False
                            
                            # Bucle de una partida (episodio).
                            while not terminado:
                                accion = agente.elegir_accion(estado)
                                nuevo_estado, recompensa, terminado = entorno.step(accion, "TRAINING")
                                agente.actualizar_q_table(estado, accion, recompensa, nuevo_estado)
                                estado = nuevo_estado
                            
                            # Reduce epsilon al final de cada episodio.
                            agente.decaimiento_epsilon()
                            
                            # Imprime el progreso cada 1000 episodios.
                            if (episodio + 1) % 1000 == 0:
                                print(f"Episodio: {episodio + 1}/{NUM_EPISODIOS_ENTRENAMIENTO}, Epsilon: {agente.epsilon:.4f}")

                        print("--- ENTRENAMIENTO COMPLETADO ---")
                        # Prepara el tablero para la demostraci√≥n del agente ya entrenado.
                        entorno.frutas = frutas_iniciales.copy()
                        entorno.venenos = venenos_iniciales.copy()
                        entorno.reset_a_configuracion_inicial()
                        agente.epsilon = 0  # Modo experto: solo explotaci√≥n, sin acciones aleatorias.
                        modo_juego = "PLAYING"

                # --- MODO JUEGO (P) ---
                elif evento.key == pygame.K_p:
                    print("--- MODO JUEGO (AGENTE ENTRENADO) ---")
                    modo_juego = "PLAYING"
                    # Resetea el tablero a la configuraci√≥n inicial.
                    entorno.frutas = frutas_iniciales.copy()
                    entorno.venenos = venenos_iniciales.copy()
                    entorno.reset_a_configuracion_inicial()
                    agente.epsilon = 0 # El agente usar√° su conocimiento sin explorar.

                # --- MODO SETUP (S) ---
                elif evento.key == pygame.K_s:
                    print("--- MODO SETUP ---")
                    modo_juego = "SETUP"

                # L√≥gica para configurar el tablero en modo SETUP.
                if modo_juego == "SETUP":
                    if evento.key == pygame.K_UP: cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN: cursor_pos[1] = min(GRID_HEIGHT - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT: cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT: cursor_pos[0] = min(GRID_WIDTH - 1, cursor_pos[0] + 1)
                    
                    pos_celda = tuple(cursor_pos)
                    # Tecla F: A√±ade o quita una fruta.
                    if evento.key == pygame.K_f:
                        if pos_celda in entorno.frutas: entorno.frutas.remove(pos_celda)
                        else:
                            entorno.frutas.add(pos_celda)
                            entorno.venenos.discard(pos_celda); entorno.paredes.discard(pos_celda)
                    # Tecla V: A√±ade o quita un veneno.
                    elif evento.key == pygame.K_v:
                        if pos_celda in entorno.venenos: entorno.venenos.remove(pos_celda)
                        else:
                            entorno.venenos.add(pos_celda)
                            entorno.frutas.discard(pos_celda); entorno.paredes.discard(pos_celda)
                    # Tecla W: A√±ade o quita una pared.
                    elif evento.key == pygame.K_w:
                        if pos_celda in entorno.paredes: entorno.paredes.remove(pos_celda)
                        else:
                            entorno.paredes.add(pos_celda)
                            entorno.frutas.discard(pos_celda); entorno.venenos.discard(pos_celda)
                    # Tecla C: Limpia el tablero.
                    elif evento.key == pygame.K_c:
                        print("--- TABLERO LIMPIO ---")
                        entorno.limpiar_entorno()
                    
                    # Actualiza la configuraci√≥n inicial guardada cada vez que se hace un cambio.
                    frutas_iniciales = entorno.frutas.copy()
                    venenos_iniciales = entorno.venenos.copy()

        # --- L√≥gica de juego que se ejecuta en cada frame ---
        # L√≥gica del juego en modo PLAYING: el agente toma decisiones.
        if modo_juego == "PLAYING":
            if entorno.frutas:
                estado = entorno.agente_pos
                accion = agente.elegir_accion(estado)
                _, _, terminado = entorno.step(accion, "PLAYING")
                if terminado:
                    if not entorno.frutas:
                        print("¬°Todas las frutas recolectadas! Volviendo a modo SETUP.")
                    else:
                        print("Juego terminado (veneno). Volviendo a modo SETUP.")
                    modo_juego = "SETUP"
                time.sleep(0.1) # Peque√±a pausa para ver el movimiento del agente.
            else:
                modo_juego = "SETUP"
                print("No hay frutas en el tablero. Volviendo a modo SETUP.")
        
        # Dibuja la pantalla en cada frame, excepto durante el entrenamiento.
        if modo_juego != "TRAINING":
            entorno.dibujar(pantalla, modo_juego, tuple(cursor_pos), img_fruta, img_veneno, img_pared, img_agente)
            pygame.display.flip()

        reloj.tick(60) # Limita el juego a 60 frames por segundo.

    pygame.quit()

In [None]:
# Punto de entrada del programa.
if __name__ == "__main__":
    main()

### DQN

#### agent.py

In [None]:
# agent.py
"""
Implementaci√≥n del agente DQN (Deep Q-Network) con arquitectura CNN.

Este m√≥dulo contiene la implementaci√≥n completa del algoritmo DQN, incluyendo:
- Red neuronal convolucional para procesamiento de estados espaciales.
- Sistema de memoria de replay para entrenamiento estable.
- Estrategia epsilon-greedy para balancear exploraci√≥n/explotaci√≥n.
- Red objetivo para estabilizar el c√°lculo de los valores Q.
- Optimizaci√≥n con el optimizador Adam.

El agente est√° dise√±ado espec√≠ficamente para problemas de navegaci√≥n en grillas
donde el estado se representa como im√°genes multi-canal, aprovechando las
capacidades de las CNNs para reconocer patrones espaciales.

Caracter√≠sticas principales:
- Arquitectura CNN optimizada para grillas peque√±as.
- Memoria de replay para descorrelacionar experiencias.
- Actualizaci√≥n peri√≥dica de la red objetivo.
- T√©cnicas de estabilizaci√≥n (gradient clipping, target network).
- Sistema de guardado/carga de modelos entrenados.

Referencias:
- DQN: Mnih et al. (2015) "Human-level control through deep reinforcement learning"
"""

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import random
from collections import deque

# --- 1. RED NEURONAL CONVOLUCIONAL PARA DQN ---
class CNN_DQN(nn.Module):
    """
    Red neuronal convolucional optimizada para Q-learning en entornos de grilla.
    
    Esta arquitectura est√° dise√±ada para procesar estados representados como
    tensores 3D (canales x altura x anchura).
    
    Arquitectura:
    1. **Capas Convolucionales**: Para extraer caracter√≠sticas espaciales.
       - Conv1: 3->16 canales.
       - Conv2: 16->32 canales.
    
    2. **Capas Completamente Conectadas**: Para tomar decisiones basadas en las caracter√≠sticas.
       - FC1: 256 neuronas.
       - FC2: Salida de valores Q para cada acci√≥n.
    
    Args:
        h (int): Altura de la grilla de entrada.
        w (int): Anchura de la grilla de entrada.
        outputs (int): N√∫mero de acciones posibles.
    """
    
    def __init__(self, h, w, outputs):
        super(CNN_DQN, self).__init__()
        
        # --- CAPAS CONVOLUCIONALES ---
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        
        # --- C√ÅLCULO DIN√ÅMICO DEL TAMA√ëO DE CARACTER√çSTICAS ---
        def conv2d_size_out(size, kernel_size=3, stride=1, padding=1):
            return (size + 2 * padding - kernel_size) // stride + 1
        
        convw = conv2d_size_out(conv2d_size_out(w))
        convh = conv2d_size_out(conv2d_size_out(h))
        linear_input_size = convw * convh * 32
        
        # --- CAPAS COMPLETAMENTE CONECTADAS ---
        self.fc1 = nn.Linear(linear_input_size, 256)
        self.fc2 = nn.Linear(256, outputs)

    def forward(self, x):
        """
        Propagaci√≥n hacia adelante de la red.
        
        Procesa el estado de entrada a trav√©s de las capas para generar
        valores Q para cada acci√≥n posible.
        
        Args:
            x (torch.Tensor): Estado de entrada con forma (batch, 3, height, width).
        
        Returns:
            torch.Tensor: Valores Q para cada acci√≥n con forma (batch, num_actions).
        """
        x = nn.functional.relu(self.conv1(x))
        x = nn.functional.relu(self.conv2(x))
        x = x.view(x.size(0), -1)
        x = nn.functional.relu(self.fc1(x))
        return self.fc2(x)
    
    
# --- 2. AGENTE DQN CON MEMORIA DE REPLAY Y RED OBJETIVO ---
class Agent:
    """
    Agente de aprendizaje por refuerzo que implementa el algoritmo DQN.
    
    Este agente combina varias t√©cnicas clave de deep reinforcement learning:
    
    **Componentes principales:**
    1. **Red Principal**: Se entrena activamente y decide las acciones.
    2. **Red Objetivo**: Una copia de la red principal que se actualiza lentamente,
       proporcionando targets estables para el entrenamiento y reduciendo oscilaciones.
    3. **Memoria de Replay**: Almacena experiencias para un aprendizaje m√°s estable.
    4. **Estrategia Epsilon-Greedy**: Balancea entre explorar el entorno y explotar el conocimiento.
    
    Args:
        state_shape (tuple): Forma del estado (canales, altura, anchura).
        action_size (int): N√∫mero de acciones posibles en el entorno.
    """
    
    def __init__(self, state_shape, action_size):
        # --- CONFIGURACI√ìN B√ÅSICA ---
        self.state_shape = state_shape
        self.action_size = action_size
        
        # --- MEMORIA DE REPLAY ---
        # Almacena tuplas de (estado, acci√≥n, recompensa, siguiente_estado, terminado).
        self.memory = deque(maxlen=20000)
        
        # --- HIPERPAR√ÅMETROS DE APRENDIZAJE ---
        self.gamma = 0.99
        self.epsilon = 1.0
        self.epsilon_min = 0.01
        self.epsilon_decay = 0.9995
        self.learning_rate = 0.0001
        self.update_target_every = 5
        
        # --- INICIALIZACI√ìN DE REDES NEURONALES ---
        h, w = state_shape[1], state_shape[2]
        self.model = CNN_DQN(h, w, action_size)
        self.target_model = CNN_DQN(h, w, action_size)
        self.update_target_network()
        
        # --- CONFIGURACI√ìN DE OPTIMIZACI√ìN ---
        self.optimizer = optim.Adam(self.model.parameters(), lr=self.learning_rate)
        self.criterion = nn.MSELoss()
        self.steps_done = 0

    def update_target_network(self):
        """
        Actualiza la red objetivo copiando los pesos de la red principal.
        
        Esta operaci√≥n es fundamental en DQN para mantener los targets estables
        durante el entrenamiento, evitando que el objetivo cambie en cada paso.
        """
        self.target_model.load_state_dict(self.model.state_dict())

    def remember(self, state, action, reward, next_state, done):
        """
        Almacena una experiencia en la memoria de replay.
        
        Esto permite al agente aprender de un conjunto de experiencias pasadas y
        no correlacionadas, lo que estabiliza el entrenamiento.
        
        Args:
            state (np.array): Estado actual.
            action (int): Acci√≥n tomada.
            reward (float): Recompensa recibida.
            next_state (np.array): Estado resultante.
            done (bool): True si el episodio termin√≥.
        """
        self.memory.append((state, action, reward, next_state, done))

    def choose_action(self, state, explore=True):
        """
        Selecciona una acci√≥n usando la estrategia epsilon-greedy.
        
        - **Exploraci√≥n**: Con probabilidad epsilon, elige una acci√≥n al azar.
        - **Explotaci√≥n**: Con probabilidad 1-epsilon, elige la mejor acci√≥n seg√∫n la red.
        
        Args:
            state (np.array): Estado actual del entorno.
            explore (bool): Permite la exploraci√≥n. Poner en False para la demostraci√≥n.
        
        Returns:
            int: La acci√≥n seleccionada.
        """
        self.steps_done += 1
        
        if explore and np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)
        
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        with torch.no_grad():
            action_values = self.model(state_tensor)
        
        return np.argmax(action_values.cpu().data.numpy())

    def replay(self, batch_size):
        """
        Entrena la red neuronal usando un lote de experiencias de la memoria.
        
        Este es el n√∫cleo del algoritmo de aprendizaje DQN.
        
        Proceso:
        1. Muestrear un lote (batch) aleatorio de experiencias.
        2. Calcular los valores Q actuales (predicciones) con la red principal.
        3. Calcular los valores Q objetivo (targets) usando la red objetivo.
        4. Optimizar la red principal para minimizar la diferencia entre predicciones y targets.
        
        Args:
            batch_size (int): N√∫mero de experiencias a usar para el entrenamiento.
        """
        if len(self.memory) < batch_size:
            return

        minibatch = random.sample(self.memory, batch_size)
        
        states = torch.FloatTensor(np.array([e[0] for e in minibatch]))
        actions = torch.LongTensor([e[1] for e in minibatch]).unsqueeze(1)
        rewards = torch.FloatTensor([e[2] for e in minibatch]).unsqueeze(1)
        next_states = torch.FloatTensor(np.array([e[3] for e in minibatch]))
        dones = torch.BoolTensor([e[4] for e in minibatch]).unsqueeze(1)

        current_q_values = self.model(states).gather(1, actions)
        
        # --- C√ÅLCULO DEL TARGET SEG√öN DQN ---
        # La red objetivo calcula el valor m√°ximo del siguiente estado.
        with torch.no_grad():
            next_q_values = self.target_model(next_states).max(1)[0].unsqueeze(1)
        
        # Ecuaci√≥n de Bellman para el target: R + gamma * max_Q(s', a')
        target_q_values = rewards + (self.gamma * next_q_values * (~dones))
        
        loss = self.criterion(current_q_values, target_q_values)
        
        self.optimizer.zero_grad()
        loss.backward()
        
        # Gradient clipping para prevenir gradientes explosivos y estabilizar.
        torch.nn.utils.clip_grad_value_(self.model.parameters(), 1)
        self.optimizer.step()

        # Decaimiento de epsilon para reducir la exploraci√≥n.
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay
            
    def load(self, name):
        """
        Carga los pesos de un modelo entrenado desde un archivo.
        
        Args:
            name (str): Ruta al archivo de pesos del modelo (.pth).
        """
        self.model.load_state_dict(torch.load(name))
        self.update_target_network()

    def save(self, name):
        """
        Guarda los pesos del modelo actual en un archivo.
        
        Args:
            name (str): Ruta donde se guardar√° el archivo de pesos (.pth).
        """
        torch.save(self.model.state_dict(), name)

#### dqn_agente_comefrutas.py

In [None]:
# dqn_agente_comefrutas.py
"""
Interfaz gr√°fica de demostraci√≥n para agente DQN (Deep Q-Network).

Este m√≥dulo proporciona una interfaz visual interactiva para demostrar el
comportamiento de un agente DQN entrenado en el problema de recolecci√≥n de frutas.
A diferencia del DDQN, esta implementaci√≥n utiliza DQN cl√°sico con una sola red.

Caracter√≠sticas principales:
- Interfaz de configuraci√≥n interactiva para crear escenarios personalizados
- Visualizaci√≥n en tiempo real del comportamiento del agente entrenado
- Sistema de dos modos: configuraci√≥n (SETUP) y ejecuci√≥n (PLAYING)
- Compatibilidad con modelos DQN preentrenados
- Interfaz de usuario intuitiva con controles de teclado y mouse

El sistema est√° dise√±ado para:
- Demostraciones educativas del comportamiento de IA
- Validaci√≥n visual del rendimiento del agente
- Experimentaci√≥n r√°pida con diferentes configuraciones de entorno
- Evaluaci√≥n cualitativa de estrategias aprendidas

Diferencias con DDQN:
- Utiliza una sola red neuronal (no red objetivo separada)
- Implementaci√≥n m√°s simple del algoritmo Q-learning
- Compatible con modelos entrenados usando DQN cl√°sico
"""

import pygame
import numpy as np
import os
import time
from agent import Agent

# --- CONFIGURACI√ìN DE LA INTERFAZ VISUAL ---
"""Par√°metros de configuraci√≥n para la ventana y visualizaci√≥n."""
GRID_WIDTH = 5          # Ancho de la grilla en n√∫mero de celdas
GRID_HEIGHT = 5         # Alto de la grilla en n√∫mero de celdas
CELL_SIZE = 120         # Tama√±o de cada celda en p√≠xeles (120x120)
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE    # Ancho total de la ventana (600px)
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE  # Alto total de la ventana (600px)

# --- ESQUEMA DE COLORES ---
"""Paleta de colores para una interfaz moderna y legible."""
COLOR_FONDO = (25, 25, 25)        # Fondo oscuro para reducir fatiga visual
COLOR_LINEAS = (40, 40, 40)       # L√≠neas de grilla sutiles
COLOR_CURSOR = (255, 255, 0)      # Cursor amarillo brillante para visibilidad
COLOR_TEXTO = (230, 230, 230)     # Texto claro sobre fondo oscuro


class EntornoGrid:
    """
    Entorno de grilla especializado para demostraci√≥n de agentes DQN.
    
    Esta clase maneja tanto la l√≥gica del entorno como su representaci√≥n visual,
    proporcionando una plataforma completa para demostrar el comportamiento de
    agentes DQN entrenados en problemas de navegaci√≥n y recolecci√≥n.
    
    Caracter√≠sticas del entorno:
    - Grilla bidimensional con elementos configurables
    - Gesti√≥n de colisiones y l√≠mites
    - Sistema de recompensas integrado
    - Representaci√≥n visual con Pygame
    - Compatibilidad con formato de estado DQN (tensor 3D)
    
    Elementos del entorno:
    - Agente: Entidad controlada por IA que debe recolectar frutas
    - Frutas: Objetivos que otorgan recompensas positivas
    - Venenos: Obst√°culos que causan penalizaciones y reseteo
    - Paredes: Barreras f√≠sicas que bloquean el movimiento
    
    Attributes:
        size (int): Tama√±o de la grilla (siempre cuadrada)
        agent_pos (tuple): Posici√≥n actual del agente (fila, columna)
        frutas (set): Conjunto de posiciones que contienen frutas
        venenos (set): Conjunto de posiciones que contienen venenos
        paredes (set): Conjunto de posiciones que contienen paredes
    """
    
    def __init__(self):
        """
        Inicializa el entorno con configuraci√≥n por defecto.
        
        El entorno comienza con:
        - Agente en posici√≥n (0,0) - esquina superior izquierda
        - Todos los conjuntos de elementos vac√≠os
        - Tama√±o de grilla determinado por GRID_WIDTH
        """
        self.size = GRID_WIDTH
        self.agent_pos = (0, 0)  # Posici√≥n inicial est√°ndar
        self.frutas = set()      # Conjunto vac√≠o inicialmente
        self.venenos = set()     # Conjunto vac√≠o inicialmente
        self.paredes = set()     # Conjunto vac√≠o inicialmente

    def reset_a_configuracion_inicial(self):
        """
        Reinicia solo la posici√≥n del agente sin modificar el entorno.
        
        Esta funci√≥n es √∫til para comenzar nuevos episodios manteniendo
        la misma configuraci√≥n de elementos (frutas, venenos, paredes)
        establecida durante el modo setup.
        
        Returns:
            np.array: Estado inicial del entorno despu√©s del reset
        """
        self.agent_pos = (0, 0)
        return self.get_state()

    def limpiar_entorno(self):
        """
        Elimina todos los elementos del entorno excepto el agente.
        
        Funci√≥n de utilidad para limpiar completamente el entorno
        y comenzar una nueva configuraci√≥n desde cero. √ötil en
        modo setup para crear nuevos escenarios r√°pidamente.
        """
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion):
        """
        Ejecuta una acci√≥n del agente y actualiza el estado del entorno.
        
        Este m√©todo implementa la l√≥gica principal del entorno, incluyendo:
        - Procesamiento de movimientos del agente
        - Detecci√≥n de colisiones con paredes y l√≠mites
        - C√°lculo de recompensas seg√∫n las interacciones
        - Gesti√≥n de condiciones de terminaci√≥n
        - Manejo especial de venenos (penalizaci√≥n + reset)
        
        Args:
            accion (int): Acci√≥n a ejecutar por el agente
                0: Mover hacia arriba (fila-1)
                1: Mover hacia abajo (fila+1)
                2: Mover hacia la izquierda (columna-1)
                3: Mover hacia la derecha (columna+1)
        
        Returns:
            tuple: (nuevo_estado, recompensa, episodio_terminado)
                - nuevo_estado (np.array): Estado resultante
                - recompensa (float): Recompensa obtenida
                - episodio_terminado (bool): True si complet√≥ o fall√≥
        
        Sistema de recompensas:
            - Colisi√≥n con pared/l√≠mite: -0.1 (movimiento inv√°lido)
            - Movimiento v√°lido: -0.05 (costo de vida)
            - Tocar veneno: -10.0 (penalizaci√≥n severa + reset a origen)
            - Recolectar fruta: +1.0 (recompensa por objetivo)
            - Completar nivel: +10.0 adicional (todas las frutas recolectadas)
        """
        # Obtener posici√≥n actual del agente
        fila, col = self.agent_pos
        
        # Calcular nueva posici√≥n seg√∫n la acci√≥n
        if accion == 0:      # Arriba
            fila -= 1
        elif accion == 1:    # Abajo
            fila += 1
        elif accion == 2:    # Izquierda
            col -= 1
        elif accion == 3:    # Derecha
            col += 1

        # Verificar colisiones con l√≠mites de grilla o paredes
        if (
            fila < 0                        # L√≠mite superior
            or fila >= GRID_HEIGHT          # L√≠mite inferior
            or col < 0                      # L√≠mite izquierdo
            or col >= GRID_WIDTH            # L√≠mite derecho
            or (fila, col) in self.paredes  # Colisi√≥n con pared
        ):
            # Movimiento inv√°lido: penalizaci√≥n menor, mantener posici√≥n
            return self.get_state(), -0.1, False
        
        # Movimiento v√°lido: actualizar posici√≥n
        x, y = fila, col
        self.agent_pos = (x, y)
        recompensa = -0.05  # Costo base por movimiento (fomenta eficiencia)
        terminado = False

        # Procesar interacciones con elementos del entorno
        if self.agent_pos in self.venenos:
            # Penalizaci√≥n por tocar veneno y reset a posici√≥n inicial
            recompensa = -10.0
            self.agent_pos = (0, 0)  # Reset autom√°tico a origen
            
        elif self.agent_pos in self.frutas:
            # Recompensa por recolectar fruta
            recompensa = 1.0
            self.frutas.remove(self.agent_pos)  # Eliminar fruta recolectada
            
            # Verificar si se complet√≥ el nivel
            if not self.frutas:  # No quedan frutas
                recompensa += 10.0   # Bonus por completar
                terminado = True     # Episodio exitoso
                self.agent_pos = (0, 0)  # Reset para pr√≥ximo episodio

        return self.get_state(), recompensa, terminado

    def get_state(self):
        """
        Convierte el estado actual del entorno a formato tensor para DQN.
        
        Esta funci√≥n es crucial para la compatibilidad con redes neuronales
        convolucionales, transformando la representaci√≥n discreta del entorno
        en un tensor 3D que puede ser procesado eficientemente por la CNN.
        
        Returns:
            np.array: Tensor 3D con forma (3, size, size) donde:
                - Canal 0: Posici√≥n del agente (1.0 donde est√°, 0.0 resto)
                - Canal 1: Posiciones de frutas (1.0 donde hay frutas)
                - Canal 2: Posiciones de venenos (1.0 donde hay venenos)
        
        Caracter√≠sticas del formato:
        - Tipo float32 para compatibilidad con PyTorch
        - Representaci√≥n binaria (0.0 o 1.0) para claridad
        - Canales separados permiten que la CNN detecte patrones espec√≠ficos
        - Dimensiones compatibles con arquitectura Conv2D
        
        Nota: Las paredes no se incluyen en el estado ya que son est√°ticas
              y el agente las aprende a trav√©s de las restricciones de movimiento.
        """
        # Inicializar tensor de estado con ceros
        estado = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        estado[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de frutas
        for fruta in self.frutas:
            estado[1, fruta[0], fruta[1]] = 1.0
            
        # Canal 2: Posiciones de venenos
        for veneno in self.venenos:
            estado[2, veneno[0], veneno[1]] = 1.0
            
        return estado

    def dibujar(
        self,
        pantalla,
        modo_juego,
        cursor_pos,
        img_fruta,
        img_veneno,
        img_pared,
        img_agente,
    ):
        """
        Renderiza el entorno completo en la pantalla usando Pygame.
        
        Esta funci√≥n maneja toda la visualizaci√≥n del entorno, incluyendo
        elementos del juego, interfaz de usuario y informaci√≥n contextual.
        
        Args:
            pantalla (pygame.Surface): Superficie donde renderizar
            modo_juego (str): Modo actual ("SETUP" o "PLAYING")
            cursor_pos (tuple): Posici√≥n del cursor en modo setup
            img_fruta (pygame.Surface): Imagen para representar frutas
            img_veneno (pygame.Surface): Imagen para representar venenos
            img_pared (pygame.Surface): Imagen para representar paredes
            img_agente (pygame.Surface): Imagen para representar al agente
        
        Proceso de renderizado:
        1. Limpiar pantalla con color de fondo
        2. Dibujar grilla de referencia
        3. Renderizar elementos por capas (paredes ‚Üí frutas ‚Üí venenos ‚Üí agente)
        4. Mostrar cursor en modo setup
        5. Renderizar informaci√≥n de controles y estado
        
        El orden de renderizado es importante para la superposici√≥n correcta
        de elementos visuales y la legibilidad de la interfaz.
        """
        # Limpiar pantalla con color de fondo
        pantalla.fill(COLOR_FONDO)
        
        # Dibujar grilla de referencia
        # L√≠neas verticales
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        # L√≠neas horizontales
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Renderizar elementos del entorno (orden de capas importante)
        # 1. Paredes (fondo) - obst√°culos est√°ticos
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0] * CELL_SIZE, pared[1] * CELL_SIZE))
            
        # 2. Frutas (objetivos) - elementos a recolectar
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0] * CELL_SIZE, fruta[1] * CELL_SIZE))
            
        # 3. Venenos (peligros) - elementos a evitar
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0] * CELL_SIZE, veneno[1] * CELL_SIZE))

        # 4. Agente (primer plano) - jugador controlado por IA
        pantalla.blit(
            img_agente, (self.agent_pos[0] * CELL_SIZE, self.agent_pos[1] * CELL_SIZE)
        )

        # 5. Cursor de selecci√≥n (solo en modo setup)
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE,
                cursor_pos[1] * CELL_SIZE,
                CELL_SIZE,
                CELL_SIZE,
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Renderizar informaci√≥n textual de la interfaz
        font = pygame.font.Font(None, 24)
        
        # Mostrar modo actual
        texto_modo = font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO)
        
        # Instrucciones para modo setup
        controles1 = font.render(
            "SETUP: Flechas, F=Fruta, V=Veneno, W=Pared, C=Limpiar", True, COLOR_TEXTO
        )
        
        # Controles generales
        controles2 = font.render("P=Jugar, S=Setup", True, COLOR_TEXTO)
        
        # Posicionar textos en la parte inferior de la pantalla
        pantalla.blit(texto_modo, (10, SCREEN_HEIGHT + 5))
        pantalla.blit(controles1, (10, SCREEN_HEIGHT + 30))
        pantalla.blit(controles2, (10, SCREEN_HEIGHT + 55))


def main():
    """
    Funci√≥n principal que ejecuta la interfaz de demostraci√≥n DQN.
    
    Esta funci√≥n implementa un sistema completo de demostraci√≥n interactiva
    que permite a los usuarios configurar entornos personalizados y observar
    el comportamiento de un agente DQN entrenado.
    
    Flujo de la aplicaci√≥n:
    1. Inicializaci√≥n de Pygame y carga de recursos visuales
    2. Carga del agente DQN preentrenado
    3. Bucle principal con dos modos de operaci√≥n:
       - SETUP: Configuraci√≥n interactiva del entorno
       - PLAYING: Demostraci√≥n del agente entrenado
    4. Renderizado continuo y gesti√≥n de eventos
    
    Modos de operaci√≥n:
    
    **MODO SETUP (Configuraci√≥n):**
    - Navegaci√≥n con flechas del teclado
    - F: A√±adir/quitar frutas en posici√≥n del cursor
    - V: A√±adir/quitar venenos en posici√≥n del cursor
    - W: A√±adir/quitar paredes en posici√≥n del cursor
    - C: Limpiar completamente el entorno
    
    **MODO PLAYING (Demostraci√≥n):**
    - El agente DQN toma control autom√°tico
    - Visualizaci√≥n en tiempo real de decisiones
    - Finalizaci√≥n autom√°tica y retorno a setup
    
    **Controles Globales:**
    - P: Cambiar a modo PLAYING
    - S: Cambiar a modo SETUP
    - ESC/X: Salir de la aplicaci√≥n
    """
    # Inicializar sistema gr√°fico Pygame
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente DQN - Come Frutas üçì")

    def cargar_img(nombre, color_fallback):
        """
        Funci√≥n auxiliar para cargar im√°genes con respaldo de color.
        
        Intenta cargar una imagen desde archivo y, si falla, crea una
        superficie de color s√≥lido como alternativa. Esto garantiza que
        la aplicaci√≥n funcione incluso sin los archivos de imagen.
        
        Args:
            nombre (str): Nombre/ruta del archivo de imagen
            color_fallback (tuple): Color RGB de respaldo (r, g, b)
            
        Returns:
            pygame.Surface: Superficie escalada al tama√±o de celda
        """
        try:
            ruta = os.path.join(os.path.dirname(__file__), nombre)
            img = pygame.image.load(ruta).convert_alpha()
            return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
        except:
            # Crear superficie de color s√≥lido como respaldo
            surf = pygame.Surface((CELL_SIZE, CELL_SIZE))
            surf.fill(color_fallback)
            return surf

    # Cargar recursos visuales con colores de respaldo
    img_fruta = cargar_img("../fruta.png", (0, 255, 0))      # Verde si falla
    img_veneno = cargar_img("../veneno.png", (255, 0, 0))     # Rojo si falla
    img_pared = cargar_img("../pared.png", (100, 100, 100))   # Gris si falla
    img_agente = cargar_img("../agente.png", (0, 0, 255))     # Azul si falla

    # Inicializar componentes principales
    entorno = EntornoGrid()                                    # Entorno de simulaci√≥n
    agente = Agent(state_shape=(3, GRID_HEIGHT, GRID_WIDTH), action_size=4)  # Agente DQN
    agente.load("DQN/dqn_model.pth")                          # Cargar modelo preentrenado

    # Variables de control de la interfaz
    cursor_pos = [0, 0]        # Posici√≥n del cursor en modo setup
    modo_juego = "SETUP"       # Modo inicial
    reloj = pygame.time.Clock()  # Control de framerate
    corriendo = True           # Flag principal del bucle

    # Bucle principal de la aplicaci√≥n
    while corriendo:
        # Procesar eventos del usuario
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            if evento.type == pygame.KEYDOWN:
                # --- CONTROLES GLOBALES ---
                if evento.key == pygame.K_p:
                    print("--- MODO JUEGO ---")
                    entorno.reset_a_configuracion_inicial()
                    modo_juego = "PLAYING"
                    time.sleep(0.5)  # Pausa para evitar acciones inmediatas

                elif evento.key == pygame.K_s:
                    print("--- MODO SETUP ---")
                    modo_juego = "SETUP"

                # --- CONTROLES ESPEC√çFICOS DEL MODO SETUP ---
                if modo_juego == "SETUP":
                    # Navegaci√≥n del cursor con flechas del teclado
                    if evento.key == pygame.K_UP:
                        cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN:
                        cursor_pos[1] = min(GRID_HEIGHT - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT:
                        cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT:
                        cursor_pos[0] = min(GRID_WIDTH - 1, cursor_pos[0] + 1)

                    # Obtener posici√≥n actual del cursor
                    pos = tuple(cursor_pos)
                    
                    # Gesti√≥n de elementos en la posici√≥n del cursor
                    if evento.key == pygame.K_f:
                        # Alternar fruta en posici√≥n actual
                        if pos in entorno.frutas:
                            entorno.frutas.remove(pos)
                        else:
                            entorno.frutas.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            entorno.venenos.discard(pos)
                            entorno.paredes.discard(pos)
                            
                    elif evento.key == pygame.K_v:
                        # Alternar veneno en posici√≥n actual
                        if pos in entorno.venenos:
                            entorno.venenos.remove(pos)
                        else:
                            entorno.venenos.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            entorno.frutas.discard(pos)
                            entorno.paredes.discard(pos)
                            
                    elif evento.key == pygame.K_w:
                        # Alternar pared en posici√≥n actual
                        if pos in entorno.paredes:
                            entorno.paredes.remove(pos)
                        else:
                            entorno.paredes.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            entorno.frutas.discard(pos)
                            entorno.venenos.discard(pos)
                            
                    elif evento.key == pygame.K_c:
                        # Limpiar completamente el entorno
                        print("--- LIMPIANDO ENTORNO ---")
                        entorno.limpiar_entorno()

        # --- L√ìGICA DEL MODO PLAYING ---
        if modo_juego == "PLAYING":
            # Obtener estado actual del entorno
            estado = entorno.get_state()
            
            # El agente DQN elige la mejor acci√≥n (sin exploraci√≥n)
            # explore=False garantiza que use solo la pol√≠tica aprendida
            accion = agente.choose_action(estado, explore=False)
            
            # Ejecutar la acci√≥n en el entorno
            _, _, terminado = entorno.step(accion)
            
            # Verificar si el episodio termin√≥
            if terminado:
                print("Juego terminado. Volviendo a SETUP.")
                modo_juego = "SETUP"
                
            # Control de velocidad para observaci√≥n humana
            time.sleep(0.1)  # 10 FPS para visualizaci√≥n clara

        # --- SISTEMA DE RENDERIZADO ---
        # Crear superficie temporal para composici√≥n
        pantalla_con_info = pygame.Surface((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
        pantalla_con_info.fill(COLOR_FONDO)
        
        # Renderizar el entorno completo en la superficie temporal
        entorno.dibujar(
            pantalla_con_info,
            modo_juego,
            tuple(cursor_pos),  # Convertir lista a tupla
            img_fruta,
            img_veneno,
            img_pared,
            img_agente,
        )
        
        # Transferir superficie temporal a pantalla principal
        pantalla.blit(pantalla_con_info, (0, 0))
        
        # Actualizar pantalla y controlar framerate
        pygame.display.flip()
        reloj.tick(60)  # Limitar a 60 FPS para suavidad

    # Limpiar recursos al salir de la aplicaci√≥n
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa de demostraci√≥n DQN.
    
    Ejecuta la funci√≥n main() cuando el archivo se ejecuta directamente.
    Este patr√≥n permite importar clases y funciones de este m√≥dulo sin
    ejecutar autom√°ticamente la interfaz de demostraci√≥n.
    
    Uso t√≠pico:
        python dqn_agente_comefrutas.py  # Ejecuta la demostraci√≥n
        
    La aplicaci√≥n est√° dise√±ada para:
    - Demostraciones educativas de algoritmos DQN
    - Validaci√≥n visual del comportamiento del agente
    - Experimentaci√≥n r√°pida con configuraciones de entorno
    - Presentaciones de proyectos de IA/ML
    
    Diferencias con versi√≥n DDQN:
    - Utiliza algoritmo DQN cl√°sico (una sola red)
    - Compatible con modelos entrenados con DQN simple
    - Interfaz id√©ntica pero agente subyacente diferente
    """
    main()


#### enviroment.py

In [None]:
# environment.py
"""
Entorno de cuadr√≠cula para el entrenamiento de un agente DQN.

Este m√≥dulo implementa un entorno de juego donde un agente debe navegar
por una cuadr√≠cula para recoger frutas mientras evita venenos. El entorno
utiliza reward shaping para guiar al agente hacia las frutas.

"""

import numpy as np

class GridEnvironment:
    """
    Entorno de cuadr√≠cula para un agente que debe recoger frutas y evitar venenos.
    
    El entorno consiste en una cuadr√≠cula de tama√±o configurable donde:
    - El agente se mueve en 4 direcciones (arriba, abajo, izquierda, derecha)
    - Las frutas proporcionan recompensas positivas
    - Los venenos proporcionan recompensas negativas y terminan el juego
    - El objetivo es recoger todas las frutas sin tocar venenos
    
    Attributes:
        size (int): Tama√±o de la cuadr√≠cula (size x size)
        agent_pos (np.array): Posici√≥n actual del agente [fila, columna]
        fruit_pos (list): Lista de posiciones de frutas
        poison_pos (list): Lista de posiciones de venenos
    """
    def __init__(self, size=5):
        """
        Inicializa el entorno de cuadr√≠cula.
        
        Args:
            size (int, optional): Tama√±o de la cuadr√≠cula. Por defecto es 5x5.
        """
        self.size = size
        self.reset()

    def reset(self, agent_pos=(0, 0), fruit_pos=[], poison_pos=[]):
        """
        Reinicia el entorno con una configuraci√≥n espec√≠fica.
        
        Establece las posiciones iniciales del agente, frutas y venenos.
        Si no se proporcionan posiciones, se usan listas vac√≠as para frutas y venenos.
        
        Args:
            agent_pos (tuple, optional): Posici√≥n inicial del agente (fila, columna). 
                                       Por defecto (0, 0).
            fruit_pos (list, optional): Lista de tuplas con posiciones de frutas.
                                       Por defecto lista vac√≠a.
            poison_pos (list, optional): Lista de tuplas con posiciones de venenos.
                                        Por defecto lista vac√≠a.
        
        Returns:
            np.array: Estado inicial del entorno como array 3D (3, size, size).
        """
        self.agent_pos = np.array(agent_pos)
        self.fruit_pos = [np.array(p) for p in fruit_pos]
        self.poison_pos = [np.array(p) for p in poison_pos]
        return self.get_state()

    def get_state(self):
        """
        Genera la representaci√≥n del estado actual del entorno.
        
        El estado se representa como una "imagen" de 3 canales que puede ser
        procesada por una CNN. Cada canal representa un tipo de elemento:
        
        - Canal 0: Posici√≥n del agente (1.0 donde est√° el agente, 0.0 en el resto)
        - Canal 1: Posiciones de frutas (1.0 donde hay frutas, 0.0 en el resto)
        - Canal 2: Posiciones de venenos (1.0 donde hay venenos, 0.0 en el resto)
        
        Esta representaci√≥n permite que el agente "vea" todo el entorno de una vez
        y facilita el procesamiento por redes neuronales convolucionales.
        
        Returns:
            np.array: Estado del entorno como array 3D de forma (3, size, size)
                     con valores float32.
        """
        state = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        state[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de las frutas
        for fruit in self.fruit_pos:
            state[1, fruit[0], fruit[1]] = 1.0
            
        # Canal 2: Posiciones de los venenos
        for poison in self.poison_pos:
            state[2, poison[0], poison[1]] = 1.0
            
        return state

    def step(self, action):
        """
        Ejecuta una acci√≥n en el entorno y retorna el resultado.
        
        Esta funci√≥n implementa la l√≥gica principal del juego, incluyendo:
        1. Movimiento del agente
        2. C√°lculo de recompensas con reward shaping
        3. Detecci√≥n de colisiones con frutas y venenos
        4. Determinaci√≥n de condiciones de terminaci√≥n
        
        El sistema de recompensas incluye:
        - Recompensa por acercarse a frutas (+0.1)
        - Castigo por alejarse de frutas (-0.15)
        - Recompensa por recoger frutas (+1.0)
        - Castigo por tocar veneno (-1.0, termina el juego)
        - Recompensa por completar el nivel (+5.0)
        - Castigo base por movimiento (-0.05, fomenta eficiencia)
        
        Args:
            action (int): Acci√≥n a realizar:
                         0 = Arriba (decrementar fila)
                         1 = Abajo (incrementar fila)
                         2 = Izquierda (decrementar columna)
                         3 = Derecha (incrementar columna)
        
        Returns:
            tuple: (nuevo_estado, recompensa, terminado)
                - nuevo_estado (np.array): Estado del entorno despu√©s de la acci√≥n
                - recompensa (float): Recompensa obtenida por la acci√≥n
                - terminado (bool): True si el episodio ha terminado
        """
        
        # FASE 1: REWARD SHAPING - Calcular distancia a fruta m√°s cercana ANTES del movimiento
        # Esto permite dar recompensas por acercarse/alejarse de las frutas
        old_dist_to_fruit = float('inf')
        if self.fruit_pos:
            distances = [np.linalg.norm(self.agent_pos - fruit) for fruit in self.fruit_pos]
            old_dist_to_fruit = min(distances)

        
        # FASE 2: MOVIMIENTO DEL AGENTE
        # Actualizar la posici√≥n del agente basada en la acci√≥n seleccionada
        if action == 0:      # Arriba
            self.agent_pos[0] -= 1
        elif action == 1:    # Abajo
            self.agent_pos[0] += 1
        elif action == 2:    # Izquierda
            self.agent_pos[1] -= 1
        elif action == 3:    # Derecha
            self.agent_pos[1] += 1

        # Limitar la posici√≥n del agente a los l√≠mites del tablero
        # np.clip asegura que las coordenadas est√©n entre 0 y (size-1)
        self.agent_pos = np.clip(self.agent_pos, 0, self.size - 1)

        
        # FASE 3: C√ÅLCULO DE RECOMPENSAS
        
        # Recompensa base: peque√±o castigo por cada movimiento para fomentar eficiencia
        reward = -0.05  
        done = False

        # REWARD SHAPING: Calcular nueva distancia y recompensar acercamiento a frutas
        # Esto ayuda al agente a aprender a navegar hacia las frutas incluso antes de alcanzarlas
        new_dist_to_fruit = float('inf')
        if self.fruit_pos:
            distances = [np.linalg.norm(self.agent_pos - fruit) for fruit in self.fruit_pos]
            new_dist_to_fruit = min(distances)

            # Recompensar por acercarse, castigar por alejarse
            if new_dist_to_fruit < old_dist_to_fruit:
                reward += 0.1   # Recompensa por acercarse a una fruta
            else:
                reward -= 0.15  # Castigo por alejarse (ligeramente mayor para evitar indecisi√≥n)

        
        # FASE 4: DETECCI√ìN DE EVENTOS
        
        # Verificar si el agente recogi√≥ una fruta
        for i, fruit in enumerate(self.fruit_pos):
            if np.array_equal(self.agent_pos, fruit):
                reward += 1.0  # Gran recompensa por recoger fruta
                self.fruit_pos.pop(i)  # Remover la fruta del entorno
                break  # Solo puede recoger una fruta por paso
        
        # Verificar si el agente toc√≥ veneno (termina el juego)
        if any(np.array_equal(self.agent_pos, poison) for poison in self.poison_pos):
            reward = -1.0  # Castigo severo y absoluto por tocar veneno
            done = True    # Terminar el episodio inmediatamente

        # Verificar condici√≥n de victoria: no quedan frutas
        if not self.fruit_pos:
            done = True
            reward += 5.0  # Gran recompensa bonus por completar el objetivo

        return self.get_state(), reward, done

#### main.py

In [None]:
# main.py
"""
Interfaz gr√°fica interactiva para visualizar un agente DQN entrenado.

Este m√≥dulo implementa una aplicaci√≥n Pygame que permite:
1. Configurar un escenario colocando frutas y venenos manualmente
2. Observar c√≥mo el agente DQN entrenado resuelve el escenario
3. Reiniciar para probar diferentes configuraciones

La aplicaci√≥n tiene dos modos:
- Modo Setup: El usuario coloca elementos en la cuadr√≠cula
- Modo Run: El agente toma control y ejecuta su pol√≠tica aprendida

Controles:
- Click izquierdo: Colocar fruta
- Click derecho: Colocar veneno  
- Espacio: Iniciar simulaci√≥n del agente

"""

import pygame
import numpy as np
from environment import GridEnvironment
from agent import Agent

# CONFIGURACI√ìN DE PYGAME Y CONSTANTES DEL JUEGO
"""
Configuraci√≥n visual y dimensiones de la aplicaci√≥n.
"""
GRID_SIZE = 5        # Tama√±o de la cuadr√≠cula (5x5)
CELL_SIZE = 100      # Tama√±o de cada celda en p√≠xeles
WIDTH, HEIGHT = GRID_SIZE * CELL_SIZE, GRID_SIZE * CELL_SIZE  # Ventana de 500x500 p√≠xeles
WIN = pygame.display.set_mode((WIDTH, HEIGHT))
pygame.display.set_caption("Agente Come-Frutas")
pygame.font.init()   # Inicializar fuentes para texto si se necesita

# INICIALIZACI√ìN DEL AGENTE DQN ENTRENADO
"""
Carga el agente DQN previamente entrenado desde archivo.
El agente utilizar√° su pol√≠tica aprendida para navegar por el entorno.
"""
env = GridEnvironment(size=GRID_SIZE)
action_size = 4  # 4 acciones posibles: arriba, abajo, izquierda, derecha
state_shape = (3, GRID_SIZE, GRID_SIZE)  # Forma del estado: 3 canales x 5x5 grid
agent = Agent(state_shape, action_size)  # Crear instancia del agente
agent.load("dqn_model.pth")              # Cargar pesos del modelo entrenado

# DEFINICI√ìN DE COLORES
"""
Paleta de colores para los elementos visuales del juego.
Utiliza sistema RGB (Red, Green, Blue) con valores 0-255.
"""
COLOR_GRID = (200, 200, 200)   # Gris claro para las l√≠neas de la cuadr√≠cula
COLOR_AGENT = (0, 0, 255)      # Azul para el agente
COLOR_FRUIT = (0, 255, 0)      # Verde para las frutas
COLOR_POISON = (255, 0, 0)     # Rojo para los venenos

def draw_grid():
    """
    Dibuja las l√≠neas de la cuadr√≠cula en la ventana.
    
    Crea una cuadr√≠cula visual de 5x5 dibujando l√≠neas verticales y horizontales
    separadas por CELL_SIZE p√≠xeles. Esto ayuda a visualizar las celdas donde
    se pueden colocar elementos y donde se mueve el agente.
    """
    # L√≠neas verticales
    for x in range(0, WIDTH, CELL_SIZE):
        pygame.draw.line(WIN, COLOR_GRID, (x, 0), (x, HEIGHT))
    # L√≠neas horizontales  
    for y in range(0, HEIGHT, CELL_SIZE):
        pygame.draw.line(WIN, COLOR_GRID, (0, y), (WIDTH, y))

def draw_elements(agent_pos, fruits, poisons):
    """
    Dibuja todos los elementos del juego en sus posiciones actuales.
    
    Renderiza visualmente:
    - Agente: Como un cuadrado azul que ocupa toda la celda
    - Frutas: Como c√≠rculos verdes centrados en sus celdas
    - Venenos: Como cuadrados rojos m√°s peque√±os centrados en sus celdas
    
    Args:
        agent_pos (np.array): Posici√≥n del agente [fila, columna]
        fruits (list): Lista de posiciones de frutas [(fila, col), ...]
        poisons (list): Lista de posiciones de venenos [(fila, col), ...]
    
    Note:
        Las coordenadas se invierten para Pygame: agent_pos[1] es X, agent_pos[0] es Y
    """
    # Dibujar agente como cuadrado azul completo
    if agent_pos[0] >= 0:  # Solo dibujar si el agente est√° en el tablero
        pygame.draw.rect(WIN, COLOR_AGENT, 
                        (agent_pos[1] * CELL_SIZE, agent_pos[0] * CELL_SIZE, 
                         CELL_SIZE, CELL_SIZE))
    
    # Dibujar frutas como c√≠rculos verdes
    for f in fruits:
        center_x = f[1] * CELL_SIZE + CELL_SIZE // 2
        center_y = f[0] * CELL_SIZE + CELL_SIZE // 2
        radius = CELL_SIZE // 3
        pygame.draw.circle(WIN, COLOR_FRUIT, (center_x, center_y), radius)
    
    # Dibujar venenos como cuadrados rojos m√°s peque√±os
    for p in poisons:
        margin = 20  # Margen para hacer el cuadrado m√°s peque√±o
        pygame.draw.rect(WIN, COLOR_POISON, 
                        (p[1] * CELL_SIZE + margin, p[0] * CELL_SIZE + margin, 
                         CELL_SIZE - 2*margin, CELL_SIZE - 2*margin))

def main():
    """
    Funci√≥n principal que maneja el bucle de la aplicaci√≥n.
    
    Implementa una m√°quina de estados con dos modos:
    
    MODO SETUP:
    - Permite al usuario colocar frutas y venenos con clics del mouse
    - Click izquierdo: Colocar fruta
    - Click derecho: Colocar veneno
    - Presionar ESPACIO: Iniciar simulaci√≥n
    
    MODO RUN:
    - El agente DQN toma control del juego
    - Ejecuta acciones basadas en su pol√≠tica aprendida
    - Visualiza el comportamiento del agente en tiempo real
    - Se reinicia autom√°ticamente al terminar
    
    La aplicaci√≥n se ejecuta hasta que el usuario cierre la ventana.
    """
    # Variables de estado del juego
    fruits = []      # Lista de posiciones de frutas colocadas por el usuario
    poisons = []     # Lista de posiciones de venenos colocadas por el usuario  
    mode = "setup"   # Modo actual: "setup" (configuraci√≥n) o "run" (simulaci√≥n)

    # Configuraci√≥n del bucle principal
    clock = pygame.time.Clock()  # Para controlar FPS
    run = True                   # Flag de control del bucle principal
    # BUCLE PRINCIPAL DE LA APLICACI√ìN
    while run:
        # Limpiar pantalla con fondo negro
        WIN.fill((0, 0, 0))
        # Dibujar cuadr√≠cula base
        draw_grid()

        # MANEJO DE EVENTOS DE USUARIO
        for event in pygame.event.get():
            # Evento de cierre de ventana
            if event.type == pygame.QUIT:
                run = False

            # EVENTOS EN MODO SETUP (Configuraci√≥n manual)
            if mode == "setup":
                # Manejo de clics del mouse para colocar elementos
                if event.type == pygame.MOUSEBUTTONDOWN:
                    pos = pygame.mouse.get_pos()
                    # Convertir coordenadas de p√≠xeles a coordenadas de cuadr√≠cula
                    col = pos[0] // CELL_SIZE
                    row = pos[1] // CELL_SIZE
                    
                    # Click izquierdo (bot√≥n 1): Colocar fruta
                    if event.button == 1 and (row, col) not in fruits:
                        fruits.append((row, col))
                        print(f"Fruta colocada en ({row}, {col})")
                    
                    # Click derecho (bot√≥n 3): Colocar veneno  
                    elif event.button == 3 and (row, col) not in poisons:
                        poisons.append((row, col))
                        print(f"Veneno colocado en ({row}, {col})")

                # Manejo de teclas para cambiar de modo
                if event.type == pygame.KEYDOWN:
                    if event.key == pygame.K_SPACE:
                        mode = "run"
                        # Inicializar el entorno con la configuraci√≥n del usuario
                        state = env.reset(agent_pos=(0, 0), fruit_pos=fruits, poison_pos=poisons)
                        print("=== INICIANDO SIMULACI√ìN DEL AGENTE ===")
                        print(f"Frutas: {len(fruits)}, Venenos: {len(poisons)}")

        # RENDERIZADO SEG√öN EL MODO ACTUAL
        
        if mode == "setup":
            # MODO CONFIGURACI√ìN: Mostrar elementos colocados por el usuario
            # Usar posici√≥n (-1,-1) para que el agente no aparezca en pantalla
            draw_elements(np.array([-1, -1]), fruits, poisons)
        
        elif mode == "run":
            # MODO SIMULACI√ìN: El agente DQN ejecuta su pol√≠tica
            
            # Obtener estado actual del entorno
            state = env.get_state()
            
            # El agente decide la acci√≥n usando su pol√≠tica entrenada
            # explore=False significa que usa solo explotaci√≥n, no exploraci√≥n
            action = agent.choose_action(state, explore=False)
            
            # Ejecutar la acci√≥n en el entorno
            next_state, reward, done = env.step(action)
            
            # Renderizar estado actual del juego
            draw_elements(env.agent_pos, env.fruit_pos, env.poison_pos)

            # Verificar si el episodio termin√≥
            if done:
                if not env.fruit_pos:  # Victoria: todas las frutas recogidas
                    print("üéâ ¬°√âXITO! El agente recogi√≥ todas las frutas")
                else:  # Derrota: toc√≥ veneno
                    print("üíÄ DERROTA: El agente toc√≥ veneno")
                
                print("=== SIMULACI√ìN TERMINADA ===")
                
                # Reiniciar para permitir nueva configuraci√≥n
                fruits = []
                poisons = []
                mode = "setup"
                
                # Pausa dram√°tica antes de reiniciar
                pygame.time.delay(2000)

            # Pausa entre movimientos para visualizaci√≥n clara
            pygame.time.delay(300)

        # Actualizar pantalla con todos los cambios
        pygame.display.update()

    # Limpieza al cerrar la aplicaci√≥n
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa.
    
    Ejecuta la funci√≥n main() solo si este archivo se ejecuta directamente
    (no si se importa como m√≥dulo).
    """
    print("=== AGENTE DQN COME-FRUTAS ===")
    print("CONTROLES:")
    print("‚Ä¢ Click izquierdo: Colocar fruta")
    print("‚Ä¢ Click derecho: Colocar veneno")
    print("‚Ä¢ ESPACIO: Iniciar simulaci√≥n")
    print("‚Ä¢ Cerrar ventana: Salir")
    print("\n¬°Configura un escenario y observa al agente!")
    
    main()

### DDQN

#### agent.py

In [None]:
# agent.py
"""
Implementaci√≥n completa del agente DDQN (Double Deep Q-Network).

Este m√≥dulo contiene la implementaci√≥n del algoritmo DDQN, una mejora del DQN cl√°sico
que aborda el problema de sobreestimaci√≥n de valores Q mediante el uso de dos redes
neuronales: una para selecci√≥n de acciones y otra para evaluaci√≥n de valores.

Caracter√≠sticas principales:
- Red neuronal convolucional optimizada para entornos de grilla
- Algoritmo DDQN con separaci√≥n de selecci√≥n y evaluaci√≥n
- Memoria de replay extendida (50,000 experiencias)
- T√©cnicas de estabilizaci√≥n avanzadas
- Sistema robusto de guardado/carga de modelos

Algoritmo DDQN:
La innovaci√≥n clave es el uso de dos redes para calcular targets:
1. Red principal: Selecciona la mejor acci√≥n del siguiente estado
2. Red objetivo: Eval√∫a el valor Q de esa acci√≥n seleccionada

Esto reduce significativamente la sobreestimaci√≥n de valores Q que sufre DQN cl√°sico,
resultando en un aprendizaje m√°s estable y pol√≠ticas m√°s robustas.

Referencias:
- van Hasselt et al. (2016): "Deep Reinforcement Learning with Double Q-learning"
- Mnih et al. (2015): "Human-level control through deep reinforcement learning"
"""

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import random
from collections import deque

# --- 1. RED NEURONAL CONVOLUCIONAL PARA DDQN ---
class CNN_DQN(nn.Module):
    """
    Red neuronal convolucional especializada para DDQN en entornos de grilla.
    
    Esta arquitectura est√° optimizada para procesar estados representados como
    im√°genes multi-canal, t√≠picos en problemas de navegaci√≥n espacial donde
    el estado se puede visualizar como una cuadr√≠cula con diferentes tipos
    de elementos (agente, objetivos, obst√°culos).
    
    Dise√±o arquitect√≥nico:
    
    **Etapa Convolucional (Extracci√≥n de caracter√≠sticas):**
    - Conv1: 3‚Üí16 canales, kernel 3x3 ‚Üí Detecta patrones b√°sicos locales
    - Conv2: 16‚Üí32 canales, kernel 3x3 ‚Üí Combina patrones en caracter√≠sticas complejas
    - ReLU en cada capa para introducir no-linealidad
    - Padding=1 preserva dimensiones espaciales
    
    **Etapa Completamente Conectada (Toma de decisiones):**
    - FC1: Procesa caracter√≠sticas extra√≠das (256 neuronas)
    - FC2: Genera valores Q para cada acci√≥n posible
    
    **Ventajas de esta arquitectura:**
    - Invarianza a traslaciones locales (convoluciones)
    - Reducci√≥n progresiva de par√°metros vs redes totalmente conectadas
    - Capacidad de detectar patrones espaciales complejos
    - Escalabilidad a entornos de diferentes tama√±os
    
    Args:
        h (int): Altura de la grilla de entrada
        w (int): Anchura de la grilla de entrada
        outputs (int): N√∫mero de acciones posibles (valores Q de salida)
    """
    
    def __init__(self, h, w, outputs):
        super(CNN_DQN, self).__init__()
        
        # --- CAPAS CONVOLUCIONALES PARA EXTRACCI√ìN DE CARACTER√çSTICAS ---
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        # Entrada: 3 canales (agente, frutas, venenos)
        # Salida: 16 mapas de caracter√≠sticas
        # Kernel 3x3: Ventana de percepci√≥n local √≥ptima para grillas peque√±as
        # Padding=1: Preserva dimensiones espaciales de entrada
        
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        # Entrada: 16 mapas de caracter√≠sticas de la capa anterior
        # Salida: 32 mapas de caracter√≠sticas m√°s abstractas
        # Mayor profundidad permite detectar patrones m√°s complejos
        
        # --- C√ÅLCULO DIN√ÅMICO DE DIMENSIONES ---
        """
        Funci√≥n auxiliar para calcular dimensiones despu√©s de convoluciones.
        Esencial para conectar correctamente las capas convolucionales
        con las capas completamente conectadas.
        
        F√≥rmula: output_size = (input_size + 2*padding - kernel_size) // stride + 1
        """
        def conv2d_size_out(size, kernel_size=3, stride=1, padding=1):
            return (size + 2 * padding - kernel_size) // stride + 1
        
        # Aplicar la funci√≥n de c√°lculo a ambas dimensiones espaciales
        convw = conv2d_size_out(conv2d_size_out(w))
        convh = conv2d_size_out(conv2d_size_out(h))
        linear_input_size = convw * convh * 32  # 32 canales de la √∫ltima conv
        
        # --- CAPAS COMPLETAMENTE CONECTADAS PARA TOMA DE DECISIONES ---
        self.fc1 = nn.Linear(linear_input_size, 256)
        # Capa oculta densa que procesa las caracter√≠sticas extra√≠das
        # 256 neuronas: Balance entre capacidad expresiva y eficiencia computacional
        # Suficiente para capturar relaciones complejas entre caracter√≠sticas espaciales
        
        self.fc2 = nn.Linear(256, outputs)
        # Capa de salida que produce valores Q para cada acci√≥n
        # Sin funci√≥n de activaci√≥n (los valores Q pueden ser negativos)
        # N√∫mero de neuronas = n√∫mero de acciones posibles

    def forward(self, x):
        """
        Propagaci√≥n hacia adelante de la red neuronal.
        
        Implementa el flujo completo de informaci√≥n desde el estado de entrada
        hasta los valores Q de salida, aplicando las transformaciones necesarias
        para extraer caracter√≠sticas espaciales y generar estimaciones de valor.
        
        Args:
            x (torch.Tensor): Estado de entrada con forma (batch_size, 3, height, width)
                             - batch_size: N√∫mero de estados en el lote
                             - 3: Canales (agente, frutas, venenos)
                             - height, width: Dimensiones espaciales de la grilla
        
        Returns:
            torch.Tensor: Valores Q para cada acci√≥n con forma (batch_size, num_actions)
        
        Flujo de procesamiento:
        1. Convoluci√≥n 1 + ReLU: Detecci√≥n de patrones b√°sicos
        2. Convoluci√≥n 2 + ReLU: Extracci√≥n de caracter√≠sticas complejas
        3. Aplanamiento: Conversi√≥n de 2D a 1D para capas densas
        4. FC1 + ReLU: Procesamiento de alto nivel de caracter√≠sticas
        5. FC2: Generaci√≥n de valores Q finales (sin activaci√≥n)
        """
        # Primera capa convolucional con activaci√≥n ReLU
        x = nn.functional.relu(self.conv1(x))
        
        # Segunda capa convolucional con activaci√≥n ReLU
        x = nn.functional.relu(self.conv2(x))
        
        # Aplanar caracter√≠sticas espaciales para capas densas
        # Transforma tensor 4D (batch, canales, alto, ancho) ‚Üí 2D (batch, caracter√≠sticas)
        x = x.view(x.size(0), -1)
        
        # Primera capa completamente conectada con activaci√≥n ReLU
        x = nn.functional.relu(self.fc1(x))
        
        # Capa de salida sin activaci√≥n (valores Q pueden ser negativos)
        return self.fc2(x)
    
# --- 2. AGENTE DDQN CON EXPERIENCE REPLAY Y TARGET NETWORK ---

class Agent:
    """
    Agente de Deep Q-Learning con arquitectura CNN para navegaci√≥n en grilla.
    
    Implementa un agente de aprendizaje por refuerzo que utiliza una red neuronal
    convolucional para procesar estados espaciales y aprender una pol√≠tica √≥ptima
    para navegar en un entorno de grilla, evitando venenos y recolectando frutas.
    
    Caracter√≠sticas principales:
    - CNN para procesamiento de estados espaciales (grilla 5x5)
    - Experience replay con buffer de memoria para estabilidad
    - Target network para c√°lculos de valores Q objetivo
    - Estrategia epsilon-greedy con decaimiento para exploraci√≥n
    - Optimizaci√≥n Adam para entrenamiento eficiente
    
    Arquitectura del agente:
    1. Red principal: Entrenamiento y selecci√≥n de acciones
    2. Red objetivo: C√°lculos estables de valores Q futuro
    3. Buffer de experiencias: Almacena transiciones para replay
    4. Optimizador: Adam para actualizaci√≥n de pesos
    
    El agente mejora mediante:
    - Exploraci√≥n inicial alta (epsilon=1.0) para descubrir el entorno
    - Decaimiento gradual hacia explotaci√≥n (epsilon_min=0.01)
    - Entrenamiento con experiencias pasadas (experience replay)
    - Actualizaci√≥n peri√≥dica de la red objetivo para estabilidad
    """
    
    def __init__(self, state_shape, action_size):
        """
        Inicializa el agente DDQN con configuraci√≥n optimizada para el entorno.
        
        Args:
            state_shape (tuple): Forma del estado (canales, altura, ancho)
                                T√≠picamente (3, 5, 5) para grilla con agente/frutas/venenos
            action_size (int): N√∫mero de acciones posibles (4: arriba, abajo, izq, der)
        
        Configuraci√≥n de hiperpar√°metros:
        - memory: 50,000 experiencias para diversidad y estabilidad
        - gamma: 0.99 (alta importancia a recompensas futuras)
        - epsilon: 1.0‚Üí0.01 (exploraci√≥n total a m√≠nima)
        - epsilon_decay: 0.9995 (decaimiento gradual)
        - learning_rate: 0.0001 (ajuste fino y estable)
        - update_target_every: 5 (frecuencia de actualizaci√≥n de red objetivo)
        """
        self.state_shape = state_shape
        self.action_size = action_size
        
        # --- CONFIGURACI√ìN DE EXPERIENCE REPLAY ---
        self.memory = deque(maxlen=50000)      
        # Buffer circular que almacena hasta 50,000 experiencias
        # Tama√±o grande permite mayor diversidad de experiencias
        # Memoria circular: experiencias antiguas se eliminan autom√°ticamente
        
        # --- PAR√ÅMETROS DE APRENDIZAJE ---
        self.gamma = 0.99                     
        # Factor de descuento alto para valorar recompensas futuras
        # 0.99 significa que recompensas 100 pasos adelante valen ~37% del valor actual
        
        # --- ESTRATEGIA DE EXPLORACI√ìN EPSILON-GREEDY ---
        self.epsilon = 1.0                    
        # Exploraci√≥n inicial: 100% acciones aleatorias para descubrir entorno
        
        self.epsilon_min = 0.01               
        # Exploraci√≥n m√≠nima: siempre mantener 1% de acciones aleatorias
        # Evita quedar atrapado en m√≠nimos locales
        
        self.epsilon_decay = 0.9995           
        # Decaimiento gradual: epsilon *= 0.9995 cada episodio
        # Transici√≥n suave de exploraci√≥n a explotaci√≥n
        
        # --- OPTIMIZACI√ìN ---
        self.learning_rate = 0.0001           
        # Tasa de aprendizaje baja para entrenamiento estable y convergencia suave
        # Evita oscilaciones en la funci√≥n de p√©rdida
        
        # --- ACTUALIZACI√ìN DE RED OBJETIVO ---
        self.update_target_every = 5          
        # Frecuencia de actualizaci√≥n de la red objetivo (cada 5 entrenamientos)
        # Balance entre estabilidad y adaptaci√≥n a nuevos pesos
        
        # --- INICIALIZACI√ìN DE REDES NEURONALES ---
        h, w = state_shape[1], state_shape[2]  # Dimensiones de la grilla
        
        # Red principal: Se entrena continuamente con nuevas experiencias
        self.model = CNN_DQN(h, w, action_size)
        
        # Red objetivo: Proporciona valores Q estables para c√°lculos de objetivo
        self.target_model = CNN_DQN(h, w, action_size)
        
        # Inicializar red objetivo con mismos pesos que red principal
        self.update_target_network()
        
        # --- CONFIGURACI√ìN DE ENTRENAMIENTO ---
        # Optimizador Adam: Adaptativo, eficiente para redes neuronales
        self.optimizer = optim.Adam(self.model.parameters(), lr=self.learning_rate)
        
        # Funci√≥n de p√©rdida: Error cuadr√°tico medio para regresi√≥n de valores Q
        self.criterion = nn.MSELoss()
        
        # Contador de pasos para tracking de actualizaciones
        self.steps_done = 0

    def update_target_network(self):
        """
        Actualiza la red objetivo copiando pesos de la red principal.
        
        La red objetivo es fundamental para la estabilidad del entrenamiento:
        - Proporciona valores Q estables para calcular objetivos
        - Se actualiza menos frecuentemente que la red principal
        - Evita que los objetivos cambien constantemente durante entrenamiento
        
        Proceso:
        1. Copia completa de todos los par√°metros de la red principal
        2. La red objetivo permanece fija hasta la pr√≥xima actualizaci√≥n
        3. Garantiza consistencia en los c√°lculos de valores Q objetivo
        """
        self.target_model.load_state_dict(self.model.state_dict())

    def remember(self, state, action, reward, next_state, done):
        """
        Almacena una experiencia en el buffer de memory replay.
        
        Experience replay es una t√©cnica fundamental en Deep Q-Learning que:
        - Rompe correlaciones temporales entre experiencias consecutivas
        - Permite reutilizar experiencias valiosas m√∫ltiples veces
        - Mejora la eficiencia de uso de datos
        - Estabiliza el entrenamiento de la red neuronal
        
        Args:
            state (np.array): Estado actual del agente en la grilla
                             Forma (3, 5, 5) con canales para agente/frutas/venenos
            action (int): Acci√≥n tomada (0=arriba, 1=abajo, 2=izq, 3=der)
            reward (float): Recompensa recibida por la acci√≥n
                           +10 por fruta, -10 por veneno, -1 por movimiento
            next_state (np.array): Estado resultante despu√©s de la acci√≥n
            done (bool): True si el episodio termin√≥ (todas frutas recogidas)
        
        El buffer circular (deque) gestiona autom√°ticamente:
        - Eliminaci√≥n de experiencias antiguas cuando se alcanza el l√≠mite
        - Mantener diversidad de experiencias para entrenamiento robusto
        - Acceso eficiente para muestreo aleatorio durante replay
        """
        self.memory.append((state, action, reward, next_state, done))

    def choose_action(self, state, explore=True):
        """
        Selecciona una acci√≥n usando estrategia epsilon-greedy.
        
        Implementa el balance cr√≠tico entre exploraci√≥n y explotaci√≥n:
        - Exploraci√≥n: Necesaria para descubrir nuevas estrategias
        - Explotaci√≥n: Usar conocimiento actual para maximizar recompensas
        
        Args:
            state (np.array): Estado actual del entorno (3, 5, 5)
            explore (bool): Si False, siempre usa la mejor acci√≥n conocida
                           √ötil para evaluaci√≥n sin exploraci√≥n aleatoria
        
        Returns:
            int: √çndice de acci√≥n seleccionada (0-3)
        
        Estrategia epsilon-greedy:
        - Probabilidad epsilon: Acci√≥n aleatoria (exploraci√≥n)
        - Probabilidad (1-epsilon): Mejor acci√≥n seg√∫n red neuronal (explotaci√≥n)
        
        Progresi√≥n de epsilon:
        - Inicio: Œµ=1.0 ‚Üí 100% exploraci√≥n para mapear el entorno
        - Medio: Œµ~0.5 ‚Üí Balance exploraci√≥n/explotaci√≥n
        - Final: Œµ=0.01 ‚Üí 99% explotaci√≥n, 1% exploraci√≥n residual
        """
        self.steps_done += 1  # Contador para tracking de progreso
        
        # Exploraci√≥n: acci√≥n aleatoria si epsilon lo determina y explore=True
        if explore and np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)
        
        # Explotaci√≥n: usar red neuronal para encontrar mejor acci√≥n
        # Convertir estado a tensor PyTorch y agregar dimensi√≥n de batch
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        
        # Inferencia sin calcular gradientes (m√°s eficiente)
        with torch.no_grad():
            action_values = self.model(state_tensor)
        
        # Seleccionar acci√≥n con mayor valor Q predicho
        return np.argmax(action_values.cpu().data.numpy())

    def replay(self, batch_size):
        """
        Entrena la red neuronal usando experiencias pasadas con Double DQN.
        
        Double DQN mejora el algoritmo DQN cl√°sico al separar la selecci√≥n
        y evaluaci√≥n de acciones, reduciendo la sobrestimaci√≥n sistem√°tica
        de valores Q que puede llevar a pol√≠ticas sub√≥ptimas.
        
        Diferencias DQN vs Double DQN:
        
        DQN Cl√°sico:
        target = reward + gamma * max(target_network(next_state))
        Problema: La misma red selecciona y eval√∫a ‚Üí sobrestimaci√≥n
        
        Double DQN:
        best_action = argmax(main_network(next_state))     # Selecci√≥n
        target = reward + gamma * target_network(next_state)[best_action]  # Evaluaci√≥n
        Ventaja: Separaci√≥n reduce sesgo de sobrestimaci√≥n
        
        Args:
            batch_size (int): Tama√±o del lote de experiencias para entrenamiento
                             T√≠picamente 32-64 para balance eficiencia/estabilidad
        
        Proceso de entrenamiento:
        1. Verificar que hay suficientes experiencias en memoria
        2. Muestrear batch aleatorio de experiencias
        3. Calcular valores Q actuales para estados del batch
        4. Aplicar l√≥gica Double DQN para calcular objetivos
        5. Computar loss (MSE entre predicciones y objetivos)
        6. Backpropagation y actualizaci√≥n de pesos
        7. Decrecer epsilon (menos exploraci√≥n)
        8. Aplicar clipping de gradientes para estabilidad
        """
        # No entrenar si memoria insuficiente
        if len(self.memory) < batch_size:
            return

        # --- MUESTREO ALEATORIO DE EXPERIENCIAS ---
        # Rompe correlaciones temporales y mejora generalizaci√≥n
        minibatch = random.sample(self.memory, batch_size)
        
        # Separar componentes de las experiencias en tensores
        states = torch.FloatTensor(np.array([e[0] for e in minibatch]))
        actions = torch.LongTensor([e[1] for e in minibatch]).unsqueeze(1)
        rewards = torch.FloatTensor([e[2] for e in minibatch]).unsqueeze(1)
        next_states = torch.FloatTensor(np.array([e[3] for e in minibatch]))
        dones = torch.BoolTensor([e[4] for e in minibatch]).unsqueeze(1)

        # --- VALORES Q ACTUALES ---
        # Calcular Q-values para estados actuales usando red principal
        current_q_values = self.model(states).gather(1, actions)
        
        # --- L√ìGICA DOUBLE DQN ---
        with torch.no_grad():  # No calcular gradientes para eficiencia
            # 1. Red principal SELECCIONA mejor acci√≥n para siguiente estado
            #    Usa conocimiento m√°s actualizado para selecci√≥n
            best_next_actions = self.model(next_states).max(1)[1].unsqueeze(1)
            
            # 2. Red objetivo EVAL√öA el valor de la acci√≥n seleccionada
            #    Usa pesos m√°s estables para evaluaci√≥n consistente
            next_q_values_target = self.target_model(next_states).gather(1, best_next_actions)
        
        # --- C√ÅLCULO DE OBJETIVOS Q ---
        # Si episodio termin√≥ (done=True), no hay valor futuro
        # target = reward + descuento * valor_futuro * (no_terminado)
        target_q_values = rewards + (self.gamma * next_q_values_target * (~dones))
        
        # --- ENTRENAMIENTO DE LA RED ---
        # Error cuadr√°tico medio entre predicciones y objetivos
        loss = self.criterion(current_q_values, target_q_values)
        
        # Optimizaci√≥n con backpropagation
        self.optimizer.zero_grad()  # Limpiar gradientes previos
        loss.backward()             # Calcular gradientes
        
        # Clipping de gradientes para prevenir explosi√≥n
        # Limita gradientes a [-1, 1] para estabilidad num√©rica
        torch.nn.utils.clip_grad_value_(self.model.parameters(), 1)
        
        self.optimizer.step()       # Actualizar pesos
        
        # --- DECAIMIENTO DE EXPLORACI√ìN ---
        # Reducir epsilon gradualmente para transici√≥n exploraci√≥n‚Üíexplotaci√≥n
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

    def load(self, name):
        """
        Carga un modelo pre-entrenado desde archivo.
        
        Args:
            name (str): Ruta al archivo .pth con los pesos del modelo
        
        Funcionalidad:
        - Carga pesos de la red principal desde archivo
        - Actualiza red objetivo para mantener consistencia
        - Permite continuar entrenamiento o hacer inferencia
        - Preserva arquitectura de red definida en __init__
        """
        self.model.load_state_dict(torch.load(name))
        self.update_target_network()  # Sincronizar red objetivo

    def save(self, name):
        """
        Guarda el modelo entrenado en un archivo.
        
        Args:
            name (str): Ruta donde guardar el archivo .pth
        
        Funcionalidad:
        - Guarda solo los pesos de la red principal (m√°s compacto)
        - La red objetivo se puede reconstruir al cargar
        - Formato PyTorch est√°ndar para compatibilidad
        - Permite reutilizar modelos entrenados
        """
        torch.save(self.model.state_dict(), name)

#### enviroment.py

In [None]:
# environment.py
"""
Entorno de grilla para el entrenamiento de agentes de aprendizaje por refuerzo.
Este m√≥dulo implementa un entorno de grilla donde un agente debe recolectar frutas 
mientras evita venenos, dise√±ado espec√≠ficamente para algoritmos DDQN.
"""

import numpy as np

class GridEnvironment:
    """
    Entorno de grilla 2D para simulaci√≥n de agentes que recolectan frutas y evitan venenos.
    
    El entorno consiste en una grilla cuadrada donde:
    - El agente se mueve en 4 direcciones (arriba, abajo, izquierda, derecha)
    - Las frutas otorgan recompensas positivas cuando son recolectadas
    - Los venenos causan penalizaciones y resetean la posici√≥n del agente
    - El objetivo es recolectar todas las frutas minimizando las penalizaciones
    
    Attributes:
        size (int): Tama√±o de la grilla (size x size)
        start_pos (tuple): Posici√≥n inicial del agente en cada episodio
        agent_pos (np.array): Posici√≥n actual del agente
        fruit_pos (list): Lista de posiciones de las frutas
        poison_pos (list): Lista de posiciones de los venenos
    """
    
    def __init__(self, size=5):
        """
        Inicializa el entorno de grilla.
        
        Args:
            size (int, optional): Tama√±o de la grilla cuadrada. Por defecto es 5x5.
        """
        self.size = size
        self.start_pos = (0, 0)  # Posici√≥n inicial por defecto
        self.reset()

    def reset(self, agent_pos=(0, 0), fruit_pos=[], poison_pos=[]):
        """
        Reinicia el entorno con una configuraci√≥n espec√≠fica.
        
        Este m√©todo prepara el entorno para un nuevo episodio, estableciendo las posiciones
        iniciales del agente, frutas y venenos. Es crucial para el entrenamiento ya que
        permite configurar diferentes escenarios de aprendizaje.
        
        Args:
            agent_pos (tuple, optional): Posici√≥n inicial del agente (x, y). Por defecto (0, 0).
            fruit_pos (list, optional): Lista de tuplas con posiciones de frutas. Por defecto vac√≠a.
            poison_pos (list, optional): Lista de tuplas con posiciones de venenos. Por defecto vac√≠a.
        
        Returns:
            np.array: Estado inicial del entorno como tensor 3D (canales, altura, anchura).
        """
        self.start_pos = np.array(agent_pos)  # Guardamos la posici√≥n inicial del episodio
        self.agent_pos = np.array(agent_pos)
        self.fruit_pos = [np.array(p) for p in fruit_pos]
        self.poison_pos = [np.array(p) for p in poison_pos]
        return self.get_state()

    def get_state(self):
        """
        Obtiene el estado actual del entorno como una representaci√≥n tensorial.
        
        El estado se representa como un tensor 3D de forma (3, size, size) donde:
        - Canal 0: Posici√≥n del agente (1.0 en la posici√≥n actual, 0.0 en el resto)
        - Canal 1: Posiciones de las frutas (1.0 donde hay frutas, 0.0 en el resto)
        - Canal 2: Posiciones de los venenos (1.0 donde hay venenos, 0.0 en el resto)
        
        Esta representaci√≥n permite que las redes neuronales procesen eficientemente
        la informaci√≥n espacial del entorno usando convoluciones.
        
        Returns:
            np.array: Tensor 3D de forma (3, size, size) representando el estado actual.
        """
        state = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        state[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de las frutas
        for fruit in self.fruit_pos:
            state[1, fruit[0], fruit[1]] = 1.0
            
        # Canal 2: Posiciones de los venenos
        for poison in self.poison_pos:
            state[2, poison[0], poison[1]] = 1.0
            
        return state

    def step(self, action):
        """
        Ejecuta una acci√≥n en el entorno y devuelve el resultado.
        
        Este m√©todo implementa la l√≥gica principal del entorno, procesando las acciones
        del agente y calculando las recompensas correspondientes. Incluye manejo especial
        para venenos que resetean la posici√≥n del agente sin terminar el episodio.
        
        Args:
            action (int): Acci√≥n a ejecutar
                - 0: Mover hacia arriba (decrementar fila)
                - 1: Mover hacia abajo (incrementar fila)
                - 2: Mover hacia la izquierda (decrementar columna)
                - 3: Mover hacia la derecha (incrementar columna)
        
        Returns:
            tuple: (nuevo_estado, recompensa, episodio_terminado)
                - nuevo_estado (np.array): Estado resultante despu√©s de la acci√≥n
                - recompensa (float): Recompensa obtenida por la acci√≥n
                - episodio_terminado (bool): True si el episodio ha terminado
        
        L√≥gica de recompensas:
            - Movimiento b√°sico: -0.05 (costo de vida)
            - Tocar veneno: -10.0 (penalizaci√≥n fuerte + reset a posici√≥n inicial)
            - Recolectar fruta: +1.0 (recompensa por objetivo)
            - Completar nivel: +10.0 (bonus por recolectar todas las frutas)
        """
        # Ejecutar el movimiento seg√∫n la acci√≥n seleccionada
        if action == 0: 
            self.agent_pos[0] -= 1    # Mover hacia arriba
        elif action == 1: 
            self.agent_pos[0] += 1    # Mover hacia abajo
        elif action == 2: 
            self.agent_pos[1] -= 1    # Mover hacia la izquierda
        elif action == 3: 
            self.agent_pos[1] += 1    # Mover hacia la derecha
        
        # Asegurar que el agente permanezca dentro de los l√≠mites de la grilla
        self.agent_pos = np.clip(self.agent_pos, 0, self.size - 1)

        # Recompensa base por cada movimiento (costo de vida)
        reward = -0.05
        done = False

        # --- L√ìGICA DE MANEJO DE VENENOS ---
        # Verificar si el agente toc√≥ alg√∫n veneno
        if any(np.array_equal(self.agent_pos, p) for p in self.poison_pos):
            reward = -10.0  # Penalizaci√≥n severa por tocar veneno
            self.agent_pos = np.copy(self.start_pos)  # Resetear a posici√≥n inicial
            # IMPORTANTE: done NO es True. El episodio contin√∫a despu√©s del reset.
        else:
            # --- L√ìGICA DE RECOLECCI√ìN DE FRUTAS ---
            # Esta l√≥gica solo se ejecuta si NO se toc√≥ un veneno
            eaten_fruit_this_step = False
            
            # Verificar si el agente recolect√≥ alguna fruta
            for i, fruit in enumerate(self.fruit_pos):
                if np.array_equal(self.agent_pos, fruit):
                    reward += 1.0  # Recompensa por recolectar fruta
                    self.fruit_pos.pop(i)  # Remover la fruta recolectada
                    eaten_fruit_this_step = True
                    break

            # Opcional: Aqu√≠ se puede agregar reward shaping basado en distancia
            if not eaten_fruit_this_step and self.fruit_pos:
                # Ejemplo: reward += -0.01 * distancia_a_fruta_m√°s_cercana
                pass  # Actualmente no implementado

            # --- CONDICI√ìN DE VICTORIA ---
            # Si no quedan frutas, el episodio termina exitosamente
            if not self.fruit_pos:
                done = True
                reward += 10.0  # Bonus por completar el nivel

        return self.get_state(), reward, done

#### interfaz.py

In [None]:
# ddqn_agente_comefrutas.py (versi√≥n integrada con interfaz gr√°fica completa)
"""
Interfaz gr√°fica para el entrenamiento y visualizaci√≥n de agentes DDQN.

Este m√≥dulo implementa una interfaz gr√°fica completa usando Pygame que permite:
- Configurar entornos de manera interactiva
- Visualizar el comportamiento del agente entrenado
- Alternar entre modo setup y modo juego
- Gestionar elementos del entorno (frutas, venenos, paredes)

El sistema est√° dise√±ado para facilitar la experimentaci√≥n con diferentes
configuraciones de entorno y la evaluaci√≥n visual del rendimiento del agente.
"""

import pygame
import numpy as np
import os
import time
import torch
from agent import Agent

# --- CONFIGURACI√ìN GENERAL ---
"""Constantes de configuraci√≥n para la interfaz gr√°fica."""
GRID_WIDTH = 5          # Ancho de la grilla en celdas
GRID_HEIGHT = 5         # Alto de la grilla en celdas
CELL_SIZE = 120         # Tama√±o de cada celda en p√≠xeles
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE    # Ancho total de la pantalla
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE  # Alto total de la pantalla

# Paleta de colores para la interfaz
COLOR_FONDO = (25, 25, 25)        # Fondo oscuro
COLOR_LINEAS = (40, 40, 40)       # L√≠neas de la grilla
COLOR_CURSOR = (255, 255, 0)      # Cursor amarillo en modo setup
COLOR_TEXTO = (230, 230, 230)     # Texto claro


# --- ENTORNO PARA DDQN (misma estructura visual que Q-learning) ---
class EntornoGrid:
    """
    Entorno de grilla con interfaz gr√°fica para agentes DDQN.
    
    Esta clase maneja tanto la l√≥gica del entorno como su representaci√≥n visual,
    proporcionando una interfaz interactiva para configurar y visualizar el
    comportamiento del agente. Compatible con la arquitectura DDQN.
    
    Attributes:
        size (int): Tama√±o de la grilla
        agent_pos (tuple): Posici√≥n actual del agente (x, y)
        frutas (set): Conjunto de posiciones con frutas
        venenos (set): Conjunto de posiciones con venenos
        paredes (set): Conjunto de posiciones con paredes (obst√°culos)
    """
    
    def __init__(self):
        """
        Inicializa el entorno de grilla con configuraci√≥n por defecto.
        
        El agente comienza en la posici√≥n (0,0) y todos los conjuntos de
        elementos est√°n vac√≠os inicialmente.
        """
        self.size = GRID_WIDTH
        self.agent_pos = (0, 0)
        self.frutas = set()
        self.venenos = set()
        self.paredes = set()

    def reset_a_configuracion_inicial(self):
        """
        Resetea el agente a su posici√≥n inicial sin modificar el entorno.
        
        Esta funci√≥n es √∫til para reiniciar episodios manteniendo la misma
        configuraci√≥n de frutas, venenos y paredes establecida en modo setup.
        
        Returns:
            np.array: Estado inicial del entorno despu√©s del reset.
        """
        self.agent_pos = (0, 0)
        return self.get_state()

    def limpiar_entorno(self):
        """
        Elimina todos los elementos del entorno excepto el agente.
        
        Esta funci√≥n es √∫til para limpiar completamente el entorno y comenzar
        una nueva configuraci√≥n desde cero en modo setup.
        """
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion):
        """
        Ejecuta una acci√≥n del agente y actualiza el estado del entorno.
        
        Este m√©todo implementa la l√≥gica de movimiento y las reglas del juego,
        incluyendo colisiones con paredes, recolecci√≥n de frutas y penalizaciones
        por venenos.
        
        Args:
            accion (int): Acci√≥n a ejecutar
                - 0: Mover hacia arriba (y-1)
                - 1: Mover hacia abajo (y+1)
                - 2: Mover hacia la izquierda (x-1)
                - 3: Mover hacia la derecha (x+1)
        
        Returns:
            tuple: (estado, recompensa, terminado)
                - estado (np.array): Nuevo estado del entorno
                - recompensa (float): Recompensa obtenida por la acci√≥n
                - terminado (bool): True si el episodio ha terminado
        
        L√≥gica de recompensas:
            - Colisi√≥n con pared/l√≠mite: -0.1 (sin movimiento)
            - Movimiento v√°lido: -0.05 (costo de vida)
            - Tocar veneno: -10.0 (penalizaci√≥n + reset a origen)
            - Recolectar fruta: +1.0
            - Completar nivel: +10.0 adicional
        """
        x, y = self.agent_pos
        
        # Calcular nueva posici√≥n seg√∫n la acci√≥n
        if accion == 0:
            y -= 1    # Mover hacia arriba
        elif accion == 1:
            y += 1    # Mover hacia abajo
        elif accion == 2:
            x -= 1    # Mover hacia la izquierda
        elif accion == 3:
            x += 1    # Mover hacia la derecha

        # Verificar colisiones con l√≠mites de la grilla o paredes
        if (
            x < 0
            or x >= GRID_WIDTH
            or y < 0
            or y >= GRID_HEIGHT
            or (x, y) in self.paredes
        ):
            # Movimiento inv√°lido: penalizaci√≥n menor y no se mueve
            return self.get_state(), -0.1, False

        # Movimiento v√°lido: actualizar posici√≥n del agente
        self.agent_pos = (x, y)
        recompensa = -0.05  # Costo base por movimiento
        terminado = False

        # Verificar interacciones con elementos del entorno
        if self.agent_pos in self.venenos:
            # Penalizaci√≥n por tocar veneno y reset a posici√≥n inicial
            recompensa = -10.0
            self.agent_pos = (0, 0)
        elif self.agent_pos in self.frutas:
            # Recompensa por recolectar fruta
            recompensa = 1.0
            self.frutas.remove(self.agent_pos)
            
            # Verificar si se complet√≥ el nivel (no quedan frutas)
            if not self.frutas:
                recompensa += 10.0  # Bonus por completar
                terminado = True

        return self.get_state(), recompensa, terminado

    def get_state(self):
        """
        Obtiene la representaci√≥n del estado actual como tensor 3D.
        
        Convierte el estado del entorno en un formato compatible con redes
        neuronales convolucionales, usando 3 canales para representar
        diferentes tipos de elementos.
        
        Returns:
            np.array: Tensor 3D de forma (3, size, size) donde:
                - Canal 0: Posici√≥n del agente (1.0 donde est√° el agente)
                - Canal 1: Posiciones de frutas (1.0 donde hay frutas)
                - Canal 2: Posiciones de venenos (1.0 donde hay venenos)
                
        Nota: Las paredes no se incluyen en el estado ya que son est√°ticas
              y se manejan a trav√©s de las restricciones de movimiento.
        """
        estado = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        estado[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de frutas
        for fruta in self.frutas:
            estado[1, fruta[0], fruta[1]] = 1.0
            
        # Canal 2: Posiciones de venenos
        for veneno in self.venenos:
            estado[2, veneno[0], veneno[1]] = 1.0
            
        return estado

    def dibujar(
        self,
        pantalla,
        modo_juego,
        cursor_pos,
        img_fruta,
        img_veneno,
        img_pared,
        img_agente,
    ):
        """
        Renderiza el entorno completo en la pantalla de Pygame.
        
        Este m√©todo se encarga de dibujar todos los elementos visuales del juego,
        incluyendo la grilla, elementos del entorno, el agente, el cursor (en modo setup)
        y la informaci√≥n de controles.
        
        Args:
            pantalla (pygame.Surface): Superficie donde dibujar
            modo_juego (str): Modo actual ("SETUP" o "PLAYING")
            cursor_pos (tuple): Posici√≥n del cursor en modo setup
            img_fruta (pygame.Surface): Imagen de la fruta
            img_veneno (pygame.Surface): Imagen del veneno
            img_pared (pygame.Surface): Imagen de la pared
            img_agente (pygame.Surface): Imagen del agente
        
        Elementos visuales renderizados:
            1. Fondo y grilla
            2. Paredes (obst√°culos est√°ticos)
            3. Frutas (objetivos a recolectar)
            4. Venenos (elementos a evitar)
            5. Agente (jugador controlado por IA)
            6. Cursor (solo en modo setup)
            7. Informaci√≥n de controles y modo actual
        """
        # Limpiar pantalla con color de fondo
        pantalla.fill(COLOR_FONDO)
        
        # Dibujar l√≠neas de la grilla (verticales)
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
            
        # Dibujar l√≠neas de la grilla (horizontales)
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Dibujar elementos del entorno en orden de capas
        # 1. Paredes (fondo)
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0] * CELL_SIZE, pared[1] * CELL_SIZE))
            
        # 2. Frutas (objetivos)
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0] * CELL_SIZE, fruta[1] * CELL_SIZE))
            
        # 3. Venenos (peligros)
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0] * CELL_SIZE, veneno[1] * CELL_SIZE))

        # 4. Agente (primer plano)
        pantalla.blit(
            img_agente, (self.agent_pos[0] * CELL_SIZE, self.agent_pos[1] * CELL_SIZE)
        )

        # 5. Cursor (solo en modo setup)
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE,
                cursor_pos[1] * CELL_SIZE,
                CELL_SIZE,
                CELL_SIZE,
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Renderizar informaci√≥n textual
        font = pygame.font.Font(None, 24)
        
        # Informaci√≥n del modo actual
        texto_modo = font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO)
        
        # Controles para modo setup
        controles1 = font.render(
            "SETUP: Flechas, F=Fruta, V=Veneno, W=Pared, C=Limpiar", True, COLOR_TEXTO
        )
        
        # Controles generales
        controles2 = font.render("P=Jugar, S=Setup", True, COLOR_TEXTO)
        
        # Posicionar textos en la parte inferior
        pantalla.blit(texto_modo, (10, SCREEN_HEIGHT + 5))
        pantalla.blit(controles1, (10, SCREEN_HEIGHT + 30))
        pantalla.blit(controles2, (10, SCREEN_HEIGHT + 55))


# --- MAIN CON INTERFAZ COMPLETA ---
def main():
    """
    Funci√≥n principal que ejecuta la interfaz gr√°fica completa del sistema DDQN.
    
    Esta funci√≥n implementa el bucle principal del programa, manejando:
    - Inicializaci√≥n de Pygame y carga de recursos
    - Gesti√≥n de eventos de teclado para ambos modos
    - Alternancia entre modo setup y modo juego
    - Renderizado continuo de la interfaz
    - Ejecuci√≥n autom√°tica del agente en modo juego
    
    Modos de operaci√≥n:
        SETUP: Permite configurar el entorno interactivamente
            - Flechas: Mover cursor
            - F: A√±adir/quitar fruta
            - V: A√±adir/quitar veneno  
            - W: A√±adir/quitar pared
            - C: Limpiar entorno
            
        PLAYING: El agente entrenado juega autom√°ticamente
            - Usa el modelo DDQN cargado para tomar decisiones
            - Visualiza el comportamiento del agente en tiempo real
            - Termina autom√°ticamente y vuelve a setup al completar
    """
    # Inicializar Pygame y crear ventana
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente DDQN - Come Frutas üçì‚ò†Ô∏è")

    def cargar_img(nombre, color_fallback):
        """
        Carga una imagen desde archivo con fallback a color s√≥lido.
        
        Esta funci√≥n auxiliar intenta cargar una imagen desde el directorio
        del script. Si falla, crea una superficie de color s√≥lido como respaldo.
        
        Args:
            nombre (str): Nombre del archivo de imagen
            color_fallback (tuple): Color RGB de respaldo si falla la carga
            
        Returns:
            pygame.Surface: Superficie escalada al tama√±o de celda
        """
        try:
            ruta = os.path.join(os.path.dirname(__file__), nombre)
            img = pygame.image.load(ruta).convert_alpha()
            return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
        except:
            # Crear superficie de color s√≥lido como fallback
            surf = pygame.Surface((CELL_SIZE, CELL_SIZE))
            surf.fill(color_fallback)
            return surf

    # Cargar im√°genes con colores de respaldo
    img_fruta = cargar_img("fruta.png", (0, 255, 0))      # Verde si falla
    img_veneno = cargar_img("veneno.png", (255, 0, 0))     # Rojo si falla
    img_pared = cargar_img("pared.png", (100, 100, 100))   # Gris si falla
    img_agente = cargar_img("agente.png", (0, 0, 255))     # Azul si falla

    # Inicializar componentes principales
    entorno = EntornoGrid()
    agente = Agent(state_shape=(3, GRID_HEIGHT, GRID_WIDTH), action_size=4)
    agente.load("dqn_model.pth")  # Cargar modelo entrenado

    # Variables de control de la interfaz
    cursor_pos = [0, 0]      # Posici√≥n del cursor en modo setup
    modo_juego = "SETUP"     # Modo inicial
    reloj = pygame.time.Clock()  # Control de FPS
    corriendo = True

    # Bucle principal del programa
    while corriendo:
        # Procesar eventos de Pygame
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            if evento.type == pygame.KEYDOWN:
                # Cambios de modo (disponibles en cualquier momento)
                if evento.key == pygame.K_p:
                    print("--- MODO JUEGO ---")
                    entorno.reset_a_configuracion_inicial()
                    modo_juego = "PLAYING"
                    time.sleep(0.5)  # Pausa para evitar acciones inmediatas

                elif evento.key == pygame.K_s:
                    print("--- MODO SETUP ---")
                    modo_juego = "SETUP"

                # Controles espec√≠ficos del modo SETUP
                if modo_juego == "SETUP":
                    # Movimiento del cursor
                    if evento.key == pygame.K_UP:
                        cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN:
                        cursor_pos[1] = min(GRID_HEIGHT - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT:
                        cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT:
                        cursor_pos[0] = min(GRID_WIDTH - 1, cursor_pos[0] + 1)

                    # Gesti√≥n de elementos en la posici√≥n del cursor
                    pos = tuple(cursor_pos)
                    
                    if evento.key == pygame.K_f:
                        # Alternar fruta en posici√≥n actual
                        if pos in entorno.frutas:
                            entorno.frutas.remove(pos)
                        else:
                            entorno.frutas.add(pos)
                            # Remover otros elementos de la misma posici√≥n
                            entorno.venenos.discard(pos)
                            entorno.paredes.discard(pos)
                            
                    elif evento.key == pygame.K_v:
                        # Alternar veneno en posici√≥n actual
                        if pos in entorno.venenos:
                            entorno.venenos.remove(pos)
                        else:
                            entorno.venenos.add(pos)
                            # Remover otros elementos de la misma posici√≥n
                            entorno.frutas.discard(pos)
                            entorno.paredes.discard(pos)
                            
                    elif evento.key == pygame.K_w:
                        # Alternar pared en posici√≥n actual
                        if pos in entorno.paredes:
                            entorno.paredes.remove(pos)
                        else:
                            entorno.paredes.add(pos)
                            # Remover otros elementos de la misma posici√≥n
                            entorno.frutas.discard(pos)
                            entorno.venenos.discard(pos)
                            
                    elif evento.key == pygame.K_c:
                        # Limpiar todo el entorno
                        print("--- LIMPIANDO ENTORNO ---")
                        entorno.limpiar_entorno()

        # L√≥gica del modo PLAYING (agente autom√°tico)
        if modo_juego == "PLAYING":
            # Obtener estado actual del entorno
            estado = entorno.get_state()
            
            # El agente elige una acci√≥n usando el modelo entrenado
            # explore=False significa que usa solo explotaci√≥n (sin exploraci√≥n)
            accion = agente.choose_action(estado, explore=False)
            
            # Ejecutar la acci√≥n en el entorno
            _, _, terminado = entorno.step(accion)
            
            # Si el episodio termin√≥, volver al modo setup
            if terminado:
                print("Juego terminado. Volviendo a SETUP.")
                modo_juego = "SETUP"
                
            # Controlar velocidad de visualizaci√≥n (10 FPS para el agente)
            time.sleep(0.1)

        # Renderizado de la interfaz
        # Crear superficie completa incluyendo espacio para texto
        pantalla_con_info = pygame.Surface((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
        pantalla_con_info.fill(COLOR_FONDO)
        
        # Dibujar el entorno en la superficie
        entorno.dibujar(
            pantalla_con_info,
            modo_juego,
            tuple(cursor_pos),
            img_fruta,
            img_veneno,
            img_pared,
            img_agente,
        )
        
        # Copiar la superficie completa a la pantalla principal
        pantalla.blit(pantalla_con_info, (0, 0))
        
        # Actualizar la pantalla y controlar FPS
        pygame.display.flip()
        reloj.tick(60)  # Limitar a 60 FPS para suavidad visual

    # Limpiar recursos al salir
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa.
    
    Ejecuta la funci√≥n main() solo cuando el archivo se ejecuta directamente,
    no cuando se importa como m√≥dulo. Esto permite reutilizar las clases
    y funciones en otros scripts sin ejecutar autom√°ticamente la interfaz.
    """
    main()


#### interfaztrain.py

In [None]:
# ddqn_agente_comefrutas.py
"""
Interfaz de entrenamiento interactiva para agentes DDQN.

Este m√≥dulo proporciona una interfaz gr√°fica completa que permite:
- Configurar entornos de entrenamiento de manera interactiva
- Entrenar agentes DDQN con visualizaci√≥n en tiempo real
- Evaluar el rendimiento del agente despu√©s del entrenamiento
- Gestionar el ciclo completo de desarrollo de IA: setup ‚Üí entrenamiento ‚Üí evaluaci√≥n

La interfaz integra tres modos principales:
1. SETUP: Configuraci√≥n interactiva del entorno
2. TRAINING: Entrenamiento autom√°tico del agente DDQN
3. PLAYING: Evaluaci√≥n visual del agente entrenado

Dise√±ado para facilitar la experimentaci√≥n y el desarrollo iterativo de agentes
de aprendizaje por refuerzo en entornos de grilla.
"""

import pygame
import numpy as np
import os
import time
from agent import Agent
from environment import GridEnvironment

# --- CONFIGURACI√ìN DEL ENTORNO Y VISUALIZACI√ìN ---
"""Par√°metros principales del sistema de entrenamiento."""
GRID_SIZE = 5           # Tama√±o de la grilla (5x5)
CELL_SIZE = 120         # Tama√±o en p√≠xeles de cada celda
SCREEN_WIDTH = GRID_SIZE * CELL_SIZE    # Ancho total de la ventana
SCREEN_HEIGHT = GRID_SIZE * CELL_SIZE   # Alto total de la ventana

# Esquema de colores para la interfaz
COLOR_FONDO = (25, 25, 25)        # Fondo oscuro para mejor contraste
COLOR_LINEAS = (40, 40, 40)       # L√≠neas sutiles de la grilla
COLOR_CURSOR = (255, 255, 0)      # Cursor amarillo brillante
COLOR_TEXTO = (230, 230, 230)     # Texto claro y legible

# --- PAR√ÅMETROS DE ENTRENAMIENTO ---
"""Configuraci√≥n del proceso de entrenamiento DDQN."""
NUM_EPISODIOS_ENTRENAMIENTO = 3000    # N√∫mero total de episodios de entrenamiento
BATCH_SIZE = 128                      # Tama√±o del lote para replay de experiencias


def cargar_imagen(ruta, color_si_falla):
    """
    Carga una imagen desde archivo con sistema de fallback robusto.
    
    Esta funci√≥n implementa un mecanismo de carga de im√°genes que garantiza
    que el programa funcione incluso si los archivos de imagen no est√°n
    disponibles, creando superficies de color como respaldo.
    
    Args:
        ruta (str): Ruta relativa o absoluta al archivo de imagen
        color_si_falla (tuple): Color RGB (r, g, b) a usar si falla la carga
        
    Returns:
        pygame.Surface: Superficie escalada al tama√±o de celda, ya sea la
                       imagen cargada o una superficie de color s√≥lido
                       
    Caracter√≠sticas:
        - Manejo autom√°tico de transparencia (convert_alpha)
        - Escalado autom√°tico al tama√±o de celda
        - Fallback graceful a color s√≥lido
        - Compatible con todos los formatos soportados por Pygame
    """
    try:
        # Intentar cargar la imagen desde archivo
        img = pygame.image.load(ruta).convert_alpha()
        # Escalar al tama√±o exacto de celda para consistencia visual
        return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
    except pygame.error:
        # Si falla la carga, crear superficie de color s√≥lido
        surf = pygame.Surface((CELL_SIZE, CELL_SIZE))
        surf.fill(color_si_falla)
        return surf


def main():
    """
    Funci√≥n principal que ejecuta la interfaz de entrenamiento DDQN.
    
    Esta funci√≥n implementa un sistema completo de desarrollo de agentes IA que incluye:
    
    1. **Configuraci√≥n Interactiva (Modo SETUP)**:
       - Dise√±o visual del entorno usando cursor
       - Colocaci√≥n de frutas, venenos y paredes
       - Validaci√≥n de configuraciones
    
    2. **Entrenamiento Automatizado (Modo TRAINING)**:
       - Ejecuci√≥n de algoritmo DDQN completo
       - Actualizaci√≥n de redes objetivo
       - Monitoreo de progreso en tiempo real
       - Gesti√≥n de memoria de experiencias
    
    3. **Evaluaci√≥n Visual (Modo PLAYING)**:
       - Visualizaci√≥n del comportamiento aprendido
       - Modo sin exploraci√≥n (solo explotaci√≥n)
       - An√°lisis cualitativo del rendimiento
    
    Flujo de trabajo t√≠pico:
        SETUP ‚Üí TRAINING ‚Üí PLAYING ‚Üí [iteraci√≥n]
    
    La interfaz permite experimentaci√≥n r√°pida con diferentes configuraciones
    de entorno y hiperpar√°metros de entrenamiento.
    """
    # Inicializaci√≥n del sistema gr√°fico
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente Come-Frutas DDQN üçì‚ò†Ô∏è")

    # Cargar recursos visuales con colores de fallback espec√≠ficos
    img_fruta = cargar_imagen("fruta.png", (40, 200, 40))    # Verde si falla
    img_veneno = cargar_imagen("veneno.png", (200, 40, 40))   # Rojo si falla
    img_pared = cargar_imagen("pared.png", (100, 100, 100))   # Gris si falla
    img_agente = cargar_imagen("agente.png", (40, 200, 40))   # Verde si falla

    # Inicializaci√≥n de componentes principales del sistema
    entorno = GridEnvironment(size=GRID_SIZE)  # Entorno de simulaci√≥n
    agente = Agent(state_shape=(3, GRID_SIZE, GRID_SIZE), action_size=4)  # Agente DDQN

    # Variables de control de la interfaz
    cursor_pos = [0, 0]        # Posici√≥n del cursor en modo setup
    modo_juego = "SETUP"       # Estado inicial del sistema
    reloj = pygame.time.Clock()  # Control de framerate
    corriendo = True           # Flag principal del bucle

    # Conjuntos para gestionar elementos del entorno configurables
    frutas = set()    # Posiciones de objetivos (recompensa positiva)
    venenos = set()   # Posiciones de peligros (penalizaci√≥n)
    paredes = set()   # Posiciones de obst√°culos (bloqueo de movimiento)

    # Bucle principal del sistema de entrenamiento
    while corriendo:
        # Procesamiento de eventos del usuario
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            if evento.type == pygame.KEYDOWN:
                # --- CONTROL DE ENTRENAMIENTO (Tecla T) ---
                if evento.key == pygame.K_t:
                    if modo_juego != "TRAINING":
                        print("--- ENTRENANDO DDQN ---")
                        modo_juego = "TRAINING"
                        
                        # Bucle principal de entrenamiento DDQN
                        for episodio in range(NUM_EPISODIOS_ENTRENAMIENTO):
                            # Reiniciar entorno con configuraci√≥n actual
                            estado = entorno.reset(
                                agent_pos=(0, 0),
                                fruit_pos=list(frutas),
                                poison_pos=list(venenos),
                            )
                            
                            # Variables de control del episodio
                            terminado = False
                            total_reward = 0
                            
                            # Bucle del episodio individual
                            while not terminado:
                                # El agente elige acci√≥n con exploraci√≥n activa
                                accion = agente.choose_action(estado, explore=True)
                                
                                # Ejecutar acci√≥n y observar resultado
                                nuevo_estado, recompensa, terminado = entorno.step(accion)
                                
                                # Almacenar experiencia en memoria de replay
                                agente.remember(
                                    estado, accion, recompensa, nuevo_estado, terminado
                                )
                                
                                # Entrenar la red con experiencias pasadas
                                agente.replay(BATCH_SIZE)
                                
                                # Actualizaci√≥n peri√≥dica de la red objetivo
                                if agente.steps_done % agente.update_target_every == 0:
                                    agente.update_target_network()
                                
                                # Preparar para siguiente paso
                                estado = nuevo_estado
                                total_reward += recompensa
                            
                            # Reporte de progreso cada 100 episodios
                            if (episodio + 1) % 100 == 0:
                                print(
                                    f"Ep {episodio+1}, Reward: {total_reward:.2f}, Epsilon: {agente.epsilon:.3f}"
                                )
                        
                        print("--- ENTRENAMIENTO COMPLETO ---")
                        modo_juego = "PLAYING"  # Cambiar autom√°ticamente a evaluaci√≥n

                # --- CONTROL DE MODOS (Teclas P y S) ---
                elif evento.key == pygame.K_p:
                    print("--- MODO PLAYING ---")
                    # Reiniciar entorno para evaluaci√≥n
                    entorno.reset(
                        agent_pos=(0, 0),
                        fruit_pos=list(frutas),
                        poison_pos=list(venenos),
                    )
                    modo_juego = "PLAYING"

                elif evento.key == pygame.K_s:
                    print("--- MODO SETUP ---")
                    modo_juego = "SETUP"

                # --- CONTROLES DEL MODO SETUP ---
                if modo_juego == "SETUP":
                    # Control de navegaci√≥n del cursor
                    if evento.key == pygame.K_UP:
                        cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN:
                        cursor_pos[1] = min(GRID_SIZE - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT:
                        cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT:
                        cursor_pos[0] = min(GRID_SIZE - 1, cursor_pos[0] + 1)

                    # Conversi√≥n de coordenadas (cursor usa x,y pero entorno usa y,x)
                    pos = tuple(cursor_pos[::-1])
                    
                    # Gesti√≥n de elementos en la posici√≥n del cursor
                    if evento.key == pygame.K_f:
                        # Alternar fruta en posici√≥n actual
                        if pos in frutas:
                            frutas.remove(pos)
                        else:
                            frutas.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            venenos.discard(pos)
                            paredes.discard(pos)
                            
                    elif evento.key == pygame.K_v:
                        # Alternar veneno en posici√≥n actual
                        if pos in venenos:
                            venenos.remove(pos)
                        else:
                            venenos.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            frutas.discard(pos)
                            paredes.discard(pos)
                            
                    elif evento.key == pygame.K_w:
                        # Alternar pared en posici√≥n actual
                        if pos in paredes:
                            paredes.remove(pos)
                        else:
                            paredes.add(pos)
                            # Limpiar otros elementos de la misma posici√≥n
                            frutas.discard(pos)
                            venenos.discard(pos)
                            
                    elif evento.key == pygame.K_c:
                        # Limpiar completamente el entorno
                        frutas.clear()
                        venenos.clear()
                        paredes.clear()

        # --- L√ìGICA DEL MODO PLAYING ---
        if modo_juego == "PLAYING":
            # Obtener estado actual del entorno
            estado = entorno.get_state()
            
            # El agente toma decisiones sin exploraci√≥n (solo explotaci√≥n)
            accion = agente.choose_action(estado, explore=False)
            
            # Ejecutar acci√≥n y verificar si termin√≥ el episodio
            _, _, terminado = entorno.step(accion)
            
            if terminado:
                print("Juego terminado. Volviendo a SETUP.")
                modo_juego = "SETUP"
            
            # Control de velocidad de visualizaci√≥n
            time.sleep(0.1)  # 10 FPS para observar mejor el comportamiento

        # --- SISTEMA DE RENDERIZADO COMPLETO ---
        # Limpiar pantalla con color de fondo
        pantalla.fill(COLOR_FONDO)
        
        # Dibujar grilla de referencia
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Renderizar elementos del entorno (orden de capas importante)
        # Nota: Las coordenadas se invierten para coincidir con el sistema visual
        
        # 1. Paredes (capa de fondo)
        for pared in paredes:
            pantalla.blit(img_pared, (pared[1] * CELL_SIZE, pared[0] * CELL_SIZE))
            
        # 2. Frutas (objetivos)
        for fruta in frutas:
            pantalla.blit(img_fruta, (fruta[1] * CELL_SIZE, fruta[0] * CELL_SIZE))
            
        # 3. Venenos (peligros)
        for veneno in venenos:
            pantalla.blit(img_veneno, (veneno[1] * CELL_SIZE, veneno[0] * CELL_SIZE))

        # 4. Agente (solo visible fuera del modo setup)
        if modo_juego != "SETUP":
            pos = entorno.agent_pos
            pantalla.blit(img_agente, (pos[1] * CELL_SIZE, pos[0] * CELL_SIZE))

        # 5. Cursor (solo visible en modo setup)
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE,
                cursor_pos[1] * CELL_SIZE,
                CELL_SIZE,
                CELL_SIZE,
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # --- INTERFAZ DE INFORMACI√ìN Y CONTROLES ---
        font = pygame.font.Font(None, 24)
        
        # Mostrar modo actual
        pantalla.blit(
            font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO),
            (10, SCREEN_HEIGHT + 5),
        )
        
        # Controles para modo setup
        pantalla.blit(
            font.render(
                "SETUP: Flechas, F=Fruta, V=Veneno, W=Pared, C=Limpiar",
                True,
                COLOR_TEXTO,
            ),
            (10, SCREEN_HEIGHT + 30),
        )
        
        # Controles generales del sistema
        pantalla.blit(
            font.render("T=Entrenar, P=Jugar, S=Setup", True, COLOR_TEXTO),
            (10, SCREEN_HEIGHT + 55),
        )

        # Actualizar pantalla y controlar framerate
        pygame.display.flip()
        reloj.tick(60)  # Limitar a 60 FPS para suavidad visual

    # Limpiar recursos al finalizar
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa de entrenamiento.
    
    Ejecuta la funci√≥n main() cuando el archivo se ejecuta directamente.
    Este patr√≥n permite importar las funciones y clases de este m√≥dulo
    en otros scripts sin ejecutar autom√°ticamente la interfaz de entrenamiento.
    
    Uso t√≠pico:
        python interfaztrain.py  # Ejecuta la interfaz completa
        
    O desde otro script:
        from interfaztrain import cargar_imagen  # Solo importa funciones
    """
    main()


#### train.py

In [None]:
# train.py
"""
Script de entrenamiento principal para el agente DDQN (Double Deep Q-Network).

Este m√≥dulo implementa el proceso completo de entrenamiento del agente DDQN para
el problema de recolecci√≥n de frutas evitando venenos. El entrenamiento utiliza
generaci√≥n aleatoria de escenarios para garantizar la generalizaci√≥n del agente.

Caracter√≠sticas principales del entrenamiento:
- Generaci√≥n aleatoria de entornos para cada episodio
- Implementaci√≥n completa del algoritmo DDQN
- Actualizaci√≥n peri√≥dica de la red objetivo
- Guardado autom√°tico del modelo durante el entrenamiento
- Monitoreo del progreso con m√©tricas de rendimiento

El sistema est√° dise√±ado para entrenar un agente robusto capaz de manejar
una amplia variedad de configuraciones de entorno, desde escenarios simples
hasta configuraciones complejas con m√∫ltiples obst√°culos y objetivos.

Algoritmo implementado:
- Double Deep Q-Network (DDQN) con replay buffer
- Exploraci√≥n epsilon-greedy con decaimiento
- Actualizaci√≥n peri√≥dica de red objetivo
- Entrenamiento continuo con experiencias almacenadas
"""

from environment import GridEnvironment
from agent import Agent
import numpy as np
import random

# --- CONFIGURACI√ìN DE ENTRENAMIENTO ---
"""Hiperpar√°metros principales del proceso de entrenamiento."""
EPISODES = 25000    # N√∫mero total de episodios de entrenamiento (juegos completos)
GRID_SIZE = 5       # Tama√±o de la grilla del entorno (5x5 celdas)

if __name__ == "__main__":
    """
    Funci√≥n principal que ejecuta el proceso completo de entrenamiento DDQN.
    
    Este bloque implementa el algoritmo de entrenamiento completo, incluyendo:
    - Inicializaci√≥n del entorno y agente
    - Generaci√≥n aleatoria de escenarios de entrenamiento
    - Bucle principal de entrenamiento con DDQN
    - Gesti√≥n de experiencias y actualizaci√≥n de redes
    - Monitoreo y guardado del progreso
    
    El entrenamiento utiliza curriculum learning impl√≠cito a trav√©s de la
    variabilidad aleatoria de escenarios, exponiendo al agente a una amplia
    gama de situaciones para mejorar la generalizaci√≥n.
    """
    
    # --- INICIALIZACI√ìN DE COMPONENTES ---
    env = GridEnvironment(size=GRID_SIZE)              # Entorno de simulaci√≥n
    state_shape = (3, GRID_SIZE, GRID_SIZE)           # Forma del estado: 3 canales x 5x5
    action_size = 4                                    # N√∫mero de acciones posibles (4 direcciones)
    agent = Agent(state_shape, action_size)           # Agente DDQN con arquitectura CNN
    
    # --- CONFIGURACI√ìN DE HIPERPAR√ÅMETROS ---
    batch_size = 128    # Tama√±o del lote para entrenamiento de la red neural
                       # Un batch size mayor proporciona gradientes m√°s estables

    # --- BUCLE PRINCIPAL DE ENTRENAMIENTO ---
    for e in range(EPISODES):
        # --- GENERACI√ìN ALEATORIA DE ESCENARIOS ---
        """
        Cada episodio utiliza una configuraci√≥n completamente aleatoria del entorno.
        Esta estrategia es FUNDAMENTAL para la generalizaci√≥n del agente, ya que
        evita el sobreajuste a configuraciones espec√≠ficas y fuerza al agente
        a aprender estrategias robustas que funcionen en cualquier escenario.
        """
        
        # Determinar n√∫mero aleatorio de elementos en el entorno
        num_fruits = np.random.randint(1, 5)    # Entre 1 y 4 frutas
        num_poisons = np.random.randint(1, 4)   # Entre 1 y 3 venenos
        
        # Generar posiciones √∫nicas para todos los elementos
        # Esto previene superposiciones y garantiza configuraciones v√°lidas
        all_pos = [(i, j) for i in range(GRID_SIZE) for j in range(GRID_SIZE)]
        random.shuffle(all_pos)  # Mezclar aleatoriamente todas las posiciones
        
        # Asignar posiciones √∫nicas para cada elemento
        agent_pos = all_pos.pop()                           # Posici√≥n inicial del agente
        fruit_pos = [all_pos.pop() for _ in range(num_fruits)]   # Posiciones de frutas
        poison_pos = [all_pos.pop() for _ in range(num_poisons)] # Posiciones de venenos

        # Reiniciar entorno con la configuraci√≥n generada
        state = env.reset(agent_pos=agent_pos, fruit_pos=fruit_pos, poison_pos=poison_pos)
        
        # --- EJECUCI√ìN DEL EPISODIO ---
        """
        Cada episodio simula un juego completo donde el agente debe recolectar
        todas las frutas mientras evita los venenos. El l√≠mite de 50 pasos
        previene episodios infinitos y fuerza al agente a ser eficiente.
        """
        total_reward = 0
        
        # Bucle de pasos dentro del episodio (m√°ximo 50 pasos)
        for time in range(50):
            # El agente elige una acci√≥n usando la pol√≠tica epsilon-greedy
            # Durante el entrenamiento, explora aleatoriamente con probabilidad epsilon
            action = agent.choose_action(state)
            
            # Ejecutar la acci√≥n en el entorno
            next_state, reward, done = env.step(action)
            
            # Almacenar la experiencia en el buffer de replay
            # Esta experiencia se usar√° m√°s tarde para entrenar la red
            agent.remember(state, action, reward, next_state, done)
            
            # Actualizar estado y acumular recompensa
            state = next_state
            total_reward += reward

            # --- ACTUALIZACI√ìN DE LA RED OBJETIVO ---
            """
            La red objetivo se actualiza peri√≥dicamente para estabilizar el entrenamiento.
            Esto es una caracter√≠stica clave del algoritmo DQN que previene la
            divergencia durante el entrenamiento.
            """
            if agent.steps_done % agent.update_target_every == 0:
                agent.update_target_network()

            # Terminar episodio si se complet√≥ el objetivo
            if done:
                break
        
        # --- MONITOREO DEL PROGRESO ---
        """
        Imprimir estad√≠sticas del episodio para monitorear el progreso del entrenamiento.
        - Puntuaci√≥n total: Indica qu√© tan bien est√° aprendiendo el agente
        - Epsilon: Muestra el balance actual entre exploraci√≥n y explotaci√≥n
        """
        print(f"Episodio: {e+1}/{EPISODES}, Puntuaci√≥n: {total_reward:.2f}, Epsilon: {agent.epsilon:.2f}")

        # --- ENTRENAMIENTO DE LA RED NEURAL ---
        """
        El entrenamiento se realiza despu√©s de cada episodio usando experiencias
        almacenadas en el buffer de replay. Esto permite que el agente aprenda
        de experiencias pasadas, mejorando la eficiencia del aprendizaje.
        """
        agent.replay(batch_size)

        # --- GUARDADO PERI√ìDICO DEL MODELO ---
        """
        Guardar el modelo cada 50 episodios para:
        - Prevenir p√©rdida de progreso en caso de interrupciones
        - Permitir evaluaci√≥n de versiones intermedias
        - Facilitar la reanudaci√≥n del entrenamiento si es necesario
        """
        if e % 50 == 0:
            agent.save("dqn_model.pth")

    # --- FINALIZACI√ìN DEL ENTRENAMIENTO ---
    print("Entrenamiento finalizado. Modelo guardado en 'dqn_model.pth'")

#### main.py

In [None]:
# main.py
"""
Demostraci√≥n interactiva del agente DDQN entrenado.

Este m√≥dulo proporciona una interfaz de demostraci√≥n simple donde los usuarios pueden:
- Configurar entornos personalizados mediante clics del mouse
- Observar el comportamiento del agente DDQN entrenado en tiempo real
- Experimentar con diferentes configuraciones de frutas y venenos

El sistema est√° dise√±ado como una demostraci√≥n p√∫blica o para validaci√≥n
del rendimiento del agente en escenarios definidos por el usuario.

Caracter√≠sticas principales:
- Interfaz minimalista y f√°cil de usar
- Carga autom√°tica del modelo entrenado
- Visualizaci√≥n en tiempo real del agente
- Reinicio autom√°tico para m√∫ltiples demostraciones

Flujo de trabajo:
1. Modo SETUP: El usuario configura frutas y venenos con clics
2. Modo RUN: El agente ejecuta la soluci√≥n autom√°ticamente
3. Reinicio autom√°tico al completar la demostraci√≥n
"""

import pygame
import numpy as np
from environment import GridEnvironment
from agent import Agent

# --- CONFIGURACI√ìN DE LA INTERFAZ GR√ÅFICA ---
"""Par√°metros de visualizaci√≥n y configuraci√≥n de la ventana."""
GRID_SIZE = 5           # Tama√±o de la grilla (5x5)
CELL_SIZE = 100         # Tama√±o de cada celda en p√≠xeles
WIDTH, HEIGHT = GRID_SIZE * CELL_SIZE, GRID_SIZE * CELL_SIZE  # Dimensiones de ventana
WIN = pygame.display.set_mode((WIDTH, HEIGHT))               # Ventana principal
pygame.display.set_caption("Agente Come-Frutas")            # T√≠tulo de la ventana
pygame.font.init()                                           # Inicializar sistema de fuentes

# --- INICIALIZACI√ìN DEL AGENTE ENTRENADO ---
"""
Configuraci√≥n y carga del agente DDQN preentrenado.

Este bloque inicializa los componentes necesarios para ejecutar
el agente entrenado en modo demostraci√≥n.
"""
env = GridEnvironment(size=GRID_SIZE)                    # Entorno de simulaci√≥n
action_size = 4                                          # N√∫mero de acciones posibles (4 direcciones)
state_shape = (3, GRID_SIZE, GRID_SIZE)                 # Forma del estado: 3 canales x 5x5
agent = Agent(state_shape, action_size)                 # Crear instancia del agente
agent.load("dqn_model.pth")                            # Cargar modelo preentrenado

# --- ESQUEMA DE COLORES PARA VISUALIZACI√ìN ---
"""Colores RGB para los diferentes elementos del juego."""
COLOR_GRID = (200, 200, 200)    # Gris claro para las l√≠neas de la grilla
COLOR_AGENT = (0, 0, 255)       # Azul para el agente
COLOR_FRUIT = (0, 255, 0)       # Verde para las frutas (objetivos)
COLOR_POISON = (255, 0, 0)      # Rojo para los venenos (peligros)


def draw_grid():
    """
    Dibuja las l√≠neas de la grilla en la ventana.
    
    Crea una cuadr√≠cula visual que ayuda a los usuarios a identificar
    las posiciones disponibles para colocar elementos durante el modo setup.
    
    La grilla se dibuja con l√≠neas verticales y horizontales espaciadas
    uniformemente seg√∫n el tama√±o de celda configurado.
    """
    # Dibujar l√≠neas verticales
    for x in range(0, WIDTH, CELL_SIZE):
        pygame.draw.line(WIN, COLOR_GRID, (x, 0), (x, HEIGHT))
    
    # Dibujar l√≠neas horizontales  
    for y in range(0, HEIGHT, CELL_SIZE):
        pygame.draw.line(WIN, COLOR_GRID, (0, y), (WIDTH, y))


def draw_elements(agent_pos, fruits, poisons):
    """
    Renderiza todos los elementos del juego en la pantalla.
    
    Esta funci√≥n se encarga de dibujar visualmente todos los componentes
    del entorno: el agente, las frutas y los venenos, usando formas
    geom√©tricas distintivas para cada tipo de elemento.
    
    Args:
        agent_pos (np.array): Posici√≥n actual del agente [fila, columna]
        fruits (list): Lista de posiciones de frutas [(fila, col), ...]
        poisons (list): Lista de posiciones de venenos [(fila, col), ...]
    
    Representaciones visuales:
        - Agente: Rect√°ngulo azul que ocupa toda la celda
        - Frutas: C√≠rculos verdes centrados en las celdas
        - Venenos: Cuadrados rojos m√°s peque√±os dentro de las celdas
    """
    # Dibujar agente como rect√°ngulo azul
    # Nota: Se intercambian coordenadas (agent_pos[1], agent_pos[0]) para
    # convertir de coordenadas de matriz (fila, columna) a pantalla (x, y)
    pygame.draw.rect(
        WIN,
        COLOR_AGENT,
        (agent_pos[1] * CELL_SIZE, agent_pos[0] * CELL_SIZE, CELL_SIZE, CELL_SIZE),
    )
    
    # Dibujar frutas como c√≠rculos verdes
    for f in fruits:
        center_x = f[1] * CELL_SIZE + CELL_SIZE // 2  # Centro horizontal
        center_y = f[0] * CELL_SIZE + CELL_SIZE // 2  # Centro vertical
        radius = CELL_SIZE // 3                       # Radio del c√≠rculo
        pygame.draw.circle(WIN, COLOR_FRUIT, (center_x, center_y), radius)
    
    # Dibujar venenos como cuadrados rojos m√°s peque√±os
    for p in poisons:
        # Crear un margen de 20 p√≠xeles alrededor del cuadrado
        x = p[1] * CELL_SIZE + 20
        y = p[0] * CELL_SIZE + 20
        size = CELL_SIZE - 40  # Tama√±o reducido del cuadrado
        pygame.draw.rect(WIN, COLOR_POISON, (x, y, size, size))


def main():
    """
    Funci√≥n principal que ejecuta la demostraci√≥n interactiva del agente DDQN.
    
    Esta funci√≥n implementa un sistema de dos modos que permite a los usuarios
    configurar entornos personalizados y observar el comportamiento del agente.
    
    Modos de operaci√≥n:
    
    1. **MODO SETUP** (Configuraci√≥n interactiva):
       - Permite al usuario colocar elementos usando el mouse
       - Clic izquierdo: A√±adir frutas (objetivos)
       - Clic derecho: A√±adir venenos (obst√°culos peligrosos)
       - Barra espaciadora: Iniciar simulaci√≥n
    
    2. **MODO RUN** (Demostraci√≥n del agente):
       - El agente DDQN toma control total
       - Ejecuta acciones basadas en el modelo entrenado
       - Visualizaci√≥n en tiempo real del comportamiento
       - Finalizaci√≥n autom√°tica y reinicio
    
    El sistema est√° dise√±ado para demostraciones p√∫blicas, permitiendo
    m√∫ltiples usuarios configurar y probar diferentes escenarios.
    """
    # Variables de estado del sistema
    fruits = []           # Lista de posiciones de frutas configuradas por el usuario
    poisons = []          # Lista de posiciones de venenos configuradas por el usuario
    mode = "setup"        # Modo inicial: "setup" para configuraci√≥n, "run" para ejecuci√≥n

    # Configuraci√≥n del bucle principal
    clock = pygame.time.Clock()  # Control de framerate
    run = True                   # Flag principal del bucle

    # Bucle principal de la demostraci√≥n
    while run:
        # Limpiar pantalla con fondo negro
        WIN.fill((0, 0, 0))
        
        # Dibujar grilla de referencia
        draw_grid()

        # Procesar eventos del usuario
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                run = False

            # --- L√ìGICA DEL MODO SETUP ---
            if mode == "setup":
                # Manejo de clics del mouse para colocar elementos
                if event.type == pygame.MOUSEBUTTONDOWN:
                    pos = pygame.mouse.get_pos()
                    col = pos[0] // CELL_SIZE  # Convertir coordenada x a columna
                    row = pos[1] // CELL_SIZE  # Convertir coordenada y a fila

                    # Clic izquierdo: A√±adir fruta (si no existe ya)
                    if event.button == 1 and (row, col) not in fruits:
                        fruits.append((row, col))
                        
                    # Clic derecho: A√±adir veneno (si no existe ya)
                    elif event.button == 3 and (row, col) not in poisons:
                        poisons.append((row, col))

                # Tecla espaciadora: Iniciar simulaci√≥n
                if event.type == pygame.KEYDOWN:
                    if event.key == pygame.K_SPACE:
                        mode = "run"
                        # Configurar el entorno con los elementos del usuario
                        state = env.reset(
                            agent_pos=(0, 0),      # Agente siempre inicia en (0,0)
                            fruit_pos=fruits,      # Frutas configuradas por el usuario
                            poison_pos=poisons     # Venenos configurados por el usuario
                        )
                        print("Iniciando simulaci√≥n...")

        # --- RENDERIZADO SEG√öN EL MODO ACTUAL ---
        if mode == "setup":
            # Modo configuraci√≥n: Mostrar elementos colocados por el usuario
            # El agente se dibuja fuera de pantalla (posici√≥n inv√°lida) para ocultarlo
            draw_elements(
                np.array([-1, -1]),  # Posici√≥n fuera de pantalla para el agente
                fruits,              # Frutas configuradas por el usuario
                poisons              # Venenos configurados por el usuario
            )

        elif mode == "run":
            # --- L√ìGICA DEL AGENTE AUT√ìNOMO ---
            # Obtener estado actual del entorno
            state = env.get_state()
            
            # El agente elige la mejor acci√≥n sin exploraci√≥n
            # explore=False asegura que use solo la pol√≠tica aprendida
            action = agent.choose_action(state, explore=False)
            
            # Ejecutar la acci√≥n en el entorno
            next_state, reward, done = env.step(action)

            # Renderizar estado actual con posiciones reales del entorno
            draw_elements(
                env.agent_pos,    # Posici√≥n actual del agente
                env.fruit_pos,    # Frutas restantes en el entorno
                env.poison_pos    # Venenos en el entorno
            )

            # Verificar si el episodio termin√≥
            if done:
                print("¬°Simulaci√≥n terminada!")
                # Reiniciar sistema para nueva demostraci√≥n
                fruits = []        # Limpiar frutas configuradas
                poisons = []       # Limpiar venenos configurados
                mode = "setup"     # Volver al modo configuraci√≥n
                pygame.time.delay(2000)  # Pausa de 2 segundos antes del reinicio

            # Control de velocidad de visualizaci√≥n
            pygame.time.delay(300)  # Pausa de 300ms para observar movimientos

        # Actualizar pantalla para mostrar cambios
        pygame.display.update()

    # Limpiar recursos al salir
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa de demostraci√≥n.
    
    Ejecuta la funci√≥n main() cuando el archivo se ejecuta directamente.
    Este patr√≥n permite importar funciones de este m√≥dulo en otros scripts
    sin ejecutar autom√°ticamente la demostraci√≥n.
    
    Uso t√≠pico:
        python main.py  # Ejecuta la demostraci√≥n interactiva
        
    La demostraci√≥n est√° dise√±ada para:
    - Presentaciones p√∫blicas del proyecto
    - Validaci√≥n r√°pida del comportamiento del agente
    - Experimentaci√≥n interactiva con diferentes configuraciones
    - Evaluaci√≥n cualitativa del rendimiento del modelo
    """
    main()


### Agente Gen√©tico

#### agente_ga.py

In [None]:
# agent_ga.py
"""
Implementaci√≥n de un agente basado en algoritmos gen√©ticos para el entorno de recolecci√≥n de frutas.

Este m√≥dulo define la arquitectura de red neuronal y la clase agente utilizados en el enfoque
de algoritmos gen√©ticos. A diferencia del DQN que aprende mediante gradientes, este agente
evoluciona sus pesos mediante selecci√≥n natural, mutaci√≥n y cruzamiento.

Componentes principales:
- AgentNetwork: Red neuronal convolucional para procesar el estado visual
- Agent: Wrapper que contiene la red y maneja la evaluaci√≥n de fitness

El agente procesa el estado del entorno (representado como una imagen de 3 canales)
y produce directamente acciones sin necesidad de aprendizaje por refuerzo.

"""

import torch
import torch.nn as nn
import numpy as np

# La arquitectura de la red puede ser la misma CNN que ya ten√≠amos.
# Es una buena forma de procesar la "visi√≥n" del agente.
class AgentNetwork(nn.Module):
    """
    Red neuronal convolucional para el agente gen√©tico.
    
    Esta red procesa la representaci√≥n visual del entorno (estado como imagen de 3 canales)
    y produce valores de acci√≥n para las 4 direcciones posibles. La arquitectura utiliza
    capas convolucionales para extraer caracter√≠sticas espaciales, seguidas de capas
    densas para la toma de decisiones.
    
    Arquitectura:
    - Conv2D (3‚Üí16 canales) + ReLU
    - Conv2D (16‚Üí32 canales) + ReLU  
    - Flatten
    - Dense (‚Üí256) + ReLU
    - Dense (‚Üí4 acciones)
    
    Args:
        h (int): Altura de la cuadr√≠cula de entrada (default: 5)
        w (int): Ancho de la cuadr√≠cula de entrada (default: 5)
        outputs (int): N√∫mero de acciones posibles (default: 4)
    """
    def __init__(self, h=5, w=5, outputs=4):
        super(AgentNetwork, self).__init__()
        
        # Capas convolucionales para procesamiento espacial del estado visual
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        
        def conv2d_size_out(size, kernel_size=3, stride=1, padding=1):
            """
            Calcula el tama√±o de salida despu√©s de una operaci√≥n de convoluci√≥n.
            Formula: (entrada + 2*padding - kernel_size) // stride + 1
            """
            return (size + 2 * padding - kernel_size) // stride + 1
        
        # Calcular dimensiones para la capa lineal despu√©s de las convoluciones
        # Como usamos padding=1 y kernel=3, las dimensiones se mantienen iguales
        convw = conv2d_size_out(conv2d_size_out(w))
        convh = conv2d_size_out(conv2d_size_out(h))
        linear_input_size = convw * convh * 32  # 32 es el n√∫mero de canales de salida de conv2
        
        # Capas densas para la toma de decisiones
        # Capas densas para la toma de decisiones
        self.fc1 = nn.Linear(linear_input_size, 256)  # Capa oculta con 256 neuronas
        self.fc2 = nn.Linear(256, outputs)            # Capa de salida con 4 acciones

    def forward(self, x):
        """
        Propagaci√≥n hacia adelante de la red neuronal.
        
        Procesa el estado visual del entorno a trav√©s de las capas convolucionales
        y densas para producir valores de acci√≥n.
        
        Args:
            x (torch.Tensor): Estado del entorno de forma (batch_size, 3, h, w)
                            - Canal 0: Posici√≥n del agente
                            - Canal 1: Posiciones de frutas  
                            - Canal 2: Posiciones de venenos
        
        Returns:
            torch.Tensor: Valores de acci√≥n de forma (batch_size, 4)
                         Cada valor representa la "utilidad" de una acci√≥n:
                         - √çndice 0: Arriba
                         - √çndice 1: Abajo
                         - √çndice 2: Izquierda
                         - √çndice 3: Derecha
        """
        # Primera capa convolucional + activaci√≥n ReLU
        x = nn.functional.relu(self.conv1(x))
        
        # Segunda capa convolucional + activaci√≥n ReLU
        x = nn.functional.relu(self.conv2(x))
        
        # Aplanar tensor para capas densas: (batch, channels*h*w)
        x = x.view(x.size(0), -1)
        
        # Primera capa densa + activaci√≥n ReLU
        x = nn.functional.relu(self.fc1(x))
        
        # Capa de salida (sin activaci√≥n, valores raw para argmax)
        return self.fc2(x)

# El Agente es ahora solo una c√°scara con su red y una puntuaci√≥n de fitness.
class Agent:
    """
    Wrapper del agente para algoritmos gen√©ticos.
    
    Esta clase encapsula la red neuronal y proporciona la interfaz necesaria
    para el algoritmo gen√©tico. A diferencia de los agentes de RL, este agente
    no aprende durante la ejecuci√≥n; su comportamiento est√° completamente
    determinado por los pesos de la red neuronal (sus "genes").
    
    El agente se eval√∫a mediante su fitness (rendimiento en el entorno),
    y los mejores agentes se seleccionan para reproducirse y crear la
    siguiente generaci√≥n mediante:
    - Selecci√≥n: Los mejores agentes tienen mayor probabilidad de reproducirse
    - Cruzamiento: Combinaci√≥n de genes de dos padres
    - Mutaci√≥n: Cambios aleatorios en los genes
    
    Attributes:
        network (AgentNetwork): Red neuronal que define el comportamiento del agente
        fitness (float): Puntuaci√≥n de rendimiento en el entorno (mayor = mejor)
    """
    def __init__(self):
        """
        Inicializa un nuevo agente con red neuronal y fitness en cero.
        
        Los pesos de la red se inicializan aleatoriamente seg√∫n la 
        inicializaci√≥n por defecto de PyTorch. Estos pesos representan
        los "genes" del agente que evolucionar√°n con el tiempo.
        """
        self.network = AgentNetwork()
        self.fitness = 0

    def choose_action(self, state):
        """
        Selecciona una acci√≥n basada en el estado actual del entorno.
        
        El agente utiliza su red neuronal para evaluar el estado y selecciona
        la acci√≥n con el valor m√°s alto (estrategia greedy). No hay exploraci√≥n
        ya que el comportamiento del agente est√° completamente determinado por
        sus genes (pesos de la red).
        
        Este m√©todo es determin√≠stico: dado el mismo estado y los mismos pesos,
        siempre producir√° la misma acci√≥n. Esto es importante para la evaluaci√≥n
        consistente del fitness durante la evoluci√≥n.
        
        Args:
            state (np.array): Estado del entorno de forma (3, h, w)
                             - Canal 0: Posici√≥n del agente (1.0 donde est√°, 0.0 resto)
                             - Canal 1: Posiciones de frutas (1.0 donde hay frutas)
                             - Canal 2: Posiciones de venenos (1.0 donde hay venenos)
        
        Returns:
            int: Acci√≥n seleccionada:
                 - 0: Mover arriba (decrementar fila)
                 - 1: Mover abajo (incrementar fila)
                 - 2: Mover izquierda (decrementar columna)
                 - 3: Mover derecha (incrementar columna)
        """
        # Convertir estado NumPy a tensor PyTorch y agregar dimensi√≥n de batch
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        
        # Evaluaci√≥n sin gradientes (no hay backpropagation)
        with torch.no_grad():
            action_values = self.network(state_tensor)
        
        # Seleccionar acci√≥n con mayor valor Q (estrategia greedy)
        return torch.argmax(action_values).item()

    def load_genes(self, filepath):
        """
        Carga los "genes" (pesos de la red) desde un archivo.
        
        Utilizado para cargar agentes previamente evolucionados y demostrar
        su comportamiento. Los pesos representan el "ADN" del agente que
        determina completamente su comportamiento en el entorno.
        
        Este m√©todo es √∫til para:
        - Cargar el mejor agente de una evoluci√≥n anterior
        - Demostrar el comportamiento de agentes elite
        - Continuar la evoluci√≥n desde una generaci√≥n guardada
        - An√°lisis y visualizaci√≥n del comportamiento aprendido
        
        Args:
            filepath (str): Ruta al archivo con los pesos del modelo
                           (normalmente un archivo .pth de PyTorch)
                           
        Raises:
            FileNotFoundError: Si el archivo no existe
            RuntimeError: Si los pesos no coinciden con la arquitectura
        """
        try:
            self.network.load_state_dict(torch.load(filepath))
            print(f"‚úÖ Genes cargados exitosamente desde: {filepath}")
        except FileNotFoundError:
            print(f"‚ùå Error: No se encontr√≥ el archivo {filepath}")
            raise
        except Exception as e:
            print(f"‚ùå Error cargando genes: {e}")
            raise

#### genetico_agente.py

In [None]:
"""
Demostrador interactivo para agentes entrenados con algoritmos gen√©ticos.

Este m√≥dulo implementa una interfaz gr√°fica completa que permite:
1. Configurar escenarios personalizados con frutas, venenos y paredes
2. Observar el comportamiento de un agente gen√©tico entrenado
3. Interactuar en tiempo real con controles de teclado
4. Visualizar el rendimiento del agente en diferentes configuraciones

Caracter√≠sticas principales:
- Modo Setup: Configuraci√≥n manual del entorno
- Modo Playing: Demostraci√≥n del agente en acci√≥n
- Controles intuitivos con teclado
- Gr√°ficos mejorados con sprites
- Interfaz informativa con instrucciones

El agente carga pesos previamente evolucionados y demuestra su comportamiento
determin√≠stico en los escenarios configurados por el usuario.

"""

import pygame
import numpy as np
import os
import time
from agent_ga import Agent

# CONFIGURACI√ìN VISUAL Y DIMENSIONES
"""
Constantes que definen la apariencia y dimensiones de la interfaz gr√°fica.
"""
GRID_WIDTH = 5          # Ancho de la cuadr√≠cula en celdas
GRID_HEIGHT = 5         # Alto de la cuadr√≠cula en celdas  
CELL_SIZE = 120         # Tama√±o de cada celda en p√≠xeles (m√°s grande que en DQN)
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE    # Ancho total de la ventana (600px)
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE  # Alto total del √°rea de juego (600px)

# PALETA DE COLORES PROFESIONAL
"""
Esquema de colores dark theme para una interfaz moderna y profesional.
"""
COLOR_FONDO = (25, 25, 25)      # Gris muy oscuro para el fondo
COLOR_LINEAS = (40, 40, 40)     # Gris oscuro para l√≠neas de cuadr√≠cula
COLOR_CURSOR = (255, 255, 0)    # Amarillo brillante para el cursor de selecci√≥n
COLOR_TEXTO = (230, 230, 230)   # Gris claro para texto legible


class EntornoGrid:
    """
    Entorno de cuadr√≠cula personalizado para la demostraci√≥n del agente gen√©tico.
    
    Esta clase maneja la l√≥gica del juego y la configuraci√≥n del entorno,
    incluyendo la colocaci√≥n de elementos y la simulaci√≥n de la interacci√≥n
    del agente. Incluye caracter√≠sticas adicionales como paredes que no
    est√°n presentes en los entornos de entrenamiento b√°sicos.
    
    Caracter√≠sticas especiales:
    - Soporte para paredes como obst√°culos
    - Interfaz de configuraci√≥n manual
    - Reset autom√°tico en condiciones de terminaci√≥n
    - Estado visual compatible con el agente entrenado
    
    Attributes:
        size (int): Tama√±o de la cuadr√≠cula
        agent_pos (tuple): Posici√≥n actual del agente (fila, columna)
        frutas (set): Conjunto de posiciones con frutas
        venenos (set): Conjunto de posiciones con venenos  
        paredes (set): Conjunto de posiciones con paredes (obst√°culos)
    """
    def __init__(self):
        """
        Inicializa el entorno con configuraci√≥n vac√≠a.
        
        Todos los conjuntos de elementos comienzan vac√≠os, permitiendo
        al usuario configurar el escenario manualmente.
        """
        self.size = GRID_WIDTH
        self.agent_pos = (0, 0)    # Agente siempre inicia en esquina superior izquierda
        self.frutas = set()        # Conjunto de posiciones de frutas
        self.venenos = set()       # Conjunto de posiciones de venenos
        self.paredes = set()       # Conjunto de posiciones de paredes

    def reset_a_configuracion_inicial(self):
        """
        Resetea el agente a la posici√≥n inicial sin modificar el entorno.
        
        Utilizado al inicio de cada demostraci√≥n para colocar al agente
        en la posici√≥n de partida est√°ndar (0,0) manteniendo la configuraci√≥n
        de frutas, venenos y paredes establecida por el usuario.
        
        Returns:
            np.array: Estado inicial del entorno despu√©s del reset
        """
        self.agent_pos = (0, 0)
        return self.get_state()

    def limpiar_entorno(self):
        """
        Elimina todos los elementos del entorno (frutas, venenos, paredes).
        
        Funci√≥n de utilidad para resetear completamente el escenario,
        permitiendo al usuario comenzar con una cuadr√≠cula vac√≠a.
        El agente permanece en su posici√≥n actual.
        """
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion):
        """
        Ejecuta una acci√≥n del agente en el entorno de demostraci√≥n.
        
        Implementa la l√≥gica del juego incluyendo movimiento, colisiones con
        paredes, interacci√≥n con elementos del entorno y c√°lculo de recompensas.
        Incluye caracter√≠sticas especiales como paredes que bloquean el movimiento.
        
        Diferencias con el entorno de entrenamiento:
        - Incluye paredes como obst√°culos
        - Movimientos inv√°lidos dan recompensa negativa
        - Reset autom√°tico al completar nivel
        
        Args:
            accion (int): Acci√≥n a ejecutar:
                         0 = Arriba (decrementar fila)
                         1 = Abajo (incrementar fila) 
                         2 = Izquierda (decrementar columna)
                         3 = Derecha (incrementar columna)
        
        Returns:
            tuple: (estado, recompensa, terminado)
                - estado (np.array): Nuevo estado del entorno
                - recompensa (float): Recompensa obtenida
                - terminado (bool): Si el episodio ha terminado
        """
        # Calcular nueva posici√≥n basada en la acci√≥n
        fila, col = self.agent_pos
        if accion == 0:     # Arriba
            fila -= 1
        elif accion == 1:   # Abajo
            fila += 1
        elif accion == 2:   # Izquierda
            col -= 1
        elif accion == 3:   # Derecha
            col += 1

        # Verificar colisiones: l√≠mites del tablero o paredes
        if (
            fila < 0
            or fila >= GRID_HEIGHT
            or col < 0
            or col >= GRID_WIDTH
            or (fila, col) in self.paredes
        ):
            # Movimiento inv√°lido: peque√±a penalizaci√≥n, posici√≥n no cambia
            return self.get_state(), -0.1, False

        # Movimiento v√°lido: actualizar posici√≥n
        self.agent_pos = (fila, col)
        recompensa = -0.05    # Costo base del movimiento
        terminado = False

        # Verificar interacciones con elementos del entorno
        if self.agent_pos in self.venenos:
            # Veneno tocado: penalizaci√≥n severa y reset a inicio
            recompensa = -10.0
            self.agent_pos = (0, 0)
        elif self.agent_pos in self.frutas:
            # Fruta recogida: recompensa positiva
            recompensa = 1.0
            self.frutas.remove(self.agent_pos)
            
            # Verificar si se complet√≥ el nivel
            if not self.frutas:
                recompensa += 10.0    # Bonus por completar
                terminado = True
                self.agent_pos = (0, 0)  # Reset para pr√≥xima demostraci√≥n

        return self.get_state(), recompensa, terminado

    def get_state(self):
        """
        Genera la representaci√≥n del estado compatible con el agente entrenado.
        
        Crea una representaci√≥n de 3 canales id√©ntica a la utilizada durante
        el entrenamiento, asegurando compatibilidad con los pesos evolucionados.
        Las paredes no se incluyen en el estado ya que el agente original
        no fue entrenado con ellas.
        
        Returns:
            np.array: Estado del entorno de forma (3, size, size):
                     - Canal 0: Posici√≥n del agente
                     - Canal 1: Posiciones de frutas
                     - Canal 2: Posiciones de venenos
        """
        estado = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        estado[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de frutas
        for fruta in self.frutas:
            estado[1, fruta[0], fruta[1]] = 1.0
            
        # Canal 2: Posiciones de venenos  
        for veneno in self.venenos:
            estado[2, veneno[0], veneno[1]] = 1.0
            
        return estado

    def dibujar(
        self,
        pantalla,
        modo_juego,
        cursor_pos,
        img_fruta,
        img_veneno,
        img_pared,
        img_agente,
    ):
        """
        Renderiza el estado completo del entorno en la pantalla.
        
        Dibuja todos los elementos visuales incluyendo cuadr√≠cula, sprites,
        cursor de selecci√≥n (en modo setup) e interfaz de usuario con
        controles e informaci√≥n del modo actual.
        
        Args:
            pantalla (pygame.Surface): Superficie donde dibujar
            modo_juego (str): Modo actual ("SETUP" o "PLAYING")
            cursor_pos (tuple): Posici√≥n del cursor en modo setup
            img_fruta (pygame.Surface): Sprite de la fruta
            img_veneno (pygame.Surface): Sprite del veneno
            img_pared (pygame.Surface): Sprite de la pared
            img_agente (pygame.Surface): Sprite del agente
        """
        # Limpiar pantalla con color de fondo
        pantalla.fill(COLOR_FONDO)
        
        # Dibujar cuadr√≠cula de referencia
        # L√≠neas verticales
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        # L√≠neas horizontales
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Dibujar elementos del entorno (orden importante para superposici√≥n correcta)
        # 1. Paredes (fondo)
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0] * CELL_SIZE, pared[1] * CELL_SIZE))
        
        # 2. Frutas
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0] * CELL_SIZE, fruta[1] * CELL_SIZE))
        
        # 3. Venenos
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0] * CELL_SIZE, veneno[1] * CELL_SIZE))

        # 4. Agente (primer plano)
        pantalla.blit(
            img_agente, (self.agent_pos[0] * CELL_SIZE, self.agent_pos[1] * CELL_SIZE)
        )

        # 5. Cursor de selecci√≥n (solo en modo setup)
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE,
                cursor_pos[1] * CELL_SIZE,
                CELL_SIZE,
                CELL_SIZE,
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Dibujar interfaz de usuario en la parte inferior
        font = pygame.font.Font(None, 24)
        
        # Informaci√≥n del modo actual
        texto_modo = font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO)
        
        # Controles disponibles
        controles1 = font.render(
            "SETUP: Flechas, F=Fruta, V=Veneno, W=Pared, C=Limpiar", True, COLOR_TEXTO
        )
        controles2 = font.render("P=Jugar, S=Setup", True, COLOR_TEXTO)
        
        # Posicionar texto en la parte inferior
        pantalla.blit(texto_modo, (10, SCREEN_HEIGHT + 5))
        pantalla.blit(controles1, (10, SCREEN_HEIGHT + 30))
        pantalla.blit(controles2, (10, SCREEN_HEIGHT + 55))


def main():
    """
    Funci√≥n principal que ejecuta la aplicaci√≥n de demostraci√≥n.
    
    Inicializa Pygame, carga recursos gr√°ficos, configura el agente gen√©tico
    entrenado y ejecuta el bucle principal de la aplicaci√≥n. Maneja dos modos
    principales: configuraci√≥n manual y demostraci√≥n autom√°tica.
    
    Flujo de ejecuci√≥n:
    1. Inicializaci√≥n de Pygame y recursos
    2. Carga del agente entrenado
    3. Bucle principal con manejo de eventos
    4. Renderizado continuo
    5. Limpieza al salir
    """
    # INICIALIZACI√ìN DE PYGAME
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente Gen√©tico - Come Frutas üçì")

    # FUNCI√ìN AUXILIAR PARA CARGA DE IM√ÅGENES
    def cargar_img(nombre, color_fallback):
        """
        Carga una imagen con fallback a color s√≥lido si falla.
        
        Args:
            nombre (str): Nombre del archivo de imagen
            color_fallback (tuple): Color RGB de respaldo
            
        Returns:
            pygame.Surface: Superficie escalada al tama√±o de celda
        """
        try:
            ruta = os.path.join(os.path.dirname(__file__), nombre)
            img = pygame.image.load(ruta).convert_alpha()
            return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
        except:
            # Fallback: crear superficie de color s√≥lido
            surf = pygame.Surface((CELL_SIZE, CELL_SIZE))
            surf.fill(color_fallback)
            return surf

    # CARGA DE RECURSOS GR√ÅFICOS
    img_fruta = cargar_img("../fruta.png", (0, 255, 0))      # Verde si no hay imagen
    img_veneno = cargar_img("../veneno.png", (255, 0, 0))    # Rojo si no hay imagen  
    img_pared = cargar_img("../pared.png", (100, 100, 100)) # Gris si no hay imagen
    img_agente = cargar_img("../agente.png", (0, 0, 255))   # Azul si no hay imagen

    # INICIALIZACI√ìN DEL ENTORNO Y AGENTE
    entorno = EntornoGrid()
    agente = Agent()
    
    # Cargar agente entrenado con algoritmos gen√©ticos
    agente.load_genes("GENETICO/best_agent_genes.pth")

    # VARIABLES DE ESTADO DE LA APLICACI√ìN
    cursor_pos = [0, 0]        # Posici√≥n del cursor en modo setup
    modo_juego = "SETUP"       # Modo inicial: configuraci√≥n
    reloj = pygame.time.Clock() # Control de FPS
    corriendo = True           # Flag de control del bucle principal

    # BUCLE PRINCIPAL DE LA APLICACI√ìN
    while corriendo:
        # MANEJO DE EVENTOS
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            # EVENTOS DE TECLADO
            if evento.type == pygame.KEYDOWN:
                # CONTROLES GLOBALES (disponibles en ambos modos)
                if evento.key == pygame.K_p:
                    print("--- INICIANDO MODO JUEGO ---")
                    entorno.reset_a_configuracion_inicial()
                    modo_juego = "PLAYING"
                    time.sleep(0.5)  # Pausa para transici√≥n visual

                elif evento.key == pygame.K_s:
                    print("--- INICIANDO MODO SETUP ---")
                    modo_juego = "SETUP"

                # CONTROLES ESPEC√çFICOS DEL MODO SETUP
                if modo_juego == "SETUP":
                    # Navegaci√≥n con flechas del cursor
                    if evento.key == pygame.K_UP:
                        cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN:
                        cursor_pos[1] = min(GRID_HEIGHT - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT:
                        cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT:
                        cursor_pos[0] = min(GRID_WIDTH - 1, cursor_pos[0] + 1)

                    # Colocaci√≥n/eliminaci√≥n de elementos
                    pos = tuple(cursor_pos)
                    
                    # F = Toggle Fruta
                    if evento.key == pygame.K_f:
                        if pos in entorno.frutas:
                            entorno.frutas.remove(pos)
                            print(f"Fruta eliminada en {pos}")
                        else:
                            entorno.frutas.add(pos)
                            entorno.venenos.discard(pos)    # Remover otros elementos
                            entorno.paredes.discard(pos)
                            print(f"Fruta colocada en {pos}")
                    
                    # V = Toggle Veneno
                    elif evento.key == pygame.K_v:
                        if pos in entorno.venenos:
                            entorno.venenos.remove(pos)
                            print(f"Veneno eliminado en {pos}")
                        else:
                            entorno.venenos.add(pos)
                            entorno.frutas.discard(pos)     # Remover otros elementos
                            entorno.paredes.discard(pos)
                            print(f"Veneno colocado en {pos}")
                    
                    # W = Toggle Pared
                    elif evento.key == pygame.K_w:
                        if pos in entorno.paredes:
                            entorno.paredes.remove(pos)
                            print(f"Pared eliminada en {pos}")
                        else:
                            entorno.paredes.add(pos)
                            entorno.frutas.discard(pos)     # Remover otros elementos
                            entorno.venenos.discard(pos)
                            print(f"Pared colocada en {pos}")
                    
                    # C = Limpiar todo
                    elif evento.key == pygame.K_c:
                        print("--- LIMPIANDO ENTORNO COMPLETO ---")
                        entorno.limpiar_entorno()

        # L√ìGICA DEL MODO PLAYING (DEMOSTRACI√ìN DEL AGENTE)
        if modo_juego == "PLAYING":
            # El agente toma decisiones autom√°ticamente
            estado = entorno.get_state()
            accion = agente.choose_action(estado)
            _, _, terminado = entorno.step(accion)
            
            # Verificar si el episodio termin√≥
            if terminado:
                print("üèÜ ¬°Agente complet√≥ el nivel! Volviendo a modo SETUP.")
                modo_juego = "SETUP"
            
            # Pausa para visualizaci√≥n clara del movimiento
            time.sleep(0.1)

        # RENDERIZADO (COM√öN PARA AMBOS MODOS)
        # Crear superficie temporal para el contenido completo
        pantalla_con_info = pygame.Surface((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
        pantalla_con_info.fill(COLOR_FONDO)
        
        # Dibujar entorno y elementos
        entorno.dibujar(
            pantalla_con_info,
            modo_juego,
            tuple(cursor_pos),
            img_fruta,
            img_veneno,
            img_pared,
            img_agente,
        )
        
        # Copiar a pantalla principal y actualizar
        pantalla.blit(pantalla_con_info, (0, 0))
        pygame.display.flip()
        
        # Controlar FPS
        reloj.tick(60)

    # LIMPIEZA AL SALIR
    pygame.quit()


if __name__ == "__main__":
    """
    Punto de entrada del programa.
    
    Ejecuta la funci√≥n main() solo si este archivo se ejecuta directamente.
    Incluye mensaje de bienvenida con instrucciones b√°sicas.
    """
    print("=" * 60)
    print("üß¨ DEMOSTRADOR DE AGENTE GEN√âTICO üß¨")
    print("=" * 60)
    print("CONTROLES:")
    print("üéÆ GLOBALES:")
    print("  P - Iniciar modo Playing (demostraci√≥n)")
    print("  S - Cambiar a modo Setup (configuraci√≥n)")
    print()
    print("‚öôÔ∏è  MODO SETUP:")
    print("  ‚¨ÜÔ∏è‚¨áÔ∏è‚¨ÖÔ∏è‚û°Ô∏è - Mover cursor")
    print("  F - Toggle Fruta")
    print("  V - Toggle Veneno") 
    print("  W - Toggle Pared")
    print("  C - Limpiar entorno")
    print()
    print("ü§ñ MODO PLAYING:")
    print("  El agente toma control autom√°ticamente")
    print("  Observa el comportamiento evolucionado")
    print()
    print("¬°Configura un escenario y observa la inteligencia artificial!")
    print("=" * 60)
    
    main()


#### enviroment.py

In [None]:
"""
Entorno de cuadr√≠cula especializado para algoritmos gen√©ticos.

Este m√≥dulo implementa un entorno modificado para el entrenamiento de agentes mediante
algoritmos gen√©ticos. La principal diferencia con el entorno DQN es el manejo de venenos:
en lugar de terminar el episodio, el agente es enviado de vuelta a la posici√≥n inicial
con una penalizaci√≥n, permitiendo episodios m√°s largos y mejor evaluaci√≥n de fitness.

Caracter√≠sticas espec√≠ficas para GA:
- Venenos no terminan el episodio, sino que resetean la posici√≥n
- Episodios m√°s largos para mejor evaluaci√≥n de fitness
- Recompensas ajustadas para discriminar mejor entre agentes
- Seguimiento de posici√≥n inicial para reset de venenos

"""

import numpy as np

class GridEnvironment:
    """
    Entorno de cuadr√≠cula optimizado para algoritmos gen√©ticos.
    
    Este entorno est√° dise√±ado espec√≠ficamente para la evaluaci√≥n de agentes
    mediante algoritmos gen√©ticos. La principal modificaci√≥n es que tocar venenos
    no termina el episodio, sino que env√≠a al agente de vuelta al inicio,
    permitiendo episodios m√°s largos y una mejor discriminaci√≥n entre agentes.
    
    Caracter√≠sticas para GA:
    - Episodios m√°s largos para mejor evaluaci√≥n de fitness
    - Venenos causan reset de posici√≥n en lugar de game over
    - Recompensas ajustadas para mejor selecci√≥n evolutiva
    - Seguimiento de posici√≥n inicial para mec√°nica de reset
    
    Attributes:
        size (int): Tama√±o de la cuadr√≠cula (size x size)
        start_pos (np.array): Posici√≥n inicial del agente en el episodio
        agent_pos (np.array): Posici√≥n actual del agente
        fruit_pos (list): Lista de posiciones de frutas
        poison_pos (list): Lista de posiciones de venenos
    """
    def __init__(self, size=5):
        """
        Inicializa el entorno de cuadr√≠cula para algoritmos gen√©ticos.
        
        Args:
            size (int, optional): Tama√±o de la cuadr√≠cula. Por defecto es 5x5.
        """
        self.size = size
        self.start_pos = (0, 0)  # Guardar posici√≥n inicial para reset de venenos
        self.reset()

    def reset(self, agent_pos=(0, 0), fruit_pos=[], poison_pos=[]):
        """
        Reinicia el entorno con una configuraci√≥n espec√≠fica.
        
        Establece las posiciones iniciales y guarda la posici√≥n de inicio del agente
        para la mec√°nica de reset por venenos. Esta posici√≥n inicial es crucial
        en el paradigma de algoritmos gen√©ticos ya que permite que el agente
        contin√∫e intentando despu√©s de errores.
        
        Args:
            agent_pos (tuple, optional): Posici√≥n inicial del agente (fila, columna). 
                                       Por defecto (0, 0).
            fruit_pos (list, optional): Lista de tuplas con posiciones de frutas.
                                       Por defecto lista vac√≠a.
            poison_pos (list, optional): Lista de tuplas con posiciones de venenos.
                                        Por defecto lista vac√≠a.
        
        Returns:
            np.array: Estado inicial del entorno como array 3D (3, size, size).
        """
        self.start_pos = np.array(agent_pos)  # Guardar posici√≥n inicial del episodio
        self.agent_pos = np.array(agent_pos)
        self.fruit_pos = [np.array(p) for p in fruit_pos]
        self.poison_pos = [np.array(p) for p in poison_pos]
        return self.get_state()

    def get_state(self):
        """
        Genera la representaci√≥n del estado actual del entorno.
        
        Id√©ntica implementaci√≥n al entorno DQN. El estado se representa como una 
        "imagen" de 3 canales que puede ser procesada por redes convolucionales.
        
        - Canal 0: Posici√≥n del agente (1.0 donde est√° el agente, 0.0 en el resto)
        - Canal 1: Posiciones de frutas (1.0 donde hay frutas, 0.0 en el resto)  
        - Canal 2: Posiciones de venenos (1.0 donde hay venenos, 0.0 en el resto)
        
        Esta representaci√≥n permite que el agente "vea" todo el entorno de una vez
        y es compatible con arquitecturas de redes neuronales convolucionales.
        
        Returns:
            np.array: Estado del entorno como array 3D de forma (3, size, size)
                     con valores float32.
        """
        state = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        # Canal 0: Posici√≥n del agente
        state[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de las frutas
        for fruit in self.fruit_pos:
            state[1, fruit[0], fruit[1]] = 1.0
            
        # Canal 2: Posiciones de los venenos
        for poison in self.poison_pos:
            state[2, poison[0], poison[1]] = 1.0
            
        return state

    def step(self, action):
        """
        Ejecuta una acci√≥n en el entorno optimizado para algoritmos gen√©ticos.
        
        Esta funci√≥n implementa la l√≥gica principal del juego con modificaciones
        espec√≠ficas para algoritmos gen√©ticos. La diferencia clave es el manejo
        de venenos: en lugar de terminar el episodio, el agente se resetea a la
        posici√≥n inicial, permitiendo episodios m√°s largos y mejor evaluaci√≥n.
        
        Diferencias con DQN:
        - Venenos NO terminan el episodio
        - Venenos resetean la posici√≥n del agente al inicio
        - Penalizaci√≥n mayor por venenos (-10.0 vs -1.0)
        - Episodios m√°s largos para mejor discriminaci√≥n de fitness
        
        Args:
            action (int): Acci√≥n a realizar:
                         0 = Arriba (decrementar fila)
                         1 = Abajo (incrementar fila)  
                         2 = Izquierda (decrementar columna)
                         3 = Derecha (incrementar columna)
        
        Returns:
            tuple: (nuevo_estado, recompensa, terminado)
                - nuevo_estado (np.array): Estado del entorno despu√©s de la acci√≥n
                - recompensa (float): Recompensa obtenida por la acci√≥n
                - terminado (bool): True solo si todas las frutas fueron recogidas
        """
        
        # FASE 1: MOVIMIENTO DEL AGENTE
        # L√≥gica id√©ntica al entorno DQN
        if action == 0: 
            self.agent_pos[0] -= 1    # Arriba
        elif action == 1: 
            self.agent_pos[0] += 1    # Abajo
        elif action == 2: 
            self.agent_pos[1] -= 1    # Izquierda
        elif action == 3: 
            self.agent_pos[1] += 1    # Derecha
            
        # Limitar posici√≥n a los l√≠mites del tablero
        self.agent_pos = np.clip(self.agent_pos, 0, self.size - 1)

        # FASE 2: INICIALIZACI√ìN DE RECOMPENSAS
        reward = -0.05  # Peque√±o castigo por cada movimiento
        done = False

        # FASE 2: INICIALIZACI√ìN DE RECOMPENSAS
        reward = -0.05  # Peque√±o castigo por cada movimiento
        done = False

        # FASE 3: MANEJO ESPECIAL DE VENENOS (DIFERENCIA CLAVE CON DQN)
        if any(np.array_equal(self.agent_pos, p) for p in self.poison_pos):
            # Veneno tocado: penalizaci√≥n severa pero NO termina el episodio
            reward = -10.0
            # CARACTER√çSTICA PRINCIPAL: Reset a posici√≥n inicial
            self.agent_pos = np.copy(self.start_pos)
            # CR√çTICO: done permanece False, el episodio contin√∫a
            print("üîÑ Agente toc√≥ veneno, reseteado a posici√≥n inicial")
        else:
            # FASE 4: L√ìGICA NORMAL (SOLO SI NO HAY VENENO)
            # Verificar si se recogi√≥ una fruta
            eaten_fruit_this_step = False
            for i, fruit in enumerate(self.fruit_pos):
                if np.array_equal(self.agent_pos, fruit):
                    reward += 1.0  # Recompensa por fruta
                    self.fruit_pos.pop(i)  # Remover fruta del entorno
                    eaten_fruit_this_step = True
                    print("üçé Fruta recogida!")
                    break  # Solo una fruta por paso

            # Reward shaping opcional (sin implementar aqu√≠)
            if not eaten_fruit_this_step and self.fruit_pos:
                # Aqu√≠ se podr√≠a agregar l√≥gica de distancia como en DQN
                # Dejado como comentario para mantener simplicidad
                pass

            # FASE 5: CONDICI√ìN DE VICTORIA
            if not self.fruit_pos:
                done = True
                reward += 10.0  # Gran recompensa por completar el nivel
                print("üèÜ ¬°Todas las frutas recogidas! Episodio completado")

        return self.get_state(), reward, done

#### train_ga.py

In [None]:
# train_ga.py
"""
Implementaci√≥n completa de algoritmo gen√©tico para entrenar agentes de IA.

Este m√≥dulo implementa un algoritmo gen√©tico completo que evoluciona poblaciones
de agentes para resolver el problema de recolecci√≥n de frutas. El algoritmo
simula la evoluci√≥n natural mediante selecci√≥n, cruzamiento y mutaci√≥n.

Proceso evolutivo:
1. Inicializaci√≥n: Crear poblaci√≥n aleatoria de agentes
2. Evaluaci√≥n: Probar cada agente en escenarios aleatorios  
3. Selecci√≥n: Elegir los mejores agentes como padres
4. Cruzamiento: Combinar genes de padres para crear hijos
5. Mutaci√≥n: Introducir variaci√≥n aleatoria en los genes
6. Reemplazo: Formar nueva generaci√≥n con elitismo
7. Repetir hasta convergencia

Caracter√≠sticas del algoritmo:
- Evaluaci√≥n en escenarios aleatorios para robustez
- Elitismo para preservar mejores soluciones
- Mutaci√≥n gaussiana para exploraci√≥n controlada
- Cruzamiento uniforme para recombinaci√≥n equilibrada

"""

import torch
import numpy as np
from environment import GridEnvironment
from agent_ga import Agent, AgentNetwork
import random

# HIPERPAR√ÅMETROS DEL ALGORITMO GEN√âTICO
"""
Configuraci√≥n de par√°metros evolutivos que controlan el comportamiento
del algoritmo gen√©tico. Estos valores han sido ajustados emp√≠ricamente
para balancear exploraci√≥n vs. explotaci√≥n.
"""
POPULATION_SIZE = 100    # Tama√±o de la poblaci√≥n por generaci√≥n
NUM_GENERATIONS = 500    # N√∫mero total de generaciones a evolucionar
MUTATION_RATE = 0.05     # Probabilidad de mutaci√≥n por gen (5%)
ELITISM_COUNT = 25       # Mejores agentes que pasan directamente (25%)

GRID_SIZE = 5           # Tama√±o del entorno de evaluaci√≥n

def create_initial_population():
    """
    Crea la poblaci√≥n inicial de agentes con genes aleatorios.
    
    Genera una poblaci√≥n de agentes donde cada uno tiene pesos de red neuronal
    inicializados aleatoriamente seg√∫n la inicializaci√≥n por defecto de PyTorch.
    Esta diversidad inicial es crucial para el √©xito del algoritmo gen√©tico.
    
    Returns:
        list: Lista de POPULATION_SIZE agentes con genes aleatorios
        
    Note:
        La diversidad gen√©tica inicial determina el espacio de b√∫squeda
        que el algoritmo puede explorar durante la evoluci√≥n.
    """
    return [Agent() for _ in range(POPULATION_SIZE)]

def evaluate_fitness(population, env):
    """
    Eval√∫a el fitness de cada agente en la poblaci√≥n.
    
    Cada agente se prueba en un escenario aleatorio generado din√°micamente.
    La variabilidad en los escenarios asegura que los agentes desarrollen
    estrategias robustas y generalizables en lugar de sobreajustarse a
    configuraciones espec√≠ficas.
    
    Proceso de evaluaci√≥n:
    1. Generar escenario aleatorio (posiciones, frutas, venenos)
    2. Ejecutar agente por m√°ximo 50 pasos
    3. Acumular recompensas totales como fitness
    4. Repetir para todos los agentes de la poblaci√≥n
    
    Args:
        population (list): Lista de agentes a evaluar
        env (GridEnvironment): Entorno de evaluaci√≥n
        
    Note:
        El fitness se calcula como la suma total de recompensas obtenidas
        durante el episodio, incluyendo penalizaciones por movimientos,
        recompensas por frutas y penalizaciones por venenos.
    """
    for agent in population:
        # GENERACI√ìN DE ESCENARIO ALEATORIO
        # N√∫mero variable de frutas (1-4) para diversidad de dificultad
        num_fruits = np.random.randint(1, 5)
        
        # Crear lista de todas las posiciones posibles
        all_pos = [(i, j) for i in range(GRID_SIZE) for j in range(GRID_SIZE)]
        random.shuffle(all_pos)  # Barajar para selecci√≥n aleatoria
        
        # Asignar posiciones sin solapamiento
        agent_pos = all_pos.pop()   # Posici√≥n inicial del agente
        fruit_pos = [all_pos.pop() for _ in range(num_fruits)]  # Posiciones de frutas
        poison_pos = [all_pos.pop() for _ in range(np.random.randint(1, 4))]  # 1-3 venenos

        # EJECUCI√ìN DEL EPISODIO
        state = env.reset(agent_pos=agent_pos, fruit_pos=fruit_pos, poison_pos=poison_pos)
        total_reward = 0
        
        # M√°ximo 50 pasos para evitar episodios infinitos
        for _ in range(50):
            action = agent.choose_action(state)
            state, reward, done = env.step(action)
            total_reward += reward
            
            # Terminar si el agente completa el objetivo
            if done:
                break
                
        # Asignar fitness como recompensa total acumulada
        agent.fitness = total_reward

def selection(population):
    """
    Selecciona los mejores agentes de la poblaci√≥n para reproducci√≥n.
    
    Implementa selecci√≥n elitista donde solo los agentes con mayor fitness
    se seleccionan como padres para la siguiente generaci√≥n. Este m√©todo
    asegura que las caracter√≠sticas exitosas se preserven y propaguen.
    
    Estrategia de selecci√≥n:
    - Ordenar poblaci√≥n por fitness (mayor a menor)
    - Seleccionar el 20% superior como padres
    - Estos padres participar√°n en cruzamiento y algunos en elitismo
    
    Args:
        population (list): Poblaci√≥n de agentes evaluados
        
    Returns:
        list: Los mejores agentes seleccionados para reproducci√≥n
        
    Note:
        Un porcentaje del 20% permite suficiente diversidad gen√©tica
        mientras mantiene presi√≥n selectiva hacia mejores soluciones.
    """
    # Ordenar por fitness descendente (mejores primero)
    population.sort(key=lambda x: x.fitness, reverse=True)
    
    # Seleccionar el 20% superior de la poblaci√≥n
    return population[:int(POPULATION_SIZE * 0.2)]

def crossover(parent1, parent2):
    """
    Crea un nuevo agente combinando genes de dos padres.
    
    Implementa cruzamiento uniforme donde cada par√°metro (gen) del hijo
    se hereda aleatoriamente de uno de los dos padres. Este m√©todo mantiene
    bloques funcionales de la red mientras permite recombinaci√≥n gen√©tica.
    
    Proceso de cruzamiento:
    1. Crear nuevo agente hijo
    2. Para cada par√°metro de la red neuronal:
       - Probabilidad 50%: heredar del padre 1
       - Probabilidad 50%: heredar del padre 2
    3. Cargar genes combinados en el hijo
    
    Args:
        parent1 (Agent): Primer padre seleccionado
        parent2 (Agent): Segundo padre seleccionado
        
    Returns:
        Agent: Nuevo agente hijo con genes combinados
        
    Note:
        El cruzamiento uniforme preserva mejor las estructuras funcionales
        de las redes neuronales comparado con cruzamiento de un punto.
    """
    # Crear nuevo agente hijo
    child = Agent()
    
    # Obtener diccionarios de par√°metros (genes) de los padres
    p1_genes = parent1.network.state_dict()
    p2_genes = parent2.network.state_dict()
    child_genes = child.network.state_dict()

    # Cruzamiento uniforme: cada gen se hereda aleatoriamente
    for key in child_genes.keys():
        # 50% probabilidad de heredar cada gen de cada padre
        if random.random() < 0.5:
            child_genes[key] = p1_genes[key].clone()  # Heredar del padre 1
        else:
            child_genes[key] = p2_genes[key].clone()  # Heredar del padre 2
    
    # Cargar genes combinados en la red del hijo
    child.network.load_state_dict(child_genes)
    return child

def mutate(agent):
    """
    Introduce variaci√≥n gen√©tica aleatoria en un agente.
    
    Implementa mutaci√≥n gaussiana donde cada par√°metro tiene una probabilidad
    MUTATION_RATE de ser alterado con ruido gaussiano. Esta mutaci√≥n permite
    explorar nuevas regiones del espacio de b√∫squeda y evitar convergencia
    prematura a √≥ptimos locales.
    
    Proceso de mutaci√≥n:
    1. Para cada par√°metro de la red neuronal:
       - Probabilidad MUTATION_RATE: agregar ruido gaussiano
       - Magnitud del ruido: distribuci√≥n normal œÉ=0.1
    2. Recargar par√°metros modificados en la red
    
    Args:
        agent (Agent): Agente a mutar
        
    Returns:
        Agent: El mismo agente con genes posiblemente mutados
        
    Note:
        La mutaci√≥n gaussiana con œÉ=0.1 proporciona un balance entre
        exploraci√≥n (nuevas soluciones) y explotaci√≥n (preservar buenas soluciones).
    """
    child_genes = agent.network.state_dict()
    
    # Aplicar mutaci√≥n a cada par√°metro independientemente
    for key in child_genes.keys():
        if random.random() < MUTATION_RATE:
            # Agregar ruido gaussiano con desviaci√≥n est√°ndar 0.1
            noise = torch.randn_like(child_genes[key]) * 0.1
            child_genes[key] += noise
    
    # Recargar par√°metros mutados en la red
    agent.network.load_state_dict(child_genes)
    return agent

if __name__ == "__main__":
    """
    Bucle principal del algoritmo gen√©tico.
    
    Ejecuta el proceso evolutivo completo a trav√©s de m√∫ltiples generaciones,
    implementando el ciclo: evaluaci√≥n ‚Üí selecci√≥n ‚Üí cruzamiento ‚Üí mutaci√≥n.
    Incluye elitismo para preservar las mejores soluciones y logging detallado
    del progreso evolutivo.
    """
    print("=" * 80)
    print("üß¨ INICIANDO ENTRENAMIENTO CON ALGORITMO GEN√âTICO üß¨")
    print("=" * 80)
    print(f"Par√°metros de evoluci√≥n:")
    print(f"üîπ Tama√±o de poblaci√≥n: {POPULATION_SIZE}")
    print(f"üîπ Generaciones: {NUM_GENERATIONS}")
    print(f"üîπ Tasa de mutaci√≥n: {MUTATION_RATE*100}%")
    print(f"üîπ Elitismo: {ELITISM_COUNT} agentes")
    print("=" * 80)
    
    # INICIALIZACI√ìN
    env = GridEnvironment()
    population = create_initial_population()
    
    print("üå± Poblaci√≥n inicial creada")
    print("üéØ Comenzando evoluci√≥n...")
    print()

    # BUCLE EVOLUTIVO PRINCIPAL
    for gen in range(NUM_GENERATIONS):
        print(f"üîÑ Generaci√≥n {gen+1}/{NUM_GENERATIONS}")
        
        # FASE 1: EVALUACI√ìN DE FITNESS
        evaluate_fitness(population, env)
        
        # FASE 2: SELECCI√ìN DE PADRES
        parents = selection(population)
        
        # FASE 3: AN√ÅLISIS DE PROGRESO
        best_agent_of_gen = parents[0]  # El mejor agente de esta generaci√≥n
        best_fitness = best_agent_of_gen.fitness
        avg_fitness = np.mean([agent.fitness for agent in population])
        
        # Logging del progreso evolutivo
        print(f"   üìä Mejor fitness: {best_fitness:.2f}")
        print(f"   üìà Fitness promedio: {avg_fitness:.2f}")
        print(f"   üèÜ Mejora: {best_fitness - avg_fitness:.2f}")

        # FASE 4: PRESERVACI√ìN DEL MEJOR AGENTE
        # Guardar genes del mejor agente de esta generaci√≥n
        torch.save(best_agent_of_gen.network.state_dict(), "best_agent_genes.pth")
        print(f"   üíæ Mejor agente guardado")

        # FASE 5: CREACI√ìN DE NUEVA GENERACI√ìN
        new_population = []
        
        # ELITISMO: Los mejores agentes pasan directamente
        new_population.extend(parents[:ELITISM_COUNT])
        print(f"   üëë {ELITISM_COUNT} elite preservados")

        # REPRODUCCI√ìN: Llenar resto con descendencia
        offspring_count = 0
        while len(new_population) < POPULATION_SIZE:
            # Seleccionar dos padres aleatoriamente del pool de elite
            parent1, parent2 = random.sample(parents, 2)
            
            # Cruzamiento: combinar genes de padres
            child = crossover(parent1, parent2)
            
            # Mutaci√≥n: introducir variaci√≥n gen√©tica
            child = mutate(child)
            
            new_population.append(child)
            offspring_count += 1
            
        print(f"   üë∂ {offspring_count} descendientes creados")
        
        # Reemplazar poblaci√≥n anterior
        population = new_population
        
        print("   ‚úÖ Generaci√≥n completada")
        print("-" * 60)

    # FINALIZACI√ìN
    print("\n" + "=" * 80)
    print("üéâ ¬°ENTRENAMIENTO EVOLUTIVO COMPLETADO! üéâ")
    print("=" * 80)
    print("üìÅ El mejor ADN evolutivo est√° guardado en 'best_agent_genes.pth'")
    print("üöÄ Puedes usar este agente en los demostradores para ver su comportamiento")
    print("üß¨ El agente ha evolucionado a trav√©s de", NUM_GENERATIONS, "generaciones")
    print("=" * 80)

### Imitaci√≥n

##### a_star_solver.py

In [None]:
# a_star_solver.py
"""
Implementaci√≥n del algoritmo A* para navegaci√≥n √≥ptima en grid.

Este m√≥dulo proporciona funcionalidades para encontrar el camino m√°s corto
entre dos puntos en una cuadr√≠cula, evitando obst√°culos (venenos). Utiliza
el algoritmo A* con distancia Manhattan como heur√≠stica para garantizar
optimalidad en entornos de grid.

Funciones:
    heuristic(a, b): Calcula distancia Manhattan entre dos puntos
    a_star_search(grid_size, agent_pos, goal_pos, poisons): Encuentra camino √≥ptimo
"""
import heapq

def heuristic(a, b):
    """
    Calcula la distancia heur√≠stica entre dos puntos usando distancia Manhattan.
    
    La distancia Manhattan es la suma de las diferencias absolutas de sus
    coordenadas cartesianas. Es una heur√≠stica admisible para movimiento
    en grid con 4 direcciones, garantizando optimalidad en A*.
    
    Args:
        a (tuple): Coordenadas (x, y) del primer punto
        b (tuple): Coordenadas (x, y) del segundo punto
    
    Returns:
        int: Distancia Manhattan entre los puntos a y b
    
    Example:
        >>> heuristic((0, 0), (3, 4))
        7
        >>> heuristic((1, 1), (1, 1))
        0
    """
    return abs(a[0] - b[0]) + abs(a[1] - b[1])

def a_star_search(grid_size, agent_pos, goal_pos, poisons):
    """
    Implementa el algoritmo A* para encontrar el camino √≥ptimo en una cuadr√≠cula.
    
    Busca el camino m√°s corto desde la posici√≥n del agente hasta el objetivo,
    evitando venenos y respetando los l√≠mites del grid. Utiliza una heur√≠stica
    admisible (distancia Manhattan) para garantizar optimalidad.
    
    Algoritmo A*:
        1. Mantiene conjunto abierto (por explorar) y cerrado (explorados)
        2. Eval√∫a nodos usando f(n) = g(n) + h(n):
           - g(n): Costo real desde inicio hasta nodo n
           - h(n): Heur√≠stica desde nodo n hasta objetivo
        3. Expande el nodo con menor f(n) hasta encontrar objetivo
        4. Reconstruye camino desde objetivo hasta inicio
    
    Args:
        grid_size (int): Tama√±o de la cuadr√≠cula (grid_size x grid_size)
        agent_pos (tuple): Posici√≥n inicial del agente (x, y)
        goal_pos (tuple): Posici√≥n objetivo a alcanzar (x, y)
        poisons (list): Lista de posiciones de venenos [(x, y), ...]
    
    Returns:
        list: Secuencia de posiciones [(x, y), ...] del camino √≥ptimo,
              excluyendo posici√≥n inicial. None si no existe camino.
    
    Example:
        >>> a_star_search(5, (0, 0), (4, 4), [(2, 2)])
        [(1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]
    
    Note:
        - Movimiento limitado a 4 direcciones (arriba, abajo, izquierda, derecha)
        - Venenos son obst√°culos impasables
        - Retorna None si el objetivo es inalcanzable
    """
    # Convertir posiciones a tuplas para consistencia
    start = tuple(agent_pos)
    goal = tuple(goal_pos)
    
    # Inicializar estructuras de datos del algoritmo A*
    close_set = set()           # Nodos ya explorados
    came_from = {}              # Mapeo para reconstruir camino
    g_score = {start: 0}        # Costo real desde inicio
    f_score = {start: heuristic(start, goal)}  # Costo estimado total
    
    # Heap para mantener nodos ordenados por f_score
    open_heap = [(f_score[start], start)]

    # Bucle principal del algoritmo A*
    while open_heap:
        # Extraer nodo con menor f_score
        current = heapq.heappop(open_heap)[1]

        # ¬øHemos llegado al objetivo?
        if current == goal:
            # Reconstruir camino desde objetivo hasta inicio
            path = [current]
            while current in came_from:
                current = came_from[current]
                path.insert(0, current)
            # Excluir posici√≥n inicial del camino retornado
            path.pop(0)
            return path

        # Marcar nodo actual como explorado
        close_set.add(current)
        
        # Explorar todos los vecinos (4 direcciones)
        for i, j in [(0, 1), (0, -1), (1, 0), (-1, 0)]:
            neighbor = (current[0] + i, current[1] + j)
            
            # Verificar l√≠mites del grid
            if not (0 <= neighbor[0] < grid_size and 0 <= neighbor[1] < grid_size):
                continue
            
            # Verificar obst√°culos: nodos explorados y venenos
            if neighbor in close_set or any(tuple(p) == neighbor for p in poisons):
                continue

            # Calcular nuevo costo para llegar al vecino
            tentative_g_score = g_score[current] + 1
            
            # ¬øEs este un mejor camino al vecino?
            if tentative_g_score < g_score.get(neighbor, float('inf')):
                # Registrar mejor camino encontrado
                came_from[neighbor] = current
                g_score[neighbor] = tentative_g_score
                f_score[neighbor] = tentative_g_score + heuristic(neighbor, goal)
                # Agregar vecino a conjunto de exploraci√≥n
                heapq.heappush(open_heap, (f_score[neighbor], neighbor))
    
    # No se encontr√≥ camino al objetivo
    return None

#### generate_data.py

In [None]:
# generate_data.py
"""
Generador de datos de demostraci√≥n experta para aprendizaje por imitaci√≥n.

Este m√≥dulo crea datasets de pares estado-acci√≥n obtenidos de un agente experto
que utiliza el algoritmo A* para navegaci√≥n √≥ptima. Los datos generados se
utilizan para entrenar agentes mediante aprendizaje supervisado, imitando
comportamiento experto en diferentes configuraciones de complejidad.

Funciones:
    get_action(from_pos, to_pos): Convierte movimiento posicional a √≠ndice de acci√≥n
    generate_expert_data_for_n_fruits(num_fruits, num_samples, output_file): 
        Genera dataset para configuraci√≥n espec√≠fica de frutas
        
Constantes:
    GRID_SIZE: Tama√±o del entorno de cuadr√≠cula (5x5)
"""
import numpy as np
import random
import pickle
from environment import GridEnvironment
from a_star_solver import a_star_search

# Configuraci√≥n del entorno
GRID_SIZE = 5

def get_action(from_pos, to_pos):
    """
    Convierte un movimiento entre posiciones adyacentes en √≠ndice de acci√≥n.
    
    Calcula la diferencia vectorial entre posiciones y la mapea al √≠ndice
    de acci√≥n correspondiente. Utilizada para convertir el camino √≥ptimo
    de A* en secuencia de acciones ejecutables por el agente.
    
    Args:
        from_pos (tuple/np.ndarray): Posici√≥n inicial (x, y)
        to_pos (tuple/np.ndarray): Posici√≥n objetivo (x, y)
    
    Returns:
        int: √çndice de acci√≥n correspondiente al movimiento:
             0 = Arriba (decrementar x)
             1 = Abajo (incrementar x)  
             2 = Izquierda (decrementar y)
             3 = Derecha (incrementar y)
             -1 = Movimiento inv√°lido (no adyacente)
    
    Example:
        >>> get_action((1, 1), (0, 1))  # Movimiento hacia arriba
        0
        >>> get_action((1, 1), (1, 2))  # Movimiento hacia derecha
        3
    
    Note:
        Solo funciona para posiciones adyacentes. Movimientos diagonales
        o de m√∫ltiples celdas retornan -1.
    """
    # Calcular vector de diferencia entre posiciones
    delta = np.array(to_pos) - np.array(from_pos)
    
    # Mapear diferencia a √≠ndice de acci√≥n
    if delta[0] == -1: return 0    # Arriba
    if delta[0] == 1: return 1     # Abajo
    if delta[1] == -1: return 2    # Izquierda
    if delta[1] == 1: return 3     # Derecha
    return -1  # Movimiento inv√°lido

def generate_expert_data_for_n_fruits(num_fruits, num_samples, output_file):
    """
    Genera dataset de demostraciones expertas para configuraci√≥n espec√≠fica.
    
    Crea escenarios aleatorios con n√∫mero fijo de frutas y utiliza A* para
    generar comportamiento experto √≥ptimo. Implementa estrategia greedy de
    ir siempre a la fruta m√°s cercana, creando datos de entrenamiento para
    aprendizaje por imitaci√≥n con curriculum learning.
    
    Proceso de generaci√≥n:
        1. Crear escenario aleatorio (agente, frutas, venenos)
        2. Calcular fruta m√°s cercana al agente
        3. Usar A* para encontrar camino √≥ptimo
        4. Ejecutar primer paso y registrar par (estado, acci√≥n)
        5. Repetir hasta completar episodio o fallar
        6. Continuar hasta obtener muestras suficientes
    
    Args:
        num_fruits (int): N√∫mero de frutas en cada escenario
        num_samples (int): Cantidad objetivo de muestras estado-acci√≥n
        output_file (str): Archivo pickle donde guardar el dataset
    
    Raises:
        IOError: Si no se puede escribir el archivo de salida
    
    Example:
        >>> generate_expert_data_for_n_fruits(2, 1000, "data_2_fruits.pkl")
        Generando 1000 muestras para 2 fruta(s)...
        Dataset 'data_2_fruits.pkl' creado con 1000 muestras.
    
    Note:
        - Venenos colocados aleatoriamente (2-4 por escenario)
        - M√°ximo 50 pasos por episodio para evitar bucles infinitos
        - Estrategia greedy: siempre ir a fruta m√°s cercana (euclidiana)
        - Solo se registran acciones v√°lidas (con camino A* factible)
    """
    # Inicializar entorno y contenedor de datos
    env = GridEnvironment()
    expert_data = []
    print(f"Generando {num_samples} muestras para {num_fruits} fruta(s)...")
    
    generated_episodes = 0
    while len(expert_data) < num_samples:
        generated_episodes += 1
        
        # Configurar escenario aleatorio
        num_poisons = np.random.randint(2, 5)  # 2-4 venenos por escenario
        
        # Generar posiciones √∫nicas aleatorias
        all_pos = [(r, c) for r in range(GRID_SIZE) for c in range(GRID_SIZE)]
        random.shuffle(all_pos)
        
        # Asignar posiciones a elementos del entorno
        agent_p = all_pos.pop()
        fruit_p = [all_pos.pop() for _ in range(num_fruits)]
        poison_p = [all_pos.pop() for _ in range(num_poisons)]
        
        # Inicializar entorno con configuraci√≥n generada
        env.reset(agent_pos=agent_p, fruit_pos=fruit_p, poison_pos=poison_p)

        # Simular episodio con comportamiento experto
        for _ in range(50):  # M√°ximo 50 pasos por episodio
            # Verificar condici√≥n de terminaci√≥n por victoria
            if not env.fruit_pos: 
                break
            
            # Implementar estrategia greedy: ir a fruta m√°s cercana
            agent_pos = env.agent_pos
            # Calcular distancias euclidianas a todas las frutas
            distances = [np.linalg.norm(agent_pos - f) for f in env.fruit_pos]
            # Seleccionar fruta m√°s cercana como objetivo
            goal_fruit = env.fruit_pos[np.argmin(distances)]
            
            # Usar A* para encontrar camino √≥ptimo al objetivo
            path = a_star_search(GRID_SIZE, agent_pos, goal_fruit, env.poison_pos)

            # Verificar si existe camino factible
            if path and len(path) > 0:
                # Convertir primer paso del camino a acci√≥n
                action = get_action(agent_pos, path[0])
                # Registrar par estado-acci√≥n para entrenamiento
                state = env.get_state()
                expert_data.append((state, action))
                # Ejecutar acci√≥n en el entorno
                env.step(action)
            else:
                # No hay camino factible: terminar episodio
                break
        
        # Reporte de progreso cada 200 episodios
        if generated_episodes % 200 == 0:
            print(f"  Partidas procesadas: {generated_episodes}, Muestras actuales: {len(expert_data)}")

    # Guardar dataset en archivo pickle
    with open(output_file, "wb") as f:
        pickle.dump(expert_data[:num_samples], f)
    print(f"Dataset '{output_file}' creado con {len(expert_data[:num_samples])} muestras.")

if __name__ == "__main__":
    """
    Script principal para generaci√≥n de curriculum de datasets.
    
    Genera m√∫ltiples datasets con diferentes niveles de complejidad para
    implementar curriculum learning en el entrenamiento por imitaci√≥n.
    Los datasets se ordenan por dificultad creciente (n√∫mero de frutas).
    
    Curriculum generado:
        - 1 fruta: 4000 muestras (nivel b√°sico)
        - 2 frutas: 4000 muestras (nivel intermedio bajo)
        - 3 frutas: 4000 muestras (nivel intermedio alto)
        - 4 frutas: 5000 muestras (nivel avanzado, m√°s muestras)
    
    Beneficios del curriculum learning:
        - Aprendizaje gradual de complejidad creciente
        - Mejor convergencia del entrenamiento
        - Pol√≠ticas m√°s robustas y generalizables
        - Reducci√≥n de overfitting a configuraciones espec√≠ficas
    """
    # Generar datasets con complejidad creciente
    generate_expert_data_for_n_fruits(1, 4000, "expert_data_1_fruit.pkl")
    generate_expert_data_for_n_fruits(2, 4000, "expert_data_2_fruits.pkl")
    generate_expert_data_for_n_fruits(3, 4000, "expert_data_3_fruits.pkl")
    generate_expert_data_for_n_fruits(4, 5000, "expert_data_4_fruits.pkl")
    print("\nTodos los datasets del curr√≠culo han sido generados.")

#### agent.py

In [None]:
# agent.py
"""
Implementaci√≥n de agente con red neuronal convolucional para aprendizaje por imitaci√≥n.

Este m√≥dulo define la arquitectura de red neuronal y la clase agente utilizadas
en el aprendizaje por imitaci√≥n. La red procesa representaciones visuales del
entorno (grids 3D) y predice acciones √≥ptimas imitando comportamiento experto.

Clases:
    AgentNetwork: Red neuronal convolucional para procesamiento de estados visuales
    Agent: Interfaz del agente que utiliza la red para toma de decisiones
"""
import torch
import torch.nn as nn

class AgentNetwork(nn.Module):
    """
    Red neuronal convolucional para procesamiento de estados de grid y predicci√≥n de acciones.
    
    Arquitectura dise√±ada espec√≠ficamente para entornos de cuadr√≠cula donde el estado
    se representa como im√°genes de 3 canales (agente, frutas, venenos). Utiliza
    capas convolucionales para extracci√≥n de caracter√≠sticas espaciales seguidas
    de capas densas para predicci√≥n de acciones.
    
    Arquitectura:
        - Conv2D (3->16): Extracci√≥n de caracter√≠sticas b√°sicas
        - Conv2D (16->32): Caracter√≠sticas de nivel medio
        - Flatten: Preparaci√≥n para capas densas
        - FC (flattened->256): Representaci√≥n de alto nivel
        - FC (256->4): Predicci√≥n de acciones (4 direcciones)
    
    Args:
        h (int): Altura del grid de entrada (default: 5)
        w (int): Ancho del grid de entrada (default: 5)
        outputs (int): N√∫mero de acciones posibles (default: 4)
    """
    def __init__(self, h=5, w=5, outputs=4):
        super(AgentNetwork, self).__init__()
        
        # Capas convolucionales para procesamiento espacial
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        
        # Funci√≥n auxiliar para calcular tama√±o de salida convolucional
        def conv2d_size_out(size, kernel_size=3, stride=1, padding=1):
            """Calcula dimensi√≥n de salida despu√©s de operaci√≥n convolucional."""
            return (size + 2 * padding - kernel_size) // stride + 1
        
        # Calcular dimensiones despu√©s de capas convolucionales
        convw = conv2d_size_out(conv2d_size_out(w))
        convh = conv2d_size_out(conv2d_size_out(h))
        linear_input_size = convw * convh * 32
        
        # Capas densas para predicci√≥n final
        self.fc1 = nn.Linear(linear_input_size, 256)
        self.fc2 = nn.Linear(256, outputs)

    def forward(self, x):
        """
        Propagaci√≥n hacia adelante de la red neuronal.
        
        Procesa el estado visual del entorno a trav√©s de las capas convolucionales
        y densas para generar valores de acci√≥n. Utiliza ReLU como funci√≥n de
        activaci√≥n para introducir no-linealidad.
        
        Flujo de procesamiento:
            1. Conv1 + ReLU: Extracci√≥n de caracter√≠sticas b√°sicas
            2. Conv2 + ReLU: Caracter√≠sticas de nivel medio
            3. Flatten: Conversi√≥n a vector 1D
            4. FC1 + ReLU: Representaci√≥n de alto nivel
            5. FC2: Valores de acci√≥n finales (sin activaci√≥n)
        
        Args:
            x (torch.Tensor): Estado del entorno con forma (batch_size, 3, h, w)
                             Canales: [agente, frutas, venenos]
        
        Returns:
            torch.Tensor: Valores de acci√≥n con forma (batch_size, 4)
                         √çndices corresponden a [arriba, abajo, izquierda, derecha]
        """
        # Primera capa convolucional con activaci√≥n ReLU
        x = nn.functional.relu(self.conv1(x))
        # Segunda capa convolucional con activaci√≥n ReLU
        x = nn.functional.relu(self.conv2(x))
        # Aplanar para conexi√≥n con capas densas
        x = x.view(x.size(0), -1)
        # Primera capa densa con activaci√≥n ReLU
        x = nn.functional.relu(self.fc1(x))
        # Capa de salida sin activaci√≥n (valores de acci√≥n)
        return self.fc2(x)

class Agent:
    """
    Agente que utiliza red neuronal para toma de decisiones por imitaci√≥n.
    
    Implementa la interfaz de agente que encapsula la red neuronal y proporciona
    m√©todos para selecci√≥n de acciones y carga de modelos pre-entrenados.
    Dise√±ado para imitar comportamiento experto aprendido de datos de demostraci√≥n.
    
    Attributes:
        network (AgentNetwork): Red neuronal convolucional para predicci√≥n de acciones
    """
    def __init__(self):
        """
        Inicializa el agente con red neuronal por defecto.
        
        Crea una instancia de AgentNetwork con par√°metros est√°ndar
        para entornos de grid 5x5 con 4 acciones posibles.
        """
        self.network = AgentNetwork()

    def choose_action(self, state):
        """
        Selecciona la acci√≥n √≥ptima basada en el estado actual del entorno.
        
        Utiliza la red neuronal para evaluar el estado y selecciona la acci√≥n
        con mayor valor predicho. Implementa una pol√≠tica determin√≠stica
        (greedy) que siempre elige la mejor acci√≥n seg√∫n el modelo.
        
        Proceso:
            1. Convierte estado a tensor PyTorch
            2. Agrega dimensi√≥n de batch (unsqueeze)
            3. Realiza inferencia sin gradientes
            4. Selecciona acci√≥n con mayor valor (argmax)
        
        Args:
            state (numpy.ndarray): Estado del entorno con forma (3, h, w)
                                  Canales: [agente, frutas, venenos]
        
        Returns:
            int: √çndice de la acci√≥n seleccionada
                 0=Arriba, 1=Abajo, 2=Izquierda, 3=Derecha
        
        Note:
            Utiliza torch.no_grad() para optimizar inferencia y evitar
            construcci√≥n del grafo computacional durante evaluaci√≥n.
        """
        # Convertir estado a tensor y agregar dimensi√≥n de batch
        state_tensor = torch.FloatTensor(state).unsqueeze(0)
        
        # Realizar inferencia sin c√°lculo de gradientes
        with torch.no_grad():
            action_values = self.network(state_tensor)
        
        # Seleccionar acci√≥n con mayor valor predicho
        return torch.argmax(action_values).item()

    def load_model(self, filepath):
        """
        Carga pesos pre-entrenados en la red neuronal del agente.
        
        Permite cargar modelos entrenados mediante aprendizaje por imitaci√≥n
        para utilizar pol√≠ticas aprendidas de datos de demostraci√≥n experta.
        Los pesos se cargan directamente en la red neuronal existente.
        
        Args:
            filepath (str): Ruta al archivo de modelo PyTorch (.pth)
                           que contiene los state_dict de la red
        
        Raises:
            FileNotFoundError: Si el archivo de modelo no existe
            RuntimeError: Si hay incompatibilidad en arquitectura de red
        
        Example:
            >>> agent = Agent()
            >>> agent.load_model('imitacion_model.pth')
            >>> action = agent.choose_action(current_state)
        
        Note:
            El modelo cargado debe tener la misma arquitectura que
            AgentNetwork para evitar errores de compatibilidad.
        """
        self.network.load_state_dict(torch.load(filepath))

#### imitacion_agente.py

In [None]:
"""
Demostraci√≥n interactiva de agente entrenado por aprendizaje por imitaci√≥n.

Este m√≥dulo proporciona una interfaz gr√°fica para demostrar el comportamiento
de un agente que ha aprendido por imitaci√≥n de datos expertos. Permite al
usuario dise√±ar niveles y observar c√≥mo el agente navega utilizando la
pol√≠tica aprendida mediante redes neuronales convolucionales.

Caracter√≠sticas:
    - Modo configuraci√≥n: Dise√±o interactivo de niveles
    - Modo juego: Demostraci√≥n autom√°tica del agente entrenado
    - Interfaz visual: Pygame con sprites y feedback en tiempo real
    - Carga de modelos: Integraci√≥n con modelos PyTorch pre-entrenados

Constantes:
    GRID_WIDTH, GRID_HEIGHT: Dimensiones del entorno (5x5)
    CELL_SIZE: Tama√±o de cada celda en p√≠xeles (120px)
    SCREEN_WIDTH, SCREEN_HEIGHT: Dimensiones de la ventana
    COLOR_*: Esquema de colores para la interfaz

Clases:
    EntornoGrid: Entorno de demostraci√≥n con funcionalidades completas
"""
import pygame
import numpy as np
import os
import time
from agent import Agent

# Configuraci√≥n del entorno y pantalla
GRID_WIDTH = 5
GRID_HEIGHT = 5
CELL_SIZE = 120
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE

# Esquema de colores para interfaz oscura
COLOR_FONDO = (25, 25, 25)      # Fondo principal oscuro
COLOR_LINEAS = (40, 40, 40)     # L√≠neas de grid sutiles
COLOR_CURSOR = (255, 255, 0)    # Cursor amarillo brillante
COLOR_TEXTO = (230, 230, 230)   # Texto claro para legibilidad


class EntornoGrid:
    """
    Entorno de demostraci√≥n para agente entrenado por imitaci√≥n.
    
    Implementa un entorno de grid completo con capacidades de configuraci√≥n
    interactiva y simulaci√≥n de episodios. Dise√±ado para demostrar el
    comportamiento aprendido del agente en diferentes escenarios.
    
    Funcionalidades:
        - Configuraci√≥n manual de elementos (frutas, venenos, paredes)
        - Simulaci√≥n de episodios con agente autom√°tico
        - Sistema de recompensas completo para feedback
        - Renderizado visual con sprites
        - Detecci√≥n de colisiones y condiciones de terminaci√≥n
    
    Attributes:
        size (int): Tama√±o del grid (5x5)
        agent_pos (tuple): Posici√≥n actual del agente (fila, columna)
        frutas (set): Conjunto de posiciones de frutas
        venenos (set): Conjunto de posiciones de venenos
        paredes (set): Conjunto de posiciones de paredes
    """
    def __init__(self):
        """
        Inicializa el entorno con configuraci√≥n por defecto.
        
        Establece grid vac√≠o con agente en posici√≥n (0,0) y
        conjuntos vac√≠os para elementos del entorno.
        """
        self.size = GRID_WIDTH
        self.agent_pos = (0, 0)
        self.frutas = set()
        self.venenos = set()
        self.paredes = set()

    def reset_a_configuracion_inicial(self):
        """
        Reinicia el agente a la posici√≥n inicial del episodio.
        
        Coloca al agente en (0,0) manteniendo la configuraci√≥n actual
        del entorno. Utilizado al iniciar nuevos episodios de demostraci√≥n.
        
        Returns:
            np.ndarray: Estado inicial del entorno con forma (3, size, size)
        """
        self.agent_pos = (0, 0)
        return self.get_state()

    def limpiar_entorno(self):
        """
        Elimina todos los elementos del entorno.
        
        Limpia completamente frutas, venenos y paredes, dejando
        un grid vac√≠o para nueva configuraci√≥n. El agente mantiene
        su posici√≥n actual.
        """
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion):
        """
        Ejecuta una acci√≥n del agente y actualiza el estado del entorno.
        
        Procesa el movimiento del agente, verifica colisiones y calcula
        recompensas seg√∫n las interacciones con elementos del entorno.
        Implementa la l√≥gica completa de simulaci√≥n para demostraci√≥n.
        
        Sistema de recompensas:
            - Movimiento normal: -0.05 (costo por paso)
            - Movimiento inv√°lido: -0.1 (penalizaci√≥n)
            - Fruta recolectada: +1.0 (objetivo positivo)
            - Todas las frutas: +10.0 adicional (victoria)
            - Veneno tocado: -10.0 (penalizaci√≥n grave)
        
        Args:
            accion (int): Acci√≥n a ejecutar
                         0 = Arriba (decrementar fila)
                         1 = Abajo (incrementar fila)
                         2 = Izquierda (decrementar columna)
                         3 = Derecha (incrementar columna)
        
        Returns:
            tuple: (nuevo_estado, recompensa, terminado)
                - nuevo_estado (np.ndarray): Estado resultante (3, size, size)
                - recompensa (float): Recompensa por la acci√≥n ejecutada
                - terminado (bool): True si episodio termin√≥, False en caso contrario
        """
        # Calcular nueva posici√≥n basada en la acci√≥n
        fila, col = self.agent_pos
        if accion == 0:
            fila -= 1    # Arriba
        elif accion == 1:
            fila += 1    # Abajo
        elif accion == 2:
            col -= 1     # Izquierda
        elif accion == 3:
            col += 1     # Derecha

        # Verificar l√≠mites del entorno y colisiones con paredes
        if (
            fila < 0
            or fila >= GRID_HEIGHT
            or col < 0
            or col >= GRID_WIDTH
            or (fila, col) in self.paredes
        ):
            # Movimiento inv√°lido: mantener posici√≥n y penalizar
            return self.get_state(), -0.1, False

        # Movimiento v√°lido: actualizar posici√≥n
        self.agent_pos = (fila, col)
        recompensa = -0.05  # Costo base por movimiento
        terminado = False

        # Procesar interacciones con elementos del entorno
        if self.agent_pos in self.venenos:
            # Veneno tocado: penalizaci√≥n grave y reset a inicio
            recompensa = -10.0
            self.agent_pos = (0, 0)
        elif self.agent_pos in self.frutas:
            # Fruta recolectada: recompensa positiva
            recompensa = 1.0
            self.frutas.remove(self.agent_pos)
            # Verificar victoria (todas las frutas recolectadas)
            if not self.frutas:
                recompensa += 10.0  # Bonus por completar nivel
                terminado = True
                self.agent_pos = (0, 0)  # Reset a posici√≥n inicial

        return self.get_state(), recompensa, terminado

    def get_state(self):
        """
        Genera representaci√≥n visual del estado actual del entorno.
        
        Crea tensor 3D donde cada canal representa un tipo de elemento,
        compatible con la arquitectura CNN del agente entrenado.
        
        Estructura de canales:
            - Canal 0: Posici√≥n del agente (binario)
            - Canal 1: Posiciones de frutas (binario)
            - Canal 2: Posiciones de venenos (binario)
        
        Returns:
            np.ndarray: Estado con forma (3, size, size) y dtype float32
                       Valores 1.0 indican presencia, 0.0 ausencia
        
        Note:
            Las paredes no se incluyen en el estado ya que el agente
            entrenado no las consideraba en los datos de demostraci√≥n.
        """
        # Inicializar tensor de estado
        estado = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        estado[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de frutas
        for fruta in self.frutas:
            estado[1, fruta[0], fruta[1]] = 1.0
        
        # Canal 2: Posiciones de venenos
        for veneno in self.venenos:
            estado[2, veneno[0], veneno[1]] = 1.0
        
        return estado

    def dibujar(
        self,
        pantalla,
        modo_juego,
        cursor_pos,
        img_fruta,
        img_veneno,
        img_pared,
        img_agente,
    ):
        """
        Renderiza el estado completo del entorno con interfaz de usuario.
        
        Dibuja todos los elementos visuales del entorno, grid de navegaci√≥n,
        cursor de configuraci√≥n e informaci√≥n de controles. Proporciona
        feedback visual completo para ambos modos de operaci√≥n.
        
        Args:
            pantalla (pygame.Surface): Superficie donde renderizar
            modo_juego (str): Modo actual ("SETUP" o "PLAYING")
            cursor_pos (tuple): Posici√≥n del cursor en modo configuraci√≥n
            img_fruta (pygame.Surface): Sprite de las frutas
            img_veneno (pygame.Surface): Sprite de los venenos
            img_pared (pygame.Surface): Sprite de las paredes
            img_agente (pygame.Surface): Sprite del agente
        
        Note:
            Renderiza en orden espec√≠fico para evitar superposiciones:
            fondo ‚Üí grid ‚Üí paredes ‚Üí frutas ‚Üí venenos ‚Üí agente ‚Üí cursor ‚Üí UI
        """
        # Limpiar pantalla con fondo oscuro
        pantalla.fill(COLOR_FONDO)
        
        # Dibujar l√≠neas del grid para navegaci√≥n visual
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Renderizar elementos del entorno (orden: paredes ‚Üí frutas ‚Üí venenos)
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0] * CELL_SIZE, pared[1] * CELL_SIZE))
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0] * CELL_SIZE, fruta[1] * CELL_SIZE))
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0] * CELL_SIZE, veneno[1] * CELL_SIZE))

        # Dibujar agente (siempre en primer plano)
        pantalla.blit(
            img_agente, (self.agent_pos[0] * CELL_SIZE, self.agent_pos[1] * CELL_SIZE)
        )

        # Mostrar cursor en modo configuraci√≥n
        if modo_juego == "SETUP":
            cursor_rect = pygame.Rect(
                cursor_pos[0] * CELL_SIZE,
                cursor_pos[1] * CELL_SIZE,
                CELL_SIZE,
                CELL_SIZE,
            )
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Renderizar informaci√≥n de interfaz
        font = pygame.font.Font(None, 24)
        texto_modo = font.render(f"Modo: {modo_juego}", True, COLOR_TEXTO)
        controles1 = font.render(
            "SETUP: Flechas, F=Fruta, V=Veneno, W=Pared, C=Limpiar", True, COLOR_TEXTO
        )
        controles2 = font.render("P=Jugar, S=Setup", True, COLOR_TEXTO)
        pantalla.blit(texto_modo, (10, SCREEN_HEIGHT + 5))
        pantalla.blit(controles1, (10, SCREEN_HEIGHT + 30))
        pantalla.blit(controles2, (10, SCREEN_HEIGHT + 55))


def main():
    """
    Funci√≥n principal de la demostraci√≥n interactiva del agente por imitaci√≥n.
    
    Inicializa la interfaz gr√°fica y gestiona el bucle principal que permite
    alternar entre modo configuraci√≥n (dise√±o de niveles) y modo demostraci√≥n
    (agente autom√°tico). Proporciona una experiencia completa para evaluar
    el rendimiento del agente entrenado.
    
    Flujo de la aplicaci√≥n:
        1. Inicializaci√≥n de Pygame y recursos
        2. Carga del modelo entrenado
        3. Bucle principal con dos modos:
           - SETUP: Configuraci√≥n manual de niveles
           - PLAYING: Demostraci√≥n autom√°tica del agente
        4. Manejo de eventos y renderizado en tiempo real
    
    Controles disponibles:
        Modo SETUP:
            - Flechas: Mover cursor de configuraci√≥n
            - F: Colocar/quitar fruta
            - V: Colocar/quitar veneno
            - W: Colocar/quitar pared
            - C: Limpiar entorno completamente
            - P: Iniciar demostraci√≥n autom√°tica
        
        Modo PLAYING:
            - S: Volver a modo configuraci√≥n
            - Agente se mueve autom√°ticamente cada 0.1 segundos
    
    Note:
        Requiere modelo entrenado en "IMITACION/imitacion_model.pth"
        y sprites en directorio padre (../fruta.png, etc.)
    """
    # Inicializar Pygame y configurar ventana
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
    pygame.display.set_caption("Agente por Imitaci√≥n - Come Frutas üçì")

    def cargar_img(nombre, color_fallback):
        """
        Funci√≥n auxiliar para carga robusta de sprites.
        
        Intenta cargar imagen desde archivo, si falla crea superficie
        de color s√≥lido como respaldo para mantener funcionalidad.
        
        Args:
            nombre (str): Nombre del archivo de imagen
            color_fallback (tuple): Color RGB de respaldo
        
        Returns:
            pygame.Surface: Sprite cargado o superficie de color
        """
        try:
            ruta = os.path.join(os.path.dirname(__file__), nombre)
            img = pygame.image.load(ruta).convert_alpha()
            return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
        except:
            surf = pygame.Surface((CELL_SIZE, CELL_SIZE))
            surf.fill(color_fallback)
            return surf

    # Cargar sprites con colores de respaldo
    img_fruta = cargar_img("../fruta.png", (0, 255, 0))        # Verde
    img_veneno = cargar_img("../veneno.png", (255, 0, 0))      # Rojo
    img_pared = cargar_img("../pared.png", (100, 100, 100))    # Gris
    img_agente = cargar_img("../agente.png", (0, 0, 255))      # Azul

    # Inicializar entorno y agente
    entorno = EntornoGrid()
    agente = Agent()
    agente.load_model("IMITACION/imitacion_model.pth")

    # Variables de estado de la aplicaci√≥n
    cursor_pos = [0, 0]
    modo_juego = "SETUP"
    reloj = pygame.time.Clock()
    corriendo = True

    # Bucle principal de la aplicaci√≥n
    while corriendo:
        # Procesar eventos de entrada
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False

            if evento.type == pygame.KEYDOWN:
                # Cambio de modos globales
                if evento.key == pygame.K_p:
                    print("--- MODO JUEGO ---")
                    entorno.reset_a_configuracion_inicial()
                    modo_juego = "PLAYING"
                    time.sleep(0.5)  # Pausa para visibilidad del cambio

                elif evento.key == pygame.K_s:
                    print("--- MODO SETUP ---")
                    modo_juego = "SETUP"

                # Controles espec√≠ficos del modo SETUP
                if modo_juego == "SETUP":
                    # Navegaci√≥n del cursor con flechas
                    if evento.key == pygame.K_UP:
                        cursor_pos[1] = max(0, cursor_pos[1] - 1)
                    elif evento.key == pygame.K_DOWN:
                        cursor_pos[1] = min(GRID_HEIGHT - 1, cursor_pos[1] + 1)
                    elif evento.key == pygame.K_LEFT:
                        cursor_pos[0] = max(0, cursor_pos[0] - 1)
                    elif evento.key == pygame.K_RIGHT:
                        cursor_pos[0] = min(GRID_WIDTH - 1, cursor_pos[0] + 1)

                    # Colocaci√≥n/eliminaci√≥n de elementos
                    pos = tuple(cursor_pos)
                    if evento.key == pygame.K_f:
                        # Toggle fruta: agregar/quitar y limpiar otros elementos
                        if pos in entorno.frutas:
                            entorno.frutas.remove(pos)
                        else:
                            entorno.frutas.add(pos)
                            entorno.venenos.discard(pos)
                            entorno.paredes.discard(pos)
                    elif evento.key == pygame.K_v:
                        # Toggle veneno: agregar/quitar y limpiar otros elementos
                        if pos in entorno.venenos:
                            entorno.venenos.remove(pos)
                        else:
                            entorno.venenos.add(pos)
                            entorno.frutas.discard(pos)
                            entorno.paredes.discard(pos)
                    elif evento.key == pygame.K_w:
                        # Toggle pared: agregar/quitar y limpiar otros elementos
                        if pos in entorno.paredes:
                            entorno.paredes.remove(pos)
                        else:
                            entorno.paredes.add(pos)
                            entorno.frutas.discard(pos)
                            entorno.venenos.discard(pos)
                    elif evento.key == pygame.K_c:
                        # Limpiar entorno completamente
                        print("--- LIMPIANDO ENTORNO ---")
                        entorno.limpiar_entorno()

        # L√≥gica del modo PLAYING (agente autom√°tico)
        if modo_juego == "PLAYING":
            # Obtener estado actual y decidir acci√≥n
            estado = entorno.get_state()
            accion = agente.choose_action(estado)
            # Ejecutar acci√≥n y verificar terminaci√≥n
            _, _, terminado = entorno.step(accion)
            if terminado:
                print("Juego terminado. Volviendo a SETUP.")
                modo_juego = "SETUP"
            time.sleep(0.1)  # Velocidad de demostraci√≥n controlada

        # Renderizado del estado actual
        pantalla_con_info = pygame.Surface((SCREEN_WIDTH, SCREEN_HEIGHT + 80))
        pantalla_con_info.fill(COLOR_FONDO)
        entorno.dibujar(
            pantalla_con_info,
            modo_juego,
            tuple(cursor_pos),
            img_fruta,
            img_veneno,
            img_pared,
            img_agente,
        )
        pantalla.blit(pantalla_con_info, (0, 0))
        pygame.display.flip()
        reloj.tick(60)  # 60 FPS para fluidez visual

    # Limpiar recursos al salir
    pygame.quit()


if __name__ == "__main__":
    main()


#### train_curriculum.py

In [None]:
# train_curriculum.py
"""
Entrenamiento por curriculum learning para aprendizaje por imitaci√≥n.

Este m√≥dulo implementa el entrenamiento de la red neuronal convolucional
utilizando curriculum learning con datasets de complejidad creciente.
El entrenamiento progresa desde escenarios simples (1 fruta) hasta
complejos (4 frutas), mejorando la convergencia y generalizaci√≥n.

Caracter√≠sticas:
    - Curriculum learning con 4 niveles de dificultad
    - Entrenamiento supervisado con pares estado-acci√≥n
    - Optimizaci√≥n Adam con learning rate adaptado
    - CrossEntropyLoss para clasificaci√≥n de acciones
    - Progresi√≥n gradual de √©pocas por complejidad

Constantes:
    LEARNING_RATE: Tasa de aprendizaje para optimizador Adam (0.0005)
    BATCH_SIZE: Tama√±o de lote para entrenamiento (128 muestras)
    CURRICULUM: Secuencia de datasets y √©pocas de entrenamiento

Flujo del entrenamiento:
    1. Lecci√≥n 1: 1 fruta ‚Üí 25 √©pocas (fundamentos b√°sicos)
    2. Lecci√≥n 2: 2 frutas ‚Üí 30 √©pocas (navegaci√≥n intermedia)
    3. Lecci√≥n 3: 3 frutas ‚Üí 40 √©pocas (planificaci√≥n compleja)
    4. Lecci√≥n 4: 4 frutas ‚Üí 50 √©pocas (maestr√≠a y refinamiento)
"""
import torch
import torch.nn as nn
import torch.optim as optim
import pickle
import numpy as np
from agent import AgentNetwork

# Hiperpar√°metros de entrenamiento
LEARNING_RATE = 0.0005  # Tasa de aprendizaje conservadora para estabilidad
BATCH_SIZE = 128        # Tama√±o de lote balanceado para memoria y convergencia

# Curriculum de entrenamiento: (archivo_dataset, num_√©pocas)
CURRICULUM = [
    ("expert_data_1_fruit.pkl", 25),   # Nivel b√°sico: conceptos fundamentales
    ("expert_data_2_fruits.pkl", 30),  # Nivel intermedio: decisiones m√∫ltiples
    ("expert_data_3_fruits.pkl", 40),  # Nivel avanzado: planificaci√≥n compleja
    ("expert_data_4_fruits.pkl", 50)   # Nivel experto: refinamiento y maestr√≠a
]

if __name__ == "__main__":
    """
    Script principal de entrenamiento por curriculum learning.
    
    Implementa el entrenamiento secuencial de la red neuronal utilizando
    datasets de complejidad creciente. Cada lecci√≥n del curriculum se
    enfoca en un nivel espec√≠fico de dificultad, permitiendo al modelo
    aprender gradualmente conceptos m√°s complejos.
    
    Proceso de entrenamiento:
        1. Inicializaci√≥n del modelo, optimizador y funci√≥n de p√©rdida
        2. Para cada lecci√≥n del curriculum:
           a. Cargar dataset correspondiente
           b. Preparar DataLoader con batches mezclados
           c. Entrenar por n√∫mero espec√≠fico de √©pocas
           d. Monitorear p√©rdida promedio por √©poca
        3. Guardar modelo final entrenado
    
    Beneficios del curriculum learning:
        - Convergencia m√°s r√°pida y estable
        - Mejor generalizaci√≥n a nuevos escenarios
        - Reducci√≥n de overfitting a configuraciones espec√≠ficas
        - Aprendizaje progresivo de conceptos complejos
    """
    # Inicializar componentes del entrenamiento
    model = AgentNetwork()                              # Red convolucional para predicci√≥n de acciones
    optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)  # Optimizador Adam para gradiente adaptativo
    criterion = nn.CrossEntropyLoss()                  # Funci√≥n de p√©rdida para clasificaci√≥n multiclase

    # Ejecutar curriculum learning secuencial
    for i, (dataset_file, num_epochs) in enumerate(CURRICULUM):
        print(f"\n--- Iniciando Lecci√≥n {i+1}/{len(CURRICULUM)}: {dataset_file} ---")
        
        # Cargar dataset de demostraci√≥n experta
        with open(dataset_file, "rb") as f:
            data = pickle.load(f)
        
        # Preparar datos para entrenamiento
        # Separar estados (entrada CNN) y acciones (etiquetas de clasificaci√≥n)
        states = torch.FloatTensor(np.array([item[0] for item in data]))   # Estados visuales (3, 5, 5)
        actions = torch.LongTensor(np.array([item[1] for item in data]))   # √çndices de acciones (0-3)
        
        # Crear DataLoader para entrenamiento por lotes
        dataloader = torch.utils.data.DataLoader(
            torch.utils.data.TensorDataset(states, actions),
            batch_size=BATCH_SIZE, 
            shuffle=True  # Mezclar datos para evitar patrones de orden
        )

        # Entrenar modelo en el dataset actual
        for epoch in range(num_epochs):
            epoch_loss = 0.0  # Acumulador de p√©rdida para la √©poca
            
            # Procesar todos los lotes del dataset
            for batch_states, batch_actions in dataloader:
                # Paso hacia adelante: predicci√≥n del modelo
                optimizer.zero_grad()           # Limpiar gradientes acumulados
                outputs = model(batch_states)   # Inferencia: estados ‚Üí valores de acci√≥n
                
                # Calcular p√©rdida de clasificaci√≥n
                loss = criterion(outputs, batch_actions)  # CrossEntropy entre predicci√≥n y etiqueta
                
                # Retropropagaci√≥n y optimizaci√≥n
                loss.backward()    # Calcular gradientes por backpropagation
                optimizer.step()   # Actualizar pesos de la red
                
                # Acumular p√©rdida para monitoreo
                epoch_loss += loss.item()
            
            # Reporte de progreso por √©poca
            avg_loss = epoch_loss / len(dataloader)
            print(f"  √âpoca {epoch+1}/{num_epochs}, P√©rdida: {avg_loss:.4f}")

    # Guardar modelo entrenado final
    torch.save(model.state_dict(), "imitacion_model.pth")
    print("\n¬°Entrenamiento por curr√≠culo completado! Modelo final guardado.")

#### environment.py

In [None]:
# environment.py
"""
Entorno de cuadr√≠cula para aprendizaje por imitaci√≥n de agentes.

Este m√≥dulo implementa un entorno de grid simplificado donde un agente
debe navegar para recolectar frutas mientras evita venenos. Est√° dise√±ado
espec√≠ficamente para generar datos de demostraci√≥n experta y entrenar
agentes mediante aprendizaje por imitaci√≥n.

Clases:
    GridEnvironment: Entorno de cuadr√≠cula con estados visuales 3D
"""
import numpy as np

class GridEnvironment:
    """
    Entorno de cuadr√≠cula para simulaci√≥n de navegaci√≥n y recolecci√≥n.
    
    Implementa un mundo de grid 2D donde el agente debe recolectar todas
    las frutas evitando venenos. El estado se representa como una imagen
    de 3 canales (agente, frutas, venenos) ideal para redes convolucionales.
    
    Caracter√≠sticas:
        - Grid cuadrado de tama√±o configurable
        - Estados visuales como tensores 3D
        - Movimiento con l√≠mites del entorno
        - Detecci√≥n autom√°tica de colisiones
        - Condiciones de terminaci√≥n por victoria/derrota
    
    Attributes:
        size (int): Tama√±o del grid (size x size)
        agent_pos (np.ndarray): Posici√≥n actual del agente [x, y]
        fruit_pos (list): Lista de posiciones de frutas [np.ndarray, ...]
        poison_pos (list): Lista de posiciones de venenos [np.ndarray, ...]
    """
    def __init__(self, size=5):
        """
        Inicializa el entorno de grid con tama√±o especificado.
        
        Args:
            size (int): Dimensi√≥n del grid cuadrado (default: 5)
        """
        self.size = size
        self.reset()

    def reset(self, agent_pos=(0, 0), fruit_pos=[], poison_pos=[]):
        """
        Reinicia el entorno con configuraci√≥n espec√≠fica de elementos.
        
        Establece posiciones iniciales del agente, frutas y venenos.
        Utilizado para crear escenarios espec√≠ficos para generaci√≥n
        de datos de demostraci√≥n o evaluaci√≥n de pol√≠ticas.
        
        Args:
            agent_pos (tuple): Posici√≥n inicial del agente (x, y) (default: (0,0))
            fruit_pos (list): Lista de posiciones de frutas [(x,y), ...] (default: [])
            poison_pos (list): Lista de posiciones de venenos [(x,y), ...] (default: [])
        
        Returns:
            np.ndarray: Estado inicial del entorno con forma (3, size, size)
        
        Note:
            Las listas de posiciones se convierten a arrays numpy para
            operaciones vectorizadas eficientes durante la simulaci√≥n.
        """
        self.agent_pos = np.array(agent_pos)
        self.fruit_pos = [np.array(p) for p in fruit_pos]
        self.poison_pos = [np.array(p) for p in poison_pos]
        return self.get_state()

    def get_state(self):
        """
        Genera representaci√≥n visual del estado actual como tensor 3D.
        
        Crea una imagen de 3 canales donde cada canal representa un tipo
        de elemento del entorno. Esta representaci√≥n es ideal para redes
        convolucionales que procesan informaci√≥n espacial.
        
        Estructura de canales:
            - Canal 0: Posici√≥n del agente (binario)
            - Canal 1: Posiciones de frutas (binario)
            - Canal 2: Posiciones de venenos (binario)
        
        Returns:
            np.ndarray: Estado con forma (3, size, size) y dtype float32
                       Valores: 1.0 para presencia de elemento, 0.0 para ausencia
        
        Example:
            Para grid 3x3 con agente en (0,0) y fruta en (1,1):
            Canal 0: [[1, 0, 0],    Canal 1: [[0, 0, 0],    Canal 2: [[0, 0, 0],
                      [0, 0, 0],              [0, 1, 0],              [0, 0, 0],
                      [0, 0, 0]]              [0, 0, 0]]              [0, 0, 0]]
        """
        # Inicializar tensor de estado con ceros
        state = np.zeros((3, self.size, self.size), dtype=np.float32)
        
        # Canal 0: Posici√≥n del agente
        state[0, self.agent_pos[0], self.agent_pos[1]] = 1.0
        
        # Canal 1: Posiciones de frutas
        for fruit in self.fruit_pos:
            state[1, fruit[0], fruit[1]] = 1.0
        
        # Canal 2: Posiciones de venenos
        for poison in self.poison_pos:
            state[2, poison[0], poison[1]] = 1.0
        
        return state

    def step(self, action):
        """
        Ejecuta una acci√≥n en el entorno y actualiza el estado.
        
        Procesa el movimiento del agente, maneja colisiones con l√≠mites,
        detecta recolecci√≥n de frutas y verifica condiciones de terminaci√≥n.
        Implementa la l√≥gica core del entorno para simulaci√≥n de episodios.
        
        Flujo de ejecuci√≥n:
            1. Actualizar posici√≥n seg√∫n acci√≥n
            2. Aplicar l√≠mites del entorno
            3. Procesar recolecci√≥n de frutas
            4. Verificar colisiones con venenos
            5. Evaluar condiciones de terminaci√≥n
        
        Args:
            action (int): Acci√≥n a ejecutar
                         0 = Arriba (decrementar x)
                         1 = Abajo (incrementar x)
                         2 = Izquierda (decrementar y)
                         3 = Derecha (incrementar y)
        
        Returns:
            tuple: (nuevo_estado, reward, done)
                - nuevo_estado (np.ndarray): Estado resultante (3, size, size)
                - reward (float): Recompensa por la acci√≥n (-0.1 por defecto)
                - done (bool): True si episodio termin√≥, False en caso contrario
        
        Note:
            El reward no se utiliza en aprendizaje por imitaci√≥n pero se
            mantiene para compatibilidad con interfaces de RL est√°ndar.
        """
        # Actualizar posici√≥n del agente seg√∫n la acci√≥n
        if action == 0: 
            self.agent_pos[0] -= 1  # Arriba
        elif action == 1: 
            self.agent_pos[0] += 1  # Abajo
        elif action == 2: 
            self.agent_pos[1] -= 1  # Izquierda
        elif action == 3: 
            self.agent_pos[1] += 1  # Derecha
        
        # Aplicar l√≠mites del entorno (clipping)
        self.agent_pos = np.clip(self.agent_pos, 0, self.size - 1)

        # Inicializar variables de terminaci√≥n
        done = False
        reward = -0.1  # Penalizaci√≥n por paso (no usado en imitaci√≥n)

        # Verificar recolecci√≥n de frutas
        for i, fruit in enumerate(self.fruit_pos):
            if np.array_equal(self.agent_pos, fruit):
                # Fruta recolectada: eliminar de la lista
                self.fruit_pos.pop(i)
                break
        
        # Verificar colisi√≥n con venenos (derrota)
        if any(np.array_equal(self.agent_pos, p) for p in self.poison_pos):
            done = True

        # Verificar victoria (todas las frutas recolectadas)
        if not self.fruit_pos:
            done = True
        
        return self.get_state(), reward, done

#### main.py

In [None]:
# main.py
"""
Demostraci√≥n simple del agente entrenado por aprendizaje por imitaci√≥n.

Este m√≥dulo proporciona una interfaz minimalista para configurar escenarios
y observar el comportamiento del agente entrenado. Utiliza formas geom√©tricas
simples para representar elementos, enfoc√°ndose en la funcionalidad core
sin distracciones visuales complejas.

Caracter√≠sticas:
    - Configuraci√≥n interactiva con mouse (clic izquierdo=fruta, clic derecho=veneno)
    - Demostraci√≥n autom√°tica del agente entrenado
    - Representaci√≥n visual simple con formas geom√©tricas
    - Ciclo continuo configuraci√≥n ‚Üí demostraci√≥n ‚Üí reset

Constantes:
    GRID_SIZE: Tama√±o del entorno (5x5)
    CELL_SIZE: Tama√±o de cada celda en p√≠xeles (100px)
    WIDTH, HEIGHT: Dimensiones de la ventana (500x500)
    COLOR_*: Esquema de colores para elementos visuales

Funciones:
    draw_elements: Renderizado de elementos con formas geom√©tricas
    main: Bucle principal con modos configuraci√≥n y demostraci√≥n
"""
import pygame
import numpy as np
from environment import GridEnvironment
from agent import Agent

# Configuraci√≥n del entorno y ventana
GRID_SIZE = 5
CELL_SIZE = 100
WIDTH, HEIGHT = GRID_SIZE * CELL_SIZE, GRID_SIZE * CELL_SIZE

# Esquema de colores simple y claro
COLOR_GRID = (200, 200, 200)    # Gris claro para grid
COLOR_AGENT = (0, 0, 255)       # Azul para agente
COLOR_FRUIT = (0, 255, 0)       # Verde para frutas
COLOR_POISON = (255, 0, 0)      # Rojo para venenos

def draw_elements(win, agent_pos, fruits, poisons):
    """
    Renderiza todos los elementos del entorno usando formas geom√©tricas simples.
    
    Dibuja el grid de navegaci√≥n y representa cada elemento del entorno
    con formas distintivas: rect√°ngulos para agente, c√≠rculos para frutas
    y cuadrados peque√±os para venenos. Dise√±o minimalista para claridad.
    
    Representaci√≥n visual:
        - Agente: Rect√°ngulo azul de celda completa
        - Frutas: C√≠rculos verdes centrados (1/3 del tama√±o de celda)
        - Venenos: Cuadrados rojos con margen (80% del tama√±o de celda)
        - Grid: L√≠neas grises para delimitaci√≥n de celdas
    
    Args:
        win (pygame.Surface): Superficie donde renderizar
        agent_pos (np.ndarray): Posici√≥n del agente [fila, columna]
        fruits (list): Lista de posiciones de frutas [(fila, col), ...]
        poisons (list): Lista de posiciones de venenos [(fila, col), ...]
    
    Note:
        Convierte coordenadas (fila, columna) a p√≠xeles (x, y) para Pygame.
        Agente en posici√≥n (-1, -1) no se dibuja (modo configuraci√≥n).
    """
    # Limpiar pantalla con fondo negro
    win.fill((0,0,0))
    
    # Dibujar grid de navegaci√≥n
    for x in range(0, WIDTH, CELL_SIZE):
        pygame.draw.line(win, COLOR_GRID, (x, 0), (x, HEIGHT))
    for y in range(0, HEIGHT, CELL_SIZE):
        pygame.draw.line(win, COLOR_GRID, (0, y), (WIDTH, y))
    # Dibujar agente (solo si posici√≥n v√°lida)
    if agent_pos[0] >= 0 and agent_pos[1] >= 0:
        pygame.draw.rect(win, COLOR_AGENT, 
                        (agent_pos[1] * CELL_SIZE, agent_pos[0] * CELL_SIZE, 
                         CELL_SIZE, CELL_SIZE))
    
    # Dibujar frutas como c√≠rculos verdes
    for f in fruits:
        center_x = f[1] * CELL_SIZE + CELL_SIZE//2
        center_y = f[0] * CELL_SIZE + CELL_SIZE//2
        radius = CELL_SIZE//3
        pygame.draw.circle(win, COLOR_FRUIT, (center_x, center_y), radius)
    
    # Dibujar venenos como cuadrados rojos con margen
    for p in poisons:
        margin = 20  # Margen de 20px para distinguir de agente
        rect_x = p[1] * CELL_SIZE + margin
        rect_y = p[0] * CELL_SIZE + margin
        rect_size = CELL_SIZE - 2 * margin
        pygame.draw.rect(win, COLOR_POISON, (rect_x, rect_y, rect_size, rect_size))
    
    # Actualizar display para mostrar cambios
    pygame.display.update()

def main():
    """
    Funci√≥n principal de la demostraci√≥n simple del agente por imitaci√≥n.
    
    Implementa un ciclo de dos modos: configuraci√≥n interactiva donde el usuario
    coloca elementos con el mouse, y demostraci√≥n autom√°tica donde el agente
    entrenado navega el escenario. Dise√±ado para evaluaci√≥n r√°pida y directa
    del rendimiento del modelo.
    
    Flujo de la aplicaci√≥n:
        1. Modo "setup": Usuario configura escenario con mouse
           - Clic izquierdo: Colocar fruta
           - Clic derecho: Colocar veneno
           - Espacio: Iniciar demostraci√≥n
        
        2. Modo "run": Agente navega autom√°ticamente
           - Inferencia con modelo entrenado
           - Movimiento autom√°tico cada 300ms
           - Terminaci√≥n por victoria/derrota
           - Reset autom√°tico a configuraci√≥n
    
    Controles:
        - Clic izquierdo: Agregar fruta en posici√≥n del mouse
        - Clic derecho: Agregar veneno en posici√≥n del mouse
        - Espacio: Iniciar demostraci√≥n (solo si hay frutas)
        - Autom√°tico: Reset a configuraci√≥n al terminar episodio
    
    Note:
        Requiere modelo entrenado "imitacion_model.pth" en directorio actual.
        El agente siempre inicia en posici√≥n (0,0) del grid.
    """
    # Inicializar Pygame y configurar ventana
    pygame.init()
    win = pygame.display.set_mode((WIDTH, HEIGHT))
    pygame.display.set_caption("Agente Come-Frutas (IA)")
    
    # Inicializar entorno y agente con modelo pre-entrenado
    env = GridEnvironment(size=GRID_SIZE)
    agent = Agent()
    agent.load_model("imitacion_model.pth")

    # Variables de estado de la aplicaci√≥n
    fruits, poisons = [], []  # Listas de posiciones de elementos
    mode = "setup"           # Modo inicial: configuraci√≥n
    run = True              # Control del bucle principal
    # Bucle principal de la aplicaci√≥n
    while run:
        # Procesar eventos de entrada
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                run = False

            # L√≥gica espec√≠fica del modo configuraci√≥n
            if mode == "setup":
                if event.type == pygame.MOUSEBUTTONDOWN:
                    # Convertir posici√≥n del mouse a coordenadas de grid
                    pos = pygame.mouse.get_pos()
                    col, row = pos[0] // CELL_SIZE, pos[1] // CELL_SIZE
                    
                    # Clic izquierdo: Agregar fruta (si no existe)
                    if event.button == 1 and (row, col) not in fruits:
                        fruits.append((row, col))
                    # Clic derecho: Agregar veneno (si no existe)
                    elif event.button == 3 and (row, col) not in poisons:
                        poisons.append((row, col))
                
                # Espacio: Iniciar demostraci√≥n si hay frutas configuradas
                if event.type == pygame.KEYDOWN and event.key == pygame.K_SPACE:
                    if fruits:  # Solo si hay al menos una fruta
                        mode = "run"
                        # Inicializar entorno con configuraci√≥n actual
                        env.reset(agent_pos=(0,0), fruit_pos=fruits, poison_pos=poisons)

        # Renderizado seg√∫n el modo actual
        if mode == "setup":
            # Modo configuraci√≥n: mostrar elementos sin agente
            draw_elements(win, np.array([-1,-1]), fruits, poisons)
            
        elif mode == "run":
            # Modo demostraci√≥n: agente autom√°tico
            
            # Obtener estado actual y generar acci√≥n
            state = env.get_state()
            action = agent.choose_action(state)
            
            # Ejecutar acci√≥n y verificar terminaci√≥n
            _, _, done = env.step(action)
            
            # Renderizar estado actualizado
            draw_elements(win, env.agent_pos, env.fruit_pos, env.poison_pos)
            
            # Procesar terminaci√≥n del episodio
            if done:
                print("¬°Simulaci√≥n terminada!")
                pygame.time.delay(2000)  # Pausa para observar resultado final
                # Reset autom√°tico a modo configuraci√≥n
                fruits, poisons = [], []
                mode = "setup"
            
            # Controlar velocidad de demostraci√≥n
            pygame.time.delay(300)  # 300ms entre acciones para visibilidad

    # Limpiar recursos al salir
    pygame.quit()


if __name__ == "__main__":
    main()

### Jugador humano

In [None]:
"""
Modo de juego humano con controles aleatorios - Come Frutas.

Este m√≥dulo implementa una versi√≥n jugable del entorno donde un humano puede
controlar el agente directamente. La caracter√≠stica √∫nica es que los controles
de movimiento se asignan aleatoriamente cada vez que se inicia una partida,
a√±adiendo un elemento de desaf√≠o y adaptabilidad.

Caracter√≠sticas principales:
- Modo Setup: Configuraci√≥n manual del escenario
- Modo Humano: Control directo del agente por el jugador
- Controles aleatorios: Mapeo aleatorio de teclas a movimientos
- Interfaz intuitiva: Gr√°ficos y feedback visual
- Desaf√≠o adaptativo: Cada partida requiere aprender nuevos controles

Prop√≥sito educativo:
- Comparar rendimiento humano vs. IA
- Experimentar la dificultad de adaptaci√≥n a controles cambiantes
- Entender la importancia de la consistencia en interfaces
- Apreciar la flexibilidad del aprendizaje humano

Autor: [Tu nombre]
Fecha: Agosto 2025
"""

import pygame
import os
import random
import string

# CONFIGURACI√ìN DEL ENTORNO VISUAL
"""
Par√°metros visuales y dimensiones de la interfaz de juego.
Utiliza celdas m√°s grandes (120px) para mejor visibilidad durante el juego manual.
"""
GRID_WIDTH = 5              # Ancho de la cuadr√≠cula en celdas
GRID_HEIGHT = 5             # Alto de la cuadr√≠cula en celdas
CELL_SIZE = 120             # Tama√±o de cada celda en p√≠xeles (mayor para juego manual)
SCREEN_WIDTH = GRID_WIDTH * CELL_SIZE    # Ancho total de la ventana (600px)
SCREEN_HEIGHT = GRID_HEIGHT * CELL_SIZE  # Alto del √°rea de juego (600px)

# PALETA DE COLORES CONSISTENTE
"""
Esquema de colores oscuro profesional, consistente con otros m√≥dulos del proyecto.
"""
COLOR_FONDO = (25, 25, 25)      # Gris muy oscuro para el fondo
COLOR_LINEAS = (40, 40, 40)     # Gris oscuro para l√≠neas de cuadr√≠cula
COLOR_CURSOR = (255, 255, 0)    # Amarillo brillante para cursor de selecci√≥n
COLOR_TEXTO = (230, 230, 230)   # Gris claro para texto legible

# SISTEMA DE CONTROLES ALEATORIOS
"""
Genera un conjunto de teclas v√°lidas para asignaci√≥n aleatoria de controles.
Se evitan teclas especiales para prevenir conflictos con funciones del sistema.
"""
TECLAS_VALIDAS = [getattr(pygame, f"K_{c}") for c in string.ascii_lowercase + string.digits]

class EntornoHumano:
    """
    Entorno de juego optimizado para control humano directo.
    
    Esta clase maneja la l√≥gica del juego cuando un humano controla el agente,
    incluyendo movimiento, colisiones, recolecci√≥n de objetos y condiciones
    de victoria/derrota. Se enfoca en proporcionar feedback inmediato y
    una experiencia de juego fluida.
    
    Diferencias con entornos de IA:
    - Feedback inmediato con mensajes en consola
    - L√≥gica de juego simplificada (sin recompensas num√©ricas)
    - Terminaci√≥n inmediata en victoria/derrota
    - Controles responsivos para jugabilidad humana
    
    Attributes:
        agente_pos (tuple): Posici√≥n actual del agente (x, y)
        frutas (set): Conjunto de posiciones con frutas
        venenos (set): Conjunto de posiciones con venenos
        paredes (set): Conjunto de posiciones con paredes/obst√°culos
    """
    def __init__(self):
        """
        Inicializa el entorno con configuraci√≥n vac√≠a.
        
        El agente comienza en la esquina superior izquierda (0,0) y todos
        los conjuntos de elementos est√°n vac√≠os, permitiendo configuraci√≥n manual.
        """
        self.agente_pos = (0, 0)    # Posici√≥n inicial del agente
        self.frutas = set()         # Conjunto de posiciones de frutas
        self.venenos = set()        # Conjunto de posiciones de venenos
        self.paredes = set()        # Conjunto de posiciones de paredes

    def reset(self):
        """
        Resetea la posici√≥n del agente al inicio del juego.
        
        Coloca al agente en la posici√≥n inicial (0,0) sin modificar
        la configuraci√≥n del escenario. Utilizado al comenzar una nueva partida.
        """
        self.agente_pos = (0, 0)

    def limpiar(self):
        """
        Elimina todos los elementos del entorno.
        
        Limpia frutas, venenos y paredes del escenario, dejando una
        cuadr√≠cula vac√≠a para configuraci√≥n desde cero.
        """
        self.frutas.clear()
        self.venenos.clear()
        self.paredes.clear()

    def step(self, accion):
        """
        Ejecuta una acci√≥n del jugador humano en el entorno.
        
        Procesa el movimiento del agente, verifica colisiones y maneja
        las interacciones con elementos del entorno. Proporciona feedback
        inmediato al jugador mediante mensajes en consola.
        
        Args:
            accion (int): Direcci√≥n de movimiento:
                         0 = Arriba (decrementar y)
                         1 = Abajo (incrementar y)
                         2 = Izquierda (decrementar x)
                         3 = Derecha (incrementar x)
        
        Returns:
            bool: True si el juego termin√≥ (victoria o derrota), False si contin√∫a
        """
        # Calcular nueva posici√≥n basada en la acci√≥n
        x, y = self.agente_pos
        if accion == 0:     # Arriba
            y -= 1
        elif accion == 1:   # Abajo
            y += 1
        elif accion == 2:   # Izquierda
            x -= 1
        elif accion == 3:   # Derecha
            x += 1

        # Verificar colisiones: l√≠mites del tablero o paredes
        if x < 0 or x >= GRID_WIDTH or y < 0 or y >= GRID_HEIGHT or (x, y) in self.paredes:
            # Movimiento inv√°lido: no actualizar posici√≥n
            return False

        # Movimiento v√°lido: actualizar posici√≥n del agente
        self.agente_pos = (x, y)
        
        # Verificar interacciones con elementos del entorno
        if self.agente_pos in self.frutas:
            # Fruta recogida: eliminar del conjunto
            self.frutas.remove(self.agente_pos)
            
            # Verificar condici√≥n de victoria
            if not self.frutas:
                print("\n‚ú® ¬°Ganaste! Recolectaste todas las frutas.\n")
                return True  # Juego terminado con √©xito
                
        elif self.agente_pos in self.venenos:
            # Veneno tocado: derrota inmediata
            print("\n‚ò†Ô∏è ¬°Oh no! Tocaste un veneno.\n")
            return True  # Juego terminado con fallo
            
        # Continuar juego
        return False

    def dibujar(self, pantalla, modo, cursor_pos, img_fruta, img_veneno, img_pared, img_agente, _):
        """
        Renderiza el estado completo del entorno con interfaz interactiva.
        
        Dibuja todos los elementos visuales del juego incluyendo grid, objetos
        del entorno y cursor de selecci√≥n. Proporciona feedback visual para
        la interacci√≥n del jugador en diferentes modos (colocaci√≥n/juego).
        
        Args:
            pantalla (pygame.Surface): Superficie donde renderizar
            modo (str): Modo actual de la interfaz ('frutas', 'venenos', 'paredes', 'jugar')
            cursor_pos (tuple): Posici√≥n (x,y) del cursor en coordenadas de grid
            img_fruta (pygame.Surface): Sprite de las frutas
            img_veneno (pygame.Surface): Sprite de los venenos
            img_pared (pygame.Surface): Sprite de las paredes
            img_agente (pygame.Surface): Sprite del agente
            _ : Par√°metro no utilizado (compatibilidad de interfaz)
        
        Note:
            Renderiza en orden espec√≠fico: fondo, grid, objetos, agente, cursor.
            El cursor cambia de color seg√∫n el modo de colocaci√≥n activo.
        """
        # Limpiar pantalla con color de fondo
        pantalla.fill(COLOR_FONDO)

        # Dibujar l√≠neas del grid para gu√≠a visual
        for x in range(0, SCREEN_WIDTH, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (x, 0), (x, SCREEN_HEIGHT))
        for y in range(0, SCREEN_HEIGHT, CELL_SIZE):
            pygame.draw.line(pantalla, COLOR_LINEAS, (0, y), (SCREEN_WIDTH, y))

        # Dibujar elementos del entorno
        for fruta in self.frutas:
            pantalla.blit(img_fruta, (fruta[0]*CELL_SIZE, fruta[1]*CELL_SIZE))
        for veneno in self.venenos:
            pantalla.blit(img_veneno, (veneno[0]*CELL_SIZE, veneno[1]*CELL_SIZE))
        for pared in self.paredes:
            pantalla.blit(img_pared, (pared[0]*CELL_SIZE, pared[1]*CELL_SIZE))

        # Dibujar agente (jugador) - siempre visible en primer plano
        pantalla.blit(img_agente, (self.agente_pos[0]*CELL_SIZE, self.agente_pos[1]*CELL_SIZE))

        # Dibujar cursor de selecci√≥n en modo configuraci√≥n
        if modo == "SETUP":
            cursor_rect = pygame.Rect(cursor_pos[0]*CELL_SIZE, cursor_pos[1]*CELL_SIZE, CELL_SIZE, CELL_SIZE)
            pygame.draw.rect(pantalla, COLOR_CURSOR, cursor_rect, 3)

        # Renderizar informaci√≥n de interfaz
        font = pygame.font.Font(None, 30)
        pantalla.blit(font.render(f"Modo: {modo}", True, COLOR_TEXTO), (10, SCREEN_HEIGHT + 5))
        pantalla.blit(font.render("F: Fruta, V: Veneno, W: Pared, C: Limpiar, H: Jugar", True, COLOR_TEXTO), (10, SCREEN_HEIGHT + 30))
        pantalla.blit(font.render("Descubre los controles ocultos usando letras/n√∫meros", True, COLOR_TEXTO), (10, SCREEN_HEIGHT + 55))

def cargar_imagen(nombre, fallback_color):
    """
    Carga una imagen desde archivo con sistema de respaldo.
    
    Intenta cargar una imagen sprite desde el directorio actual.
    Si la carga falla, crea una superficie de color s√≥lido como respaldo.
    Escala autom√°ticamente al tama√±o de celda definido.
    
    Args:
        nombre (str): Nombre del archivo de imagen a cargar
        fallback_color (tuple): Color RGB (r,g,b) para superficie de respaldo
    
    Returns:
        pygame.Surface: Superficie cargada y escalada, o superficie de color
                       si la carga fall√≥
    
    Note:
        Todas las im√°genes se escalan a CELL_SIZE x CELL_SIZE p√≠xeles.
        Utiliza convert_alpha() para optimizar el renderizado con transparencia.
    """
    try:
        # Construir ruta completa al archivo de imagen
        ruta = os.path.join(os.path.dirname(__file__), nombre)
        # Cargar imagen con soporte de transparencia
        img = pygame.image.load(ruta).convert_alpha()
        # Escalar a tama√±o de celda est√°ndar
        return pygame.transform.scale(img, (CELL_SIZE, CELL_SIZE))
    except:
        # Crear superficie de respaldo con color s√≥lido si falla la carga
        s = pygame.Surface((CELL_SIZE, CELL_SIZE))
        s.fill(fallback_color)
        return s

def generar_controles_aleatorios():
    """
    Genera un mapeo aleatorio de teclas para controles de movimiento.
    
    Crea una asignaci√≥n aleatoria entre teclas del teclado y direcciones
    de movimiento para a√±adir un elemento de desaf√≠o y descubrimiento
    al juego. Los jugadores deben encontrar qu√© teclas controlan cada direcci√≥n.
    
    Returns:
        dict: Mapeo de c√≥digos de tecla pygame a acciones de movimiento:
              {tecla_pygame: accion_int}
              donde accion_int es 0=Arriba, 1=Abajo, 2=Izquierda, 3=Derecha
    
    Note:
        Utiliza teclas alfanum√©ricas (A-Z, 0-9) para m√°xima compatibilidad.
        Garantiza que cada direcci√≥n tenga exactamente una tecla asignada.
    """
    # Seleccionar 4 teclas aleatorias del conjunto disponible
    teclas = random.sample(TECLAS_VALIDAS, 4)
    # Crear lista de acciones de movimiento
    acciones = [0, 1, 2, 3]  # Arriba, abajo, izquierda, derecha
    # Mezclar aleatoriamente las acciones
    random.shuffle(acciones)
    # Crear diccionario de mapeo tecla->acci√≥n
    return dict(zip(teclas, acciones))

def main():
    """
    Funci√≥n principal del juego en modo humano.
    
    Inicializa Pygame, configura la ventana de juego y ejecuta el bucle
    principal que maneja dos modos: configuraci√≥n del entorno y juego
    con controles aleatorios. Proporciona una experiencia interactiva
    donde el jugador puede dise√±ar niveles y luego jugarlos.
    
    Flujo del juego:
        1. Modo SETUP: Colocar frutas, venenos y paredes con el mouse
        2. Modo JUGAR: Controlar agente con teclas aleatorias descubiertas
        3. Victoria: Recolectar todas las frutas
        4. Derrota: Tocar veneno
    
    Controles SETUP:
        - Mouse: Mover cursor
        - F: Colocar fruta
        - V: Colocar veneno  
        - W: Colocar pared
        - C: Limpiar todo
        - H: Iniciar juego
    
    Controles JUGAR:
        - Teclas aleatorias para movimiento (descubrir experimentando)
        - ESC: Volver a configuraci√≥n
    """
    # Inicializar Pygame y configurar ventana
    pygame.init()
    pantalla = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT + 100))
    pygame.display.set_caption("Modo Humano Aleatorio - Come Frutas")

    # Inicializar entorno y variables de estado
    entorno = EntornoHumano()
    cursor_pos = [0, 0]
    modo = "SETUP"  # Modo inicial: configuraci√≥n del entorno
    mapeo_controles = {}  # Mapeo de teclas aleatorias (generado al jugar)

    # Cargar sprites con colores de respaldo
    img_fruta = cargar_imagen("fruta.png", (40, 200, 40))
    img_veneno = cargar_imagen("veneno.png", (255, 50, 50))
    img_pared = cargar_imagen("pared.jpg", (80, 80, 80))
    img_agente = cargar_imagen("agente.png", (60, 100, 255))

    # Variables de control del juego
    reloj = pygame.time.Clock()
    corriendo = True

    # Bucle principal del juego
    while corriendo:
        # Procesar eventos de entrada
        for evento in pygame.event.get():
            if evento.type == pygame.QUIT:
                corriendo = False
            elif evento.type == pygame.KEYDOWN:
                if evento.key == pygame.K_s:
                    modo = "SETUP"
                elif evento.key == pygame.K_h:
                    modo = "HUMANO"
                    entorno.reset()
                    mapeo_controles = generar_controles_aleatorios()

                if modo == "SETUP":
                    if evento.key == pygame.K_UP: cursor_pos[1] = max(0, cursor_pos[1]-1)
                    elif evento.key == pygame.K_DOWN: cursor_pos[1] = min(GRID_HEIGHT-1, cursor_pos[1]+1)
                    elif evento.key == pygame.K_LEFT: cursor_pos[0] = max(0, cursor_pos[0]-1)
                    elif evento.key == pygame.K_RIGHT: cursor_pos[0] = min(GRID_WIDTH-1, cursor_pos[0]+1)
                    # Colocaci√≥n de elementos con teclas espec√≠ficas
                    pos = tuple(cursor_pos)
                    if evento.key == pygame.K_f: 
                        # F: Colocar/quitar fruta (toggle)
                        entorno.frutas.symmetric_difference_update({pos})
                        entorno.venenos.discard(pos)
                        entorno.paredes.discard(pos)
                    elif evento.key == pygame.K_v: 
                        # V: Colocar/quitar veneno (toggle)
                        entorno.venenos.symmetric_difference_update({pos})
                        entorno.frutas.discard(pos)
                        entorno.paredes.discard(pos)
                    elif evento.key == pygame.K_w: 
                        # W: Colocar/quitar pared (toggle)
                        entorno.paredes.symmetric_difference_update({pos})
                        entorno.frutas.discard(pos)
                        entorno.venenos.discard(pos)
                    elif evento.key == pygame.K_c: 
                        # C: Limpiar todo el entorno
                        entorno.limpiar()

                # Controles espec√≠ficos del modo HUMANO
                elif modo == "HUMANO":
                    if evento.key in mapeo_controles:
                        # Ejecutar acci√≥n de movimiento con tecla aleatoria
                        accion = mapeo_controles[evento.key]
                        terminado = entorno.step(accion)
                        if terminado:
                            # Volver a configuraci√≥n al terminar el juego
                            modo = "SETUP"

        # Renderizar estado actual del juego
        entorno.dibujar(pantalla, modo, cursor_pos, img_fruta, img_veneno, img_pared, img_agente, mapeo_controles)
        pygame.display.flip()
        reloj.tick(30)

    # Limpiar recursos al salir
    pygame.quit()

if __name__ == '__main__':
    main()