# üåÜ TouristBot Environment - Primera Iteraci√≥n

Este notebook te permite probar el entorno b√°sico de TouristBot.

## Caracter√≠sticas de esta versi√≥n:
- ‚úÖ Grid 10x10
- ‚úÖ 1 agente (turista)
- ‚úÖ 2 lugares: restaurante y museo
- ‚úÖ 4 acciones: arriba, abajo, izquierda, derecha
- ‚úÖ Objetivo: navegar hasta el lugar indicado

## 1. Importar el entorno

In [2]:
import sys
sys.path.append('/Users/sara/Documents/deusto_2025_2026/Aprendizaje por refuerzo/proyecto')

from touristbot_env import TouristBotEnv, PLACE_TYPES
import numpy as np
import time

## 2. Crear y probar el entorno b√°sico

In [3]:
# Crear el entorno
env = TouristBotEnv(goal_type="restaurant")

# Reset para obtener el estado inicial
observation, info = env.reset()

print("Estado inicial del entorno:")
print(f"  Posici√≥n del agente: {env.agent_pos}")
print(f"  Objetivo: {info['goal_type']}")
print(f"  Posici√≥n del objetivo: {info['goal_position']}")
print(f"  Lugares en el mapa: {env.places}")
print(f"\nObservaci√≥n: {observation}")
print(f"  [agent_x, agent_y, goal_x, goal_y, goal_type_id]")

üåÜ TouristBot Environment inicializado
   Grid: 10x10
   Objetivo inicial: restaurant
Estado inicial del entorno:
  Posici√≥n del agente: [1, 8]
  Objetivo: restaurant
  Posici√≥n del objetivo: [6, 1]
  Lugares en el mapa: {'restaurant': [6, 1], 'museum': [4, 4]}

Observaci√≥n: [1. 8. 6. 1. 0.]
  [agent_x, agent_y, goal_x, goal_y, goal_type_id]


## 3. Explorar el espacio de acciones

In [4]:
print("Espacio de acciones:")
print(f"  Tipo: {env.action_space}")
print(f"  N√∫mero de acciones: {env.action_space.n}")
print("\nAcciones disponibles:")
print("  0: Arriba (‚Üë)")
print("  1: Abajo (‚Üì)")
print("  2: Izquierda (‚Üê)")
print("  3: Derecha (‚Üí)")
print("\nEspacio de observaci√≥n:")
print(f"  Shape: {env.observation_space.shape}")
print(f"  Range: [{env.observation_space.low}, {env.observation_space.high}]")

Espacio de acciones:
  Tipo: Discrete(4)
  N√∫mero de acciones: 4

Acciones disponibles:
  0: Arriba (‚Üë)
  1: Abajo (‚Üì)
  2: Izquierda (‚Üê)
  3: Derecha (‚Üí)

Espacio de observaci√≥n:
  Shape: (5,)
  Range: [[0. 0. 0. 0. 0.], [10. 10. 10. 10. 10.]]


## 4. Ejecutar un episodio con acciones aleatorias

In [5]:
# Reset del entorno
observation, info = env.reset()
env.render()

print("Ejecutando episodio con acciones aleatorias...")
print(f"Objetivo: {env.goal_type} en posici√≥n {env.goal_pos}\n")

done = False
episode_reward = 0
action_names = ["‚Üë", "‚Üì", "‚Üê", "‚Üí"]

while not done:
    # Acci√≥n aleatoria
    action = env.action_space.sample()
    
    # Ejecutar acci√≥n
    observation, reward, terminated, truncated, info = env.step(action)
    episode_reward += reward
    
    # Renderizar
    env.render()
    
    # Mostrar informaci√≥n cada 10 pasos
    if info['steps'] % 10 == 0:
        print(f"Paso {info['steps']}: Pos={env.agent_pos}, Distancia={info['distance_to_goal']}, Reward acum={episode_reward:.2f}")
    
    done = terminated or truncated
    time.sleep(0.05)

print(f"\n{'='*60}")
if terminated:
    print("üéâ ¬°Objetivo alcanzado!")
else:
    print("‚è∞ Tiempo agotado")
print(f"Pasos totales: {info['steps']}")
print(f"Reward total: {episode_reward:.2f}")
print(f"{'='*60}")

time.sleep(2)
env.close()

Ejecutando episodio con acciones aleatorias...
Objetivo: restaurant en posici√≥n [7, 1]

Paso 10: Pos=[2, 7], Distancia=11, Reward acum=-0.00
Paso 10: Pos=[2, 7], Distancia=11, Reward acum=-0.00
Paso 20: Pos=[3, 6], Distancia=9, Reward acum=-0.00
Paso 20: Pos=[3, 6], Distancia=9, Reward acum=-0.00
Paso 30: Pos=[6, 3], Distancia=3, Reward acum=2.00
Paso 30: Pos=[6, 3], Distancia=3, Reward acum=2.00
Paso 40: Pos=[4, 1], Distancia=3, Reward acum=1.00
Paso 40: Pos=[4, 1], Distancia=3, Reward acum=1.00
Paso 50: Pos=[5, 8], Distancia=9, Reward acum=-3.00
Paso 50: Pos=[5, 8], Distancia=9, Reward acum=-3.00
Paso 60: Pos=[8, 7], Distancia=7, Reward acum=-3.00
Paso 60: Pos=[8, 7], Distancia=7, Reward acum=-3.00
Paso 70: Pos=[9, 9], Distancia=10, Reward acum=-5.50
Paso 70: Pos=[9, 9], Distancia=10, Reward acum=-5.50
Paso 80: Pos=[8, 8], Distancia=8, Reward acum=-5.50
Paso 80: Pos=[8, 8], Distancia=8, Reward acum=-5.50
Paso 90: Pos=[7, 5], Distancia=4, Reward acum=-4.50
Paso 90: Pos=[7, 5], Distan

## 5. Probar con control manual (teclado)

In [None]:
def play_manual():
    """
    Jugar manualmente con el teclado
    Instrucciones:
    - w: arriba
    - s: abajo
    - a: izquierda
    - d: derecha
    - q: salir
    """
    env = TouristBotEnv(goal_type="museum")
    observation, info = env.reset()
    
    print("Control manual activado")
    print("Instrucciones:")
    print("  w = arriba, s = abajo, a = izquierda, d = derecha, q = salir")
    print(f"\nObjetivo: {env.goal_type} en {env.goal_pos}")
    print("Posici√≥n inicial:", env.agent_pos)
    print()
    
    key_map = {'w': 0, 's': 1, 'a': 2, 'd': 3}
    done = False
    
    while not done:
        env.render()
        
        # Leer input del usuario
        key = input("Acci√≥n (w/a/s/d/q): ").lower()
        
        if key == 'q':
            print("Saliendo...")
            break
        
        if key not in key_map:
            print("Tecla inv√°lida. Usa w/a/s/d/q")
            continue
        
        action = key_map[key]
        observation, reward, terminated, truncated, info = env.step(action)
        
        print(f"Pos: {env.agent_pos}, Reward: {reward:.2f}, Steps: {info['steps']}")
        
        done = terminated or truncated
    
    env.close()
    print("\n¬°Juego terminado!")

# Descomentar para jugar manualmente
play_manual()

## 6. Probar diferentes objetivos

In [8]:
import random

print("Probando con diferentes objetivos...\n")

for i in range(3):
    goal_type = random.choice(PLACE_TYPES)
    env = TouristBotEnv(goal_type=goal_type)
    observation, info = env.reset()
    
    print(f"Episodio {i+1}:")
    print(f"  Objetivo: {goal_type}")
    print(f"  Posici√≥n objetivo: {env.goal_pos}")
    print(f"  Posici√≥n agente: {env.agent_pos}")
    print(f"  Distancia Manhattan: {abs(env.agent_pos[0]-env.goal_pos[0]) + abs(env.agent_pos[1]-env.goal_pos[1])}")
    print()
    
    env.close()

Probando con diferentes objetivos...

üåÜ TouristBot Environment inicializado
   Grid: 10x10
   Objetivo inicial: museum
Episodio 1:
  Objetivo: museum
  Posici√≥n objetivo: [5, 1]
  Posici√≥n agente: [1, 8]
  Distancia Manhattan: 11

üåÜ TouristBot Environment inicializado
   Grid: 10x10
   Objetivo inicial: museum
Episodio 2:
  Objetivo: museum
  Posici√≥n objetivo: [1, 3]
  Posici√≥n agente: [1, 8]
  Distancia Manhattan: 5

üåÜ TouristBot Environment inicializado
   Grid: 10x10
   Objetivo inicial: restaurant
Episodio 3:
  Objetivo: restaurant
  Posici√≥n objetivo: [8, 3]
  Posici√≥n agente: [1, 8]
  Distancia Manhattan: 12



## 7. Verificar compatibilidad con Gymnasium

In [None]:
from gymnasium.utils.env_checker import check_env

print("Verificando compatibilidad con Gymnasium...")
try:
    env = TouristBotEnv()
    check_env(env.unwrapped, skip_render_check=True)
    print("‚úÖ El entorno es compatible con Gymnasium")
except Exception as e:
    print(f"‚ùå Error: {e}")
finally:
    env.close()

Verificando compatibilidad con Gymnasium...
üåÜ TouristBot Environment inicializado
   Grid: 10x10
   Objetivo inicial: restaurant
‚úÖ El entorno es compatible con Gymnasium


: 

## üéØ Pr√≥ximos pasos

Esta es la versi√≥n m√°s b√°sica. Las siguientes iteraciones incluir√°n:

1. **M√°s lugares**: caf√©s, parking, tiendas, hoteles
2. **Atributos sem√°nticos**: precio, atm√≥sfera, ocupaci√≥n
3. **Instrucciones en lenguaje natural**: "busca un restaurante barato"
4. **Zero-shot classification**: para interpretar intenciones
5. **Entrenamiento con PPO**: para aprender pol√≠ticas √≥ptimas
6. **Vista parcial del agente**: observaci√≥n realista (5x5)
7. **Reward shaping**: recompensas por cumplir atributos