# üå¥ Asistente Tur√≠stico de Tenerife - RAG Demo

## 1. Configuraci√≥n del Entorno
Cargamos las librer√≠as necesarias y verificamos la API Key.

In [None]:
import os
from dotenv import load_dotenv

load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
if api_key:
    print(f"‚úÖ Key cargada: {api_key[:5]}...")
else:
    print("‚ùå Error de Key")

In [None]:
# 0. INSTALACI√ìN DE DEPENDENCIAS
# Ejecuta esto PRIMERO. Si hay actualizaciones, Reinicia el Kernel antes de seguir.
%pip install -q -U openai-agents nest_asyncio openai langchain-openai python-dotenv
print("‚úÖ Dependencias verificadas. Si hubo instalaciones nuevas, ve a Kernel > Restart.")

## 2. Validaci√≥n de Conectividad con OpenAI
Probamos que la llave funcione y el modelo responda.

In [None]:
from langchain_openai import ChatOpenAI

# Inicializamos el modelo
llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo")

# Prueba 'Hol√≠stica'
try:
    response = llm.invoke("Di 'Hola Tenerife' si me escuchas.")
    print(f"ü§ñ Respuesta Modelo: {response.content}")
except Exception as e:
    print(f"‚ùå Error de Conexi√≥n: {e}")

## 3. Fase 2: Ingesta y Vector Store üìö
Subimos el PDF `TENERIFE.pdf` a OpenAI para crear un Vector Store gestionado.

In [None]:
import os
import sys
import openai
from openai import OpenAI
from pathlib import Path

# 1. DIAGN√ìSTICO DE ENTORNO (CR√çTICO)
print(f"üêç Python Executable: {sys.executable}")
if "llm-env" not in sys.executable:
    print("‚ö†Ô∏è ADVERTENCIA: No parece que est√©s usando el entorno virtual 'llm-env'. Verifica tu Kernel.")

print(f"üì¶ OpenAI Version: {openai.__version__}")

client = OpenAI()

pdf_path = Path("../data/raw/TENERIFE.pdf")

if not pdf_path.exists():
    print(f"‚ùå No encontrado: {pdf_path}")
else:
    print(f"‚úÖ Archivo encontrado: {pdf_path}")

    # 2. ADAPTADOR UNIVERSAL DE VECTOR STORES
    try:
        vs_manager = None
        
        # Intento 1: Ruta est√°ndar V2 Beta
        if hasattr(client, 'beta') and hasattr(client.beta, 'vector_stores'):
            vs_manager = client.beta.vector_stores
            print("‚úÖ Conectado v√≠a client.beta.vector_stores")
            
        # Intento 2: Ruta ra√≠z (posible cambio futuro o versi√≥n diferente)
        elif hasattr(client, 'vector_stores'):
            vs_manager = client.vector_stores
            print("‚úÖ Conectado v√≠a client.vector_stores")

        if vs_manager:
            vector_store = vs_manager.create(name="Tenerife Guide Store")
            print(f"üì¶ Vector Store creado: {vector_store.id}")
            
            with open(pdf_path, "rb") as f:
                file_batch = vs_manager.file_batches.upload_and_poll(
                    vector_store_id=vector_store.id, files=[f]
                )
            print(f"üìÑ Estado de carga: {file_batch.status}")
            print(f"üî¢ Archivos procesados: {file_batch.file_counts}")
        else:
            # FALLO TOTAL: Imprimir introspecci√≥n para depurar
            print("‚ùå ERROR: No se encuentra 'vector_stores' en el cliente OpenAI.")
            print("üîç Depuraci√≥n de atributos disponibles:")
            print(f"   client dir: {[x for x in dir(client) if 'vector' in x or 'beta' in x]}")
            if hasattr(client, 'beta'):
                print(f"   client.beta dir: {dir(client.beta)}")
            else:
                print("   client.beta NO existe.")
            raise AttributeError("No se pudo acceder a Vector Stores con esta versi√≥n de librer√≠a/entorno.")

    except Exception as e:
        print(f"‚ùå Excepci√≥n: {e}")

## 4. Fase 3: Configuraci√≥n del Agente RAG ü§ñ
Configuramos el agente con capacidad de usar el Vector Store. 
**Nota**: Incluimos la instalaci√≥n de librer√≠as en el kernel para asegurar que el entorno de ejecuci√≥n tenga todo lo necesario.

In [None]:
import nest_asyncio
nest_asyncio.apply()

# Correcci√≥n: La librer√≠a se importa como 'agents' aunque se instale como 'openai-agents'
from agents import Agent, Runner, FileSearchTool

# Recuperamos el ID del Vector Store de la fase anterior
# Fallback a un ID conocido si se ha reiniciado el kernel sin re-ejecutar la Fase 2
try:
    current_vs_id = vector_store.id
except NameError:
    current_vs_id = "vs_69661c161c5881919eadf77744958c70" # ID de ejemplo/previo
    print(f"‚ö†Ô∏è Usando ID recuperado/hardcodeado: {current_vs_id}")

# 1. Definir la herramienta de b√∫squeda de archivos
file_search_tool = FileSearchTool(vector_store_ids=[current_vs_id])

# 2. Instrucciones del Agente (System Prompt)
INSTRUCTIONS = """
Eres un experto gu√≠a tur√≠stico de Tenerife.
Usa la herramienta file_search para encontrar informaci√≥n en la gu√≠a PDF adjunta.
Si la informaci√≥n no est√° en el PDF, dilo claramente. No inventes respuestas.
Responde siempre en espa√±ol, con un tono amable y entusiasta.
"""

# 3. Crear el Agente
agent = Agent(
    name="TenerifeGuide",
    model="gpt-4o-mini",
    instructions=INSTRUCTIONS,
    tools=[file_search_tool]
)

print(f"ü§ñ Agente '{agent.name}' configurado satisfactoriamente.")

### Prueba R√°pida del Agente
Lanzamos una pregunta de prueba para verificar que el RAG funciona.

In [None]:
async def demo_agente():
    pregunta = "¬øQu√© actividades puedo hacer en el Teide?"
    print(f"üë§ Usuario: {pregunta}")
    
    # Ejecutamos el agente
    resultado = await Runner.run(agent, pregunta)
    print(f"ü§ñ Agente: {resultado.final_output}")

await demo_agente()

# 4. FASE 4: GENERACI√ìN DE DATASET DE EVALUACI√ìN

Para medir la calidad de nuestro RAG, necesitamos un "Gold Standard" o dataset de prueba.
En lugar de escribirlo a mano, usaremos un **Agente Auxiliar ('DatasetBuilder')**.

Este agente leer√° el PDF y generar√° pares de Pregunta/Respuesta con referencias exactas.
Esto asegura que las pruebas est√©n alineadas con el contenido real del documento.

In [None]:
from typing import List
from pydantic import BaseModel
import json

# Modelo de datos para cada item de evaluaci√≥n
class EvalItem(BaseModel):
    question: str
    answer: str
    references: List[str]

NUM_EXAMPLES = 5  # N√∫mero de pares a generar (puedes aumentar esto luego)
MODEL_GENERATOR = "gpt-4o-mini" # Usamos el mismo modelo capaz

# Definici√≥n del Agente Generador
dataset_agent = Agent(
    name="DatasetBuilder",
    model=MODEL_GENERATOR,
    instructions=(
        "Eres un generador de datasets de QA (Pregunta/Respuesta) basado en un PDF accesible v√≠a file_search. "
        "Crea preguntas variadas (literales, s√≠ntesis, curiosidades) sobre Tenerife y respuestas concisas apoyadas en el texto. "
        "Debes devolver un JSON con una lista de objetos que sigan la estructura {question, answer, references}. "
        "Las 'references' deben ser citas textuales exactas del PDF que soporten la respuesta. NO inventes texto."
    ),
    tools=[file_search_tool], # Reutilizamos la tool configurada en Fase 3
    output_type=List[EvalItem],
)

print("‚úÖ Agente DatasetBuilder configurado.")

In [None]:
# Prompt para disparar la generaci√≥n
dataset_prompt = (
    f"Genera {NUM_EXAMPLES} pares de pregunta/respuesta basados √∫nicamente en el PDF de Tenerife. "
    "Incluye las referencias textuales relevantes en el campo 'references'. "
    "Responde solo con un JSON v√°lido."
)

print(f"‚è≥ Generando {NUM_EXAMPLES} ejemplos de evaluaci√≥n... (Esto puede tardar unos segundos)")

try:
    # Ejecuci√≥n del agente
    dataset_result = await Runner.run(dataset_agent, dataset_prompt)
    
    # Extracci√≥n del resultado tipado
    eval_dataset = dataset_result.final_output_as(List[EvalItem])
    
    print(f"\n‚úÖ Generados {len(eval_dataset)} ejemplos:")
    for i, item in enumerate(eval_dataset, 1):
        print(f"[{i}] P: {item.question}")
        print(f"    R: {item.answer[:100]}...")

except Exception as e:
    print(f"‚ùå Error generando dataset: {e}")


In [None]:
# Guardar el dataset en disco para no regenerarlo siempre
DATASET_PATH = Path("eval_dataset_tenerife.json")

if 'eval_dataset' in locals() and eval_dataset:
    with open(DATASET_PATH, "w", encoding="utf-8") as f:
        json.dump([item.model_dump() for item in eval_dataset], f, ensure_ascii=False, indent=2)
    print(f"üíæ Dataset guardado en: {DATASET_PATH.absolute()}")
else:
    print("‚ö†Ô∏è No hay dataset para guardar.")