# Pr√°ctica Final: Asistente Tur√≠stico de Tenerife (RAG)

Notebook de desarrollo paso a paso.

## 1. Configuraci√≥n Inicial
Verificaci√≥n de que el entorno y las claves API est√°n correctamente cargadas.

In [10]:
import os
import sys
from dotenv import load_dotenv

# 1. Configuramos el path para poder importar m√≥dulos de src/
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

# 2. Cargamos variables de entorno
load_dotenv(os.path.join(project_root, '.env'))

# 3. Verificaci√≥n
print(f"Directorio Ra√≠z: {project_root}")

api_key = os.getenv("OPENAI_API_KEY")
if api_key and api_key.startswith("sk-"):
    print("‚úÖ API Key de OpenAI cargada correctamente.")
else:
    print("‚ùå ERROR: No se detect√≥ la API Key o el formato es incorrecto.")

Directorio Ra√≠z: f:\development\Development\Master IA\LLM-large-language-models-entrega-final
‚úÖ API Key de OpenAI cargada correctamente.


In [11]:
from langchain_openai import ChatOpenAI

print("‚è≥ Probando conexi√≥n con OpenAI...")
try:
    # Instanciamos el modelo b√°sico
    llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
    response = llm.invoke("Di 'Conexi√≥n exitosa' si me lees.")
    print(f"‚úÖ Respuesta del LLM: {response.content}")
except Exception as e:
    print(f"‚ùå Error de conexi√≥n con OpenAI: {e}")

‚è≥ Probando conexi√≥n con OpenAI...
‚úÖ Respuesta del LLM: Conexi√≥n exitosa. ¬øEn qu√© puedo ayudarte hoy?


## 2. Ingesta de Datos (Lectura PDF)
Cargaremos la gu√≠a tur√≠stica desde la carpeta `data/raw` y procesaremos su contenido.

In [12]:
from langchain_community.document_loaders import PyPDFLoader

# Ruta al archivo PDF (Ahora en data/raw)
pdf_path = os.path.join(project_root, "data", "raw", "TENERIFE.pdf")

print(f"üìÑ Buscando PDF en: {pdf_path}")

if os.path.exists(pdf_path):
    loader = PyPDFLoader(pdf_path)
    docs = loader.load()
    print(f"‚úÖ PDF Cargado con √©xito. Total p√°ginas: {len(docs)}")
    
    # Verificamos contenido de una p√°gina al azar (p√°g 10, √≠ndice 9)
    print("\n--- Muestra de contenido (P√°g 10) ---")
    print(docs[9].page_content[:500] + "...")
else:
    print("‚ùå ERROR: El archivo PDF no existe en la ruta especificada.")

üìÑ Buscando PDF en: f:\development\Development\Master IA\LLM-large-language-models-entrega-final\data\raw\TENERIFE.pdf
‚úÖ PDF Cargado con √©xito. Total p√°ginas: 25

--- Muestra de contenido (P√°g 10) ---
o La Playa de Los Patos 
o Playa del Anc√≥n 
 
Nota: Para llegar estas playas hay que caminar un rato y algunas son de dif√≠cil acceso 
(la de Los Patos). Tambi√©n hay que ir a estas playas cuando la marea est√© baja, si no...


In [13]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Dividimos el texto en fragmentos (chunks) para que entren en el contexto del LLM
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,    # Caracteres por chunk
    chunk_overlap=200,  # Solapamiento para no perder contexto entre cortes
    length_function=len,
    add_start_index=True,
)

chunks = text_splitter.split_documents(docs)
print(f"‚úÖ Documento dividido en {len(chunks)} fragmentos (chunks).")
print(f"Tama√±o promedio del chunk: {sum(len(c.page_content) for c in chunks) / len(chunks):.0f} caracteres.")

‚úÖ Documento dividido en 30 fragmentos (chunks).
Tama√±o promedio del chunk: 570 caracteres.


## 3. Validaci√≥n del M√≥dulo `src.data.loader`
Ahora verificamos que el c√≥digo refactorizado en `src/` funciona igual que el c√≥digo experimental de arriba.

In [14]:
from src.data.loader import DataLoader

print("üîÑ Probando clase DataLoader refactorizada...")
# Inicializamos el loader con la misma ruta
loader = DataLoader(pdf_path)

# Documentos
docs_refactored = loader.load()

# Chunks
chunks_refactored = loader.split(docs_refactored)

print(f"\n‚úÖ Validaci√≥n completada: {len(chunks_refactored)} chunks generados mediante la clase encapsulada.")

üîÑ Probando clase DataLoader refactorizada...
üìÑ Cargando PDF desde: f:\development\Development\Master IA\LLM-large-language-models-entrega-final\data\raw\TENERIFE.pdf
‚úÖ PDF cargado con 25 p√°ginas.
‚úÇÔ∏è  Dividiendo 25 documentos en chunks...
‚úÖ Se generaron 30 fragmentos.

‚úÖ Validaci√≥n completada: 30 chunks generados mediante la clase encapsulada.


## 4. Motor Vectorial (Embeddings)
Convertiremos los chunks de texto en vectores num√©ricos y los almacenaremos en ChromaDB.

In [15]:
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
import shutil

# Ruta donde guardaremos la base de datos vectorial
chroma_path = os.path.join(project_root, "chroma_db")

# Limpiamos la BD anterior si existe para empezar de cero
if os.path.exists(chroma_path):
    print("üßπ Limpiando base de datos vectorial existente...")
    shutil.rmtree(chroma_path)

print("embedding... (Esto puede tardar un poco)")

# Inicializamos Embeddings y VectorStore
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vector_store = Chroma.from_documents(
    documents=chunks_refactored,
    embedding=embeddings,
    persist_directory=chroma_path
)

print(f"‚úÖ Base de datos vectorial creada en: {chroma_path}")

embedding... (Esto puede tardar un poco)
‚úÖ Base de datos vectorial creada en: f:\development\Development\Master IA\LLM-large-language-models-entrega-final\chroma_db


In [16]:
# Prueba de b√∫squeda sem√°ntica
query = "¬øQu√© altura tiene el Teide?"
print(f"üîç Buscando: '{query}'")

results = vector_store.similarity_search(query, k=3)

for i, res in enumerate(results):
    print(f"\n--- Resultado {i+1} ---")
    print(res.page_content[:300] + "...")

üîç Buscando: '¬øQu√© altura tiene el Teide?'

--- Resultado 1 ---
Si quer√©is subir hasta el pico del Teide, pod√©is hacerlo desde aqu√≠ haciendo uso de 
los telef√©ricos del Teide. Y, si quer√©is m√°s info sobre el Teide, pod√©is ir al Centro de 
Visitantes de El Portillo que es gratis. 
Si os apetece, pod√©is subir de noche cuando est√© despejado, ya que desde El Teide 
...

--- Resultado 2 ---
‚Ä¢ El Teide 
Si vais a Tenerife y no sub√≠s al Parque Nacional del Teide, simplemente no hab√©is 
estado en Tenerife. 
 
Mi recomendaci√≥n ‚Äì esto es simplemente gustos personales m√≠os ‚Äì para subir al 
Teide es subir por la carretera TF24 (carretera de La Esperanza) desde la rotonda de 
Padre Anchieta en...

--- Resultado 3 ---
del Teide pertenece a La Orotava. 
o En las fiestas de La Orotava (consideradas Fiestas de Inter√©s Tur√≠stico 
Nacional) se hace una alfombra gigante de arenas y tierras procedentes del 
Teide y tiene el r√©cord Guinness de mayor tapiz de tierra del mundo. 
A La