# 02 - RAG con ChromaDB

Este notebook demuestra c√≥mo crear una base de datos vectorial a partir de un PDF
utilizando la clase `VectorStore` y ChromaDB.

## Contenido
1. Configuraci√≥n del entorno
2. Carga del documento PDF
3. Divisi√≥n en chunks
4. Creaci√≥n de embeddings y base de datos vectorial
5. B√∫squeda sem√°ntica (ejemplo de uso)

## 1. Configuraci√≥n del entorno

In [None]:
import sys
from pathlib import Path

# Agregar el directorio ra√≠z del proyecto al path
PROJECT_ROOT = Path().resolve().parent
sys.path.insert(0, str(PROJECT_ROOT))

# Paths importantes
PDF_PATH = PROJECT_ROOT / "data" / "pdfs" / "4349.pdf"
EMBEDDINGS_PATH = PROJECT_ROOT / "data" / "embeddings"

print(f"üìÅ Proyecto: {PROJECT_ROOT}")
print(f"üìÑ PDF: {PDF_PATH}")
print(f"üíæ Embeddings: {EMBEDDINGS_PATH}")

In [None]:
import os
from dotenv import load_dotenv

# Cargar variables de entorno
load_dotenv(PROJECT_ROOT / ".env")

# Verificar que las API keys est√©n configuradas
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

if not OPENAI_API_KEY:
    raise ValueError(
        "‚ö†Ô∏è OPENAI_API_KEY no est√° configurada. "
        "Crea un archivo .env en la ra√≠z del proyecto con tu API key."
    )

print("‚úÖ Variables de entorno cargadas correctamente")

## 2. Carga del documento PDF

In [None]:
from langchain_community.document_loaders import PyPDFLoader

# Cargar el PDF
loader = PyPDFLoader(str(PDF_PATH))
documents = loader.load()

print(f"üìÑ Documento cargado: {PDF_PATH.name}")
print(f"üìë N√∫mero de p√°ginas: {len(documents)}")
print(f"\nüìù Preview de la primera p√°gina:")
print("-" * 50)
print(documents[0].page_content[:500] + "...")

## 3. Divisi√≥n en chunks

Dividimos el documento en chunks m√°s peque√±os para mejorar la precisi√≥n de las b√∫squedas.

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# Configurar el text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    separators=["\n\n", "\n", " ", ""]
)

# Dividir los documentos
chunks = text_splitter.split_documents(documents)

print(f"‚úÇÔ∏è Documento dividido en {len(chunks)} chunks")
print(f"\nüìù Ejemplo de chunk:")
print("-" * 50)
print(chunks[0].page_content)

## 4. Creaci√≥n de embeddings y base de datos vectorial

Usamos la clase `VectorStore` para crear la base de datos ChromaDB.

In [None]:
from langchain_openai import OpenAIEmbeddings
from src.utils.vector_store import VectorStore

# Inicializar el modelo de embeddings
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"  # Modelo m√°s econ√≥mico y eficiente
)

# Crear la base de datos vectorial
# Se guardar√° autom√°ticamente en data/embeddings/climate_docs/
vector_store = VectorStore(
    collection_name="climate_docs",
    embedding_function=embeddings,
)

print(f"üóÑÔ∏è VectorStore inicializado")
print(f"üìÇ Ubicaci√≥n: {vector_store.persist_directory}")

In [None]:
# Agregar los documentos a la base de datos vectorial
# Esto puede tomar unos minutos dependiendo del tama√±o del documento

print("‚è≥ Agregando documentos a la base de datos vectorial...")
ids = vector_store.add_documents(chunks)

print(f"‚úÖ Se agregaron {len(ids)} chunks a la base de datos")
print(f"üìä Total de documentos en la colecci√≥n: {vector_store.get_collection_count()}")

## 5. B√∫squeda sem√°ntica (Ejemplo de uso)

Ahora podemos hacer b√∫squedas sem√°nticas sobre el contenido del PDF.

In [None]:
# Ejemplo de b√∫squeda b√°sica
query = "¬øCu√°l es el tema principal del documento?"

results = vector_store.similarity_search(query, k=3)

print(f"üîç B√∫squeda: '{query}'")
print(f"\nüìã Se encontraron {len(results)} resultados relevantes:")
print("=" * 60)

for i, doc in enumerate(results, 1):
    print(f"\n--- Resultado {i} ---")
    print(f"üìÑ P√°gina: {doc.metadata.get('page', 'N/A')}")
    print(f"üìù Contenido:\n{doc.page_content[:400]}...")
    print()

In [None]:
# B√∫squeda con scores de similitud
query = "clima"

results_with_scores = vector_store.similarity_search_with_score(query, k=5)

print(f"üîç B√∫squeda: '{query}'")
print(f"\nüìä Resultados con scores de similitud:")
print("=" * 60)

for i, (doc, score) in enumerate(results_with_scores, 1):
    print(f"\n--- Resultado {i} (Score: {score:.4f}) ---")
    print(f"üìÑ P√°gina: {doc.metadata.get('page', 'N/A')}")
    print(f"üìù Contenido:\n{doc.page_content[:300]}...")

## 6. Ejemplo de RAG completo

Combinamos la b√∫squeda vectorial con un LLM para responder preguntas.

In [None]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# Configurar el LLM
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Crear el retriever
retriever = vector_store.as_retriever(search_kwargs={"k": 4})

# Template para RAG
template = """Responde la pregunta bas√°ndote √∫nicamente en el siguiente contexto:

{context}

Pregunta: {question}

Respuesta:"""

prompt = ChatPromptTemplate.from_template(template)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Crear la cadena RAG
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

print("‚úÖ Cadena RAG configurada correctamente")

In [None]:
# Hacer una pregunta usando RAG
question = "¬øCu√°l es el tema principal del documento?"

print(f"‚ùì Pregunta: {question}")
print("\n" + "=" * 60)
print("\nüí¨ Respuesta:")

response = rag_chain.invoke(question)
print(response)

In [None]:
# Celda interactiva para hacer m√°s preguntas
# Modifica la variable 'pregunta' y ejecuta esta celda

pregunta = "Escribe aqu√≠ tu pregunta sobre el documento"

print(f"‚ùì {pregunta}")
print("\n" + "-" * 60)
respuesta = rag_chain.invoke(pregunta)
print(f"\nüí¨ {respuesta}")

## 7. Cargar base de datos existente

Si ya tienes una base de datos creada, puedes cargarla sin volver a procesar el PDF.

In [None]:
# Ejemplo: Cargar una base de datos existente
# (No es necesario agregar documentos de nuevo)

from langchain_openai import OpenAIEmbeddings
from src.utils.vector_store import VectorStore

# Inicializar embeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Cargar la base de datos existente
existing_store = VectorStore(
    collection_name="climate_docs",
    embedding_function=embeddings,
)

# Verificar contenido
count = existing_store.get_collection_count()
print(f"üìä Documentos en la base de datos: {count}")

# Hacer b√∫squeda
if count > 0:
    results = existing_store.similarity_search("clima", k=2)
    print(f"\nüîç B√∫squeda de prueba exitosa: {len(results)} resultados")