#  **RAG with ChromaDB**

> **Project:** GuajiraClimateAgents  
> **Author:** Eder Arley Le√≥n G√≥mez  
> **GitHub:** https://github.com/ealeongomez  
> **License:** MIT


In [None]:
import sys, os
from pathlib import Path
from dotenv import load_dotenv

from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


In [None]:
PROJECT_ROOT = Path().resolve().parent
sys.path.insert(0, str(PROJECT_ROOT))

# Paths importantes
PDF_PATH = PROJECT_ROOT / "data" / "pdfs" / "4349.pdf"
EMBEDDINGS_PATH = PROJECT_ROOT / "data" / "embeddings"

load_dotenv(PROJECT_ROOT / ".env")

# Verificar que las API keys est√©n configuradas
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")


In [None]:
from src.utils.vector_store import VectorStore

In [None]:
# Cargar el PDF
loader = PyPDFLoader(str(PDF_PATH))
documents = loader.load()


In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    separators=["\n\n", "\n", " ", ""]
)

# Dividir los documentos
chunks = text_splitter.split_documents(documents)

In [None]:
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-small"  # Modelo m√°s econ√≥mico y eficiente
)

vector_store = VectorStore(collection_name="Atlas_eolico_Colombia", embedding_function=embeddings)

In [None]:
ids = vector_store.add_documents(chunks)

In [None]:
# Ejemplo de b√∫squeda b√°sica
query = "¬øCu√°l es el tema principal del documento?"

results = vector_store.similarity_search(query, k=3)

for i, doc in enumerate(results, 1):
    print(f"\n--- Resultado {i} ---")
    print(f"üìÑ P√°gina: {doc.metadata.get('page', 'N/A')}")
    print(f"üìù Contenido:\n{doc.page_content[:400]}...")
    print()

In [None]:
# B√∫squeda con scores de similitud
query = "clima"

results_with_scores = vector_store.similarity_search_with_score(query, k=5)

for i, (doc, score) in enumerate(results_with_scores, 1):
    print(f"\n--- Resultado {i} (Score: {score:.4f}) ---")
    print(f"üìÑ P√°gina: {doc.metadata.get('page', 'N/A')}")
    print(f"üìù Contenido:\n{doc.page_content[:300]}...")

## 6. Ejemplo de RAG completo

Combinamos la b√∫squeda vectorial con un LLM para responder preguntas.

In [None]:
# Configurar el LLM
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Crear el retriever
retriever = vector_store.as_retriever(search_kwargs={"k": 4})

# Template para RAG
template = """Responde la pregunta bas√°ndote √∫nicamente en el siguiente contexto:

{context}

Pregunta: {question}

Respuesta:"""

prompt = ChatPromptTemplate.from_template(template)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Crear la cadena RAG
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

print("‚úÖ Cadena RAG configurada correctamente")

In [None]:
# Hacer una pregunta usando RAG
question = "¬øCu√°l es el tema principal del documento?"

print(f"‚ùì Pregunta: {question}")
print("\n" + "=" * 60)
print("\nüí¨ Respuesta:")

response = rag_chain.invoke(question)
print(response)

In [None]:
# Celda interactiva para hacer m√°s preguntas
# Modifica la variable 'pregunta' y ejecuta esta celda

pregunta = "Escribe aqu√≠ tu pregunta sobre el documento"

print(f"‚ùì {pregunta}")
print("\n" + "-" * 60)
respuesta = rag_chain.invoke(pregunta)
print(f"\nüí¨ {respuesta}")