
# RAG sobre PDFs locales (sin scraping)

Este notebook **lee PDFs de una carpeta** (recursivo), los **trocea**, crea **embeddings**, los guarda en **Chroma**, y permite preguntar con una funci√≥n `ask()`.

> Requisitos recomendados (mismo entorno):  
> `langchain>=0.2.5`, `langchain-community>=0.2.0`, `langchain-text-splitters>=0.2.0`, `langchain-openai>=0.1.0`  
> `chromadb>=0.5.0`, `tiktoken>=0.7.0`, `pypdf>=4`, `python-dotenv>=1.0.1`


In [1]:

# (Opcional) Instala dependencias
%pip install -U -q langchain langchain-community langchain-openai langchain-text-splitters chromadb tiktoken pypdf python-dotenv pyarrow fastparquet


Note: you may need to restart the kernel to use updated packages.


In [2]:

import os
from pathlib import Path
from typing import List

from dotenv import load_dotenv
load_dotenv()  # Carga variables de entorno (OPENAI_API_KEY, etc.)

# LangChain loaders, splitters, vectorstore, LLM/embeddings
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma

# Embeddings y modelo de chat (por defecto OpenAI)
from langchain_openai import OpenAIEmbeddings, ChatOpenAI

# Utilidad
from tqdm import tqdm

print("‚úÖ Entorno listo")


‚úÖ Entorno listo


In [3]:

# üõ†Ô∏è Configuraci√≥n
PDF_DIR = Path("./docs")             # <- Cambia a tu carpeta con PDFs
PERSIST_DIR = Path("./chroma_pdfs")  # Carpeta donde se guardar√° Chroma
PERSIST_DIR.mkdir(parents=True, exist_ok=True)

CHUNK_SIZE = 800
CHUNK_OVERLAP = 120
TOP_K = 4

# Modelos (ajusta si quieres otros)
EMBEDDING_MODEL = "text-embedding-3-large"
CHAT_MODEL = "gpt-4.1-mini"

# Verificar clave
assert os.getenv("OPENAI_API_KEY"), "Falta OPENAI_API_KEY en variables de entorno o .env"
print(f"üìÅ Carpeta PDFs: {PDF_DIR.resolve()}")
print(f"üóÇÔ∏è Persistencia Chroma: {PERSIST_DIR.resolve()}")


üìÅ Carpeta PDFs: C:\Trainings\GenIA_trainings\agentic_rag_openai\docs
üóÇÔ∏è Persistencia Chroma: C:\Trainings\GenIA_trainings\agentic_rag_openai\chroma_pdfs


In [4]:

def load_pdfs_from_dir(directory: Path, recursive: bool = True):
    pattern = "**/*.pdf" if recursive else "*.pdf"
    pdf_paths = sorted([p for p in directory.glob(pattern) if p.is_file()])
    all_docs = []
    for pdf in tqdm(pdf_paths, desc="Cargando PDFs"):
        try:
            docs = PyPDFLoader(str(pdf)).load()
            # A√±adimos metadatos m√≠nimos √∫tiles
            for d in docs:
                d.metadata = d.metadata or {}
                d.metadata["source"] = str(pdf.resolve())
            all_docs.extend(docs)
        except Exception as e:
            print(f"‚ö†Ô∏è Error leyendo {pdf}: {e}")
    print(f"üìö Documentos (p√°ginas) cargados: {len(all_docs)}")
    return all_docs

raw_docs = load_pdfs_from_dir(PDF_DIR, recursive=True)


Cargando PDFs: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:07<00:00,  7.14s/it]

üìö Documentos (p√°ginas) cargados: 98





In [5]:

splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    separators=["\n\n", "\n", " ", ""],
)
chunks = splitter.split_documents(raw_docs)
print(f" Chunks generados: {len(chunks)}")
chunks[:2]  # vista r√°pida


 Chunks generados: 217


[Document(metadata={'producer': 'PyPDF', 'creator': 'Google', 'creationdate': '', 'title': 'Generative AI Deployment and Monitoring.pptx', 'source': 'C:\\Trainings\\GenIA_trainings\\agentic_rag_openai\\docs\\generative-ai-deployment-and-monitoring.pdf', 'total_pages': 98, 'page': 0, 'page_label': '1'}, page_content='Lava 600 - Primary\n#FF3621\nRGB (255 ,54, 33)\nC0, M91, Y93, K0\nNavy 800 - Primary\n#1B3139\nRGB (27, 49, 57)\nC86, M65, Y57, K56\nMaroon 600\n#98102A\nRGB (152, 16, 42)\nC26, M100, Y84, K24\nYellow 600\n#FFAB00\nRGB (255, 171, 0)\nC0, M38, Y100, K0\nGreen 600\n#00A972\nRGB (0, 169, 114)\nC81, M6, Y74, K0\nBlue 600\n#2272B4\nRGB (34, 114,1 80)\nC86, M52, Y4, K0\nGray - Navigation\n#303F47\nRGB (48, 63, 71)\nC79, M62, Y54, K44\nGray ‚Äì Text\n#5A6F77\nRGB (90, 111, 119)\nC68, M47, Y44, K14\nGray ‚Äì Lines\n#DCE0E2\nRGB (220, 224, 226)\nC12, M7, Y8, K0\nPrimary palette\nSecondary palette\nOat Medium\n#EEEDE9\nRGB (238, 237, 233)\nC6, M4, Y6, K0\nOat Light\n#F9F7F4\nRGB (249

In [6]:

embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory=str(PERSIST_DIR),
)
retriever =vectorstore.as_retriever()
print(" Chroma persistido")


 Chroma persistido


In [7]:
from langchain_core.tools.retriever import create_retriever_tool
retriever_tool = create_retriever_tool(
    retriever,
    "retrieve_blog_posts",#nombre
    "Busca y devuelve info acerca de tus documentos pdf.",#Descripcion
)


3 Test the tool

In [8]:
retriever_tool.invoke({"query": "¬øQue es el deployment batch?"})

'Lava 500\n#FF5F46\nRGB (255, 95, 70)\nC0, M78, Y79, K0\nNavy 900\n#0B2026\nRGB (11, 32, 38)\nC86, M67, Y61,  K71\n¬© Databricks 2025. All rights reserved. Apache, Apache Spark, Spark, the Spark Logo, Apache Iceberg, Iceberg, and the Apache \nIceberg logo are trademarks of the Apache Software Foundation.\nLearning Objectives\n‚óè Describe batch deployment and identify scenarios in which this method \nis appropriate.\n‚óè Identify the advantages and disadvantages of deploying a model via \nbatch processing.\n‚óè Discuss a typical batch model deployment workÔ¨Çow on Databricks.\n‚óè Load a logged LM from the model registry and use it for batch inference.\n\nLava 500\n#FF5F46\nRGB (255, 95, 70)\nC0, M78, Y79, K0\nNavy 900\n#0B2026\nRGB (11, 32, 38)\nC86, M67, Y61,  K71\n¬© Databricks 2025. All rights reserved. Apache, Apache Spark, Spark, the Spark Logo, Apache Iceberg, Iceberg, and the Apache \nIceberg logo are trademarks of the Apache Software Foundation.\nLearning Objectives\n‚óè Descr

3. Generamos la query

In [9]:
from langgraph.graph import MessagesState
from langchain.chat_models import init_chat_model
from langchain_openai import ChatOpenAI

response_model=  ChatOpenAI(model="gpt-4o", temperature=0)

def genera_query_o_responde(state: MessagesState):
    """Llama al modelo para generar una respuesta basada en el estado actual.
      Dada la pregunta, decidir√° si recupera informaci√≥n usando la herramienta de recuperaci√≥n o simplemente responde al usuario."""
    print(state)
    response = (
        response_model
        .bind_tools([retriever_tool]).invoke(state["messages"])
    )
    return {"messages": [response]}

3.1 Lo probamos con una pregunta aleatoria

In [10]:
input = {"messages": [{"role": "user", "content": "¬øCuanto vale una cortina?"}]}
respuesta= genera_query_o_responde(input)
print (respuesta)

{'messages': [{'role': 'user', 'content': '¬øCuanto vale una cortina?'}]}
{'messages': [AIMessage(content='El precio de una cortina puede variar ampliamente dependiendo de varios factores, como el material, el tama√±o, el dise√±o, la marca y el lugar donde la compres. Aqu√≠ tienes algunos rangos generales de precios:\n\n1. **Cortinas de tela b√°sica**: Pueden costar entre 10 y 50 d√≥lares por panel, dependiendo del tama√±o y la calidad de la tela.\n\n2. **Cortinas de lujo o de dise√±ador**: Estas pueden costar desde 100 d√≥lares hasta varios cientos de d√≥lares por panel.\n\n3. **Cortinas opacas o blackout**: Suelen ser m√°s caras que las cortinas est√°ndar, con precios que oscilan entre 20 y 100 d√≥lares por panel.\n\n4. **Cortinas personalizadas**: Si decides hacer cortinas a medida, el costo puede ser significativamente mayor, dependiendo de las especificaciones.\n\n5. **Cortinas de bamb√∫ o madera**: Estas pueden variar entre 30 y 200 d√≥lares, dependiendo del tama√±o y la calidad.

In [11]:
#cogemos el ultimo mensaje
respuesta["messages"][-1]

AIMessage(content='El precio de una cortina puede variar ampliamente dependiendo de varios factores, como el material, el tama√±o, el dise√±o, la marca y el lugar donde la compres. Aqu√≠ tienes algunos rangos generales de precios:\n\n1. **Cortinas de tela b√°sica**: Pueden costar entre 10 y 50 d√≥lares por panel, dependiendo del tama√±o y la calidad de la tela.\n\n2. **Cortinas de lujo o de dise√±ador**: Estas pueden costar desde 100 d√≥lares hasta varios cientos de d√≥lares por panel.\n\n3. **Cortinas opacas o blackout**: Suelen ser m√°s caras que las cortinas est√°ndar, con precios que oscilan entre 20 y 100 d√≥lares por panel.\n\n4. **Cortinas personalizadas**: Si decides hacer cortinas a medida, el costo puede ser significativamente mayor, dependiendo de las especificaciones.\n\n5. **Cortinas de bamb√∫ o madera**: Estas pueden variar entre 30 y 200 d√≥lares, dependiendo del tama√±o y la calidad.\n\nEs importante considerar tambi√©n los costos adicionales, como las barras de cortina

In [12]:
respuesta["messages"][-1].pretty_print()


El precio de una cortina puede variar ampliamente dependiendo de varios factores, como el material, el tama√±o, el dise√±o, la marca y el lugar donde la compres. Aqu√≠ tienes algunos rangos generales de precios:

1. **Cortinas de tela b√°sica**: Pueden costar entre 10 y 50 d√≥lares por panel, dependiendo del tama√±o y la calidad de la tela.

2. **Cortinas de lujo o de dise√±ador**: Estas pueden costar desde 100 d√≥lares hasta varios cientos de d√≥lares por panel.

3. **Cortinas opacas o blackout**: Suelen ser m√°s caras que las cortinas est√°ndar, con precios que oscilan entre 20 y 100 d√≥lares por panel.

4. **Cortinas personalizadas**: Si decides hacer cortinas a medida, el costo puede ser significativamente mayor, dependiendo de las especificaciones.

5. **Cortinas de bamb√∫ o madera**: Estas pueden variar entre 30 y 200 d√≥lares, dependiendo del tama√±o y la calidad.

Es importante considerar tambi√©n los costos adicionales, como las barras de cortina y los accesorios de montaje. 

3.2  Hacer una pregunta que requiera una busqueda semantica

In [18]:
input = {
    "messages": [
        {
            "role": "user",
            # "content": "Busca en la informacion proporcionada y no inventes¬øQue es un deployment tipo batch?",
            "content": "¬øQue es un deployment tipo batch?, a√±ade la informacion que necesites",
        }
    ]
}
genera_query_o_responde(input)["messages"][-1].pretty_print()

{'messages': [{'role': 'user', 'content': '¬øQue es un deployment tipo batch?, a√±ade la informacion que necesites'}]}
Tool Calls:
  retrieve_blog_posts (call_NvqzdV1Ybi14WtwgGMTrQeNJ)
 Call ID: call_NvqzdV1Ybi14WtwgGMTrQeNJ
  Args:
    query: deployment tipo batch


4. Vemos la relevancia del documento

In [14]:
from pydantic import BaseModel, Field
from typing import Literal

GRADE_PROMPT = (
    "Eres un evaluador que determina la relevancia de un documento recuperado respecto a una pregunta del usuario. \n "
    "Aqu√≠ tienes el documento recuperado: \n\n {context} \n\n"
    "Aqu√≠ tienes la pregunta del usuario: {question} \n"
    "Si el documento contiene palabra(s) clave o significado sem√°ntico relacionado con la pregunta del usuario, calif√≠calo como relevante. \n"
    "Da una puntuaci√≥n binaria 'si' o 'no' para indicar si el documento es relevante para la pregunta."

)


class GradeDocuments(BaseModel):
    """Califica los documentos utilizando una puntuaci√≥n binaria para comprobar su relevancia"""

    binary_score: str = Field(
        description="Puntuaci√≥n : 'si' si es relevante, o 'no' si no lo es"
    )


grader_model = init_chat_model("openai:gpt-4.1", temperature=0)


def grade_documents(
    state: MessagesState,
) -> Literal["genera_respuesta", "rescribir_question"]:
    """Determina si los documentos recuperados son relevantes para la pregunta."""
    question = state["messages"][0].content
    context = state["messages"][-1].content
    print ("question:",question)
    print("context: ", context)
    prompt = GRADE_PROMPT.format(question=question, context=context)
    response = (
        grader_model
        .with_structured_output(GradeDocuments).invoke(
            [{"role": "user", "content": prompt}]
        )
    )
    score = response.binary_score
    print ("score :", score)
    if score == "si":
        return "genera_respuesta"
    else:
        return "rescribir_question"

4.1 Ejecutar con una respuesta irrelevante

In [15]:
#simulamos la respuesta de la tool mediante mensajes
from langchain_core.messages import convert_to_messages

input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "¬øQue tiempo hace en Alcante?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "¬øQue es un deployment batch?"},
                    }
                ],
            },
            {"role": "tool", "content": "Son las 10 de la ma√±ana", "tool_call_id": "1"},
        ]
    )
}

print ("input:" , input)
grade_documents(input)

input: {'messages': [HumanMessage(content='¬øQue tiempo hace en Alcante?', additional_kwargs={}, response_metadata={}), AIMessage(content='', additional_kwargs={}, response_metadata={}, tool_calls=[{'name': 'retrieve_blog_posts', 'args': {'query': '¬øQue es un deployment batch?'}, 'id': '1', 'type': 'tool_call'}]), ToolMessage(content='Son las 10 de la ma√±ana', tool_call_id='1')]}
question: ¬øQue tiempo hace en Alcante?
context:  Son las 10 de la ma√±ana
score : no


'rescribir_question'

4.2 Coomprobar que el documento/respuesta relevante lo clasifica como tal

In [28]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                # "content": "¬øC√≥mo Samsung a adelanto Google?", comprobar que la rescribe
                "content": "¬øC√≥mo Samsung a adelanto Google?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "¬øQue es batch en eldocumento?"},
                    }
                ],
            },
            {
                "role": "tool",
                "content": "El contexto proporcionado hace referencia a 'batch deployment' (despliegue por lotes) en el documento, pero no ofrece una definici√≥n expl√≠cita de qu√© es 'batch'. Sin embargo, se menciona que uno de los objetivos de aprendizaje es describir el despliegue en batch y sus escenarios de uso, as√≠ como identificar las ventajas y desventajas de desplegar un modelo mediante procesamiento por lotes, y discutir un flujo de trabajo t√≠pico para este tipo de despliegue en Databricks.",
                "tool_call_id": "1",
            },
        ]
    )
}
grade_documents(input)

question: ¬øC√≥mo Samsung a adelanto Google?
context:  El contexto proporcionado hace referencia a 'batch deployment' (despliegue por lotes) en el documento, pero no ofrece una definici√≥n expl√≠cita de qu√© es 'batch'. Sin embargo, se menciona que uno de los objetivos de aprendizaje es describir el despliegue en batch y sus escenarios de uso, as√≠ como identificar las ventajas y desventajas de desplegar un modelo mediante procesamiento por lotes, y discutir un flujo de trabajo t√≠pico para este tipo de despliegue en Databricks.
score : no


'rescribir_question'