Set Up for the Agentic Rag

In [1]:
pip install -U --quiet langgraph "langchain[openai]" langchain-community langchain-text-splitters

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
# Importamos librer√≠as necesarias
import os
from dotenv import load_dotenv

# Cargamos variables de entorno
dotenv_path = load_dotenv()

# Leemos las claves
token_openai = os.getenv("OPENAI_API_KEY")
token_tavily = os.getenv("TAVILY_API_KEY")

# Verificar que las claves existen
if not token_openai:
    raise ValueError("‚ùå Falta la clave OPENAI_API_KEY en el archivo .env")
if not token_tavily:
    raise ValueError("‚ùå Falta la clave TAVILY_API_KEY en el archivo .env")

print("‚úÖ Claves cargadas correctamente")

‚úÖ Claves cargadas correctamente


## 1 Preprocess the Documents

### 1. Scrap Xakata Web Site

In [3]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
from langchain_core.documents import Document
from time import sleep

from typing import List, Set

import requests
from bs4 import BeautifulSoup

# --------------------------------------
# 1. Leer el sitemap_index.xml
# --------------------------------------

def get_category_sitemaps(index_url="https://www.xataka.com/sitemap_index.xml"):
    headers = {"User-Agent": "XaviBot/1.0"}
    response = requests.get(index_url, headers=headers)
    soup = BeautifulSoup(response.content, "xml")

    sitemaps = [loc.get_text() for loc in soup.find_all("loc")]
    return sitemaps

category_sitemaps = get_category_sitemaps()
print(f"Se han encontrado {len(category_sitemaps)} sitemaps.")
print("Ejemplo:", category_sitemaps[:3])

# --------------------------------------
# 2. Filtrar solo las categor√≠as importantes
# --------------------------------------

important_categories = [
    "moviles", "portatiles", "ordenadores", "componentes",
    "perifericos", "televisores", "software", "internet",
    "inteligencia-artificial", "videojuegos", "gadgets"
]

filtered_sitemaps = [
    url for url in category_sitemaps
    if any(f"/{cat}/" in url for cat in important_categories)
]

print(f"\nSe han filtrado {len(filtered_sitemaps)} sitemaps relevantes.")
print("Ejemplo:", filtered_sitemaps[:3])

# --------------------------------------
# 3. Extraer URLs de art√≠culos desde los sitemaps
# --------------------------------------

def get_articles_from_category_sitemap(sitemap_url, max_articles=10):
    headers = {"User-Agent": "XaviBot/1.0"}
    response = requests.get(sitemap_url, headers=headers)
    soup = BeautifulSoup(response.content, "xml")

    urls = [loc.get_text() for loc in soup.find_all("loc")]
    return urls[:max_articles]

all_articles = []
seen_urls = set()

for sitemap_url in filtered_sitemaps:
    print(f"Procesando {sitemap_url}")
    articles = get_articles_from_category_sitemap(sitemap_url, max_articles=10)

    for url in articles:
        if url not in seen_urls:
            category = url.split("/")[3] if len(url.split("/")) > 3 else "desconocida"
            all_articles.append({
                "url": url,
                "category": category
            })
            seen_urls.add(url)
    sleep(0.5)  # ser amable con el servidor

print(f"\nTotal art√≠culos √∫nicos extra√≠dos: {len(all_articles)}")
for a in all_articles[:3]:
    print(a)

# --------------------------------------
# 4. Scraping del contenido: title + text
# --------------------------------------

def scrape_article(url, category):
    headers = {"User-Agent": "XaviBot/1.0"}
    try:
        
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8' # <-- aqu√≠ el fix

        if response.status_code != 200:
            return None

        soup = BeautifulSoup(response.text, "html.parser")

        title_tag = soup.find("h1")
        paragraphs = soup.find_all("p")

        if not title_tag or not paragraphs:
            return None

        title = title_tag.get_text(strip=True)
        content = "\n\n".join([p.get_text(strip=True) for p in paragraphs])

        return {
            "url": url,
            "title": title,
            "content": content,
            "category": category
        }
    except Exception as e:
        print(f"‚ùå Error en {url}: {e}")
        return None

# Ejecutar scraping de todos los art√≠culos
scraped_articles = []

for article in all_articles:
    result = scrape_article(article["url"], article["category"])
    if result:
        scraped_articles.append(result)

print(f"\nTotal art√≠culos correctamente scrapeados: {len(scraped_articles)}")
for a in scraped_articles[:10]:
    print(f"- {a['title']} ({a['category']})")




Se han encontrado 336 sitemaps.
Ejemplo: ['https://www.xataka.com/categoria/default/sitemap.xml', 'https://www.xataka.com/categoria/otros/sitemap.xml', 'https://www.xataka.com/categoria/moviles/sitemap.xml']

Se han filtrado 7 sitemaps relevantes.
Ejemplo: ['https://www.xataka.com/categoria/moviles/sitemap.xml', 'https://www.xataka.com/categoria/ordenadores/sitemap.xml', 'https://www.xataka.com/categoria/videojuegos/sitemap.xml']
Procesando https://www.xataka.com/categoria/moviles/sitemap.xml
Procesando https://www.xataka.com/categoria/ordenadores/sitemap.xml
Procesando https://www.xataka.com/categoria/videojuegos/sitemap.xml
Procesando https://www.xataka.com/categoria/perifericos/sitemap.xml
Procesando https://www.xataka.com/categoria/televisores/sitemap.xml
Procesando https://www.xataka.com/categoria/componentes/sitemap.xml
Procesando https://www.xataka.com/categoria/inteligencia-artificial/sitemap.xml

Total art√≠culos √∫nicos extra√≠dos: 64
{'url': 'https://www.xataka.com/moviles/e

### 2. Convertimos los documentos extraidos al formato Document que espera el Splitter

In [4]:
from langchain_core.documents import Document

documents = [
    Document(
        page_content=article["content"],
        metadata={
            "title": article["title"],
            "url": article["url"],
            "category": article["category"]
        }
    )
    for article in scraped_articles
]

In [5]:
documents[0]

Document(metadata={'title': 'El ecosistema es lo que me mantiene en Apple. OPPO se ha propuesto reventarlo', 'url': 'https://www.xataka.com/moviles/ecosistema-que-me-mantiene-apple-oppo-se-ha-propuesto-reventarlo', 'category': 'moviles'}, page_content='Alejandro Alcolea\n\nAlejandro Alcolea\n\nSi la monta√±a no va a Mahoma, Mahoma va a la monta√±a. Uno de los motivos por lo quesoy usuario de Apple es por su ecosistema. Aunque tengo un Android de segundo m√≥vil, hay dos elementos que me siguen atando a la manzana: el Apple Watch (que me parece insustituible) yAirDrop. El giro es que Android est√° poniendo eso patas arriba, y OPPO con O+Connect me ha dado un guantazo de realidad.Si Apple es celosa con algo es con su ecosistema. Sus dispositivos funcionan genial entre ellos, pero con Android/Windows recortan caracter√≠sticas o no funcionan en absoluto. Estos √∫ltimos meses, las marcas chinas se han propuesto reventar esa barrera,siendo Xiaomi y OPPO los cabecillasal crear dispositivos And

#### 2.1 Chunking

In [6]:
from langchain_text_splitters import RecursiveCharacterTextSplitter 
from typing import List

def split_documents(
    docs: List[Document],
    chunk_size: int = 500,
    chunk_overlap: int = 100
) -> List[Document]:
    """
    Divide documentos largos en fragmentos m√°s peque√±os usando RecursiveCharacterTextSplitter.

    Args:
        docs: Lista de Documentos de LangChain.
        chunk_size: Tama√±o m√°ximo de cada fragmento.
        chunk_overlap: N√∫mero de caracteres que se solapan entre fragmentos.

    Returns:
        Lista de documentos divididos.
    """
    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    chunked = text_splitter.split_documents(docs)
    print(f"üìÑ Documentos originales: {len(docs)} ‚Üí üß© Chunks generados: {len(chunked)}")
    return chunked


In [7]:
doc_splits = split_documents(documents, chunk_size=500, chunk_overlap=200)

print(f"Se han generado {len(doc_splits)} fragmentos.")

üìÑ Documentos originales: 32 ‚Üí üß© Chunks generados: 281
Se han generado 281 fragmentos.


In [8]:
doc_splits[0].page_content.strip()

'Alejandro Alcolea\n\nAlejandro Alcolea\n\nSi la monta√±a no va a Mahoma, Mahoma va a la monta√±a. Uno de los motivos por lo quesoy usuario de Apple es por su ecosistema. Aunque tengo un Android de segundo m√≥vil, hay dos elementos que me siguen atando a la manzana: el Apple Watch (que me parece insustituible) yAirDrop. El giro es que Android est√° poniendo eso patas arriba, y OPPO con O+Connect me ha dado un guantazo de realidad.Si Apple es celosa con algo es con su ecosistema. Sus dispositivos funcionan genial entre ellos, pero con Android/Windows recortan caracter√≠sticas o no funcionan en absoluto. Estos √∫ltimos meses, las marcas chinas se han propuesto reventar esa barrera,siendo Xiaomi y OPPO los cabecillasal crear dispositivos Android con soporte ‚Äúnativo‚Äù de dispositivos Apple.\n\nSi la monta√±a no va a Mahoma, Mahoma va a la monta√±a. Uno de los motivos por lo quesoy usuario de Apple es por su ecosistema. Aunque tengo un Android de segundo m√≥vil, hay dos elementos que me 

In [9]:
doc_splits[1].page_content.strip()

'Si la monta√±a no va a Mahoma, Mahoma va a la monta√±a. Uno de los motivos por lo quesoy usuario de Apple es por su ecosistema. Aunque tengo un Android de segundo m√≥vil, hay dos elementos que me siguen atando a la manzana: el Apple Watch (que me parece insustituible) yAirDrop. El giro es que Android est√° poniendo eso patas arriba, y OPPO con O+Connect me ha dado un guantazo de realidad.\n\nSi Apple es celosa con algo es con su ecosistema. Sus dispositivos funcionan genial entre ellos, pero con Android/Windows recortan caracter√≠sticas o no funcionan en absoluto. Estos √∫ltimos meses, las marcas chinas se han propuesto reventar esa barrera,siendo Xiaomi y OPPO los cabecillasal crear dispositivos Android con soporte ‚Äúnativo‚Äù de dispositivos Apple.\n\nDesde OPPO ya han mostrado losAirPods funcionando a la perfecci√≥nen un m√≥vil Android y tienen planes de que pase lo mismo con el Apple Watch, y Xiaomi conHyperOS 3 permite usar el iPad y el Mac como ventanas flotantes. La teor√≠a es

In [10]:
doc_splits[2].page_content.strip()

'Desde OPPO ya han mostrado losAirPods funcionando a la perfecci√≥nen un m√≥vil Android y tienen planes de que pase lo mismo con el Apple Watch, y Xiaomi conHyperOS 3 permite usar el iPad y el Mac como ventanas flotantes. La teor√≠a esta bien, pero ahora he comprobado de primera mano que funciona a la perfecci√≥n.Y O+Connect es un misil al AirDrop de Apple‚Ä¶ que funciona incluso mejor que AirDrop.OPPO reventando AirDrop\n\nDesde OPPO ya han mostrado losAirPods funcionando a la perfecci√≥nen un m√≥vil Android y tienen planes de que pase lo mismo con el Apple Watch, y Xiaomi conHyperOS 3 permite usar el iPad y el Mac como ventanas flotantes. La teor√≠a esta bien, pero ahora he comprobado de primera mano que funciona a la perfecci√≥n.\n\nY O+Connect es un misil al AirDrop de Apple‚Ä¶ que funciona incluso mejor que AirDrop.'

## 2. Creamos el retriever tool en memoria.

### 1. Use an in-memory vector store and OpenAI embeddings

In [11]:
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_openai import OpenAIEmbeddings
#Lo dejo para demostrar que los embeddings tienen una cierta cantidad de tokens con lo cual es mejor partir
# vectorstore = InMemoryVectorStore.from_documents(
#     documents=doc_splits, embedding=OpenAIEmbeddings()
# )
# retriever = vectorstore.as_retriever()
vectorstore = InMemoryVectorStore(embedding=OpenAIEmbeddings())

In [12]:
# 2. Procesa por batches (lotes). Tenemos que procesar por lotes por que no admite mas de 300000  tokens
batch_size = 500

for i in range(0, len(doc_splits), batch_size):
    batch = doc_splits[i:i + batch_size]
    # Procesa cada batch aqu√≠. Ejemplo: a√±ade al VectorStore
    vectorstore.add_documents(batch)
    print(f"Procesando batch {i//batch_size + 1} con {len(batch)} chunks...")

    # Aqu√≠ va tu c√≥digo de procesamiento, por ejemplo:
    # vectorstore.add_documents(batch)

Procesando batch 1 con 281 chunks...


In [13]:
retriever = vectorstore.as_retriever()

### 2. Creamos una retriever **tool** usando LangChain's prebuilt create_retriever_tool:

In [16]:

from langchain_core.tools.retriever import create_retriever_tool

retriever_tool = create_retriever_tool(
    retriever,
    "retrieve_blog_posts",#nombre
    "Busca y devuelve info acerca de articulos de Xakata.",#Descripcion
)

In [17]:
# retriever_tool.invoke({"query": "¬øComo se actualiza un Google Pixel?"})

# retriever_tool.invoke({"query": "Galaxy Z Flip7 "})
# 
retriever_tool.invoke({"query": "¬øComo Samsung a adelanto Google?"})

'Como en las gafas de Apple, Android XR y las c√°maras de seguimiento ocular en el interior de las Galaxy XR permiten que nuestros ojos nos permitan movernos por la interfaz y seleccionar objetos y opciones para luego hacer gestos con los dedos que permiten "hacer clics", hacer scroll en sitios web, bajar y subir el volumen o redimensionar ventanas, por ejemplo.\n\nEl aspecto de esa interfaz es el de Android XR, pero con un dise√±o e interacci√≥n que una vez m√°sson b√°sicamente los mismos que Apple plante√≥ con visionOS. Samsung promete entornos inmersivos, fotos espaciales ‚Äîhay adem√°s opci√≥n para convertir fotos 2D en fotos espaciales‚Äî\xa0y la capacidad de conectarnos a un PC o port√°til para usar las gafas como monitor externo en el que abrir varias ventanas.\n\nSin embargo, una ventaja potencial de estas gafas que en Android XRcontamos con la potencia de Gemini. Los directivos de Samsung y Google incidieron en una conversaci√≥n con medios en que este dispositivo ten√≠a "IA en

### 3. Test the tool

## 3. Generamos la Query.
Ahora comenzaremos a construir los componentes (nodos y aristas) para nuestro grafo agentic RAG. Ten en cuenta que los componentes operar√°n sobre el MessagesState ‚Äî el estado del grafo que contiene una clave messages con una lista de mensajes de chat.

### 1.Construir un **nodo genera_query_o_responde**. Este llamar√° a un LLM para generar una respuesta basada en el estado actual del grafo (lista de mensajes). Dado el conjunto de mensajes de entrada, decidir√° si recuperar informaci√≥n usando la herramienta de recuperaci√≥n (retriever tool), o responder directamente al usuario. Ten en cuenta que le estamos dando acceso al modelo conversacional a la herramienta de recuperaci√≥n que creamos antes, a trav√©s de .bind_tools:

In [None]:
from langgraph.graph import MessagesState
from langchain.chat_models import init_chat_model
from langchain_openai import ChatOpenAI

response_model=  ChatOpenAI(model="gpt-4o", temperature=0)

def genera_query_o_responde(state: MessagesState):
    """Llama al modelo para generar una respuesta basada en el estado actual.
      Dada la pregunta, decidir√° si recupera informaci√≥n usando la herramienta de recuperaci√≥n o simplemente responde al usuario."""
    response = (
        response_model
        .bind_tools([retriever_tool]).invoke(state["messages"])
    )
    return {"messages": [response]}

### 2. Lo probamos con una pregunta aleatoria que no tenga que ver con la info obtenida

In [None]:
input = {"messages": [{"role": "user", "content": "¬øCuanto vale una cortina?"}]}
respuesta= genera_query_o_responde(input)
print (respuesta)

In [None]:
#cogemos el ultimo mensaje
respuesta["messages"][-1]

In [None]:
#Formateamos el mensaje
respuesta["messages"][-1].pretty_print()

### 3. Hacer una pregunta que requiera b√∫squeda sem√°ntica

In [None]:
input = {
    "messages": [
        {
            "role": "user",
            "content": "¬øC√≥mo adelant√≥ Samsumng a Google",
        }
    ]
}
genera_query_o_responde(input)["messages"][-1].pretty_print()

## 4. Vemos la relevanciade los documentos

###  1.  A√±ade una arista condicional ‚Äîgrade_documents‚Äî para determinar si los documentos recuperados son relevantes para la pregunta. <span style="color:red">Utilizaremos un modelo con un esquema de salida estructurado llamado GradeDocuments</span> para la calificaci√≥n de documentos. La funci√≥n grade_documents devolver√° el nombre del nodo al que se debe ir seg√∫n la decisi√≥n de calificaci√≥n (genera respuesta o reescribe_pregunta):

Conceptos a recordar: 
* <span style="color:red">arista condicional</span>

In [None]:
from pydantic import BaseModel, Field
from typing import Literal

GRADE_PROMPT = (
    "Eres un evaluador que determina la relevancia de un documento recuperado respecto a una pregunta del usuario. \n "
    "Aqu√≠ tienes el documento recuperado: \n\n {context} \n\n"
    "Aqu√≠ tienes la pregunta del usuario: {question} \n"
    "Si el documento contiene palabra(s) clave o significado sem√°ntico relacionado con la pregunta del usuario, calif√≠calo como relevante. \n"
    "Da una puntuaci√≥n binaria 'si' o 'no' para indicar si el documento es relevante para la pregunta."

)


class GradeDocuments(BaseModel):
    """Califica los documentos utilizando una puntuaci√≥n binaria para comprobar su relevancia"""

    binary_score: str = Field(
        description="Puntuaci√≥n : 'si' si es relevante, o 'no' si no lo es"
    )


grader_model = init_chat_model("openai:gpt-4.1", temperature=0)


def grade_documents(
    state: MessagesState,
) -> Literal["genera_respuesta", "rescribir_question"]:
    """Determina si los documentos recuperados son relevantes para la pregunta."""
    question = state["messages"][0].content
    context = state["messages"][-1].content
    print ("question:",question)
    print("context: ", context)
    prompt = GRADE_PROMPT.format(question=question, context=context)
    response = (
        grader_model
        .with_structured_output(GradeDocuments).invoke(
            [{"role": "user", "content": prompt}]
        )
    )
    score = response.binary_score
    print ("score :", score)
    if score == "si":
        return "genera_respuesta"
    else:
        return "rescribir_question"

### 2. Ejecutar con una respuesta irrelevante en la respuesta de la tool :

In [None]:
#simulamos la respuesta de la tool mediante mensajes
from langchain_core.messages import convert_to_messages

input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "¬øQue tiempo hace en Alcante?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "Tiempo en Alicante"},
                    }
                ],
            },
            {"role": "tool", "content": "Son las 10 de la ma√±ana", "tool_call_id": "1"},
        ]
    )
}

print ("input:" , input)
grade_documents(input)

### 3. Confirmar que el documento/respuesta relavante se  clasifica como tal:

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "¬øC√≥mo Samsung a adelanto Google?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "¬øC√≥mo Samsung a adelanto Google?"},
                    }
                ],
            },
            {
                "role": "tool",
                "content": "Samsung fue la primera en lograr algo ins√≥lito: adelantar a Google en pol√≠tica de actualizaciones. El fabricante ofrecesiete a√±os de actualizaciones de sistemay otros siete a√±os de parches de seguridad.",
                "tool_call_id": "1",
            },
        ]
    )
}
grade_documents(input)

## 5 Rescribir la pregunta.

### 1. Construye el nodo de reescritura de pregunta (rescribir_question).
La herramienta de recuperaci√≥n puede devolver documentos potencialmente irrelevantes, lo que indica la necesidad de mejorar la pregunta original del usuario. Para ello, llamaremos al nodo rewrite_question.

In [None]:
REWRITE_PROMPT = (
    "Analiza detenidamente la siguiente pregunta e intenta comprender la intenci√≥n o el significado profundo que transmite.\n"
    "Pregunta original:"
    "\n ------- \n"
    "{question}"
    "\n ------- \n"
    "Ahora, reescribe la pregunta para que sea m√°s clara, precisa y f√°cil de entender:"
)


def rescribir_question(state: MessagesState):
    """Rescribe/Mejora la pregunta original del usuario."""
    messages = state["messages"]
    question = messages[0].content
    prompt = REWRITE_PROMPT.format(question=question)
    print ("xavi Prompt",prompt)
    response = response_model.invoke([{"role": "user", "content": prompt}])
    return {"messages": [{"role": "user", "content": response.content}]}

#### 2. Try it out:

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "¬øC√≥mo Samsung a adelanto Google?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "¬øC√≥mo Samsung a adelanto Google?"},
                    }
                ],
            },
            {"role": "tool", "content": "Son las 10 de la ma√±ana", "tool_call_id": "1"},
        ]
    )
}

response = rescribir_question(input)
print(response["messages"][-1]["content"])

## 6. Generamos la Respuesta.

### 1. Construimos el nodo generate_answer.
Si superamos las comprobaciones del evaluador (grader), podemos generar la respuesta final bas√°ndonos en la pregunta original y el contexto recuperado

In [None]:
GENERATE_PROMPT = (
    "Eres un asistente para tareas de preguntas y respuestas. "
    "Utiliza los siguientes fragmentos de contexto recuperado para responder a la pregunta. "
    "Si no sabes la respuesta, simplemente indica que no la sabes. "
    "Utiliza un m√°ximo de tres frases y mant√©n la respuesta concisa.\n"
    "Pregunta: {question} \n"
    "Contexto: {context}"
)



def genera_respuesta(state: MessagesState):
    """Genera la respuesta."""
    question = state["messages"][0].content
    context = state["messages"][-1].content
    prompt = GENERATE_PROMPT.format(question=question, context=context)
    response = response_model.invoke([{"role": "user", "content": prompt}])
    return {"messages": [response]}

### 2. Try it out.

In [None]:
input = {
    "messages": convert_to_messages(
        [
            {
                "role": "user",
                "content": "¬øC√≥mo ha logrado Samsung superar a Google?",
            },
            {
                "role": "assistant",
                "content": "",
                "tool_calls": [
                    {
                        "id": "1",
                        "name": "retrieve_blog_posts",
                        "args": {"query": "¬øC√≥mo ha logrado Samsung superar a Google?"},
                    }
                ],
            },
            {
                "role": "tool",
                "content": "Samsung fue la primera en lograr algo ins√≥lito: adelantar a Google en pol√≠tica de actualizaciones. El fabricante ofrecesiete a√±os de actualizaciones de sistemay otros siete a√±os de parches de seguridad.",
                "tool_call_id": "1",
            },
        ]
    )
}

response = genera_respuesta(input)
response["messages"][-1].pretty_print()

## 7. Configurar el grafo

### 7.1 Importamos los elementos necesarios para construir el grafo

In [None]:
from langgraph.graph import StateGraph, START, END
from langgraph.prebuilt import ToolNode
from langgraph.prebuilt import tools_condition

### 7.2 Ensamblamos el workflow

#### 7.2.1 A√±adimos los nodos

In [None]:
workflow = StateGraph(MessagesState)
workflow.add_node(genera_query_o_responde)
workflow.add_node("retrieve", ToolNode([retriever_tool]))
workflow.add_node(rescribir_question)
workflow.add_node(genera_respuesta)

#### 7.2.2 A√±adimos las aristas

In [None]:
workflow.add_edge(START, "genera_query_o_responde")
workflow.add_conditional_edges(
    "genera_query_o_responde",
    # Eval√∫a la decisi√≥n del LLM (llama a la herramienta retriever_tool o responde al usuario)
    tools_condition,
    {
        # Translate the condition outputs to nodes in our graph
        "tools": "retrieve",
        END: END,
    },
)

#
workflow.add_conditional_edges(
    "retrieve",
    # Assess agent decision
    grade_documents,
)

workflow.add_edge("genera_respuesta", END)

workflow.add_edge("rescribir_question", "genera_query_o_responde")

#### 7.2.3 Compilamos el grafo

In [None]:
graph = workflow.compile()

#### 7.2.4 Pintamos el Grafo

In [None]:
from IPython.display import Image, display

display(Image(graph.get_graph().draw_mermaid_png()))


### NOtas

In [None]:
from pprint import pprint  # para imprimir bonito

# for chunk in graph.stream(
#     {
#         "messages": [
#             {
#                 "role": "user",
#                 "content": "¬øC√≥mo ha logrado Samsung superar a Google?",
#             }
#         ]
#     }
# ):
#     for node, update in chunk.items():
#         print(f"üîÅ Update from node: {node}")
#         print(update["messages"][-1])
#         print("üìù Mensaje generado:")
#         print(messages[-1])
#         print("\n\n")

import pdb
for chunk in graph.stream(
    {
        "messages": [
            {
                "role": "user",
                "content": "¬øC√≥mo ha logrado Samsung superar a Google?",
            }
        ]
    }
):
    for node, update in chunk.items():
        print(f"üìò Update from node: {node}")
        print("-" * 40)

        messages = update.get("messages", [])
      
        last_msg = messages[-1]

        try:
            if isinstance(last_msg, dict):
                if "content" in last_msg:
                    print("üìù Contenido textual:")
                    print(last_msg["content"])
                elif "tool_calls" in last_msg:
                    print("üîß Llamada a funci√≥n:")
                    pprint(last_msg["tool_calls"])
                else:
                    print("üïµÔ∏è Mensaje dict sin content/tool_calls:")
                    pprint(last_msg)
            elif hasattr(last_msg, "content"):
                print("üìù Contenido desde objeto:")
                print(last_msg.content)
            else:
                print("üïµÔ∏è Mensaje desconocido:")
                pprint(last_msg)

        except Exception as e:
            print("‚ùå Error leyendo el mensaje:", str(e))
            pprint(last_msg)

        print("-" * 40 + "\n")



In [None]:
input = {
    "messages": [
        {
            "role": "user",
            "content": "¬øC√≥mo ha logrado Samsung adelantar a Google?",
        }
    ]
}

In [None]:
graph.invoke(input)

Notas para la reu: Definici√≥n r√°pida:
Un agente en LangChain es una entidad capaz de razonar paso a paso, decidir qu√© herramientas o funciones usar, ejecutar acciones (como buscar informaci√≥n, hacer c√°lculos, llamar APIs, etc.), y combinar resultados para dar una respuesta final.

¬øEn qu√© se diferencia de una simple cadena ("chain")?
Chain: Es una secuencia fija de pasos (ej: extrae datos ‚Üí llama a un LLM ‚Üí genera texto).

Agente: Toma decisiones sobre qu√© hacer en cada paso, seg√∫n el contexto y los resultados anteriores. Puede elegir diferentes herramientas, iterar, preguntar, buscar, etc. No sigue una ruta fija.

¬øC√≥mo funciona un agente en LangChain?
Recibe una pregunta o tarea.

El LLM interpreta la tarea y decide cu√°l (o cu√°les) herramientas necesita para resolverla (por ejemplo: buscar en Google, consultar una base de datos, hacer c√°lculos, etc.).

Ejecuta acciones: llama a la(s) herramienta(s), analiza los resultados, decide si necesita m√°s pasos.

Itera hasta tener suficiente informaci√≥n.

Redacta la respuesta final al usuario.

https://langchain-ai.github.io/langgraph/tutorials/rag/langgraph_agentic_rag/

