### üß† S√≠ntesis de Respuestas desde M√∫ltiples Fuentes
‚úÖ ¬øQu√© es?

La s√≠ntesis de respuestas desde m√∫ltiples fuentes es el proceso donde un agente de IA recopila informaci√≥n de diferentes herramientas de recuperaci√≥n o bases de conocimiento, y fusiona esa informaci√≥n en una √∫nica respuesta coherente y contextualmente rica.

Esta es una capacidad fundamental en RAG Ag√©ntico, donde el sistema es m√°s que un simple recuperador ‚Äî planifica, recupera, y luego sintetiza una respuesta que se nutre de m√∫ltiples fuentes.


üéØ Por qu√© es necesario
La mayor√≠a de las consultas del mundo real son:
- Multifac√©ticas (requieren m√∫ltiples tipos de informaci√≥n)
- Ambiguas o incompletas (necesitan refinamiento)
- Abiertas (no se mapean a un solo documento o fuente)

üîç Esto hace que recuperar desde una sola base de datos vectorial sea insuficiente.

En su lugar, queremos un agente que pueda:

- Decidir qu√© obtener y de d√≥nde (planificaci√≥n de recuperaci√≥n)
- Recuperar contenido de m√∫ltiples herramientas (ej., Wikipedia, PDFs, APIs, SQL)
- Evaluar y fusionar ese contexto
- Producir una √∫nica respuesta similar a la humana

In [None]:
# Importaci√≥n del m√≥dulo os para interactuar con el sistema operativo (variables de entorno, rutas, etc.)
import os

# Importaci√≥n de List desde typing para definir tipos de datos (listas tipadas)
from typing import List

# Importaci√≥n de BaseModel desde pydantic para crear modelos de datos con validaci√≥n autom√°tica
from pydantic import BaseModel

# Importaci√≥n de init_chat_model para inicializar modelos de chat de diferentes proveedores
from langchain.chat_models import init_chat_model

# Importaci√≥n de OpenAIEmbeddings para generar embeddings (representaciones vectoriales) usando la API de OpenAI
from langchain_openai import OpenAIEmbeddings

# Importaci√≥n de Document, la clase base de LangChain para representar documentos con contenido y metadatos
from langchain.schema import Document

# Importaci√≥n de FAISS, una biblioteca de Facebook para b√∫squeda eficiente de similitud en vectores
from langchain.vectorstores import FAISS

# Importaci√≥n de TextLoader para cargar archivos de texto plano (.txt) como documentos
from langchain_community.document_loaders import TextLoader

# Importaci√≥n de YoutubeLoader para cargar transcripciones de videos de YouTube
from langchain_community.document_loaders.youtube import YoutubeLoader

# Importaci√≥n de ArxivLoader para buscar y cargar papers acad√©micos desde ArXiv
from langchain_community.document_loaders import ArxivLoader

# Importaci√≥n de RecursiveCharacterTextSplitter para dividir textos largos en chunks (fragmentos) de manera recursiva
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Importaci√≥n de WikipediaQueryRun para ejecutar b√∫squedas en Wikipedia
from langchain.tools import WikipediaQueryRun

# Importaci√≥n de WikipediaAPIWrapper, el wrapper que encapsula las llamadas a la API de Wikipedia
from langchain.utilities import WikipediaAPIWrapper

# Importaci√≥n de StateGraph para crear grafos de estado (flujos de trabajo con nodos y aristas)
# END es un marcador especial que indica el final del grafo
from langgraph.graph import StateGraph, END

In [None]:
# Importaci√≥n del m√≥dulo os para acceder a variables de entorno
import os

# Importaci√≥n de init_chat_model para inicializar modelos de chat de diferentes proveedores
from langchain.chat_models import init_chat_model

# Importaci√≥n de load_dotenv para cargar variables de entorno desde un archivo .env
from dotenv import load_dotenv

# Configuraci√≥n de la variable de entorno OPENAI_API_KEY con el valor obtenido del archivo .env
# Esto permite autenticarse con la API de OpenAI
os.environ["OPENAI_API_KEY"]=os.getenv("OPENAI_API_KEY")

# Inicializaci√≥n del modelo de lenguaje usando GPT-4o-mini de OpenAI
# Se usa la versi√≥n 'mini' que es m√°s econ√≥mica y r√°pida, ideal para s√≠ntesis de informaci√≥n
llm=init_chat_model("openai:gpt-4o-mini")

In [None]:
# Funci√≥n para cargar y crear un retriever desde un archivo de texto
def load_text_retriever(file_path):
    """
    Carga un archivo de texto, lo divide en chunks y crea un retriever vectorial.
    Esto permite buscar informaci√≥n relevante en documentos internos.
    """
    # Carga del archivo de texto usando TextLoader
    # encoding="utf-8" asegura la correcta lectura de caracteres especiales y acentos
    docs = TextLoader(file_path, encoding="utf-8").load()
    
    # Creaci√≥n de un splitter (divisor) para fragmentar los documentos largos
    # chunk_size=500: cada fragmento tendr√° aproximadamente 500 caracteres
    # chunk_overlap=50: habr√° una superposici√≥n de 50 caracteres entre fragmentos consecutivos
    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
    
    # Divisi√≥n de los documentos en chunks m√°s peque√±os
    chunks = splitter.split_documents(docs)
    
    # Creaci√≥n de un vector store usando FAISS con los chunks y embeddings de OpenAI
    vs = FAISS.from_documents(chunks, OpenAIEmbeddings())
    
    # Retorna el vector store convertido en retriever para b√∫squedas
    return vs.as_retriever()

# Funci√≥n para cargar un retriever simulado de transcripciones de YouTube
def load_youtube_retriever():
    """
    En este ejemplo, crea un retriever simulado con contenido de YouTube.
    En producci√≥n, esto usar√≠a YoutubeLoader con URLs reales de videos.
    """
    # Contenido simulado de una transcripci√≥n de YouTube sobre sistemas ag√©nticos de IA
    # Este texto representa lo que se obtendr√≠a de un video real
    content = """
    Este video explica c√≥mo los sistemas de IA ag√©nticos dependen de bucles de retroalimentaci√≥n, memoria y uso de herramientas.
    Los compara con LLMs tradicionales basados en pipelines. Se enfatizan el razonamiento temporal y las tareas aut√≥nomas.
    """
    # Creaci√≥n de un objeto Document con el contenido simulado y metadatos de origen
    doc = Document(page_content=content, metadata={"source": "youtube"})
    
    # Creaci√≥n de un vector store con el documento simulado
    vectorstore = FAISS.from_documents([doc], OpenAIEmbeddings())
    
    # Retorna el vector store convertido en retriever
    return vectorstore.as_retriever()



# Funci√≥n para buscar informaci√≥n en Wikipedia
def wikipedia_search(query: str) -> str:
    """
    Realiza una b√∫squeda en Wikipedia y retorna el contenido relevante.
    √ötil para obtener informaci√≥n general y contextual sobre temas amplios.
    """
    # Imprime un mensaje indicando que se est√° buscando en Wikipedia
    print("üåê Buscando en Wikipedia...")
    
    # Ejecuta la b√∫squeda usando WikipediaQueryRun con el wrapper de la API
    # WikipediaAPIWrapper() maneja las llamadas HTTP a la API de Wikipedia
    # (query) invoca la b√∫squeda con la consulta proporcionada
    return WikipediaQueryRun(api_wrapper=WikipediaAPIWrapper())(query)

# Funci√≥n para buscar papers acad√©micos en ArXiv
def arxiv_search(query: str) -> str:
    """
    Busca y carga papers acad√©micos desde ArXiv relacionados con la consulta.
    Ideal para obtener informaci√≥n cient√≠fica actualizada y de investigaci√≥n.
    """
    # Imprime un mensaje indicando que se est√° buscando en ArXiv
    print("üìÑ Buscando en ArXiv...")
    
    # Usa ArxivLoader para buscar papers relacionados con la consulta
    # .load() descarga y procesa los papers encontrados
    results = ArxivLoader(query).load()
    
    # Concatena el contenido de los primeros 2 papers ([:2]) separados por doble salto de l√≠nea
    # Si no hay resultados, retorna un mensaje indicando que no se encontraron papers
    # 'or' act√∫a como operador de respaldo: si el string est√° vac√≠o, retorna el mensaje
    return "\n\n".join(doc.page_content for doc in results[:2]) or "No se encontraron papers relevantes."

In [None]:
# Creaci√≥n de los retrievers que se usar√°n para b√∫squeda de informaci√≥n

# text_retriever: retriever para documentos internos de texto
# Carga y procesa el archivo "internal_docs.txt" para b√∫squedas vectoriales
text_retriever = load_text_retriever("internal_docs.txt")

# youtube_retriever: retriever para contenido de YouTube (en este caso, simulado)
# En producci√≥n, esto cargar√≠a transcripciones reales de videos de YouTube
youtube_retriever = load_youtube_retriever()

In [None]:
### Estado del grafo para RAG multi-fuente

# Clase que define el estado del flujo de trabajo para s√≠ntesis de m√∫ltiples fuentes
# Hereda de BaseModel (Pydantic) para validaci√≥n autom√°tica de tipos y datos
class MultiSourceRAGState(BaseModel):
    # question: la pregunta original del usuario (tipo string, campo obligatorio)
    question: str
    
    # text_docs: lista de documentos recuperados de archivos de texto internos
    # Por defecto es una lista vac√≠a []
    # Contiene fragmentos relevantes de los documentos internos
    text_docs: List[Document] = []
    
    # yt_docs: lista de documentos recuperados de transcripciones de YouTube
    # Por defecto es una lista vac√≠a []
    # Contiene informaci√≥n de videos relacionados con la consulta
    yt_docs: List[Document] = []
    
    # wiki_context: contexto/informaci√≥n recuperada de Wikipedia
    # Por defecto es una cadena vac√≠a ""
    # Contiene el texto completo retornado por la b√∫squeda en Wikipedia
    wiki_context: str = ""
    
    # arxiv_context: contexto/informaci√≥n recuperada de papers acad√©micos en ArXiv
    # Por defecto es una cadena vac√≠a ""
    # Contiene fragmentos de papers cient√≠ficos relevantes
    arxiv_context: str = ""
    
    # final_answer: la respuesta final sintetizada que combina informaci√≥n de todas las fuentes
    # Por defecto es una cadena vac√≠a ""
    # Esta es la respuesta coherente y completa que se presenta al usuario
    final_answer: str = ""

In [None]:
### Nodos de Recuperaci√≥n - cada uno obtiene informaci√≥n de una fuente diferente

# Nodo 1: Recuperar documentos de texto internos
def retrieve_text(state: MultiSourceRAGState) -> MultiSourceRAGState:
    """
    Recupera documentos relevantes de archivos de texto internos.
    Primera fuente de informaci√≥n: documentaci√≥n interna de la empresa.
    """
    # Invoca el retriever de texto con la pregunta del usuario
    # Busca fragmentos similares sem√°nticamente en los documentos internos
    docs = text_retriever.invoke(state.question)
    
    # Retorna una copia actualizada del estado con los documentos de texto
    return state.model_copy(update={"text_docs": docs})

# Nodo 2: Recuperar contenido de YouTube
def retrieve_yt(state: MultiSourceRAGState) -> MultiSourceRAGState:
    """
    Recupera informaci√≥n de transcripciones de videos de YouTube.
    Segunda fuente: contenido multimedia/educativo de YouTube.
    """
    # Invoca el retriever de YouTube con la pregunta del usuario
    # Busca contenido relevante en las transcripciones de video
    docs = youtube_retriever.invoke(state.question)
    
    # Retorna una copia actualizada del estado con los documentos de YouTube
    return state.model_copy(update={"yt_docs": docs})

# Nodo 3: Recuperar informaci√≥n de Wikipedia
def retrieve_wikipedia(state: MultiSourceRAGState) -> MultiSourceRAGState:
    """
    Busca y recupera informaci√≥n general de Wikipedia.
    Tercera fuente: conocimiento enciclop√©dico p√∫blico.
    """
    # Llama a la funci√≥n de b√∫squeda de Wikipedia con la pregunta del usuario
    # Obtiene art√≠culos y contenido relevante de la enciclopedia
    result = wikipedia_search(state.question)
    
    # Retorna una copia actualizada del estado con el contexto de Wikipedia
    return state.model_copy(update={"wiki_context": result})

# Nodo 4: Recuperar papers de ArXiv
def retrieve_arxiv(state: MultiSourceRAGState) -> MultiSourceRAGState:
    """
    Busca y recupera papers acad√©micos de ArXiv.
    Cuarta fuente: investigaci√≥n cient√≠fica y acad√©mica actualizada.
    """
    # Llama a la funci√≥n de b√∫squeda de ArXiv con la pregunta del usuario
    # Obtiene papers relevantes de investigaci√≥n cient√≠fica
    result = arxiv_search(state.question)
    
    # Retorna una copia actualizada del estado con el contexto de ArXiv
    return state.model_copy(update={"arxiv_context": result})

In [None]:
## Nodo de S√≠ntesis - combina toda la informaci√≥n en una respuesta coherente

def synthesize_answer(state: MultiSourceRAGState) -> MultiSourceRAGState:
    """
    Funci√≥n central que sintetiza informaci√≥n de todas las fuentes en una respuesta unificada.
    Combina: documentos internos + YouTube + Wikipedia + ArXiv.
    """
    
    # Inicializaci√≥n de una cadena vac√≠a que contendr√° todo el contexto combinado
    context = ""

    # Agregado de contexto de documentos internos
    # Se a√±ade un encabezado "[Documentos Internos]" para identificar la fuente
    # Se concatena el contenido de cada documento separado por saltos de l√≠nea
    context += "\n\n[Documentos Internos]\n" + "\n".join([doc.page_content for doc in state.text_docs])
    
    # Agregado de contexto de transcripciones de YouTube
    # Se a√±ade un encabezado "[Transcripci√≥n de YouTube]" para identificar la fuente
    context += "\n\n[Transcripci√≥n de YouTube]\n" + "\n".join([doc.page_content for doc in state.yt_docs])
    
    # Agregado de contexto de Wikipedia
    # Se a√±ade un encabezado "[Wikipedia]" seguido del contenido recuperado
    context += "\n\n[Wikipedia]\n" + state.wiki_context
    
    # Agregado de contexto de ArXiv
    # Se a√±ade un encabezado "[ArXiv]" seguido de los papers acad√©micos
    context += "\n\n[ArXiv]\n" + state.arxiv_context

    # Construcci√≥n del prompt para el LLM
    # Se le pide expl√≠citamente que sintetice la informaci√≥n de m√∫ltiples fuentes
    # El prompt incluye la pregunta y todo el contexto organizado por fuentes
    prompt = f"""Has recuperado contexto relevante de m√∫ltiples fuentes. Ahora sintetiza una respuesta completa y coherente.

Pregunta: {state.question}

Contexto:
{context}

Respuesta Final:"""

    # Invocaci√≥n del LLM con el prompt completo
    # El LLM analiza toda la informaci√≥n de las cuatro fuentes y genera una respuesta sintetizada
    # .content.strip() extrae el texto de la respuesta y elimina espacios en blanco
    answer = llm.invoke(prompt).content.strip()
    
    # Retorna el estado actualizado con la respuesta final sintetizada
    return state.model_copy(update={"final_answer": answer})

In [None]:
# Creaci√≥n del constructor del grafo de estado usando la clase MultiSourceRAGState
# Este grafo implementa un flujo secuencial de recuperaci√≥n desde m√∫ltiples fuentes
builder = StateGraph(MultiSourceRAGState)

# Agregado de nodos al grafo - cada uno representa una fuente de informaci√≥n

# Nodo para recuperar documentos de texto internos
builder.add_node("retrieve_text", retrieve_text)

# Nodo para recuperar transcripciones de YouTube
builder.add_node("retrieve_yt", retrieve_yt)

# Nodo para buscar informaci√≥n en Wikipedia
builder.add_node("retrieve_wiki", retrieve_wikipedia)

# Nodo para buscar papers acad√©micos en ArXiv
builder.add_node("retrieve_arxiv", retrieve_arxiv)

# Nodo para sintetizar toda la informaci√≥n en una respuesta coherente
builder.add_node("synthesize", synthesize_answer)

# Establecer el punto de entrada del grafo (primer nodo a ejecutar)
# El flujo comienza recuperando documentos de texto internos
builder.set_entry_point("retrieve_text")

# Definici√≥n de aristas (edges) - flujo secuencial de recuperaci√≥n

# Paso 1: Despu√©s de recuperar texto, ir a YouTube
builder.add_edge("retrieve_text", "retrieve_yt")

# Paso 2: Despu√©s de YouTube, ir a Wikipedia
builder.add_edge("retrieve_yt", "retrieve_wiki")

# Paso 3: Despu√©s de Wikipedia, ir a ArXiv
builder.add_edge("retrieve_wiki", "retrieve_arxiv")

# Paso 4: Despu√©s de ArXiv (todas las fuentes recuperadas), sintetizar la respuesta
builder.add_edge("retrieve_arxiv", "synthesize")

# Paso 5: Despu√©s de sintetizar, terminar el flujo
builder.add_edge("synthesize", END)

# Compilaci√≥n del grafo para hacerlo ejecutable
# .compile() valida la estructura y optimiza el grafo final
graph = builder.compile()

# Mostrar el grafo compilado (en Jupyter esto puede renderizar una visualizaci√≥n)
graph

In [None]:
# Definici√≥n de la pregunta del usuario
# Esta es una pregunta compleja que requiere informaci√≥n de m√∫ltiples fuentes:
# - Documentos internos sobre implementaciones espec√≠ficas
# - YouTube para explicaciones conceptuales
# - Wikipedia para definiciones generales
# - ArXiv para investigaci√≥n reciente
question = "¬øQu√© son los agentes transformers y c√≥mo est√°n evolucionando en la investigaci√≥n reciente?"

# Creaci√≥n del estado inicial con solo la pregunta del usuario
# Los dem√°s campos (text_docs, yt_docs, wiki_context, arxiv_context, final_answer) usar√°n sus valores por defecto
state = MultiSourceRAGState(question=question)

# Invocaci√≥n del grafo con el estado inicial
# .invoke() ejecuta todo el flujo secuencial:
# 1. Recupera de documentos internos
# 2. Recupera de YouTube
# 3. Recupera de Wikipedia
# 4. Recupera de ArXiv
# 5. Sintetiza toda la informaci√≥n en una respuesta coherente
result = graph.invoke(state)

# Impresi√≥n de la respuesta final sintetizada
# Esta respuesta combina informaci√≥n de las cuatro fuentes diferentes
# proporcionando una visi√≥n completa y multidimensional del tema
print("‚úÖ Respuesta Final:\n")
print(result["final_answer"])


In [None]:
# Mostrar el estado final completo para inspecci√≥n y depuraci√≥n
# Esto incluye todos los campos:
# - question: la pregunta original
# - text_docs: documentos recuperados de archivos internos
# - yt_docs: documentos recuperados de YouTube
# - wiki_context: contexto de Wikipedia
# - arxiv_context: contexto de ArXiv
# - final_answer: respuesta sintetizada final
# √ötil para ver exactamente qu√© informaci√≥n se recuper√≥ de cada fuente
result