### üîÅ ¬øQu√© es la Recuperaci√≥n Iterativa en RAG Ag√©ntico?
Combina tanto Recuperaci√≥n Iterativa como Auto-reflexi√≥n

‚úÖ Definici√≥n:
La Recuperaci√≥n Iterativa es una estrategia din√°mica donde un agente de IA no se conforma con el primer lote de documentos recuperados. En su lugar, eval√∫a la adecuaci√≥n del contexto inicial, y si es necesario:

- Refina la consulta,
- Recupera de nuevo,
- Repite el proceso hasta que tenga suficiente confianza para responder la pregunta original.

üß† ¬øPor qu√© usarlo?
En RAG est√°ndar:

- Se realiza un solo paso de recuperaci√≥n, y el LLM lo usa para responder.
- Si los documentos estaban incompletos o eran irrelevantes, la respuesta puede fallar.

En RAG Iterativo:

- El agente reflexiona sobre el contenido recuperado y la respuesta que produjo.
- Si no est√° seguro, puede refinar su b√∫squeda (como lo har√≠a un investigador humano).

In [None]:
# Importaci√≥n del m√≥dulo os para interactuar con el sistema operativo (variables de entorno, rutas, etc.)
import os

# Importaci√≥n de List desde typing para definir tipos de datos (listas tipadas)
from typing import List

# Importaci√≥n de BaseModel desde pydantic para crear modelos de datos con validaci√≥n autom√°tica
from pydantic import BaseModel

# Importaci√≥n de init_chat_model para inicializar modelos de chat de diferentes proveedores
from langchain.chat_models import init_chat_model

# Importaci√≥n de OpenAIEmbeddings para generar embeddings (representaciones vectoriales) usando la API de OpenAI
from langchain_openai import OpenAIEmbeddings

# Importaci√≥n de Document, la clase base de LangChain para representar documentos con contenido y metadatos
from langchain.schema import Document

# Importaci√≥n de FAISS, una biblioteca de Facebook para b√∫squeda eficiente de similitud en vectores
from langchain.vectorstores import FAISS

# Importaci√≥n de TextLoader para cargar archivos de texto plano (.txt) como documentos
from langchain_community.document_loaders import TextLoader

# Importaci√≥n de RecursiveCharacterTextSplitter para dividir textos largos en chunks (fragmentos) de manera recursiva
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Importaci√≥n de StateGraph para crear grafos de estado (flujos de trabajo con nodos y aristas)
# END es un marcador especial que indica el final del grafo
from langgraph.graph import StateGraph, END

In [None]:
# Importaci√≥n del m√≥dulo os para acceder a variables de entorno
import os

# Importaci√≥n de init_chat_model para inicializar modelos de chat de diferentes proveedores
from langchain.chat_models import init_chat_model

# Importaci√≥n de load_dotenv para cargar variables de entorno desde un archivo .env
from dotenv import load_dotenv

# Configuraci√≥n de la variable de entorno OPENAI_API_KEY con el valor obtenido del archivo .env
# Esto permite autenticarse con la API de OpenAI
os.environ["OPENAI_API_KEY"]=os.getenv("OPENAI_API_KEY")

# Inicializaci√≥n del modelo de lenguaje usando GPT-4o (optimizado) de OpenAI
# Este ser√° el LLM principal para generar respuestas, reflexionar y refinar consultas
llm=init_chat_model("openai:gpt-4o")

In [None]:
### Cargar e Incrustar Documentos

# Carga del archivo de texto "internal_docs.txt" usando TextLoader
# encoding="utf-8" asegura la correcta lectura de caracteres especiales y acentos
# .load() devuelve una lista de objetos Document con el contenido del archivo
docs = TextLoader("internal_docs.txt", encoding="utf-8").load()

# Divisi√≥n de los documentos en chunks (fragmentos) m√°s peque√±os usando RecursiveCharacterTextSplitter
# chunk_size=500: cada fragmento tendr√° aproximadamente 500 caracteres
# chunk_overlap=50: habr√° una superposici√≥n de 50 caracteres entre fragmentos consecutivos (para mantener contexto)
chunks = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50).split_documents(docs)

# Creaci√≥n de un vector store (base de datos vectorial) usando FAISS
# .from_documents() toma los chunks y genera embeddings usando OpenAIEmbeddings()
# FAISS indexa estos vectores para b√∫squedas r√°pidas de similitud sem√°ntica
vectorstore = FAISS.from_documents(chunks, OpenAIEmbeddings())

# Conversi√≥n del vector store en un retriever (recuperador)
# El retriever es la interfaz est√°ndar para realizar b√∫squedas de documentos relevantes basadas en una consulta
retriever = vectorstore.as_retriever()

In [None]:
### Definir el Estado del Agente

# Clase que define el estado del flujo de trabajo RAG con recuperaci√≥n iterativa
# Hereda de BaseModel (Pydantic) para validaci√≥n autom√°tica de tipos y datos
class IterativeRAGState(BaseModel):
    # question: la pregunta original del usuario (tipo string, campo obligatorio)
    question: str
    
    # refined_question: versi√≥n refinada de la pregunta para mejorar la recuperaci√≥n
    # Por defecto es una cadena vac√≠a ""
    # Se genera cuando la respuesta inicial es insuficiente
    refined_question: str = ""
    
    # retrieved_docs: lista de documentos recuperados del vector store
    # Por defecto es una lista vac√≠a []
    # Se actualiza en cada iteraci√≥n de recuperaci√≥n
    retrieved_docs: List[Document] = []
    
    # answer: la respuesta generada por el LLM bas√°ndose en los documentos recuperados
    # Por defecto es una cadena vac√≠a ""
    answer: str = ""
    
    # verified: indica si la respuesta ha sido verificada como completa y suficiente
    # Por defecto es False (no verificada)
    # Cambia a True cuando el LLM determina que la respuesta es satisfactoria
    verified: bool = False
    
    # attempts: contador de intentos de recuperaci√≥n y generaci√≥n de respuesta
    # Por defecto es 0, se incrementa en cada iteraci√≥n
    # Se usa para limitar el n√∫mero m√°ximo de iteraciones
    attempts: int = 0


In [None]:
### Nodo de Recuperaci√≥n

# Funci√≥n que recupera documentos relevantes del vector store
# Es inteligente: usa la pregunta refinada si existe, sino usa la pregunta original
def retrieve_docs(state: IterativeRAGState) -> IterativeRAGState:
    """
    Recupera documentos usando la pregunta refinada (si existe) o la pregunta original.
    Esto permite que iteraciones posteriores usen consultas mejoradas.
    """
    
    # Determina qu√© pregunta usar para la recuperaci√≥n:
    # - Si refined_question tiene contenido (no vac√≠o), usa esa versi√≥n mejorada
    # - Si refined_question est√° vac√≠o, usa la pregunta original (question)
    # El operador 'or' retorna el primer valor verdadero (no vac√≠o)
    query = state.refined_question or state.question
    
    # Invoca al retriever con la consulta seleccionada
    # Devuelve una lista de documentos similares sem√°nticamente a la consulta
    docs = retriever.invoke(query)
    
    # Retorna una copia actualizada del estado con los documentos recuperados
    # .model_copy(update={...}) crea una nueva instancia del estado con campos actualizados
    return state.model_copy(update={"retrieved_docs": docs})


In [None]:
### Generar Respuesta

# Funci√≥n que genera una respuesta usando el LLM bas√°ndose en los documentos recuperados
def generate_answer(state: IterativeRAGState) -> IterativeRAGState:
    """
    Genera una respuesta usando el contexto de los documentos recuperados.
    Incrementa el contador de intentos para rastrear el n√∫mero de iteraciones.
    """
    
    # Concatena el contenido de todos los documentos recuperados
    # Se unen con dos saltos de l√≠nea (\n\n) para separar claramente cada fragmento
    # Esto crea un contexto unificado y legible para el LLM
    context = "\n\n".join(doc.page_content for doc in state.retrieved_docs)
    
    # Construcci√≥n del prompt para el LLM
    # Incluye instrucciones claras, el contexto recuperado y la pregunta original
    prompt = f"""Usa el siguiente contexto para responder la pregunta:

Contexto:
{context}

Pregunta:
{state.question}
"""
    # Invocaci√≥n del LLM con el prompt
    # .strip() elimina espacios en blanco al inicio y final del prompt
    # .content.strip() extrae el contenido de la respuesta y elimina espacios en blanco
    response = llm.invoke(prompt.strip()).content.strip()
    
    # Retorna el estado actualizado con:
    # - answer: la respuesta generada por el LLM
    # - attempts: el contador de intentos incrementado en 1
    return state.model_copy(update={"answer": response, "attempts": state.attempts + 1})

In [None]:
## Reflexionar sobre la respuesta

# Funci√≥n que eval√∫a si la respuesta generada es completa y suficiente
def reflect_on_answer(state: IterativeRAGState) -> IterativeRAGState:
    """
    Usa el LLM como juez para evaluar la calidad de la respuesta generada.
    Determina si la respuesta es factualmente suficiente y completa.
    """
    
    # Construcci√≥n del prompt de evaluaci√≥n
    # Le pide al LLM que act√∫e como cr√≠tico de su propia respuesta
    prompt = f"""
Eval√∫a si la respuesta a continuaci√≥n es factualmente suficiente y completa.

Pregunta: {state.question}
Respuesta: {state.answer}

Responde 'S√ç' si est√° completa, de lo contrario 'NO' con retroalimentaci√≥n.
"""
    # Invocaci√≥n del LLM con el prompt de evaluaci√≥n
    # .content obtiene el texto de la respuesta
    # .lower() convierte todo a min√∫sculas para facilitar la comparaci√≥n
    feedback = llm.invoke(prompt).content.lower()
    
    # Verifica si la palabra "yes" (o "s√≠" en min√∫sculas) est√° presente en la retroalimentaci√≥n
    # verified ser√° True si el LLM aprob√≥ la respuesta, False si necesita m√°s trabajo
    verified = "yes" in feedback
    
    # Retorna el estado actualizado con el campo verified
    # Este campo determina si el proceso debe continuar o terminar
    return state.model_copy(update={"verified": verified})


In [None]:
## Refinar la consulta

# Funci√≥n que refina la consulta original para mejorar la recuperaci√≥n en la siguiente iteraci√≥n
def refine_query(state: IterativeRAGState) -> IterativeRAGState:
    """
    Cuando la respuesta es insuficiente, esta funci√≥n genera una versi√≥n mejorada
    de la consulta que deber√≠a recuperar informaci√≥n m√°s relevante.
    """
    
    # Construcci√≥n del prompt de refinamiento
    # Le pide al LLM que sugiera una mejor versi√≥n de la consulta
    # bas√°ndose en lo que falta en la respuesta actual
    prompt = f"""
La respuesta parece incompleta. Sugiere una mejor versi√≥n de la consulta que ayudar√≠a a recuperar un contexto m√°s relevante.

Pregunta Original: {state.question}
Respuesta Actual: {state.answer}
"""
    # Invocaci√≥n del LLM para generar la consulta refinada
    # .content.strip() extrae el texto y elimina espacios en blanco
    new_query = llm.invoke(prompt).content.strip()
    
    # Retorna el estado actualizado con la nueva consulta refinada
    # Esta consulta se usar√° en la pr√≥xima iteraci√≥n de recuperaci√≥n
    return state.model_copy(update={"refined_question": new_query})


In [None]:
# Creaci√≥n del constructor del grafo de estado usando la clase IterativeRAGState
# Este grafo implementa un ciclo de retroalimentaci√≥n para recuperaci√≥n iterativa
builder = StateGraph(IterativeRAGState)

# Agregado de nodos al grafo
# Cada nodo es una funci√≥n que procesa y transforma el estado

# Nodo "retrieve": recupera documentos del vector store usando la consulta actual o refinada
builder.add_node("retrieve", retrieve_docs)

# Nodo "answer": genera una respuesta bas√°ndose en los documentos recuperados
builder.add_node("answer", generate_answer)

# Nodo "reflect": eval√∫a si la respuesta generada es suficiente y completa
builder.add_node("reflect", reflect_on_answer)

# Nodo "refine": genera una versi√≥n mejorada de la consulta si la respuesta fue insuficiente
builder.add_node("refine", refine_query)

# Establecer el punto de entrada del grafo (primer nodo a ejecutar)
# El flujo comienza con la recuperaci√≥n de documentos
builder.set_entry_point("retrieve")

# Definici√≥n de aristas (edges) - conexiones entre nodos

# Despu√©s de "retrieve", siempre ir a "answer"
# Una vez recuperados los documentos, se genera una respuesta
builder.add_edge("retrieve", "answer")

# Despu√©s de "answer", siempre ir a "reflect"
# Una vez generada la respuesta, se eval√∫a su calidad
builder.add_edge("answer", "reflect")

# Arista condicional despu√©s de "reflect" - el coraz√≥n del patr√≥n iterativo
# La funci√≥n lambda decide el siguiente paso bas√°ndose en el estado:
# - Si verified=True (respuesta aprobada) O attempts>=2 (m√°ximo de intentos) ‚Üí ir a END (terminar)
# - Si verified=False (respuesta insuficiente) Y attempts<2 ‚Üí ir a "refine" (mejorar y reintentar)
builder.add_conditional_edges(
    "reflect",
    lambda s: END if s.verified or s.attempts >= 2 else "refine"
)

# Despu√©s de "refine", volver a "retrieve"
# Esto crea el ciclo iterativo: refinar consulta ‚Üí recuperar ‚Üí responder ‚Üí reflexionar ‚Üí (repetir si necesario)
builder.add_edge("refine", "retrieve")

# Despu√©s de "answer", tambi√©n hay una conexi√≥n a END
# Esto parece ser redundante dado el flujo anterior, pero mantiene compatibilidad
builder.add_edge("answer", END)

# Compilaci√≥n del grafo para hacerlo ejecutable
# .compile() valida la estructura y optimiza el grafo final
graph = builder.compile()


In [None]:
# Definici√≥n de la consulta del usuario
# Esta pregunta es intencionalmente vaga para demostrar la recuperaci√≥n iterativa
# Pregunta sobre dos conceptos: "bucles de agentes" y "sistemas basados en transformers"
query = "bucles de agentes y sistemas basados en transformers?"

# Creaci√≥n del estado inicial con solo la pregunta del usuario
# Los dem√°s campos (refined_question, retrieved_docs, answer, verified, attempts) usar√°n sus valores por defecto
initial_state = IterativeRAGState(question=query)

# Invocaci√≥n del grafo con el estado inicial
# .invoke() ejecuta todo el flujo iterativo:
# 1. Recupera documentos con la pregunta original
# 2. Genera una respuesta
# 3. Reflexiona sobre la calidad de la respuesta
# 4. Si no es suficiente, refina la consulta y vuelve al paso 1
# 5. Repite hasta que la respuesta sea satisfactoria o se alcance el l√≠mite de intentos
final = graph.invoke(initial_state)

# Impresi√≥n de la respuesta final generada despu√©s de todas las iteraciones
print("‚úÖ Respuesta Final:\n", final["answer"])

# Impresi√≥n del estado de verificaci√≥n: True si la respuesta fue aprobada, False si se agotaron los intentos
print("\nüß† Verificada:", final["verified"])

# Impresi√≥n del n√∫mero total de intentos realizados (m√°ximo 2)
# Esto muestra cu√°ntas iteraciones fueron necesarias para obtener una respuesta satisfactoria
print("üîÅ Intentos:", final["attempts"])

In [None]:
# Mostrar el estado final completo para inspecci√≥n y depuraci√≥n
# Esto incluye todos los campos: question, refined_question, retrieved_docs, answer, verified, attempts
final

![image.png](attachment:image.png)