### üß† ¬øQu√© es la Auto-Reflexi√≥n en RAG?
Auto-reflexi√≥n = El LLM eval√∫a su propia salida:
"¬øEs esto claro, completo y preciso?"

#### Auto-Reflexi√≥n en RAG usando LangGraph, dise√±aremos un flujo de trabajo donde el agente:

1. Genera una respuesta inicial usando el contexto recuperado
2. Reflexiona sobre esa respuesta con un paso dedicado de LLM auto-cr√≠tico
3. Si no est√° satisfecho, puede revisar la consulta, recuperar de nuevo, o regenerar la respuesta

In [1]:
# Importaci√≥n del m√≥dulo os para interactuar con el sistema operativo (variables de entorno, rutas, etc.)
import os

# Importaci√≥n de List desde typing para definir tipos de datos (listas tipadas)
from typing import List

# Importaci√≥n de BaseModel desde pydantic para crear modelos de datos con validaci√≥n autom√°tica
from pydantic import BaseModel

# Importaci√≥n de OpenAIEmbeddings para generar embeddings (representaciones vectoriales) usando la API de OpenAI
from langchain_openai import OpenAIEmbeddings

# Importaci√≥n de Document, la clase base de LangChain para representar documentos con contenido y metadatos
from langchain.schema import Document

# Importaci√≥n de RecursiveCharacterTextSplitter para dividir textos largos en chunks (fragmentos) de manera recursiva
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Importaci√≥n de FAISS, una biblioteca de Facebook para b√∫squeda eficiente de similitud en vectores
from langchain.vectorstores import FAISS

# Importaci√≥n de TextLoader para cargar archivos de texto plano (.txt) como documentos
from langchain_community.document_loaders import TextLoader

# Importaci√≥n de StateGraph para crear grafos de estado (flujos de trabajo con nodos y aristas)
# END es un marcador especial que indica el final del grafo
from langgraph.graph import StateGraph, END

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
### Cargar modelos LLM

# Importaci√≥n del m√≥dulo os para acceder a variables de entorno
import os

# Importaci√≥n de init_chat_model para inicializar modelos de chat de diferentes proveedores
from langchain.chat_models import init_chat_model

# Importaci√≥n de load_dotenv para cargar variables de entorno desde un archivo .env
from dotenv import load_dotenv

# Configuraci√≥n de la variable de entorno OPENAI_API_KEY con el valor obtenido del archivo .env
# Esto permite autenticarse con la API de OpenAI
os.environ["OPENAI_API_KEY"]=os.getenv("OPENAI_API_KEY")

# Inicializaci√≥n del modelo de lenguaje usando GPT-4o (optimizado) de OpenAI
# Este ser√° el LLM principal para generar respuestas y reflexiones
llm=init_chat_model("openai:gpt-4o")

In [3]:
# Carga del archivo de texto "internal_docs.txt" usando TextLoader
# .load() devuelve una lista de objetos Document con el contenido del archivo
docs = TextLoader("internal_docs.txt").load()

# Divisi√≥n de los documentos en chunks (fragmentos) m√°s peque√±os usando RecursiveCharacterTextSplitter
# chunk_size=500: cada fragmento tendr√° aproximadamente 500 caracteres
# chunk_overlap=50: habr√° una superposici√≥n de 50 caracteres entre fragmentos consecutivos (para mantener contexto)
chunks = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50).split_documents(docs)

# Creaci√≥n de un vector store (base de datos vectorial) usando FAISS
# .from_documents() toma los chunks y genera embeddings usando OpenAIEmbeddings()
# Estos embeddings permiten b√∫squedas de similitud sem√°ntica
vectorstore = FAISS.from_documents(chunks, OpenAIEmbeddings())

# Conversi√≥n del vector store en un retriever (recuperador)
# El retriever es la interfaz para realizar b√∫squedas de documentos relevantes basadas en una consulta
retriever = vectorstore.as_retriever()

In [4]:
# -------------------------
# 2. Definici√≥n del Estado
# -------------------------

# Clase que define el estado del flujo de trabajo RAG con auto-reflexi√≥n
# Hereda de BaseModel (Pydantic) para validaci√≥n autom√°tica de tipos y datos
class RAGReflectionState(BaseModel):
    # question: la pregunta del usuario (tipo string, campo obligatorio)
    question: str
    
    # retrieved_docs: lista de documentos recuperados del vector store
    # Por defecto es una lista vac√≠a []
    retrieved_docs: List[Document] = []
    
    # answer: la respuesta generada por el LLM
    # Por defecto es una cadena vac√≠a ""
    answer: str = ""
    
    # reflection: la evaluaci√≥n/reflexi√≥n del LLM sobre su propia respuesta
    # Por defecto es una cadena vac√≠a ""
    reflection: str = ""
    
    # revised: indica si la respuesta necesita ser revisada (True) o est√° aprobada (False)
    # Por defecto es False (respuesta aprobada)
    revised: bool = False
    
    # attempts: contador de intentos de generaci√≥n de respuesta
    # Por defecto es 0, se incrementa cada vez que se genera una respuesta
    attempts: int = 0

In [5]:
# -------------------------
# 3. Nodos (Funciones del Grafo)
# -------------------------

# a. Recuperar Documentos (Retrieve)
# Esta funci√≥n recupera documentos relevantes del vector store bas√°ndose en la pregunta
def retrieve_docs(state: RAGReflectionState) -> RAGReflectionState:
    # Invoca al retriever con la pregunta del estado actual
    # Devuelve una lista de documentos similares sem√°nticamente
    docs = retriever.invoke(state.question)
    
    # Retorna una copia actualizada del estado con los documentos recuperados
    # .model_copy(update={...}) crea una nueva instancia del estado con campos actualizados
    return state.model_copy(update={"retrieved_docs": docs})

# b. Generar Respuesta (Generate Answer)
# Esta funci√≥n genera una respuesta usando el LLM bas√°ndose en los documentos recuperados
def generate_answer(state: RAGReflectionState) -> RAGReflectionState:
    
    # Concatena el contenido de todos los documentos recuperados con dos saltos de l√≠nea entre ellos
    # Esto crea un contexto unificado para el LLM
    context = "\n\n".join([doc.page_content for doc in state.retrieved_docs])
    
    # Construcci√≥n del prompt para el LLM
    # Incluye instrucciones, el contexto recuperado y la pregunta del usuario
    prompt = f"""
Usa el siguiente contexto para responder la pregunta:

Contexto:
{context}

Pregunta:
{state.question}
"""
    # Invoca al LLM con el prompt, extrae el contenido de la respuesta y elimina espacios en blanco
    answer = llm.invoke(prompt).content.strip()
    
    # Retorna el estado actualizado con la respuesta generada y el contador de intentos incrementado en 1
    return state.model_copy(update={"answer": answer, "attempts": state.attempts + 1})

In [6]:
# c. Auto-Reflexi√≥n (Self-Reflect)
# Esta funci√≥n eval√∫a la calidad de la respuesta generada usando el mismo LLM como cr√≠tico
def reflect_on_answer(state: RAGReflectionState) -> RAGReflectionState:
    
    # Construcci√≥n del prompt de reflexi√≥n
    # Le pide al LLM que eval√∫e si la respuesta responde completamente la pregunta
    prompt = f"""
Reflexiona sobre la siguiente respuesta para ver si responde completamente la pregunta.
Indica S√ç si est√° completa y correcta, o NO con una explicaci√≥n.

Pregunta: {state.question}

Respuesta: {state.answer}

Responde as√≠:
Reflexi√≥n: S√ç o NO
Explicaci√≥n: ...
"""
    # Invoca al LLM con el prompt de reflexi√≥n y obtiene el resultado
    result = llm.invoke(prompt).content
    
    # Verifica si la reflexi√≥n contiene "reflection: yes" (en min√∫sculas)
    # is_ok ser√° True si el LLM aprob√≥ la respuesta, False si necesita revisi√≥n
    is_ok = "reflection: yes" in result.lower()
    
    # Retorna el estado actualizado con:
    # - reflection: el texto completo de la evaluaci√≥n del LLM
    # - revised: True si necesita revisi√≥n (not is_ok), False si est√° aprobada
    return state.model_copy(update={"reflection": result, "revised": not is_ok})

In [7]:
# d. Finalizador (Finalizer)
# Esta funci√≥n marca el final del flujo de trabajo
# Simplemente retorna el estado sin modificaciones
def finalize(state: RAGReflectionState) -> RAGReflectionState:
    # Retorna el estado tal como est√° (sin cambios)
    return state

In [8]:
# -------------------------
# 4. Grafo Dirigido Ac√≠clico (DAG) de LangGraph
# -------------------------

# Creaci√≥n del constructor del grafo de estado usando la clase RAGReflectionState
# Este grafo define el flujo de trabajo completo del sistema RAG con auto-reflexi√≥n
builder = StateGraph(RAGReflectionState)

# Agregado de nodos al grafo
# Cada nodo es una funci√≥n que procesa y transforma el estado

# Nodo "retriever": recupera documentos relevantes del vector store
builder.add_node("retriever", retrieve_docs)

# Nodo "responder": genera una respuesta usando el LLM bas√°ndose en los documentos recuperados
builder.add_node("responder", generate_answer)

# Nodo "reflector": eval√∫a la calidad de la respuesta generada (auto-cr√≠tica)
builder.add_node("reflector", reflect_on_answer)

# Nodo "done": finaliza el flujo de trabajo
builder.add_node("done", finalize)

# Establecer el punto de entrada del grafo (primer nodo a ejecutar)
# El flujo comienza en "retriever"
builder.set_entry_point("retriever")

# Definici√≥n de aristas (edges) - conexiones directas entre nodos

# Despu√©s de "retriever", siempre ir a "responder"
builder.add_edge("retriever", "responder")

# Despu√©s de "responder", siempre ir a "reflector"
builder.add_edge("responder", "reflector")

# Arista condicional despu√©s de "reflector"
# La funci√≥n lambda decide el siguiente nodo bas√°ndose en el estado:
# - Si revised=False (respuesta aprobada) O attempts>=2 (m√°ximo de intentos alcanzado) ‚Üí ir a "done"
# - Si revised=True (necesita revisi√≥n) Y attempts<2 ‚Üí volver a "retriever" para intentar de nuevo
builder.add_conditional_edges(
    "reflector",
    lambda s: "done" if not s.revised or s.attempts >= 2 else "retriever"
)

# Despu√©s de "done", ir a END (marcador especial que termina el grafo)
builder.add_edge("done", END)

# Compilaci√≥n del grafo para hacerlo ejecutable
# .compile() valida la estructura y crea el grafo final
graph = builder.compile()

In [9]:
# -------------------------
# 5. Ejecutar el Agente
# -------------------------

# Verifica si este script se est√° ejecutando como programa principal (no importado como m√≥dulo)
if __name__ == "__main__":
    
    # Definici√≥n de la pregunta del usuario
    # Esta ser√° la consulta que el sistema RAG intentar√° responder
    user_query = "¬øCu√°les son las variantes de transformers en despliegues de producci√≥n?"
    
    # Creaci√≥n del estado inicial con la pregunta del usuario
    # Los dem√°s campos (retrieved_docs, answer, etc.) usar√°n sus valores por defecto
    init_state = RAGReflectionState(question=user_query)
    
    # Invocaci√≥n del grafo con el estado inicial
    # .invoke() ejecuta todo el flujo de trabajo y retorna el estado final
    result = graph.invoke(init_state)

    # Impresi√≥n de la respuesta final generada por el sistema
    print("\nüß† Respuesta Final:\n", result["answer"])
    
    # Impresi√≥n del log de reflexi√≥n (evaluaci√≥n de la respuesta)
    print("\nüîÅ Log de Reflexi√≥n:\n", result["reflection"])
    
    # Impresi√≥n del n√∫mero total de intentos realizados
    print("üîÑ Intentos Totales:", result["attempts"])


üß† Respuesta Final:
 El contexto proporcionado no aborda espec√≠ficamente las variantes de transformadores en despliegues de producci√≥n. Sin embargo, en el √°mbito del aprendizaje autom√°tico y la inteligencia artificial, algunas variantes comunes de los transformadores que suelen utilizarse en despliegues de producci√≥n incluyen:

1. **BERT (Bidirectional Encoder Representations from Transformers):** Muy utilizado en tareas de procesamiento del lenguaje natural (NLP) como clasificaci√≥n de texto, an√°lisis de sentimiento y respuesta a preguntas.

2. **GPT (Generative Pre-trained Transformer):** Con versiones como GPT-2 y GPT-3, estos modelos son populares para generaci√≥n de texto y aplicaciones de NLP que requieren creaci√≥n de contenido.

3. **Transformer-XL:** Dise√±ado para manejar dependencias a largo plazo en tareas secuenciales, mejorando el rendimiento en comparaci√≥n con transformers est√°ndar.

4. **RoBERTa (A Robustly Optimized BERT Pretraining Approach):** Una versi√≥n