### üß† ¬øQu√© es la Descomposici√≥n de Consultas?

La **descomposici√≥n de consultas** es el proceso de tomar una pregunta compleja de m√∫ltiples partes y dividirla en sub-preguntas m√°s simples y at√≥micas que pueden ser recuperadas y respondidas individualmente.

#### ‚úÖ ¬øPor qu√© usar Descomposici√≥n de Consultas?

**Problemas que resuelve:**
- Las consultas complejas a menudo involucran m√∫ltiples conceptos
- Los LLMs o recuperadores pueden perder partes de la pregunta original
- Permite razonamiento multi-hop (responder en pasos)
- Posibilita paralelismo (especialmente en frameworks multi-agente)

**Ejemplo:**
- **Consulta compleja:** "¬øC√≥mo usa LangChain la memoria y los agentes comparado con CrewAI?"
- **Descomposici√≥n:**
  1. ¬øQu√© mecanismos de memoria ofrece LangChain?
  2. ¬øC√≥mo funcionan los agentes en LangChain?
  3. ¬øQu√© mecanismos de memoria ofrece CrewAI?
  4. ¬øC√≥mo funcionan los agentes en CrewAI?
  5. ¬øCu√°les son las diferencias clave entre ambos?

**Ventajas:**
- ‚úÖ Mejora la precisi√≥n en respuestas complejas
- ‚úÖ Permite recuperaci√≥n m√°s enfocada para cada aspecto
- ‚úÖ Facilita el razonamiento paso a paso
- ‚úÖ Reduce sobrecarga de contexto en cada consulta
- ‚úÖ Permite procesamiento paralelo de sub-preguntas

In [1]:
# Importaci√≥n de librer√≠as necesarias para el pipeline RAG con descomposici√≥n de consultas

# init_chat_model: Para inicializar modelos de chat de diferentes proveedores (OpenAI, Groq, etc.)
from langchain.chat_models import init_chat_model

# PromptTemplate: Para crear plantillas de prompts con variables din√°micas
from langchain.prompts import PromptTemplate

# TextLoader: Para cargar archivos de texto plano
from langchain.document_loaders import TextLoader

# RecursiveCharacterTextSplitter: Para dividir texto en fragmentos (chunks) manejables
from langchain.text_splitter import RecursiveCharacterTextSplitter

# HuggingFaceEmbeddings: Para generar embeddings vectoriales usando modelos de HuggingFace
from langchain_huggingface import HuggingFaceEmbeddings

# FAISS: Biblioteca de Facebook para b√∫squeda de similitud vectorial eficiente
from langchain_community.vectorstores import FAISS

# StrOutputParser: Para convertir la salida del LLM a string
from langchain_core.output_parsers import StrOutputParser

# create_stuff_documents_chain: Crea una cadena que inserta documentos en un prompt
from langchain.chains.combine_documents import create_stuff_documents_chain

# RunnableSequence: Permite encadenar operaciones secuencialmente
from langchain_core.runnables import RunnableSequence

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Paso 1: Cargar y crear el almac√©n vectorial del documento

# Cargar el archivo de texto que contiene informaci√≥n sobre LangChain y CrewAI
loader = TextLoader("langchain_crewai_dataset.txt")

# load() devuelve una lista de documentos con todo el contenido del archivo
docs = loader.load()

# Crear un splitter para dividir el texto en fragmentos m√°s peque√±os
# chunk_size=300: Cada fragmento tendr√° m√°ximo 300 caracteres
# chunk_overlap=50: Habr√° una superposici√≥n de 50 caracteres entre fragmentos consecutivos
# La superposici√≥n ayuda a mantener el contexto entre fragmentos adyacentes
splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)

# Dividir los documentos en fragmentos (chunks) manejables
chunks = splitter.split_documents(docs)

# Inicializar el modelo de embeddings de HuggingFace
# all-MiniLM-L6-v2 es un modelo compacto y eficiente que genera vectores de 384 dimensiones
embedding = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Crear el almac√©n vectorial FAISS a partir de los fragmentos de documentos
# FAISS convierte cada fragmento en un vector num√©rico para b√∫squeda de similitud eficiente
vectorstore = FAISS.from_documents(chunks, embedding)

# Crear el recuperador con MMR (Maximal Marginal Relevance)
# search_type="mmr": Usa MMR para balancear relevancia y diversidad
# k=4: Recuperar los 4 documentos m√°s relevantes
# lambda_mult=0.7: Factor que controla el balance entre relevancia (1.0) y diversidad (0.0)
#                  0.7 significa 70% relevancia, 30% diversidad
retriever = vectorstore.as_retriever(
    search_type="mmr", 
    search_kwargs={"k": 4, "lambda_mult": 0.7}
)

In [3]:
# Paso 2: Configurar el LLM (Large Language Model) y variables de entorno

# Importar m√≥dulos para manejo de variables de entorno
import os
from dotenv import load_dotenv

# Cargar las variables de entorno desde el archivo .env
# Este archivo contiene las API keys de forma segura
load_dotenv()

# Establecer la API key de Groq desde las variables de entorno
# Groq ofrece inferencia de LLM ultra-r√°pida
os.environ["GROQ_API_KEY"] = os.getenv("GROQ_API_KEY")

# Inicializar el LLM usando el modelo Gemma2-9B-IT de Groq
# Gemma2 es un modelo eficiente de Google, optimizado para tareas de razonamiento
# "it" significa "instruction-tuned" (ajustado para seguir instrucciones)
llm = init_chat_model(model="groq:llama-3.1-8b-instant")

# Mostrar la configuraci√≥n del LLM
llm

ChatGroq(client=<groq.resources.chat.completions.Completions object at 0x000002A7A20EB0B0>, async_client=<groq.resources.chat.completions.AsyncCompletions object at 0x000002A7A3978800>, model_name='llama-3.1-8b-instant', model_kwargs={}, groq_api_key=SecretStr('**********'))

In [4]:
# Paso 3: Crear la cadena de descomposici√≥n de consultas

# Esta plantilla de prompt instruye al LLM para descomponer consultas complejas
# El objetivo es dividir una pregunta compleja en 2-4 sub-preguntas m√°s simples
# Cada sub-pregunta debe ser at√≥mica (enfocada en un solo aspecto)
decomposition_prompt = PromptTemplate.from_template("""
Eres un asistente de IA. Descomp√≥n la siguiente pregunta compleja en 2 a 4 sub-preguntas m√°s simples para mejorar la recuperaci√≥n de documentos.

Pregunta: "{question}"

Sub-preguntas:
""")

# Crear la cadena de descomposici√≥n de consultas
# Esta cadena conecta: prompt ‚Üí LLM ‚Üí parser de salida
# El operador | (pipe) encadena los componentes secuencialmente
decomposition_chain = decomposition_prompt | llm | StrOutputParser()

In [6]:
# Paso 4: Probar la descomposici√≥n de una consulta compleja

# Definir una consulta compleja que involucra m√∫ltiples conceptos:
# 1. Memoria en LangChain
# 2. Agentes en LangChain
# 3. Memoria en CrewAI
# 4. Agentes en CrewAI
# 5. Comparaci√≥n entre ambos
query = "¬øC√≥mo usa LangChain la memoria y los agentes comparado con CrewAI?"

# Invocar la cadena de descomposici√≥n para dividir la consulta compleja
# El LLM generar√° 2-4 sub-preguntas m√°s espec√≠ficas y enfocadas
decomposition_question = decomposition_chain.invoke({"question": query})

In [7]:
# Mostrar las sub-preguntas generadas por el LLM
# Observa c√≥mo el LLM divide la consulta compleja en preguntas at√≥micas
# Cada sub-pregunta se enfoca en un aspecto espec√≠fico
print("üîç Sub-preguntas Generadas:")
print(decomposition_question)

üîç Sub-preguntas Generadas:
Para mejorar la recuperaci√≥n de documentos, puedo descomponer la pregunta original en 4 sub-preguntas m√°s simples. Aqu√≠ te presento la descomposici√≥n:

1. **¬øQu√© es LangChain y qu√© tipo de memoria utiliza?**
 - Esta sub-pregunta busca entender la arquitectura fundamental de LangChain y c√≥mo se relaciona con la memoria.

2. **¬øC√≥mo funcionan los agentes en LangChain?**
 - Esta sub-pregunta se enfoca en la funcionalidad de los agentes en LangChain y c√≥mo interact√∫an con la memoria.

3. **¬øQu√© es CrewAI y qu√© tipo de memoria utiliza?**
 - Esta sub-pregunta busca entender la arquitectura de CrewAI y c√≥mo se relaciona con la memoria, para poder compararla con LangChain.

4. **¬øC√≥mo comparar la implementaci√≥n de memoria y agentes en LangChain y CrewAI?**
 - Esta sub-pregunta busca identificar los aspectos clave para comparar la implementaci√≥n de memoria y agentes en ambos frameworks.

Al responder estas sub-preguntas, podr√≠amos obtener una c

In [8]:
# Paso 5: Crear la cadena de Q&A para cada sub-pregunta

# Esta plantilla define c√≥mo el LLM usar√° el contexto recuperado para responder
# Se aplicar√° individualmente a cada sub-pregunta
qa_prompt = PromptTemplate.from_template("""
Usa el contexto a continuaci√≥n para responder la pregunta.

Contexto:
{context}

Pregunta: {input}
""")

# Crear la cadena de documentos que combina el LLM con el prompt de Q&A
# Esta cadena toma documentos recuperados y los inserta en el prompt
# "stuff" significa que todos los documentos se insertan directamente en el prompt
qa_chain = create_stuff_documents_chain(llm=llm, prompt=qa_prompt)

In [9]:
# Paso 6: Construir el pipeline RAG completo con descomposici√≥n de consultas

def full_query_decomposition_rag_pipeline(user_query):
    """
    Pipeline RAG completo que implementa descomposici√≥n de consultas.
    
    Flujo del pipeline:
    1. Descompone la consulta compleja en sub-preguntas
    2. Para cada sub-pregunta:
       a. Recupera documentos relevantes del vector store
       b. Genera una respuesta usando los documentos como contexto
    3. Combina todas las respuestas en un resultado final
    
    Args:
        user_query (str): La consulta compleja del usuario
    
    Returns:
        str: Respuestas combinadas para todas las sub-preguntas
    """
    
    # 1. Descomponer la consulta compleja en sub-preguntas
    # El LLM genera un texto con m√∫ltiples sub-preguntas separadas por saltos de l√≠nea
    sub_qs_text = decomposition_chain.invoke({"question": user_query})
    
    # 2. Parsear el texto de sub-preguntas en una lista limpia
    # - split("\n"): Divide el texto por saltos de l√≠nea
    # - strip("-‚Ä¢1234567890. "): Elimina caracteres de numeraci√≥n y vi√±etas
    # - if q.strip(): Filtra l√≠neas vac√≠as
    sub_questions = [
        q.strip("-‚Ä¢1234567890. ").strip() 
        for q in sub_qs_text.split("\n") 
        if q.strip()
    ]
    
    # 3. Lista para almacenar los resultados de cada sub-pregunta
    results = []
    
    # 4. Procesar cada sub-pregunta individualmente
    for subq in sub_questions:
        # a. Recuperar documentos relevantes para esta sub-pregunta espec√≠fica
        #    El recuperador usa MMR para obtener documentos relevantes y diversos
        docs = retriever.invoke(subq)
        
        # b. Generar una respuesta usando los documentos recuperados como contexto
        #    La cadena qa_chain inserta los documentos en el prompt y llama al LLM
        result = qa_chain.invoke({"input": subq, "context": docs})
        
        # c. Formatear y almacenar el resultado con la pregunta y respuesta
        results.append(f"Q: {subq}\nA: {result}")
    
    # 5. Combinar todas las respuestas en un solo texto
    # Separar cada par Q&A con dos saltos de l√≠nea para mejor legibilidad
    return "\n\n".join(results)

In [10]:
# Paso 7: Ejecutar el pipeline completo con una consulta compleja

# Definir la consulta compleja que involucra comparaci√≥n entre dos frameworks
query = "¬øC√≥mo usa LangChain la memoria y los agentes comparado con CrewAI?"

# Invocar el pipeline RAG completo con descomposici√≥n de consultas
# El pipeline autom√°ticamente:
# 1. Descompondr√° la consulta en sub-preguntas
# 2. Recuperar√° documentos para cada sub-pregunta
# 3. Generar√° respuestas individuales
# 4. Combinar√° todas las respuestas
final_answer = full_query_decomposition_rag_pipeline(query)

# Mostrar el resultado final con todas las sub-preguntas y sus respuestas
print("‚úÖ Respuesta Final:")
print("="*80)
print(final_answer)

‚úÖ Respuesta Final:
Q: Excelente pregunta. Para descomponerla en sub-preguntas m√°s simples, te propongo las siguientes:
A: No hay una pregunta espec√≠fica en el contexto proporcionado. Parece que est√°s presentando informaci√≥n sobre LangChain y CrewAI, que son herramientas relacionadas con la inteligencia artificial y los lenguajes de marcado natural (LLM). Si te gustar√≠a formular una pregunta sobre este tema, estar√© encantado de ayudarte a descomponerla en sub-preguntas m√°s simples. ¬øCu√°l es tu pregunta?

Q: **¬øQu√© es LangChain y qu√© tipo de memoria utiliza?**
A: LangChain es una plataforma para desarrollar aplicaciones con Inteligencia Artificial de Lenguaje (LLM) escalables y f√°ciles de mantener. 

LangChain utiliza dos tipos de memoria: 

- **ConversationBufferMemory**: que permite que el LLM mantenga la informaci√≥n de los turnos de conversaci√≥n anteriores.
- **ConversationSummaryMemory**: que resume interacciones largas para ajustarse a los l√≠mites de tokens.

Q: * 

### üìä Resumen: Beneficios de la Descomposici√≥n de Consultas

**Flujo de Descomposici√≥n:**
```
Consulta Compleja
       ‚Üì
Descomposici√≥n (LLM)
       ‚Üì
Sub-pregunta 1 ‚Üí Recuperaci√≥n ‚Üí Respuesta 1
Sub-pregunta 2 ‚Üí Recuperaci√≥n ‚Üí Respuesta 2
Sub-pregunta 3 ‚Üí Recuperaci√≥n ‚Üí Respuesta 3
Sub-pregunta 4 ‚Üí Recuperaci√≥n ‚Üí Respuesta 4
       ‚Üì
Respuesta Final Combinada
```

**Ventajas clave:**
- ‚úÖ **Precisi√≥n mejorada**: Cada sub-pregunta obtiene contexto espec√≠fico
- ‚úÖ **Razonamiento multi-hop**: Permite responder preguntas que requieren m√∫ltiples pasos
- ‚úÖ **Mejor cobertura**: No se pierden aspectos de la pregunta original
- ‚úÖ **Recuperaci√≥n enfocada**: Cada b√∫squeda es m√°s espec√≠fica y relevante
- ‚úÖ **Respuestas estructuradas**: El resultado final est√° organizado por aspectos

**Casos de uso ideales:**
- ‚úÖ Preguntas comparativas ("A vs B")
- ‚úÖ Consultas multi-aspecto (memoria + agentes + herramientas)
- ‚úÖ Preguntas que requieren razonamiento en pasos
- ‚úÖ An√°lisis complejos que involucran m√∫ltiples entidades
- ‚úÖ Investigaci√≥n exploratoria de temas amplios

**Consideraciones:**
- ‚ö†Ô∏è **Latencia aumentada**: M√∫ltiples llamadas al LLM (1 descomposici√≥n + N respuestas)
- ‚ö†Ô∏è **Costo mayor**: M√°s tokens consumidos por las llamadas adicionales
- ‚ö†Ô∏è **Complejidad**: Requiere parseo y manejo de m√∫ltiples sub-preguntas
- ‚ö†Ô∏è **No siempre necesario**: Para consultas simples, puede ser overkill

**Comparaci√≥n con Query Expansion:**

| Aspecto | Query Expansion | Query Decomposition |
|---------|----------------|---------------------|
| **Prop√≥sito** | Enriquecer consulta con sin√≥nimos | Dividir consulta en partes |
| **Llamadas LLM** | 1 expansi√≥n + 1 respuesta | 1 descomposici√≥n + N respuestas |
| **Mejor para** | Consultas vagas o t√©cnicas | Consultas complejas multi-aspecto |
| **Latencia** | Baja-Media | Media-Alta |
| **Precisi√≥n** | ‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |

**¬øCu√°ndo usar cada t√©cnica?**
- **Query Expansion**: "memoria en LangChain" ‚Üí agregar sin√≥nimos t√©cnicos
- **Query Decomposition**: "¬øC√≥mo se compara LangChain con CrewAI en memoria y agentes?" ‚Üí dividir en sub-preguntas espec√≠ficas
- **Ambas**: Para m√°xima precisi√≥n, primero descomponer y luego expandir cada sub-pregunta