### HyDE (Hypothetical Document Embeddings)

#### üß† ¬øQu√© es HyDE?

**HyDE (Hypothetical Document Embeddings)** es una t√©cnica de recuperaci√≥n donde, en lugar de hacer embedding de la consulta del usuario directamente, primero generas una **respuesta hipot√©tica** (documento) a la consulta usando un LLM ‚Äî y luego haces embedding de ese documento hipot√©tico para buscar en tu vector store.

#### üéØ ¬øC√≥mo funciona HyDE?

**Flujo tradicional (sin HyDE):**
```
Consulta Usuario ‚Üí Embedding ‚Üí B√∫squeda Vector Store ‚Üí Documentos Relevantes
```

**Flujo con HyDE:**
```
Consulta Usuario ‚Üí LLM genera respuesta hipot√©tica ‚Üí Embedding de la respuesta ‚Üí B√∫squeda Vector Store ‚Üí Documentos Relevantes
```

#### ‚úÖ ¬øCu√°ndo usar HyDE?

HyDE cierra la brecha entre la intenci√≥n del usuario y el contenido relevante, especialmente cuando:

1. **Las consultas son cortas** - "Steve Jobs despedido"
2. **Hay desajuste de lenguaje** entre consulta y documentos (pregunta vs respuesta)
3. **Quieres recuperar basado en contenido de respuesta**, no en palabras de pregunta
4. **Vocabulario diferente** - Usuario pregunta con t√©rminos simples, documentos usan terminolog√≠a t√©cnica

#### üîç Ejemplo:

**Consulta:** "¬øCu√°ndo despidieron a Steve Jobs de Apple?"

**Sin HyDE:** Se busca directamente el embedding de la pregunta
- Puede no encontrar documentos que contengan la respuesta pero no la pregunta exacta

**Con HyDE:** 
1. LLM genera respuesta hipot√©tica: "Steve Jobs fue despedido de Apple en septiembre de 1985 debido a conflictos con la junta directiva..."
2. Se hace embedding de esta respuesta hipot√©tica
3. Se buscan documentos similares a esta respuesta
4. Mayor probabilidad de encontrar documentos relevantes que contengan informaci√≥n similar

#### üí° Ventajas:
- ‚úÖ Mejora recuperaci√≥n cuando hay desajuste sem√°ntico
- ‚úÖ Funciona bien con consultas cortas
- ‚úÖ Captura el formato y estilo de las respuestas esperadas
- ‚úÖ Reduce el problema de "vocabulary mismatch"

#### ‚ö†Ô∏è Consideraciones:
- Requiere llamada adicional al LLM (m√°s latencia y costo)
- La calidad depende de la respuesta hipot√©tica generada
- Puede no ser necesario si los documentos y consultas ya est√°n bien alineados

In [None]:
# Importaci√≥n de librer√≠as necesarias para implementar HyDE

# WikipediaLoader: Para cargar art√≠culos de Wikipedia autom√°ticamente
from langchain_community.document_loaders import WikipediaLoader

# RecursiveCharacterTextSplitter: Para dividir texto en fragmentos (chunks) manejables
from langchain.text_splitter import RecursiveCharacterTextSplitter

# HuggingFaceEmbeddings: Para generar embeddings vectoriales usando modelos de HuggingFace
from langchain_huggingface import HuggingFaceEmbeddings

# Chroma: Base de datos vectorial para almacenar y buscar embeddings
from langchain.vectorstores import Chroma

In [None]:
# Paso 1: Cargar y fragmentar el dataset desde Wikipedia

# Configurar par√°metros de fragmentaci√≥n
# chunk_size=300: Cada fragmento tendr√° m√°ximo 300 caracteres
chunk_size = 300

# chunk_overlap=100: Habr√° una superposici√≥n de 100 caracteres entre fragmentos
# Una superposici√≥n mayor (100 vs 50) ayuda a mantener m√°s contexto
chunk_overlap = 100

# Cargar datos de Wikipedia sobre Steve Jobs
# query="Steve Jobs": Busca art√≠culos relacionados con Steve Jobs
# load_max_docs=5: Carga m√°ximo 5 documentos de Wikipedia
loader = WikipediaLoader(query="Steve Jobs", load_max_docs=5)

# load() descarga y devuelve los art√≠culos de Wikipedia
documents = loader.load()

# Crear un splitter para dividir el texto en fragmentos
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, 
    chunk_overlap=chunk_overlap
)

# Dividir los documentos de Wikipedia en fragmentos m√°s peque√±os
docs = text_splitter.split_documents(documents=documents)

# Mostrar los fragmentos generados
docs

In [None]:
# Paso 2: Construir el vector store con embeddings est√°ndar

# Importar FAISS para b√∫squeda de similitud eficiente
from langchain.vectorstores import FAISS

# Inicializar el modelo de embeddings de HuggingFace
# all-MiniLM-L6-v2 es un modelo compacto y eficiente (384 dimensiones)
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Crear el vector store FAISS a partir de los documentos fragmentados
# FAISS convierte cada fragmento en un vector para b√∫squeda r√°pida
vectorstore = FAISS.from_documents(docs, embeddings)

In [None]:
# Paso 3: Configurar el LLM que generar√° las respuestas hipot√©ticas

# Importar m√≥dulos para manejo de variables de entorno
import os
from dotenv import load_dotenv

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Importar funci√≥n para inicializar modelos de chat
from langchain.chat_models import init_chat_model

# Establecer la API key de Groq desde las variables de entorno
os.environ["GROQ_API_KEY"] = os.getenv("GROQ_API_KEY")

# Inicializar el LLM usando Gemma2-9B-IT de Groq
# Este modelo generar√° las respuestas hipot√©ticas para HyDE
llm = init_chat_model("groq:gemma2-9b-it")

In [None]:
# Paso 4: Crear vector store persistente con ChromaDB

# Importar Chroma para almacenamiento vectorial persistente
from langchain.vectorstores import Chroma

# Crear vector store ChromaDB a partir de los documentos
# documents=docs: Fragmentos de Wikipedia sobre Steve Jobs
# embedding=embeddings: Modelo de embeddings HuggingFace
# persist_directory: Directorio donde se guardar√°n los embeddings de forma persistente
#                    Esto permite reutilizar los embeddings sin recalcularlos
db = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    persist_directory="output/steve_jobs_for_hyde.db"
)

# Crear el recuperador base (sin HyDE a√∫n)
# search_kwargs={"k": 5}: Recuperar los 5 documentos m√°s similares
base_retriever = db.as_retriever(search_kwargs={"k": 5})

In [None]:
# Paso 5: Implementar funci√≥n para generar documentos hipot√©ticos (HyDE manual)

# Importar parser para convertir salida del LLM a string
from langchain_core.output_parsers import StrOutputParser

# Importar templates para crear prompts estructurados
from langchain.prompts.chat import SystemMessagePromptTemplate, ChatPromptTemplate

def get_hyde_doc(query):
    """
    Genera un documento hipot√©tico (respuesta imaginaria) para una consulta.
    
    Este es el n√∫cleo de la t√©cnica HyDE:
    1. Toma la consulta del usuario
    2. Pide al LLM que imagine una respuesta detallada
    3. Devuelve esa respuesta hipot√©tica
    
    Args:
        query (str): La consulta del usuario
    
    Returns:
        str: Documento hipot√©tico generado por el LLM
    """
    
    # Plantilla que instruye al LLM a generar una respuesta hipot√©tica
    # El LLM debe imaginar que es un experto escribiendo una explicaci√≥n detallada
    template = """Imagina que eres un experto escribiendo una explicaci√≥n detallada sobre el tema: '{query}'
    Crea una respuesta hipot√©tica para el tema"""

    # Crear mensaje del sistema con la plantilla
    system_message_prompt = SystemMessagePromptTemplate.from_template(template=template)
    
    # Crear prompt de chat completo
    chat_prompt = ChatPromptTemplate.from_messages([system_message_prompt])
    
    # Formatear el prompt con la consulta espec√≠fica
    messages = chat_prompt.format_prompt(query=query).to_messages()
    
    # Mostrar los mensajes que se enviar√°n al LLM (para debug)
    print(messages)
    
    # Invocar el LLM para generar la respuesta hipot√©tica
    response = llm.invoke(messages)
    
    # Extraer el contenido de texto de la respuesta
    hypo_doc = response.content
    
    # Devolver el documento hipot√©tico generado
    return hypo_doc

In [None]:
# Paso 6: Probar la generaci√≥n de documento hipot√©tico

# Definir una consulta sobre cu√°ndo despidieron a Steve Jobs
query = '¬øCu√°ndo despidieron a Steve Jobs de Apple?'

# Generar y mostrar el documento hipot√©tico
# Observa c√≥mo el LLM crea una respuesta imaginaria detallada
# Esta respuesta hipot√©tica se usar√° para buscar documentos similares
print("üìÑ Documento Hipot√©tico Generado:")
print("="*80)
print(get_hyde_doc(query=query))

In [None]:
# Paso 7: Usar HyDE para recuperar documentos relevantes

# Flujo completo de HyDE:
# 1. get_hyde_doc(query) genera una respuesta hipot√©tica
# 2. base_retriever.invoke() busca documentos similares a esa respuesta hipot√©tica
# 3. Los documentos recuperados son probablemente m√°s relevantes que si busc√°ramos la consulta directamente

matched_doc = base_retriever.invoke(get_hyde_doc(query))

# Mostrar los documentos recuperados usando HyDE
print("üîç Documentos Recuperados con HyDE:")
print("="*80)
print(matched_doc)

### üîß Implementaci√≥n con LangChain: HypotheticalDocumentEmbedder

LangChain proporciona una clase integrada llamada `HypotheticalDocumentEmbedder` que implementa HyDE de forma m√°s elegante y autom√°tica.

**Ventajas del HypotheticalDocumentEmbedder:**
- ‚úÖ Integraci√≥n directa en el pipeline de embeddings
- ‚úÖ Prompts pre-configurados para diferentes tipos de b√∫squeda
- ‚úÖ M√°s f√°cil de usar y mantener
- ‚úÖ Autom√°ticamente genera documento hipot√©tico antes de hacer embedding

In [None]:
# Paso 8: Implementar HyDE usando la clase de LangChain

# Importar el HypotheticalDocumentEmbedder de LangChain
from langchain.chains.hyde.base import HypotheticalDocumentEmbedder

# Importar librer√≠as necesarias
from langchain.prompts import PromptTemplate
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains.combine_documents import create_stuff_documents_chain

# Cargar el dataset sobre LangChain y CrewAI
loader = TextLoader("langchain_crewai_dataset.txt")

# load() devuelve una lista de documentos
docs = loader.load()

# Crear splitter para dividir en fragmentos
# chunk_size=300: Fragmentos de m√°ximo 300 caracteres
# chunk_overlap=50: Superposici√≥n de 50 caracteres entre fragmentos
splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=50)

# Dividir los documentos en chunks
chunks = splitter.split_documents(docs)

In [None]:
# Paso 9: Configurar embeddings base

# Inicializar embeddings HuggingFace que se usar√°n como base
# Estos embeddings se aplicar√°n al documento hipot√©tico generado por HyDE
base_embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

### üìã Tipos de Prompts Disponibles en HyDE

Seg√∫n la documentaci√≥n oficial de LangChain y el c√≥digo fuente (PROMPT_MAP), las opciones de `prompt_key` predeterminadas son:

1. **`web_search`** - B√∫squeda web general (recomendado para la mayor√≠a de casos)
2. **`sci_fact`** - Hechos cient√≠ficos
3. **`arguana`** - Argumentaci√≥n y debate
4. **`trec_covid`** - Informaci√≥n m√©dica/COVID
5. **`fiqa`** - Finanzas y preguntas financieras
6. **`dbpedia_entity`** - Entidades de DBpedia
7. **`trec_news`** - Noticias y art√≠culos period√≠sticos
8. **`mr_tydi`** - B√∫squeda multiling√ºe

**¬øC√≥mo elegir el prompt_key correcto?**
- **web_search**: Uso general, preguntas variadas (DEFAULT)
- **sci_fact**: Preguntas cient√≠ficas o t√©cnicas
- **fiqa**: Preguntas sobre finanzas, inversiones, econom√≠a
- **trec_news**: B√∫squeda en noticias o art√≠culos

Cada `prompt_key` tiene un prompt optimizado para generar documentos hipot√©ticos en ese dominio espec√≠fico.

In [None]:
# Paso 10: Crear HyDE Embedder usando prompt_key predeterminado

# HypotheticalDocumentEmbedder.from_llm() crea un embedder que:
# 1. Toma una consulta
# 2. Usa el LLM para generar un documento hipot√©tico
# 3. Genera embeddings del documento hipot√©tico (no de la consulta original)

hyde_embedding_function = HypotheticalDocumentEmbedder.from_llm(
    llm=llm,  # LLM que generar√° los documentos hipot√©ticos
    base_embeddings=base_embeddings,  # Embeddings que se aplicar√°n al documento hipot√©tico
    prompt_key="web_search"  # Tipo de prompt optimizado para b√∫squeda web general
)

In [None]:
# Paso 11: Crear vector store con HyDE embeddings

# Crear ChromaDB usando el HypotheticalDocumentEmbedder
# IMPORTANTE: Ahora los embeddings se generan usando HyDE:
# - Durante la indexaci√≥n: Se almacenan embeddings normales de los documentos
# - Durante la b√∫squeda: La consulta se convierte en documento hipot√©tico antes de hacer embedding

vectorstore = Chroma.from_documents(
    documents=chunks,  # Fragmentos del dataset
    embedding=hyde_embedding_function,  # Funci√≥n de embedding con HyDE integrado
    persist_directory="output/langchain"  # Directorio de persistencia
)

In [None]:
# Paso 12: Crear prompt para generaci√≥n de respuestas RAG

# Esta plantilla define c√≥mo el LLM usar√° el contexto recuperado para responder
rag_prompt = PromptTemplate.from_template("""
Usa el contexto a continuaci√≥n para responder la pregunta.

Contexto:
{context}

Pregunta: {input}
""")

# Crear la cadena de documentos que combina LLM con el prompt
# Esta cadena toma documentos recuperados y genera una respuesta
rag_chain = create_stuff_documents_chain(llm=llm, prompt=rag_prompt)

In [None]:
# Paso 13: Construir el pipeline RAG completo con HyDE

def hyde_rag_pipeline(query):
    """
    Pipeline RAG completo que usa HyDE para mejorar la recuperaci√≥n.
    
    Flujo del pipeline:
    1. La consulta se convierte autom√°ticamente en documento hipot√©tico (por HyDE)
    2. Se hace embedding del documento hipot√©tico
    3. Se buscan documentos similares al documento hipot√©tico
    4. Se genera respuesta usando los documentos recuperados
    
    Args:
        query (str): La consulta del usuario
    
    Returns:
        str: Respuesta generada por el LLM basada en documentos recuperados con HyDE
    """
    
    # 1. Buscar documentos similares usando HyDE
    # similarity_search() autom√°ticamente:
    #    a. Genera documento hipot√©tico de la consulta (usando el LLM)
    #    b. Hace embedding del documento hipot√©tico
    #    c. Busca los k documentos m√°s similares
    matched_docs = vectorstore.similarity_search(query, k=4)
    
    # Mostrar los documentos recuperados (para debug)
    print("üîç Documentos recuperados con HyDE:")
    print(matched_docs)
    print("\n" + "="*80 + "\n")
    
    # 2. Generar respuesta usando los documentos recuperados como contexto
    response = rag_chain.invoke({
        "input": query,  # Consulta original del usuario
        "context": matched_docs  # Documentos recuperados con HyDE
    })
    
    # 3. Devolver la respuesta generada
    return response

In [None]:
# Paso 14: Ejecutar consulta de ejemplo con HyDE

# Definir una consulta sobre m√≥dulos de memoria en LangChain
query = "¬øQu√© m√≥dulos de memoria proporciona LangChain?"

# Invocar el pipeline RAG con HyDE
# HyDE autom√°ticamente:
# 1. Generar√° una respuesta hipot√©tica a esta pregunta
# 2. Buscar√° documentos similares a esa respuesta hipot√©tica
# 3. Usar√° esos documentos para generar la respuesta final
answer = hyde_rag_pipeline(query)

# Mostrar la respuesta final
print("‚úÖ Respuesta Final:")
print(answer)

### üé® Prompt Personalizado para HyDE

Adem√°s de usar los `prompt_key` predeterminados, puedes crear tu propio prompt personalizado usando el par√°metro `custom_prompt`.

**¬øCu√°ndo usar un prompt personalizado?**
- Cuando ninguno de los prompt_key predeterminados se ajusta a tu dominio
- Cuando quieres control total sobre c√≥mo se genera el documento hipot√©tico
- Para experimentar con diferentes estilos de respuestas hipot√©ticas

In [None]:
# Paso 15: Crear HyDE Embedder con prompt personalizado

# Importar PromptTemplate para crear plantillas personalizadas
from langchain.prompts import PromptTemplate

# Definir un prompt personalizado para generar documentos hipot√©ticos
# Este prompt es m√°s conciso que los predeterminados
custom = PromptTemplate.from_template(
    "Genera una respuesta hipot√©tica concisa para este tema: {query}"
)

# Crear HyDE Embedder usando el prompt personalizado
hyde_embedding_function = HypotheticalDocumentEmbedder.from_llm(
    llm=llm,  # LLM para generar documentos hipot√©ticos
    base_embeddings=base_embeddings,  # Embeddings base
    custom_prompt=custom  # Usar prompt personalizado en lugar de prompt_key
)

# NOTA: Puedes usar este hyde_embedding_function de la misma forma que antes
# La √∫nica diferencia es que usar√° tu prompt personalizado para generar
# documentos hipot√©ticos m√°s concisos

### üìä Resumen: HyDE (Hypothetical Document Embeddings)

#### üîÑ Comparaci√≥n: B√∫squeda Tradicional vs HyDE

**B√∫squeda Tradicional:**
```
Consulta: "¬øCu√°ndo despidieron a Steve Jobs?"
    ‚Üì (embedding directo)
Vector de la pregunta
    ‚Üì (b√∫squeda)
Documentos que contienen preguntas similares o palabras clave
```

**B√∫squeda con HyDE:**
```
Consulta: "¬øCu√°ndo despidieron a Steve Jobs?"
    ‚Üì (LLM genera respuesta hipot√©tica)
"Steve Jobs fue despedido de Apple en septiembre de 1985..."
    ‚Üì (embedding de la respuesta)
Vector de la respuesta hipot√©tica
    ‚Üì (b√∫squeda)
Documentos que contienen respuestas similares
```

#### ‚úÖ Ventajas de HyDE

1. **Resuelve el problema de vocabulary mismatch**
   - Usuario: "¬øCu√°ndo echaron a Steve Jobs?"
   - Documento: "Jobs fue despedido en 1985"
   - HyDE genera: "despedido en 1985" ‚Üí mejor match

2. **Mejora recuperaci√≥n con consultas cortas**
   - Consulta corta: "memoria LangChain"
   - HyDE expande: "LangChain ofrece ConversationBufferMemory y ConversationSummaryMemory..."
   - M√°s contexto = mejor recuperaci√≥n

3. **Alinea formato pregunta-respuesta**
   - Busca respuestas similares a una respuesta hipot√©tica
   - M√°s natural que buscar documentos similares a una pregunta

#### ‚ö†Ô∏è Desventajas de HyDE

1. **Latencia aumentada**
   - Requiere llamada adicional al LLM antes de la b√∫squeda
   - ~500ms-2s de overhead dependiendo del LLM

2. **Costo adicional**
   - Cada b√∫squeda consume tokens del LLM
   - Para APIs de pago (OpenAI, etc.), aumenta el costo

3. **Dependencia de la calidad del LLM**
   - Si el documento hipot√©tico es incorrecto, la b√∫squeda ser√° peor
   - Requiere un LLM razonablemente bueno

4. **No siempre necesario**
   - Si documentos y consultas ya est√°n alineados, HyDE puede no ayudar
   - Puede ser overkill para bases de conocimiento bien estructuradas

#### üéØ Casos de Uso Ideales

**‚úÖ Cu√°ndo USAR HyDE:**
- Consultas en lenguaje natural vs documentos t√©cnicos
- Preguntas cortas que necesitan expansi√≥n sem√°ntica
- Bases de conocimiento con vocabulario diferente al usuario
- FAQs donde buscas respuestas, no preguntas
- Dominios especializados (medicina, leyes, finanzas)

**‚ùå Cu√°ndo NO usar HyDE:**
- B√∫squeda de palabras clave exactas
- Aplicaciones de latencia cr√≠tica
- Presupuesto muy limitado
- Documentos y consultas ya bien alineados
- B√∫squeda de c√≥digo (donde sintaxis exacta importa)

#### üîß Opciones de Implementaci√≥n

**1. Manual (m√°s control):**
```python
hyde_doc = llm.invoke("Genera respuesta para: {query}")
results = vectorstore.similarity_search(hyde_doc)
```

**2. LangChain HypotheticalDocumentEmbedder (recomendado):**
```python
hyde_embedder = HypotheticalDocumentEmbedder.from_llm(
    llm=llm,
    base_embeddings=embeddings,
    prompt_key="web_search"  # o custom_prompt=...
)
```

#### üìà Comparaci√≥n con Otras T√©cnicas

| T√©cnica | Latencia | Costo | Precisi√≥n | Uso Ideal |
|---------|----------|-------|-----------|----------|
| **B√∫squeda Simple** | Baja | Bajo | ‚≠ê‚≠ê‚≠ê | Documentos y consultas alineados |
| **Query Expansion** | Media | Medio | ‚≠ê‚≠ê‚≠ê‚≠ê | Agregar sin√≥nimos |
| **HyDE** | Alta | Alto | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Vocabulary mismatch |
| **Query Decomposition** | Alta | Alto | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | Consultas complejas |

#### üí° Consejos Pr√°cticos

1. **Experimenta con diferentes prompt_keys** - Cada dominio puede funcionar mejor con diferentes prompts
2. **Combina con otras t√©cnicas** - HyDE + Reranking puede dar excelentes resultados
3. **Cachea documentos hipot√©ticos** - Si las consultas se repiten, guarda el documento hipot√©tico
4. **Monitorea la calidad** - Revisa qu√© documentos hipot√©ticos se generan
5. **A/B testing** - Compara resultados con y sin HyDE en tu caso de uso espec√≠fico