# RAG Avanzado 2025: De Recuperaci√≥n Simple a Agentes Inteligentes

## üéØ Objetivos de Aprendizaje

Al finalizar esta clase, los estudiantes ser√°n capaces de:

1. **Comprender la evoluci√≥n del RAG** desde implementaciones b√°sicas hasta sistemas agentic
2. **Implementar RAG moderno** usando Qdrant Cloud y LangGraph
3. **Dominar t√©cnicas avanzadas** como Self-RAG, Corrective RAG y Adaptive RAG
4. **Integrar m√∫ltiples fuentes de datos** (vectores, Excel/CSV, web search)
5. **Comparar enfoques** entre OpenAI Responses API y LangGraph custom
6. **Construir agentes RAG completos** con capacidades de toma de decisiones

## üìã √çndice del Contenido

### **Parte I: Fundamentos Modernos**
1. [Introducci√≥n al RAG en 2025](#introduccion)
2. [Configuraci√≥n del Entorno](#setup)
3. [RAG B√°sico con Qdrant Cloud](#rag-basico)

### **Parte II: Orchestraci√≥n Inteligente**
4. [Introducci√≥n a LangGraph](#langgraph)
5. [T√©cnicas RAG Avanzadas 2025](#tecnicas-avanzadas)
6. [RAG Multi-Fuente](#multi-fuente)

### **Parte III: Sistemas Agentic**
7. [OpenAI Responses API](#openai-responses)
8. [Agentic RAG Completo](#agentic-rag)
9. [Comparaci√≥n y Mejores Pr√°cticas](#comparacion)

---

## üöÄ ¬øQu√© es RAG en 2025?

El **Retrieval-Augmented Generation (RAG)** ha evolucionado significativamente desde sus inicios. En 2025, RAG no es solo "buscar y generar", sino un **ecosistema inteligente** que:

### **RAG Tradicional (2023)**
```
Usuario ‚Üí Embedding ‚Üí Vector DB ‚Üí Top-K ‚Üí LLM ‚Üí Respuesta
```

### **RAG Agentic (2025)**
```
Usuario ‚Üí Agente Inteligente ‚Üí An√°lisis de Consulta ‚Üí Router Din√°mico
                ‚Üì
[Vector DB | Web Search | Datos Estructurados | APIs]
                ‚Üì
Evaluaci√≥n de Relevancia ‚Üí Correcci√≥n Autom√°tica ‚Üí Generaci√≥n Contextual
```

### **Caracter√≠sticas Clave del RAG Moderno:**

- **üß† Inteligencia Adaptativa**: El sistema decide din√°micamente qu√© fuentes usar
- **üîÑ Auto-Correcci√≥n**: Detecta y corrige respuestas irrelevantes autom√°ticamente  
- **üìä Multi-Modal**: Combina texto, datos estructurados y b√∫squeda web
- **üéØ Context-Aware**: Mantiene estado y contexto a trav√©s de conversaciones
- **‚ö° Performance Optimizado**: B√∫squedas paralelas y re-ranking inteligente

---

## üîß Stack Tecnol√≥gico 2025

| Componente | Tecnolog√≠a | Prop√≥sito |
|------------|------------|-----------|
| **Vector Database** | Qdrant Cloud | Almacenamiento y b√∫squeda sem√°ntica |
| **Orchestraci√≥n** | LangGraph | Workflows agentic y toma de decisiones |
| **LLM Principal** | OpenAI GPT-4o | Generaci√≥n y razonamiento |
| **Embeddings** | OpenAI text-embedding-3-large | Representaci√≥n vectorial |
| **Web Search** | OpenAI/Tavily | Informaci√≥n en tiempo real |
| **Structured Data** | Pandas + LangChain | Datos tabulares y CSV/Excel |

---

**üéì Nota Pedag√≥gica**: Este notebook est√° dise√±ado para ense√±ar progresivamente desde conceptos b√°sicos hasta implementaciones estado del arte. Cada secci√≥n incluye teor√≠a, c√≥digo pr√°ctico y comparaciones con enfoques anteriores.

In [None]:
# üì¶ Instalaci√≥n de Dependencias 2025
# Actualizamos las librer√≠as para incluir las √∫ltimas versiones y nuevas herramientas

# üì¶ Instalaci√≥n de Dependencias 2025
# En esta secci√≥n listamos las dependencias necesarias para el entorno educativo de RAG.
# Usamos Poetry para gestionar versiones y asegurar reproducibilidad.
# Cada librer√≠a est√° seleccionada por su relevancia en el stack moderno de RAG y agentes IA.

# Versi√≥n de Python recomendada para compatibilidad con las √∫ltimas librer√≠as
# python = "^3.12"

# LangChain y extensiones para workflows RAG y agentes
# langchain-openai = "^0.3.28"         # Integraci√≥n directa con OpenAI (embeddings y LLM)
# langchain = "^0.3.26"                # Framework principal para RAG y chains
# langchain-community = "^0.3.27"      # Integraciones con fuentes y herramientas externas
# langchainhub = "^0.1.21"             # Acceso a prompts y chains predefinidos
# langchain-qdrant = "^0.2.0"          # Conector para Qdrant Cloud como vector store
# langchain-core = "^0.3.72"           # N√∫cleo de LangChain para chains y prompts
# langchain-experimental = "^0.3.4"    # Funcionalidades experimentales (MultiQuery, HyDE, etc.)

# Vector stores y bases de datos sem√°nticas
# qdrant-client = "^1.15.0"            # Cliente oficial para Qdrant Cloud
# faiss-cpu = "^1.11.0.post1"          # Alternativa local para b√∫squedas vectoriales

# Modelos y procesamiento de lenguaje
# transformers = "^4.53.3"             # Modelos de HuggingFace para embeddings alternativos

# Visualizaci√≥n y an√°lisis de datos
# matplotlib = "^3.10.3"               # Gr√°ficos est√°ticos
# plotly = "^6.2.0"                    # Gr√°ficos interactivos
# umap-learn = "^0.5.9.post2"          # Reducci√≥n de dimensionalidad para visualizaci√≥n de embeddings

# Manipulaci√≥n de datos estructurados
# pandas = "^2.3.1"                    # An√°lisis y manipulaci√≥n de datos tabulares
# scikit-learn = "^1.7.1"              # Algoritmos de machine learning y m√©tricas

# Utilidades para notebooks y entorno
# python-dotenv = "^1.0.1"             # Gesti√≥n de variables de entorno (API keys)
# nest-asyncio = "^1.6.0"              # Soporte para async en Jupyter
# ipywidgets = "^8.1.7"                # Widgets interactivos en notebooks
# nbformat = "^5.10.4"                 # Compatibilidad con formatos de notebook
# openpyxl = "^3.1.5"                  # Lectura/escritura de archivos Excel

# Web scraping y procesamiento de texto
# beautifulsoup4 = "^4.13.4"           # Extracci√≥n de datos de p√°ginas web

# Orquestaci√≥n avanzada de agentes
# langgraph = "^0.5.4"                 # Framework para agentes y workflows complejos

# Observabilidad y experiment tracking
# langsmith = "^0.4.8"                 # Seguimiento de experimentos y debugging de chains

# ‚úÖ Estas dependencias cubren todo el ciclo de aprendizaje de RAG moderno:
# - Chunking y embeddings
# - Vector stores en la nube y local
# - Orquestaci√≥n agentic
# - Visualizaci√≥n y an√°lisis
# - Integraci√≥n con APIs y datos estructurados

# üîß Configuraci√≥n del Entorno

## Variables de Entorno Necesarias

Para este notebook necesitar√°s configurar las siguientes API keys en tu archivo `.env`:

```bash
# OpenAI (para LLM y embeddings)
OPENAI_API_KEY=tu_openai_key_aqui

# Qdrant Cloud (para vector database)
QDRANT_URL=tu_qdrant_cloud_url
QDRANT_API_KEY=tu_qdrant_api_key

```

## üìã Servicios Necesarios

### **1. OpenAI API**
- Registrarse en: https://platform.openai.com/
- Crear API key y a√±adir cr√©ditos
- Usaremos GPT-4o y text-embedding-3-large

### **2. Qdrant Cloud**
- Registrarse en: https://cloud.qdrant.io/
- Crear cluster gratuito (1GB)
- Obtener URL y API key del dashboard

---

**üí° Tip**: En Google Colab, puedes usar `userdata.get('OPENAI_API_KEY')` en lugar de variables de entorno.

In [None]:
# üîë Configuraci√≥n de Credenciales y Imports
import os
import warnings
from dotenv import load_dotenv

# Suprimir warnings para output m√°s limpio
warnings.filterwarnings('ignore')

# Cargar variables de entorno
load_dotenv()

# Verificar que las credenciales est√©n configuradas
required_keys = ["OPENAI_API_KEY", "QDRANT_URL", "QDRANT_API_KEY"]
missing_keys = [key for key in required_keys if not os.getenv(key)]

if missing_keys:
    print(f"‚ö†Ô∏è  Faltan las siguientes variables de entorno: {missing_keys}")
    print("üìù Config√∫ralas en tu archivo .env o en Google Colab userdata")
else:
    print("‚úÖ Todas las credenciales est√°n configuradas correctamente")
    
# Test de conexi√≥n b√°sica
try:
    from openai import OpenAI
    client = OpenAI()
    print("‚úÖ Conexi√≥n con OpenAI establecida")
except Exception as e:
    print(f"‚ùå Error conectando con OpenAI: {e}")

# üìä Generaci√≥n de Datos Sint√©ticos

Para este tutorial usaremos datos sint√©ticos que simulan un escenario empresarial real. Generaremos:

1. **üìÑ Documentos de texto**: Art√≠culos sobre tecnolog√≠a e IA en espa√±ol
2. **üìà Datos estructurados**: CSV con m√©tricas empresariales  
3. **üë• Informaci√≥n de empleados**: Excel con datos ficticios

## ¬øPor qu√© Datos Sint√©ticos?

- **üéØ Prop√≥sito educativo**: Datos controlados para demostrar conceptos espec√≠ficos
- **üîí Privacidad**: No usamos datos reales sensibles
- **üé® Personalizaci√≥n**: Dise√±ados para mostrar diferentes t√©cnicas RAG
- **üìè Escalabilidad**: F√°ciles de modificar seg√∫n necesidades del curso

In [None]:
# üìÑ Generaci√≥n de Documentos de Texto
import pandas as pd
import json
from pathlib import Path

# Crear directorio para datos si no existe
data_dir = Path("synthetic_data")
data_dir.mkdir(exist_ok=True)

# Documentos sint√©ticos sobre tecnolog√≠a e IA
synthetic_documents = [
    {
        "title": "Introducci√≥n a la Inteligencia Artificial en 2025",
        "content": """La Inteligencia Artificial en 2025 ha revolucionado m√∫ltiples industrias. Los modelos de lenguaje grande (LLMs) como GPT-4 y Claude han democratizado el acceso a capacidades avanzadas de procesamiento de lenguaje natural. 

Las principales aplicaciones incluyen asistentes virtuales inteligentes, sistemas de recomendaci√≥n personalizados, y herramientas de automatizaci√≥n empresarial. La integraci√≥n de IA en procesos de negocio ha mejorado la eficiencia operativa en un 40% promedio.

Los desaf√≠os actuales incluyen la gesti√≥n de sesgos algor√≠tmicos, la interpretabilidad de modelos complejos, y el consumo energ√©tico de los centros de datos. Las empresas est√°n adoptando enfoques de IA responsable para mitigar estos riesgos.""",
        "category": "ai_general",
        "date": "2025-01-15"
    },
    {
        "title": "RAG y Recuperaci√≥n de Informaci√≥n: Estado del Arte",
        "content": """Retrieval-Augmented Generation (RAG) se ha consolidado como la t√©cnica m√°s efectiva para combinar conocimiento externo con modelos de lenguaje. Los sistemas RAG modernos incorporan m√∫ltiples fuentes de informaci√≥n: bases de datos vectoriales, APIs externas, y b√∫squeda web en tiempo real.

Las t√©cnicas avanzadas incluyen Self-RAG para auto-evaluaci√≥n de respuestas, Corrective RAG para correcci√≥n autom√°tica de errores, y Adaptive RAG para enrutamiento inteligente de consultas. Estas mejoras han incrementado la precisi√≥n de respuestas en un 60% comparado con implementaciones b√°sicas.

Los vectores embeddings m√°s utilizados son text-embedding-3-large de OpenAI y el modelo e5-large-v2 de Microsoft, ambos optimizados para tareas de recuperaci√≥n multiling√ºe.""",
        "category": "rag_technology",
        "date": "2025-01-20"
    },
    {
        "title": "Bases de Datos Vectoriales: Comparativa 2025",
        "content": """Las bases de datos vectoriales han experimentado un crecimiento exponencial. Qdrant, Pinecone, Weaviate y Chroma lideran el mercado con diferentes fortalezas.

Qdrant destaca por su rendimiento en b√∫squedas h√≠bridas (densas y dispersas), soporte nativo para filtros complejos, y escalabilidad horizontal. Su arquitectura permite manejar millones de vectores con latencias sub-100ms.

Pinecone ofrece simplicidad de uso y infraestructura completamente gestionada, ideal para startups y MVPs. Weaviate se enfoca en capacidades de GraphQL y b√∫squedas sem√°nticas complejas. Chroma prioriza la integraci√≥n con herramientas de desarrollo local.

La elecci√≥n depende de factores como volumen de datos, latencia requerida, presupuesto y complejidad de consultas.""",
        "category": "vector_databases",
        "date": "2025-01-25"
    },
    {
        "title": "LangGraph: Orchestraci√≥n de Agentes IA",
        "content": """LangGraph ha emergido como el framework l√≠der para construir sistemas agentic complejos. Su arquitectura basada en grafos permite crear workflows con m√∫ltiples nodos de decisi√≥n, estados persistentes, y capacidades de recovery.

Las principales ventajas incluyen debugging visual de flujos, checkpointing autom√°tico para recovery, y integraci√≥n nativa con herramientas externas. Los desarrolladores pueden crear agentes que combinan llamadas a APIs, consultas a bases de datos, y razonamiento multi-paso.

Casos de uso exitosos incluyen asistentes de investigaci√≥n cient√≠fica, sistemas de an√°lisis financiero automatizado, y chatbots empresariales con acceso a m√∫ltiples fuentes de datos. La curva de aprendizaje es moderada comparada con frameworks m√°s complejos.""",
        "category": "langgraph",
        "date": "2025-02-01"
    },
    {
        "title": "Pol√≠ticas de IA Empresarial y Governance",
        "content": """La governance de IA se ha vuelto cr√≠tica para organizaciones que implementan sistemas inteligentes. Las pol√≠ticas deben abordar transparencia algor√≠tmica, protecci√≥n de datos personales, y auditabilidad de decisiones automatizadas.

Los frameworks de governance m√°s adoptados incluyen el AI Risk Management Framework de NIST, las directrices de la EU AI Act, y los principios de Responsible AI de Microsoft y Google. Estos marcos proporcionan estructura para evaluaci√≥n de riesgos, documentaci√≥n de modelos, y monitoreo continuo.

Las mejores pr√°cticas incluyen establecer comit√©s de √©tica de IA, implementar sistemas de feedback de usuarios, y mantener registros detallados de decisiones del modelo. La inversi√≥n en governance reduce riesgos legales y mejora la confianza del usuario.""",
        "category": "ai_governance",
        "date": "2025-02-05"
    },
    {
        "title": "Integraci√≥n de OpenAI con Sistemas Empresariales",
        "content": """La integraci√≥n de APIs de OpenAI en sistemas empresariales requiere consideraciones especiales de seguridad, escalabilidad y costos. Las empresas implementan proxies y gateways para controlar acceso, monitorear uso, y implementar rate limiting.

Los patrones arquitect√≥nicos m√°s efectivos incluyen el uso de message queues para procesar requests asincr√≥nicamente, implementaci√≥n de caching para reducir costos de API, y sistemas de fallback para garantizar disponibilidad.

Las herramientas de observabilidad como LangSmith, Weights & Biases, y Helicone permiten monitorear rendimiento, trackear costos, y detectar anomal√≠as en tiempo real. La implementaci√≥n gradual con testing A/B minimiza riesgos operacionales.""",
        "category": "enterprise_integration",
        "date": "2025-02-10"
    }
]

# Guardar documentos como archivos de texto individuales
for i, doc in enumerate(synthetic_documents):
    filename = data_dir / f"doc_{i+1}_{doc['category']}.txt"
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(f"T√≠tulo: {doc['title']}\n")
        f.write(f"Fecha: {doc['date']}\n")
        f.write(f"Categor√≠a: {doc['category']}\n")
        f.write("=" * 50 + "\n\n")
        f.write(doc['content'])

# Tambi√©n guardar metadata en JSON
metadata_file = data_dir / "documents_metadata.json"
with open(metadata_file, 'w', encoding='utf-8') as f:
    json.dump(synthetic_documents, f, ensure_ascii=False, indent=2)

print(f"‚úÖ Generados {len(synthetic_documents)} documentos en '{data_dir}'")
print(f"üìã Categor√≠as: {set(doc['category'] for doc in synthetic_documents)}")

# Mostrar estad√≠sticas
total_words = sum(len(doc['content'].split()) for doc in synthetic_documents)
print(f"üìä Total de palabras: {total_words:,}")
print(f"üìà Promedio por documento: {total_words // len(synthetic_documents):,} palabras")

In [None]:
# üìà Generaci√≥n de Datos Estructurados
import numpy as np
from datetime import datetime, timedelta
import random

# Configurar seed para reproducibilidad
np.random.seed(42)
random.seed(42)

# 1. CSV con m√©tricas empresariales
print("üìä Generando m√©tricas empresariales...")

# Generar datos de ventas mensuales
months = pd.date_range(start='2024-01-01', end='2024-12-31', freq='M')
departments = ['Ventas', 'Marketing', 'Soporte T√©cnico', 'Desarrollo', 'Recursos Humanos']

sales_data = []
for month in months:
    for dept in departments:
        # Simular datos realistas con tendencias
        base_revenue = random.randint(50000, 200000)
        seasonal_factor = 1.2 if month.month in [11, 12] else 1.0  # Mayor ventas en fin de a√±o
        
        record = {
            'fecha': month.strftime('%Y-%m-%d'),
            'departamento': dept,
            'ingresos': int(base_revenue * seasonal_factor * (1 + np.random.normal(0, 0.1))),
            'gastos': int(base_revenue * 0.7 * (1 + np.random.normal(0, 0.15))),
            'empleados': random.randint(5, 25),
            'proyectos_activos': random.randint(2, 10),
            'satisfaccion_cliente': round(random.uniform(3.5, 5.0), 1),
            'horas_trabajadas': random.randint(160, 200)
        }
        record['beneficio'] = record['ingresos'] - record['gastos']
        sales_data.append(record)

sales_df = pd.DataFrame(sales_data)
sales_file = data_dir / "metricas_empresariales.csv"
sales_df.to_csv(sales_file, index=False, encoding='utf-8')

print(f"‚úÖ CSV generado: {sales_file}")
print(f"üìã {len(sales_df)} registros, {len(sales_df.columns)} columnas")
print(f"üè¢ Departamentos: {departments}")

# Mostrar muestra de datos
print("\nüìä Muestra de datos:")
print(sales_df.head())

# 2. Excel con informaci√≥n de empleados
print("\nüë• Generando datos de empleados...")

# Listas para generar nombres realistas
nombres = ['Ana', 'Carlos', 'Mar√≠a', 'Jos√©', 'Laura', 'David', 'Sofia', 'Miguel', 'Carmen', 'Javier',
          'Elena', 'Pablo', 'Luc√≠a', 'Antonio', 'Isabel', 'Francisco', 'Beatriz', 'Manuel', 'Teresa', 'Diego']
apellidos = ['Garc√≠a', 'Rodr√≠guez', 'Gonz√°lez', 'Fern√°ndez', 'L√≥pez', 'Mart√≠nez', 'S√°nchez', 'P√©rez', 
            'G√≥mez', 'Mart√≠n', 'Jim√©nez', 'Ruiz', 'Hern√°ndez', 'D√≠az', 'Moreno', 'Mu√±oz', '√Ålvarez']

positions = {
    'Ventas': ['Vendedor Junior', 'Vendedor Senior', 'Gerente de Ventas', 'Director Comercial'],
    'Marketing': ['Especialista Marketing', 'Community Manager', 'Gerente de Marketing', 'Director de Marketing'],
    'Soporte T√©cnico': ['T√©cnico Soporte', 'Especialista Senior', 'Supervisor Soporte', 'Gerente T√©cnico'],
    'Desarrollo': ['Desarrollador Junior', 'Desarrollador Senior', 'Tech Lead', 'Director de Tecnolog√≠a'],
    'Recursos Humanos': ['Asistente RRHH', 'Especialista RRHH', 'Gerente RRHH', 'Director de Personas']
}

employees_data = []
employee_id = 1000

for dept in departments:
    num_employees = random.randint(8, 15)  # Cada departamento tiene entre 8-15 empleados
    
    for _ in range(num_employees):
        name = f"{random.choice(nombres)} {random.choice(apellidos)}"
        position = random.choice(positions[dept])
        
        # Salarios basados en posici√≥n y experiencia
        salary_ranges = {
            'Junior': (35000, 50000),
            'Senior': (55000, 75000), 
            'Especialista': (50000, 70000),
            'Gerente': (70000, 95000),
            'Director': (95000, 150000),
            'Tech Lead': (80000, 120000),
            'Community Manager': (40000, 60000)
        }
        
        # Determinar rango salarial basado en t√≠tulo
        salary_range = (40000, 60000)  # default
        for key, range_val in salary_ranges.items():
            if key in position:
                salary_range = range_val
                break
                
        employee = {
            'id_empleado': employee_id,
            'nombre_completo': name,
            'departamento': dept,
            'posicion': position,
            'salario_anual': random.randint(salary_range[0], salary_range[1]),
            'fecha_ingreso': (datetime.now() - timedelta(days=random.randint(30, 1800))).strftime('%Y-%m-%d'),
            'email': f"{name.lower().replace(' ', '.')}@empresa.com",
            'telefono': f"+34 6{random.randint(10000000, 99999999)}",
            'nivel_experiencia': random.choice(['Junior', 'Mid', 'Senior']),
            'habilidades': ', '.join(random.sample(['Python', 'JavaScript', 'SQL', 'Excel', 'PowerBI', 
                                                  'Marketing Digital', 'CRM', 'An√°lisis de Datos', 
                                                  'Gesti√≥n de Proyectos', 'Comunicaci√≥n'], 
                                                random.randint(2, 5))),
            'evaluacion_performance': round(random.uniform(3.0, 5.0), 1),
            'dias_vacaciones_restantes': random.randint(5, 25)
        }
        employees_data.append(employee)
        employee_id += 1

employees_df = pd.DataFrame(employees_data)

# Crear Excel con m√∫ltiples hojas
excel_file = data_dir / "empleados_empresa.xlsx"
with pd.ExcelWriter(excel_file, engine='openpyxl') as writer:
    # Hoja principal con todos los empleados
    employees_df.to_excel(writer, sheet_name='Empleados', index=False)
    
    # Hoja con resumen por departamento
    dept_summary = employees_df.groupby('departamento').agg({
        'id_empleado': 'count',
        'salario_anual': ['mean', 'sum'],
        'evaluacion_performance': 'mean',
        'dias_vacaciones_restantes': 'sum'
    }).round(2)
    dept_summary.columns = ['Num_Empleados', 'Salario_Promedio', 'Salarios_Total', 
                           'Performance_Promedio', 'Vacaciones_Pendientes']
    dept_summary.to_excel(writer, sheet_name='Resumen_Departamental')
    
    # Hoja con estad√≠sticas de habilidades
    all_skills = []
    for skills_str in employees_df['habilidades']:
        all_skills.extend([skill.strip() for skill in skills_str.split(',')])
    
    skills_count = pd.Series(all_skills).value_counts()
    skills_df = pd.DataFrame({'Habilidad': skills_count.index, 'Frecuencia': skills_count.values})
    skills_df.to_excel(writer, sheet_name='Habilidades', index=False)

print(f"‚úÖ Excel generado: {excel_file}")
print(f"üë• {len(employees_df)} empleados generados")
print(f"üè¢ Distribuidos en {len(departments)} departamentos")

# Mostrar estad√≠sticas
print(f"\nüìä Estad√≠sticas de empleados:")
print(f"üí∞ Salario promedio: ${employees_df['salario_anual'].mean():,.0f}")
print(f"‚≠ê Performance promedio: {employees_df['evaluacion_performance'].mean():.1f}/5.0")
print(f"üèñÔ∏è Vacaciones pendientes: {employees_df['dias_vacaciones_restantes'].sum()} d√≠as totales")

# üóÇÔ∏è RAG B√°sico con Qdrant Cloud

## De FAISS Local a Qdrant Cloud: La Evoluci√≥n

### **¬øPor qu√© migrar de FAISS a Qdrant?**

| Caracter√≠stica | FAISS (Local) | Qdrant Cloud |
|----------------|---------------|--------------|
| **Escalabilidad** | Limitada por RAM | Horizontal, millones de vectores |
| **Persistencia** | Manual (save/load) | Autom√°tica |
| **B√∫squeda H√≠brida** | Solo densa | Densa + Sparse + Filtros |
| **Disponibilidad** | Solo local | API REST global |
| **Colaboraci√≥n** | Archivos compartidos | URL compartida |
| **Mantenimiento** | Manual | Gestionado |

### **Ventajas de Qdrant en 2025:**

- **üöÄ Performance**: B√∫squedas sub-100ms en millones de vectores
- **üîÑ Hybrid Search**: Combina embeddings densos con b√∫squeda l√©xica  
- **üìä Rich Filtering**: Filtros complejos por metadata
- **‚ö° Real-time Updates**: Inserci√≥n y actualizaci√≥n en tiempo real
- **üõ°Ô∏è Production Ready**: Backup autom√°tico, monitoring, security

In [None]:
# üîß Configuraci√≥n de Qdrant Cloud
from qdrant_client import QdrantClient
from langchain_qdrant import QdrantVectorStore  
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema import Document
import uuid

# Inicializar clientes
print("üöÄ Inicializando conexiones...")

In [None]:
try:
    # Cliente Qdrant
    qdrant_client = QdrantClient(
        url=os.getenv("QDRANT_URL"),
        api_key=os.getenv("QDRANT_API_KEY"),
    )
    
    # Test de conexi√≥n
    collections = qdrant_client.get_collections()
    print(f"‚úÖ Conectado a Qdrant Cloud")
    print(f"üìä Colecciones existentes: {len(collections.collections)}")
    
except Exception as e:
    print(f"‚ùå Error conectando con Qdrant: {e}")
    print("üí° Verifica tus credenciales QDRANT_URL y QDRANT_API_KEY")

In [None]:
# Crear colecci√≥n si no existe 
from qdrant_client.models import VectorParams, Distance

qdrant_client.create_collection(
    collection_name="rag_documents_test",
    vectors_config=VectorParams(size=1536, distance=Distance.COSINE)
)

In [None]:
# Eliminar colecci√≥n de prueba al final
# (Descomentar si se desea limpiar al final del notebook)
qdrant_client.delete_collection("rag_documents_test")

In [None]:
# Embeddings y LLM
embeddings = OpenAIEmbeddings(
    model="text-embedding-3-large",
    dimensions=256  # Dimensi√≥n reducida para eficiencia
)

In [None]:
# Configurar LLM
llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0.1
)

print("‚úÖ OpenAI embeddings y LLM configurados")

In [None]:
chunk_size = 10000
chunk_overlap = int(chunk_size * 0.25)  # 20% de overlap para evitar p√©rdida de contexto

# Configuraci√≥n para el splitting
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separators=["\n\n", "\n", ". ", " ", ""]
)

print("‚úÖ Text splitter configurado")
print(f"üìè Chunk size: {chunk_size} chars")
print(f"üîÑ Overlap: {chunk_overlap} chars")

In [None]:
# üìö Carga y Procesamiento de Documentos
print("üìñ Cargando documentos sint√©ticos...")

# Cargar todos los documentos de texto
documents = []
doc_files = list(data_dir.glob("*.txt"))
doc_files

### Use regex para extraer metadata

In [None]:
for doc_file in doc_files:
    print(f"üìÑ Procesando: {doc_file.name}")
    
    with open(doc_file, 'r', encoding='utf-8') as f:
        content = f.read()
    
    # Extraer metadata del contenido
    # Nota: En escenarios reales, la extracci√≥n de metadata podr√≠a hacerse usando un LLM con structured outputs.
    # Por ejemplo, podr√≠amos pedirle al modelo que identifique t√≠tulo, fecha, categor√≠a, etc. directamente del texto.
    # Aqu√≠ lo hacemos manualmente porque nosotros construimos el documento y el formato es controlado.
    lines = content.split('\n')
    title = lines[0].replace('T√≠tulo: ', '')
    date = lines[1].replace('Fecha: ', '')
    category = lines[2].replace('Categor√≠a: ', '')
    
    # El contenido real empieza despu√©s del separador
    content_start = content.find('=' * 50) + 52
    actual_content = content[content_start:].strip()
    
    # Crear documento con metadata rica
    doc = Document(
        page_content=actual_content,
        metadata={
            "title": title,
            "date": date, 
            "category": category,
            "source": str(doc_file),
            "doc_id": doc_file.stem
        }
    )
    documents.append(doc)

print(f"‚úÖ Cargados {len(documents)} documentos")

### Extracci√≥n de Metadata usando OpenAI

In [None]:
from pydantic import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate

# ü§ñ Extracci√≥n de Metadata con LLM
print("üß† Configurando extracci√≥n inteligente de metadata...")

# 1. Modelo Pydantic para metadata
class DocumentMetadata(BaseModel):
    """Clase para la extracci√≥n de metadata de documentos"""
    title: str = Field(description="T√≠tulo del documento que vas a reviar")
    date: str = Field(description="Fecha en formato YYYY-MM-DD, null si no hay fecha")
    category: str = Field(description="Categor√≠a del documento, por ejemplo 'tecnolog√≠a', 'negocios', etc.")
    resumen: str = Field(description="Resumen breve del contenido del documento en m√°ximo 20 palabras")

In [None]:
# 2. Prompt para extracci√≥n de metadata

prompt = ChatPromptTemplate.from_template(
    """Extrae la metadata del siguiente documento:

{document_content}
""")

In [None]:
# 2. Modelo de salida Pydantic
llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0.1
)

llm_with_structured_output = llm.with_structured_output(DocumentMetadata)

In [None]:
# 3. Cadena de extracci√≥n
extraction_chain = prompt | llm_with_structured_output

In [None]:
contenido_de_prueba = """
Date is: 2025-01-15
Introducci√≥n a la Inteligencia Artificial en 2025
==================================================

La Inteligencia Artificial en 2025 ha revolucionado m√∫ltiples industrias. Los modelos de lenguaje grande (LLMs) como GPT-4 y Claude han democratizado el acceso a capacidades avanzadas de procesamiento de lenguaje natural. 

Las principales aplicaciones incluyen asistentes virtuales inteligentes, sistemas de recomendaci√≥n personalizados, y herramientas de automatizaci√≥n empresarial. La integraci√≥n de IA en procesos de negocio ha mejorado la eficiencia operativa en un 40% promedio.

Los desaf√≠os actuales incluyen la gesti√≥n de sesgos algor√≠tmicos, la interpretabilidad de modelos complejos, y el consumo energ√©tico de los centros de datos. Las empresas est√°n adoptando enfoques de IA responsable para mitigar estos riesgos.
"""

response = extraction_chain.invoke({"document_content": contenido_de_prueba})

In [None]:
# 4. Funci√≥n para extraer metadata
def extract_metadata_with_llm(content: str, filename: str) -> dict:
    result = extraction_chain.invoke({"document_content": content})
    
    return {
        "title": result.title,
        "date": result.date,
        "category": result.category,
        "source": filename
    }

# 5. Procesar documentos
print("üìñ Procesando documentos...")

documents = []
for doc_file in doc_files:
    with open(doc_file, 'r', encoding='utf-8') as f:
        content = f.read()
    
    metadata = extract_metadata_with_llm(content, doc_file.name)
    
    doc = Document(page_content=content, metadata=metadata)
    documents.append(doc)
    
    print(f"‚úÖ {metadata['title']}")

print(f"\nüìÑ {len(documents)} documentos procesados con metadata LLM")


In [None]:
documents

In [None]:
# Mostrar estad√≠sticas de documentos
categories = [doc.metadata['category'] for doc in documents]
category_counts = pd.Series(categories).value_counts()

print(f"\nüìä Distribuci√≥n por categor√≠as:")
for cat, count in category_counts.items():
    print(f"  ‚Ä¢ {cat}: {count} documentos")

In [None]:
# Splitting de documentos
print(f"\n‚úÇÔ∏è  Dividiendo documentos en chunks...")
splits = text_splitter.split_documents(documents)

print(f"‚úÖ Generados {len(splits)} chunks")
print(f"üìä Promedio: {len(splits)/len(documents):.1f} chunks por documento")

In [None]:
splits

In [None]:
# Mostrar ejemplo de chunk
print(f"\nüîç Ejemplo de chunk:")
sample_chunk = splits[5]
print(f"üìù Contenido: {sample_chunk.page_content[:200]}...")
print(f"üè∑Ô∏è  Metadata: {sample_chunk.metadata}")

In [None]:
# üìè Estad√≠sticas de longitud de chunks

# Explicaci√≥n educativa:
# Analizar la longitud de los chunks es clave para entender c√≥mo el splitting afecta la granularidad de la b√∫squeda.
# Chunks muy cortos pueden perder contexto, mientras que chunks muy largos pueden dificultar la recuperaci√≥n precisa.

chunk_lengths = [len(chunk.page_content) for chunk in splits]
word_counts = [len(chunk.page_content.split()) for chunk in splits]

print(f"\nüìè Estad√≠sticas de chunks:")
print(f"  ‚Ä¢ Longitud promedio: {sum(chunk_lengths)/len(chunk_lengths):.0f} caracteres")
print(f"  ‚Ä¢ Chunk m√°s corto: {min(chunk_lengths)} caracteres") 
print(f"  ‚Ä¢ Chunk m√°s largo: {max(chunk_lengths)} caracteres")
print(f"  ‚Ä¢ Promedio de palabras por chunk: {sum(word_counts)/len(word_counts):.0f}")
print(f"  ‚Ä¢ Chunk con menos palabras: {min(word_counts)}")
print(f"  ‚Ä¢ Chunk con m√°s palabras: {max(word_counts)}")
print(f"  ‚Ä¢ Total de chunks: {len(splits)}")

# üöÄ Creaci√≥n del Vector Store en Qdrant Cloud

En esta secci√≥n vamos a construir nuestro **Vector Store** utilizando Qdrant Cloud. Este paso es fundamental para habilitar b√∫squedas sem√°nticas eficientes sobre nuestros documentos sint√©ticos. Aprender√°s c√≥mo indexar los chunks generados y realizar b√∫squedas vectoriales que ser√°n la base de nuestro sistema RAG moderno.

**¬øQu√© haremos?**
- Crear una colecci√≥n en Qdrant Cloud
- Indexar los documentos procesados y chunkificados
- Realizar una b√∫squeda de prueba para validar la indexaci√≥n

> üí° *Recuerda: El Vector Store es el coraz√≥n de cualquier sistema RAG, permitiendo recuperar informaci√≥n relevante de manera r√°pida y escalable.*

In [None]:
# üöÄ Creaci√≥n del Vector Store en Qdrant Cloud
import time
from qdrant_client.models import Distance, VectorParams, PointStruct

# Nombre de la colecci√≥n
collection_name = "rag_avanzado_2025"

print(f"üóÉÔ∏è  Creando colecci√≥n '{collection_name}' en Qdrant Cloud...")

In [None]:
try:
    # Verificar si la colecci√≥n ya existe
    existing_collections = [col.name for col in qdrant_client.get_collections().collections]
    
    if collection_name in existing_collections:
        print(f"‚ö†Ô∏è  La colecci√≥n '{collection_name}' ya existe. Elimin√°ndola...")
        qdrant_client.delete_collection(collection_name)
        time.sleep(2)  # Esperar a que se complete la eliminaci√≥n
    
    # Crear el vector store usando LangChain + Qdrant
    print("üîÑ Creando vector store e indexando documentos...")
    start_time = time.time()
    
    vector_store = QdrantVectorStore.from_documents(
        documents=splits,
        embedding=embeddings,
        url=os.getenv("QDRANT_URL"),
        api_key=os.getenv("QDRANT_API_KEY"),
        collection_name=collection_name,
        force_recreate=True,  # Recrear si existe
        batch_size = 1
    )
    
    index_time = time.time() - start_time
    
    print(f"‚úÖ Vector store creado exitosamente!")
    print(f"‚è±Ô∏è  Tiempo de indexado: {index_time:.2f} segundos")
    print(f"üìä {len(splits)} chunks indexados")
    
    # Verificar la colecci√≥n
    collection_info = qdrant_client.get_collection(collection_name)
    print(f"üîç Vectores en la colecci√≥n: {collection_info.vectors_count}")
    
except Exception as e:
    print(f"‚ùå Error creando vector store: {e}")
    raise

In [None]:
# Test b√°sico de b√∫squeda
print(f"\nüîç Probando b√∫squeda b√°sica...")

query = "¬øQu√© ventajas tiene Qdrant como base de datos vectorial?"
print(f"‚ùì Consulta: {query}")

# B√∫squeda simple
search_results = vector_store.similarity_search(query, k=5)

print(f"\nüìÑ Resultados encontrados:")
for i, result in enumerate(search_results, 1):
    print(f"\n--- Resultado {i} ---")
    print(f"üìö T√≠tulo: {result.metadata.get('title', 'N/A')}")
    print(f"üè∑Ô∏è  Categor√≠a: {result.metadata.get('category', 'N/A')}")
    print(f"üìù Contenido: {result.page_content[:200]}...")

In [None]:
# B√∫squeda con scores
print(f"\nüìä B√∫squeda con scores de similitud:")
search_with_scores = vector_store.similarity_search_with_score(query, k=3)

for i, (doc, score) in enumerate(search_with_scores, 1):
    print(f"\nüéØ Resultado {i} (Score: {score:.4f})")
    print(f"üìö {doc.metadata.get('title', 'N/A')}")
    print(f"üìù {doc.page_content[:150]}...")

## üîó Implementaci√≥n de RAG con LangChain

Ahora vamos a implementar un sistema RAG completo usando LangChain Expression Language (LCEL). Esto nos dar√° una base s√≥lida antes de migrar a LangGraph.

### **Componentes del Pipeline RAG:**

1. **üîç Retriever**: Busca documentos relevantes en Qdrant
2. **üìù Prompt Template**: Estructura la consulta con contexto
3. **ü§ñ LLM**: Genera respuesta basada en documentos recuperados  
4. **üîÑ Chain**: Conecta todos los componentes

### **Mejoras vs. Implementaci√≥n Anterior:**

- ‚úÖ **Vector Database en la nube** (Qdrant vs FAISS local)
- ‚úÖ **B√∫squeda con filtros** por metadata  
- ‚úÖ **Prompt engineering** mejorado
- ‚úÖ **Gesti√≥n de errores** robusta
- ‚úÖ **M√©tricas de performance** integradas

In [None]:
# üîó Creaci√≥n del Pipeline RAG con LCEL

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough, RunnableParallel
from langchain.callbacks import get_openai_callback

In [None]:
# 1. Configurar el Retriever
print("üîç Configurando retriever...")

retriever = vector_store.as_retriever(
    search_type="similarity",
    search_kwargs={
        "k": 5,  # Top 5 documentos m√°s relevantes
        "score_threshold": 0.1  # Solo documentos con alta similitud
    }
)

In [None]:
# 2. Funci√≥n para formatear documentos
def format_docs(docs):
    """
    Formatea los documentos recuperados para el prompt
    """
    formatted_docs = []
    for i, doc in enumerate(docs, 1):
        doc_text = f"[Documento {i}]\n"
        doc_text += f"T√≠tulo: {doc.metadata.get('title', 'N/A')}\n"
        doc_text += f"Categor√≠a: {doc.metadata.get('category', 'N/A')}\n"
        doc_text += f"Contenido: {doc.page_content}\n"
        formatted_docs.append(doc_text)
    
    return "\n" + "="*50 + "\n".join(formatted_docs)

In [None]:
# 3. Prompt Template Avanzado
prompt_template = ChatPromptTemplate.from_template("""
## ROL
Eres un asistente experto en tecnolog√≠a e inteligencia artificial.

## TAREA
Tu tarea es responder preguntas bas√°ndote √öNICAMENTE en la informaci√≥n proporcionada en los documentos.

## INSTRUCCIONES:
1. **Analiza cuidadosamente** todos los documentos proporcionados
2. **Responde SOLO** con informaci√≥n que est√© expl√≠citamente en los documentos  
3. **Cita las fuentes** mencionando t√≠tulos de documentos relevantes
4. **Si no encuentras informaci√≥n suficiente**, indica claramente qu√© falta
5. **Estructura tu respuesta** de manera clara y profesional

## FORMATO DE RESPUESTA:
- Usa p√°rrafos cortos y claros
- Incluye ejemplos si es relevante
- No uses jerga t√©cnica innecesaria

## CONTEXTO RECUPERADO:
{context}

## PREGUNTA DEL USUARIO:
{question}

## RESPUESTA:
Bas√°ndome en los documentos proporcionados:
""")

In [None]:
# 4. Construir la Chain con LCEL
print("üîó Construyendo cadena RAG...")

# Chain principal que combina contexto y pregunta (LCEL)
rag_chain = (
    RunnableParallel({
        "context": retriever | format_docs,
        "question": RunnablePassthrough()
    })
    | prompt_template
    | llm
    | StrOutputParser()
)

In [None]:
question = "¬øCu√°les son las ventajas de usar Qdrant como base de datos vectorial?"
response = rag_chain.invoke(question)
print(response)

In [None]:
print("‚úÖ Cadena RAG configurada exitosamente")

# 5. Funci√≥n de testing con m√©tricas
def test_rag_query(question, show_context=False):
    """
    Prueba el sistema RAG con una pregunta y muestra m√©tricas
    """
    print(f"‚ùì Pregunta: {question}")
    print("="*60)
    
    # Medir tiempo y tokens
    start_time = time.time()
    
    with get_openai_callback() as cb:
        # Obtener contexto recuperado (para debugging)
        if show_context:
            retrieved_docs = retriever.invoke(question)
            print("üìö DOCUMENTOS RECUPERADOS:")
            for i, doc in enumerate(retrieved_docs, 1):
                print(f"\n[Doc {i}] {doc.metadata.get('title', 'N/A')}")
                print(f"Score: N/A | Categor√≠a: {doc.metadata.get('category', 'N/A')}")
                print(f"Contenido: {doc.page_content[:200]}...")
            print("\n" + "="*60)
        
        # Generar respuesta
        response = rag_chain.invoke(question)
        
        end_time = time.time()
        
        # Mostrar respuesta
        print("ü§ñ RESPUESTA:")
        print(response)
        
        # Mostrar m√©tricas
        print(f"\nüìä M√âTRICAS:")
        print(f"‚è±Ô∏è  Tiempo total: {end_time - start_time:.2f} segundos")
        print(f"üé´ Tokens usados: {cb.total_tokens}")
        print(f"üí∞ Costo aproximado: ${cb.total_cost:.4f}")
        
        return response

# Test inicial
print("\n" + "="*80)
print("üß™ PRUEBA INICIAL DEL SISTEMA RAG")
print("="*80)

response = test_rag_query(
    "¬øQue dijo el presidente Biden en su discurso?",
    show_context=False
)

In [None]:
# üéØ Pruebas Finales del RAG B√°sico

print("üß™ BATER√çA DE PRUEBAS RAG B√ÅSICO")
print("="*80)

# Conjunto de preguntas de prueba diversas
test_questions = [
    "¬øQu√© es RAG y cu√°les son sus t√©cnicas avanzadas mencionadas?",
    "¬øCu√°les son las diferencias entre Qdrant, Pinecone y Weaviate?", 
    "¬øQu√© ventajas ofrece LangGraph para sistemas agentic?",
    "¬øCu√°les son los desaf√≠os principales de la IA en 2025?",
    "¬øQu√© consideraciones de governance debe tener una empresa que implementa IA?",
    "¬øC√≥mo se integra OpenAI con sistemas empresariales existentes?",
    "¬øQue dijo el presidente Biden en su discurso sobre el Covid?",
]

# Ejecutar todas las pruebas
results = []
total_time = 0

for i, question in enumerate(test_questions, 1):
    print(f"\nüìù PRUEBA {i}/{len(test_questions)}")
    print("-" * 50)
    
    start_time = time.time()
    try:
        response = test_rag_query(question, show_context=False)
        end_time = time.time()
        execution_time = end_time - start_time
        total_time += execution_time
        
        results.append({
            'question': question,
            'response': response,
            'time': execution_time,
            'status': 'success'
        })
        
    except Exception as e:
        print(f"‚ùå Error: {e}")
        results.append({
            'question': question,
            'response': None,
            'time': 0,
            'status': 'error',
            'error': str(e)
        })

# Resumen de resultados
print(f"\n" + "="*80)
print("üìä RESUMEN DE RESULTADOS")
print("="*80)

successful_tests = [r for r in results if r['status'] == 'success']
failed_tests = [r for r in results if r['status'] == 'error']

print(f"‚úÖ Pruebas exitosas: {len(successful_tests)}/{len(test_questions)}")
print(f"‚ùå Pruebas fallidas: {len(failed_tests)}/{len(test_questions)}")
print(f"‚è±Ô∏è  Tiempo total: {total_time:.2f} segundos")
print(f"üìà Tiempo promedio por consulta: {total_time/len(successful_tests):.2f} segundos")

if failed_tests:
    print(f"\nüîç Errores encontrados:")
    for test in failed_tests:
        print(f"  ‚Ä¢ {test['question'][:50]}... - {test['error']}")

# An√°lisis de calidad de respuestas
print(f"\nüìà AN√ÅLISIS DE CALIDAD")
print("-" * 50)

quality_metrics = {
    'responses_with_sources': 0,
    'responses_with_categories': 0,
    'comprehensive_responses': 0
}

for result in successful_tests:
    response = result['response'].lower()
    
    # Verificar si menciona fuentes/t√≠tulos
    if any(word in response for word in ['t√≠tulo', 'documento', 'seg√∫n', 'bas√°ndome']):
        quality_metrics['responses_with_sources'] += 1
    
    # Verificar si menciona categor√≠as espec√≠ficas  
    if any(cat in response for cat in ['rag', 'langgraph', 'qdrant', 'openai', 'governance']):
        quality_metrics['responses_with_categories'] += 1
        
    # Verificar respuestas comprehensivas (m√°s de 100 palabras)
    if len(response.split()) > 100:
        quality_metrics['comprehensive_responses'] += 1

print(f"üìö Respuestas que citan fuentes: {quality_metrics['responses_with_sources']}/{len(successful_tests)}")
print(f"üè∑Ô∏è  Respuestas espec√≠ficas por categor√≠a: {quality_metrics['responses_with_categories']}/{len(successful_tests)}")
print(f"üìù Respuestas comprehensivas: {quality_metrics['comprehensive_responses']}/{len(successful_tests)}")

print(f"\n‚úÖ RAG b√°sico con Qdrant implementado y probado exitosamente")
print(f"üöÄ Listo para migrar a LangGraph para capacidades agentic avanzadas")

# Otras Tecnicas Avanzadas para mejorar un RAG

## ‚úçÔ∏è Rewrite-Retrieve-Read: T√©cnica de Mejora de Consultas en RAG

La t√©cnica **Rewrite-Retrieve-Read** parte de la idea de que reescribir la consulta del usuario puede mejorar significativamente la recuperaci√≥n de informaci√≥n en sistemas RAG, especialmente cuando usamos modelos de lenguaje grande (LLMs). Al optimizar los t√©rminos de b√∫squeda, logramos una mayor alineaci√≥n sem√°ntica entre la consulta y los documentos, lo que se traduce en resultados m√°s relevantes y precisos.

### üö¶ Proceso Paso a Paso

1. **Reescritura de la consulta**  
    El LLM toma la consulta original y la transforma, enfoc√°ndose en mejorar los t√©rminos clave para la b√∫squeda.

2. **Recuperaci√≥n con la nueva consulta**  
    Se utiliza la consulta reescrita para buscar informaci√≥n en la base de datos o vector store, maximizando la relevancia de los resultados.

3. **Generaci√≥n de la respuesta**  
    El sistema genera la respuesta final combinando el contexto recuperado y la consulta original, asegurando precisi√≥n y cobertura.

---

### üéì Ventajas Educativas

- **Mejor alineaci√≥n sem√°ntica**: Reduce la brecha entre lo que el usuario pregunta y c√≥mo est√° indexada la informaci√≥n.
- **Resultados m√°s precisos**: Facilita la recuperaci√≥n de documentos realmente relevantes.
- **Aplicable a cualquier dominio**: √ötil tanto en preguntas t√©cnicas como generales.

---

> üí° *Esta t√©cnica es especialmente poderosa en escenarios donde las consultas de los usuarios son ambiguas, poco espec√≠ficas o contienen t√©rminos poco frecuentes. Reescribir la consulta ayuda al sistema a ‚Äúpensar como el buscador‚Äù, mejorando la experiencia y la calidad de las respuestas.*

In [None]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o", temperature=0.1)

In [None]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# Retrieve and generate using the relevant snippets of the blog.
retriever = vector_store.as_retriever()
prompt = ChatPromptTemplate.from_template("""‚ÄúRewrite the user‚Äôs query focusing on improving the search terms, make it vervose, mantain the original language.

Original query: {query}""")

improve_chain = prompt | llm | StrOutputParser()

improve_chain.invoke("Como siento ho?")

In [None]:
import time

# Implementaci√≥n simple.
pregunta_original = "president said of covid-19"

start_time = time.time()
pregunta_mejorada = improve_chain.invoke(pregunta_original)
improve_time = time.time()

print(f'Tiempo para mejorar la pregunta: {improve_time - start_time} segundos')
pregunta_mejorada

In [None]:
# Ahora usamos nuestro rag chain anterior usando el documento hipot√©tico como RAG
start_time = time.time()
respuesta = rag_chain.invoke(pregunta_mejorada)
response_time = time.time()

print(f'Tiempo para obtener la respuesta: {response_time - start_time} segundos')
respuesta

In [None]:
def readrewrite(question):
    pregunta_mejorada = improve_chain.invoke(question)
    respuesta = rag_chain.invoke(pregunta_mejorada)
    return respuesta

readrewrite(pregunta_original)

## Embeddings de Documentos Hipot√©ticos (HyDE)

### üß† ¬øQu√© es HyDE?

**Hypothetical Document Embeddings (HyDE)** es una t√©cnica avanzada para mejorar la recuperaci√≥n de informaci√≥n en sistemas RAG. En vez de buscar directamente con la consulta del usuario, HyDE utiliza un modelo de lenguaje (LLM) para generar un documento hipot√©tico que podr√≠a responder la pregunta. Este documento se convierte en embedding y se usa como vector de b√∫squeda, logrando una mayor alineaci√≥n sem√°ntica con los documentos relevantes.

---

### üöÄ ¬øPor qu√© usar HyDE?

- **Alineaci√≥n sem√°ntica mejorada**: El documento generado por el LLM utiliza el mismo lenguaje y contexto que los documentos reales, facilitando la recuperaci√≥n de informaci√≥n relevante.
- **Reducci√≥n de la brecha l√©xica**: Si la consulta del usuario usa t√©rminos diferentes a los del corpus, HyDE traduce la intenci√≥n al vocabulario adecuado.
- **Resultados m√°s precisos**: Al buscar con un embedding generado por el LLM, se incrementa la probabilidad de encontrar respuestas √∫tiles y contextuales.

---

### üìù Ejemplo de Flujo HyDE

1. **Usuario pregunta**: ‚Äú¬øQu√© dijo el presidente sobre Ketanji Brown Jackson?‚Äù
2. **LLM genera documento hipot√©tico**: Un p√°rrafo que podr√≠a responder la pregunta.
3. **Embedding del documento hipot√©tico**: Se convierte en vector y se usa para buscar en la base de datos.
4. **Recuperaci√≥n y respuesta**: Se obtienen los documentos m√°s relevantes y se genera la respuesta final.

---

### üéì Ventajas Educativas

- Permite experimentar con prompts y generaci√≥n de contexto.
- Demuestra c√≥mo los LLM pueden mejorar la b√∫squeda m√°s all√° de la consulta original.
- Facilita la comprensi√≥n de t√©cnicas modernas de RAG y retrieval sem√°ntico.

---

> üí° **HyDE es especialmente √∫til cuando las preguntas del usuario son ambiguas, poco espec√≠ficas o usan lenguaje diferente al corpus. Es una t√©cnica clave para sistemas RAG de √∫ltima generaci√≥n.**

In [None]:
import time
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI
from langchain.vectorstores import FAISS
from langchain.document_loaders import TextLoader

# Inicializar LLM
llm = ChatOpenAI(model="gpt-4.1-mini", temperature=0.1)

In [None]:
# Plantilla del sistema para HyDE
SYSTEM_TEMPLATE = """Generate a hypothetical parragraph that can answer the user's query.

Original query: {query}
"""

# Prompt template
prompt = ChatPromptTemplate.from_template(SYSTEM_TEMPLATE)
prompt

In [None]:
# LCEL - Hype Pipeline - With Outoput Parser
hyde_chain = prompt | llm | StrOutputParser()

hyde_chain.invoke('Porque Qdrant es una buena BBDD Vecorial')

In [None]:
# Pregunta
question = "Porque Qdrant es una buena BBDD Vecorial"

# Generar documento hipot√©tico
start_time = time.time()
hypothetical_document = hyde_chain.invoke(question)
hyde_time = time.time()

print(f'Tiempo para generar el documento hipot√©tico: {hyde_time - start_time} segundos')
hypothetical_document

In [None]:
# Cantidad
retriever = vector_store.as_retriever(search_kwargs={"k": 5})

# Prompt
prompt = ChatPromptTemplate.from_template("""You are an assistant for question-answering tasks.
Use the following pieces of retrieved context to answer the question.
If you don't know the answer, just say that you don't know.
Use three sentences maximum and keep the answer concise.

# Instructions
- Answer in spanish

Question: {question}

Context: {context}

Answer:""")

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# Recuperar documentos usando el documento hipot√©tico
start_time = time.time()
response = rag_chain.invoke(hypothetical_document)
response_time = time.time()

print(f'Tiempo para generar la respuesta: {response_time - start_time} segundos')
response

### MultiQueryRetriever Concepto

El MultiQueryRetriever es una t√©cnica avanzada que mejora la recuperaci√≥n de informaci√≥n dividiendo una consulta compleja en m√∫ltiples subconsultas m√°s simples y manejables. Cada subconsulta se enfoca en un aspecto espec√≠fico de la informaci√≥n buscada, lo que aumenta las posibilidades de recuperar documentos relevantes y precisos. Esta t√©cnica es especialmente √∫til cuando la consulta original del usuario es amplia o ambigua.

Proceso

1.	Descomposici√≥n de la consulta: La consulta original se divide en varias subconsultas m√°s peque√±as.
2.	Recuperaci√≥n de informaci√≥n: Cada subconsulta se utiliza para recuperar informaci√≥n de la base de datos.
3.	Combinaci√≥n de resultados: Los resultados de todas las subconsultas se combinan para formar la respuesta final.

In [None]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o", temperature=0.1)

In [None]:
import time
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.vectorstores import FAISS
from langchain.document_loaders import TextLoader
from pydantic import BaseModel, Field
from typing import List

# Creamos un modelo Pydantic para una lista de preguntas
class MultiQueryOutput(BaseModel):
    """
    Modelo para almacenar una lista de subconsultas generadas por el LLM.
    """
    questions: List[str] = Field(
        description="Lista de subconsultas generadas para mejorar la b√∫squeda"
    )

# Plantilla del sistema para dividir la consulta
SYSTEM_TEMPLATE = """Split the user's query into multiple smaller subqueries to improve the search.

# Instructions:
- Don¬¥t add numbers
- Provide 5 different questions

Original query: {query}

Your response:"""

# Our prompt
prompt = ChatPromptTemplate.from_template(SYSTEM_TEMPLATE)

llm_with_structured_output = llm.with_structured_output(MultiQueryOutput)

# The chain
mq_chain = prompt | llm_with_structured_output

In [None]:
# Question
question = 'Cual es el modelo estado del arte de LLM? y quien compite co GPT-4'

response = mq_chain.invoke(question)
response

In [None]:
# Mostrar las preguntas generadas
      
response.model_dump()['questions']

In [None]:
# Pregunta
question = "What did the president say about ketanji brown jackson?"

# Dividir la consulta en subconsultas
start_time = time.time()
subqueries = mq_chain.invoke(question)
subqueries = subqueries.model_dump()['questions']
mq_time = time.time()

print(f'Tiempo para dividir la consulta: {mq_time - start_time} segundos')
subqueries

In [None]:
# Cantidad
retriever = vector_store.as_retriever(search_kwargs={"k": 2})

# Recuperar documentos usando cada subconsulta
all_docs = []

start_time = time.time()

for subquery in subqueries:
    print(f'Recuperando documentos para la subconsulta: {subquery}')
    docs = retriever.invoke(subquery)

    # Add to the list
    all_docs.extend(docs)

retrieve_time = time.time()

print(f'Tiempo para recuperar documentos: {retrieve_time - start_time} segundos')
print(f'Q de Documentos {len(all_docs)}')

In [None]:
# Formateamos los documentos para agregarlos al contexto
formated_docs = "\n\n".join(doc.page_content for doc in all_docs)
formated_docs

In [None]:
# Pregunta
question = "What did the president say about ketanji brown jackson?"

# Prompt
prompt = ChatPromptTemplate.from_template("""You are an assistant for question-answering tasks.
Use the following pieces of retrieved context to answer the question.
If you don't know the answer, just say that you don't know.
Use three sentences maximum and keep the answer concise.

# Instructions
- Answer in spanish

Question: {question}

Context: {context}

Answer:""")

# Hacemos el RAG
rag_chain = prompt | llm | StrOutputParser()

# Recuperar documentos usando el documento hipot√©tico
start_time = time.time()
response = rag_chain.invoke({'question': question, 'context': formated_docs})
response_time = time.time()

print(f'Tiempo para generar la respuesta: {response_time - start_time} segundos')
response

In [None]:
print(response)