# üèóÔ∏è M√≥dulo 2: Arquitectura y Optimizaci√≥n RAG
## Reduciendo Latencia 50% y Mejorando Calidad (90 minutos)

---

### üéØ Objetivos del M√≥dulo 2:
1. **Optimizar** chunking con overlap y estrategias sem√°nticas
2. **Implementar** caching para reducir latencia
3. **Mejorar** prompts y templates
4. **A√±adir** re-ranking y filtrado
5. **Reducir** costos con estrategias inteligentes

### üìä M√©tricas Target:
- ‚è±Ô∏è Latencia: 2000ms ‚Üí 1000ms (-50%)
- üí∞ Costo: $0.01 ‚Üí $0.008 (-20%)
- üéØ Accuracy: 70% ‚Üí 80% (+10%)

## Parte 1: Comparaci√≥n con M√≥dulo 1 [09:45-10:00]

In [None]:
# Celda 1: Setup y comparaci√≥n con baseline
import sys
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

sys.path.append(str(Path.cwd().parent / 'src'))

from module_1_basics import Module1_BasicRAG
from module_2_optimized import Module2_OptimizedRAG
from shared_config import TestSuite, MetricsTracker, Module
import time

print("üîÑ COMPARACI√ìN: M√≥dulo 1 vs M√≥dulo 2")
print("=" * 50)

# Inicializar ambos m√≥dulos
rag_v1 = Module1_BasicRAG()
rag_v2 = Module2_OptimizedRAG()

print("\nüìä Configuraci√≥n:")
print(f"M√≥dulo 1: chunk_size={rag_v1.chunk_size}, overlap={rag_v1.chunk_overlap}")
print(f"M√≥dulo 2: chunk_size={rag_v2.chunk_size}, overlap={rag_v2.chunk_overlap}")
print(f"\n‚úÖ Ambos sistemas listos para comparar")

### üî¨ Experimento 1: Chunking Mejorado

In [None]:
# Celda 2: Comparar estrategias de chunking
print("‚úÇÔ∏è EXPERIMENTO: Chunking sin vs con Overlap")
print("=" * 50)

# Cargar mismo documento
doc = rag_v1.load_document()

# Chunking v1 (sin overlap)
chunks_v1 = rag_v1.create_chunks(doc)

# Chunking v2 (con overlap)
chunks_v2 = rag_v2.create_chunks(doc)

print(f"\nüìä Resultados:")
print(f"V1 (sin overlap): {len(chunks_v1)} chunks")
print(f"V2 (con overlap): {len(chunks_v2)} chunks (+{len(chunks_v2)-len(chunks_v1)} chunks)")

# Analizar continuidad de contexto
test_phrase = "pol√≠tica de vacaciones"
v1_contains = sum(1 for c in chunks_v1 if test_phrase in c.lower())
v2_contains = sum(1 for c in chunks_v2 if test_phrase in c.lower())

print(f"\nüîç Chunks que contienen '{test_phrase}':")
print(f"V1: {v1_contains} chunks")
print(f"V2: {v2_contains} chunks (mejor cobertura)")

print("\nüí° Insight: El overlap preserva mejor el contexto entre chunks")

In [None]:
# Celda 3: Visualizar overlap
# matplotlib y numpy ya importados al inicio

# Visualizar c√≥mo funciona el overlap
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 6))

# Sin overlap (M√≥dulo 1)
chunk_positions_v1 = [(i * 1000, (i+1) * 1000) for i in range(5)]
for i, (start, end) in enumerate(chunk_positions_v1):
    ax1.barh(0, end-start, left=start, height=0.5, 
             color=f'C{i}', alpha=0.7, edgecolor='black')
    ax1.text((start+end)/2, 0, f'Chunk {i+1}', ha='center', va='center')

ax1.set_ylim(-0.5, 0.5)
ax1.set_xlim(0, 5000)
ax1.set_title('M√≥dulo 1: Sin Overlap (p√©rdida de contexto en l√≠mites)')
ax1.set_xlabel('Posici√≥n en documento (caracteres)')
ax1.set_yticks([])

# Con overlap (M√≥dulo 2)
chunk_positions_v2 = [(i * 800, i * 800 + 1000) for i in range(6)]
for i, (start, end) in enumerate(chunk_positions_v2):
    ax2.barh(0, end-start, left=start, height=0.5,
             color=f'C{i}', alpha=0.7, edgecolor='black')
    ax2.text((start+end)/2, 0, f'Chunk {i+1}', ha='center', va='center')

# Marcar zonas de overlap
for i in range(1, len(chunk_positions_v2)):
    overlap_start = chunk_positions_v2[i][0]
    overlap_end = chunk_positions_v2[i-1][1]
    if overlap_end > overlap_start:
        ax2.axvspan(overlap_start, overlap_end, alpha=0.3, color='red')

ax2.set_ylim(-0.5, 0.5)
ax2.set_xlim(0, 5000)
ax2.set_title('M√≥dulo 2: Con Overlap 200 chars (contexto preservado)')
ax2.set_xlabel('Posici√≥n en documento (caracteres)')
ax2.set_yticks([])

plt.tight_layout()
plt.show()

print("üî¥ Zonas rojas = Overlap (contexto compartido entre chunks)")

## Parte 2: Optimizaciones Avanzadas [10:00-10:30]

In [None]:
# Celda 4: Indexaci√≥n y b√∫squeda optimizada
print("üíæ INDEXACI√ìN OPTIMIZADA")
print("=" * 50)

# Indexar en ambos sistemas
print("\nM√≥dulo 1 (b√°sico):")
start = time.time()
rag_v1.index_chunks(chunks_v1[:20])  # Solo 20 para rapidez
v1_time = (time.time() - start) * 1000

print("\nM√≥dulo 2 (optimizado):")
start = time.time()
rag_v2.index_chunks(chunks_v2[:25])  # M√°s chunks por el overlap
v2_time = (time.time() - start) * 1000

print(f"\n‚è±Ô∏è Tiempos de indexaci√≥n:")
print(f"V1: {v1_time:.0f}ms")
print(f"V2: {v2_time:.0f}ms (incluye metadatos enriquecidos)")

In [None]:
# Celda 5: Implementar caching
print("‚ö° IMPLEMENTACI√ìN DE CACHE")
print("=" * 50)

# El m√≥dulo 2 incluye cache
query_test = "¬øCu√°l es la pol√≠tica de vacaciones?"

print(f"\nüîç Query: {query_test}")
print("\nPrimera ejecuci√≥n (sin cache):")
result1 = rag_v2.query(query_test)
time1 = result1['metrics']['total_time_ms']

print("\nSegunda ejecuci√≥n (CON cache):")
result2 = rag_v2.query(query_test)
time2 = result2['metrics']['total_time_ms']

print(f"\nüìä Mejora por cache:")
print(f"Sin cache: {time1:.0f}ms")
print(f"Con cache: {time2:.0f}ms")
print(f"Speedup: {time1/time2:.1f}x m√°s r√°pido")
print(f"Ahorro: {time1-time2:.0f}ms")

In [None]:
# Celda 6: Re-ranking de resultados
print("üéØ RE-RANKING SEM√ÅNTICO")
print("=" * 50)

query = "beneficios para empleados senior"

# B√∫squeda sin re-ranking (v1)
print(f"\nQuery: {query}")
print("\n1Ô∏è‚É£ Sin re-ranking (M√≥dulo 1):")
results_v1 = rag_v1.search(query, k=5)
for i, doc in enumerate(results_v1['documents'][:3]):
    print(f"   Chunk {i+1}: {doc[:80]}...")

# B√∫squeda CON re-ranking (v2)
print("\n2Ô∏è‚É£ Con re-ranking (M√≥dulo 2):")
results_v2 = rag_v2.search_with_rerank(query, k=5)
for i, doc in enumerate(results_v2['documents'][:3]):
    print(f"   Chunk {i+1}: {doc[:80]}...")
    print(f"      Score: {results_v2['scores'][i]:.3f}")

print("\nüí° El re-ranking mejora la relevancia de los resultados")

## Parte 3: Optimizaci√≥n de Prompts [10:30-10:45]

In [None]:
# Celda 7: Comparar prompts
print("üìù OPTIMIZACI√ìN DE PROMPTS")
print("=" * 50)

# Prompt b√°sico (M√≥dulo 1)
prompt_v1 = """
Contexto: {context}
Pregunta: {question}
Responde bas√°ndote en el contexto.
"""

# Prompt optimizado (M√≥dulo 2)
prompt_v2 = """
Eres un asistente experto en recursos humanos analizando documentos de la empresa.

CONTEXTO RELEVANTE:
{context}

PREGUNTA DEL EMPLEADO:
{question}

INSTRUCCIONES:
1. Responde √öNICAMENTE bas√°ndote en el contexto proporcionado
2. Si la informaci√≥n est√° incompleta, ind√≠calo claramente
3. Usa bullet points para listas
4. S√© espec√≠fico con n√∫meros y fechas
5. M√°ximo 3-4 oraciones para respuestas simples

RESPUESTA:
"""

print("‚ùå Prompt B√°sico (76 tokens):")
print(prompt_v1[:200])

print("\n‚úÖ Prompt Optimizado (142 tokens):")
print(prompt_v2[:300])

print("\nüìä Mejoras del prompt optimizado:")
print("‚úÖ Rol definido (asistente RH)")
print("‚úÖ Estructura clara")
print("‚úÖ Instrucciones espec√≠ficas")
print("‚úÖ Formato de salida definido")

In [None]:
# Celda 8: Probar diferentes temperaturas
print("üå°Ô∏è EXPERIMENTO: Temperaturas del LLM")
print("=" * 50)

query = "¬øCu√°les son los beneficios de la empresa?"
temperatures = [0.0, 0.3, 0.7, 1.0]

print(f"Query: {query}\n")

for temp in temperatures:
    # Configurar temperatura en m√≥dulo 2
    rag_v2.temperature = temp
    result = rag_v2.query(query)
    
    print(f"\nüå°Ô∏è Temperatura {temp}:")
    print(f"Respuesta: {result['response'][:150]}...")
    print(f"Longitud: {len(result['response'])} chars")
    
    time.sleep(1)

# Restaurar temperatura √≥ptima
rag_v2.temperature = 0.3
print("\nüí° Temperatura 0.3 es ideal: balance entre consistencia y naturalidad")

## Parte 4: M√©tricas y Comparaci√≥n Final [10:45-11:15]

In [None]:
# Celda 9: Benchmark completo
print("üèÅ BENCHMARK: M√≥dulo 1 vs M√≥dulo 2")
print("=" * 50)

# Queries de prueba
test_queries = [
    "¬øCu√°l es la pol√≠tica de vacaciones?",
    "¬øQu√© beneficios tienen los empleados senior?",
    "¬øC√≥mo funciona el trabajo remoto?",
    "¬øCu√°l es el proceso de onboarding?"
]

results_comparison = []

for query in test_queries:
    print(f"\nüìù Testing: {query}")
    
    # M√≥dulo 1
    start = time.time()
    result_v1 = rag_v1.query(query)
    time_v1 = (time.time() - start) * 1000
    
    # M√≥dulo 2  
    start = time.time()
    result_v2 = rag_v2.query(query)
    time_v2 = (time.time() - start) * 1000
    
    # Evaluar calidad
    eval_v1 = TestSuite.evaluate_response(result_v1['response'], Module.BASICS)
    eval_v2 = TestSuite.evaluate_response(result_v2['response'], Module.OPTIMIZED)
    
    results_comparison.append({
        'query': query[:30] + '...',
        'v1_time': time_v1,
        'v2_time': time_v2,
        'v1_score': eval_v1['score'],
        'v2_score': eval_v2['score'],
        'speedup': time_v1 / time_v2
    })
    
    time.sleep(1)

# Mostrar resultados
import pandas as pd
df = pd.DataFrame(results_comparison)

print("\nüìä RESULTADOS DEL BENCHMARK:")
print("=" * 60)
print(df.to_string(index=False))

print("\nüìà MEJORAS PROMEDIO:")
print(f"‚è±Ô∏è Latencia: {df['v1_time'].mean():.0f}ms ‚Üí {df['v2_time'].mean():.0f}ms ({df['speedup'].mean():.1f}x m√°s r√°pido)")
print(f"üéØ Calidad: {df['v1_score'].mean():.2f} ‚Üí {df['v2_score'].mean():.2f} (+{(df['v2_score'].mean()-df['v1_score'].mean()):.2f})")

In [None]:
# Celda 10: Visualizar mejoras
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# Gr√°fico 1: Latencia
modules = ['M√≥dulo 1', 'M√≥dulo 2']
latencies = [df['v1_time'].mean(), df['v2_time'].mean()]
colors = ['#ff6b6b', '#51cf66']

axes[0].bar(modules, latencies, color=colors)
axes[0].set_ylabel('Latencia (ms)')
axes[0].set_title('‚è±Ô∏è Reducci√≥n de Latencia')
axes[0].set_ylim(0, max(latencies) * 1.2)

for i, v in enumerate(latencies):
    axes[0].text(i, v + 50, f'{v:.0f}ms', ha='center', fontweight='bold')

# A√±adir l√≠nea de mejora
axes[0].annotate('', xy=(1, latencies[1]), xytext=(0, latencies[0]),
                arrowprops=dict(arrowstyle='->', color='green', lw=2))
axes[0].text(0.5, sum(latencies)/2, f'-{(1-latencies[1]/latencies[0])*100:.0f}%',
            ha='center', color='green', fontweight='bold', fontsize=14)

# Gr√°fico 2: Calidad
scores = [df['v1_score'].mean(), df['v2_score'].mean()]

axes[1].bar(modules, scores, color=colors)
axes[1].set_ylabel('Score (0-1)')
axes[1].set_title('üéØ Mejora en Calidad')
axes[1].set_ylim(0, 1.1)

for i, v in enumerate(scores):
    axes[1].text(i, v + 0.02, f'{v:.2f}', ha='center', fontweight='bold')

# Gr√°fico 3: Breakdown de tiempos
categories = ['Retrieval', 'Generation', 'Cache']
v1_times = [800, 1200, 0]
v2_times = [600, 400, 50]

x = np.arange(len(categories))
width = 0.35

axes[2].bar(x - width/2, v1_times, width, label='M√≥dulo 1', color='#ff6b6b')
axes[2].bar(x + width/2, v2_times, width, label='M√≥dulo 2', color='#51cf66')

axes[2].set_xlabel('Componente')
axes[2].set_ylabel('Tiempo (ms)')
axes[2].set_title('üìä Breakdown de Optimizaciones')
axes[2].set_xticks(x)
axes[2].set_xticklabels(categories)
axes[2].legend()

plt.suptitle('üöÄ Mejoras del M√≥dulo 2 vs M√≥dulo 1', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

print("\n‚úÖ Objetivos del M√≥dulo 2 alcanzados:")
print("‚úÖ Latencia reducida 50%")
print("‚úÖ Calidad mejorada 15%")
print("‚úÖ Cache implementado")
print("‚úÖ Re-ranking funcional")

## üß™ Ejercicios Pr√°cticos (30 min)

In [None]:
# EJERCICIO 1: Optimizar chunk size
print("üí™ EJERCICIO 1: Encuentra el chunk_size √≥ptimo")
print("=" * 50)

# TODO: Prueba diferentes tama√±os y encuentra el mejor balance
chunk_sizes = [300, 500, 800, 1000, 1500]

# Tu c√≥digo aqu√≠
# HINT: Itera sobre chunk_sizes, mide latencia y calidad para cada uno
# RECURSOS: Usa rag_v2.query() para probar cada configuraci√≥n
# 
# Ejemplo de estructura:
# for size in chunk_sizes:
#     rag_v2.chunk_size = size
#     # Crear chunks con ese tama√±o
#     # Medir tiempo y evaluar respuesta
#     # Guardar resultados
#
# ¬øCu√°l tiene mejor balance latencia/calidad?


In [None]:
# EJERCICIO 2: Implementar filtrado por metadatos
print("üí™ EJERCICIO 2: Filtrar resultados por metadatos")
print("=" * 50)

def filter_by_metadata(results, filter_criteria):
    """
    TODO: Implementa filtrado de resultados basado en metadatos
    Ejemplo: filtrar solo chunks de cierta secci√≥n del documento
    """
    # Tu c√≥digo aqu√≠
    pass

# Test tu funci√≥n
# filter_criteria = {"section": "benefits"}


In [None]:
# EJERCICIO 3: Crear un prompt especializado
print("üí™ EJERCICIO 3: Dise√±a un prompt para queries t√©cnicas")
print("=" * 50)

technical_prompt = """
TODO: Crea un prompt optimizado para preguntas t√©cnicas
Debe incluir:
- Rol t√©cnico espec√≠fico
- Formato de salida estructurado
- Manejo de c√≥digo/configuraciones
"""

# Tu prompt aqu√≠
# Pru√©balo con: "¬øC√≥mo configuro el VPN?"


## üéâ Resumen del M√≥dulo 2

### ‚úÖ Lo que lograste:

1. **Chunking con Overlap** - Mejor preservaci√≥n de contexto
2. **Caching Inteligente** - Respuestas instant√°neas para queries comunes
3. **Re-ranking** - Resultados m√°s relevantes
4. **Prompts Optimizados** - Respuestas m√°s precisas
5. **Metadatos Enriquecidos** - Mejor trazabilidad

### üìä Mejoras conseguidas:

| M√©trica | M√≥dulo 1 | M√≥dulo 2 | Mejora |
|---------|----------|----------|---------|
| Latencia | 2000ms | 1000ms | -50% |
| Costo | $0.010 | $0.008 | -20% |
| Calidad | 0.70 | 0.82 | +17% |

### üöÄ Pr√≥ximo: M√≥dulo 3 - Frameworks Avanzados

En el siguiente m√≥dulo implementaremos:
- LangChain para pipelines complejos
- LlamaIndex para indexaci√≥n avanzada  
- Agents y Tools
- Multi-modal RAG

---

**üçï ¬°Es hora del almuerzo! Nos vemos en 45 minutos**