# üöÄ RAG Workshop 2025 - Bienvenida

## De Cero a Producci√≥n en 8 Horas

---

### üëã ¬°Bienvenido al Workshop!

En las pr√≥ximas 8 horas vas a:
- üéØ Entender qu√© es RAG y por qu√© es fundamental
- üõ†Ô∏è Construir tu propio sistema RAG desde cero
- ‚ö° Optimizar para reducir latencia un 75%
- üöÄ Desplegar en producci√≥n
- üí° Aplicar RAG a un caso real

### üìã Agenda del D√≠a

| Hora | M√≥dulo | Objetivo |
|------|--------|----------|
| 08:00-08:15 | Apertura | Setup y contexto |
| 08:15-09:30 | **M√≥dulo 1** | Fundamentos RAG |
| 09:30-09:45 | ‚òï Break | Networking |
| 09:45-11:15 | **M√≥dulo 2** | Arquitectura y Optimizaci√≥n |
| 11:15-12:00 | üçï Almuerzo | Recargar energ√≠a |
| 12:00-13:30 | **M√≥dulo 3** | Frameworks Avanzados |
| 13:30-13:45 | ‚òï Break | Stretch |
| 13:45-15:00 | **M√≥dulo 4** | Producci√≥n |
| 15:00-15:45 | **Proyecto** | Tu propio RAG |
| 15:45-16:00 | Cierre | Q&A y siguientes pasos |

## üîß Verificaci√≥n del Ambiente

Ejecuta las siguientes celdas para verificar que todo est√° configurado correctamente:

In [None]:
# Celda 1.5: Instalar dependencias (solo si es necesario)
# Si ves errores de "m√≥dulo no encontrado", ejecuta esta celda

import subprocess
import sys

def install_if_needed():
    """Instala dependencias solo si faltan"""
    
    # Verificar si ya est√°n instaladas
    missing = []
    
    try:
        import openai
    except ImportError:
        missing.append('openai')
    
    try:
        import chromadb
    except ImportError:
        missing.append('chromadb')
    
    try:
        import langchain
    except ImportError:
        missing.append('langchain')
    
    if not missing:
        print("‚úÖ Todas las dependencias ya est√°n instaladas!")
        return
    
    # Si faltan, instalar
    print(f"üì¶ Instalando dependencias faltantes: {', '.join(missing)}")
    print("‚è≥ Esto puede tomar 2-3 minutos...\n")
    
    # Instalar requirements.txt completo
    result = subprocess.run(
        [sys.executable, "-m", "pip", "install", "-r", "../requirements.txt", "-q"],
        capture_output=True,
        text=True
    )
    
    if result.returncode == 0:
        print("‚úÖ Instalaci√≥n completada!")
        print("\nüîÑ IMPORTANTE: Reinicia el kernel para usar las nuevas librer√≠as:")
        print("   1. Click en 'Kernel' ‚Üí 'Restart Kernel'")
        print("   2. Ejecuta las celdas desde el inicio\n")
    else:
        print("‚ùå Error en instalaci√≥n:")
        print(result.stderr)
        print("\nüí° Intenta manualmente en terminal:")
        print("   pip install -r requirements.txt")

# Ejecutar instalaci√≥n si es necesaria
install_if_needed()

In [None]:
# Celda 1: Verificar importaciones b√°sicas
print("üîç Verificando instalaci√≥n...\n")

import sys
import os
from pathlib import Path

# A√±adir src al path
sys.path.append(str(Path.cwd().parent / 'src'))

# Verificar Python
print(f"‚úÖ Python {sys.version.split()[0]}")

# Verificar librer√≠as principales
try:
    import openai
    print(f"‚úÖ OpenAI {openai.__version__}")
except:
    print("‚ùå OpenAI no instalado")

try:
    import chromadb
    print(f"‚úÖ ChromaDB {chromadb.__version__}")
except:
    print("‚ùå ChromaDB no instalado")

try:
    import langchain
    print(f"‚úÖ LangChain {langchain.__version__}")
except:
    print("‚ùå LangChain no instalado")

try:
    import llama_index
    print(f"‚úÖ LlamaIndex {llama_index.__version__}")
except:
    print("‚ùå LlamaIndex no instalado")

print("\n‚ú® Ambiente verificado!")

In [None]:
# Celda 2: Verificar API Key
from dotenv import load_dotenv
import os

# Cargar variables de entorno
load_dotenv(override=True)

# Verificar API Key
api_key = os.getenv("OPENAI_API_KEY")

if api_key and api_key.startswith("sk-"):
    print("‚úÖ API Key configurada correctamente")
    print(f"   Primeros caracteres: {api_key[:7]}...")
    
    # Validaci√≥n adicional: formato correcto
    if len(api_key) < 20:
        print("‚ö†Ô∏è  ADVERTENCIA: Tu API key parece demasiado corta. Verifica que sea correcta.")
else:
    print("‚ùå API Key no configurada o formato incorrecto")
    print("\nüìù Por favor:")
    print("1. Abre el archivo .env en la ra√≠z del proyecto")
    print("2. A√±ade tu API key: OPENAI_API_KEY=sk-...")
    print("3. Guarda el archivo")
    print("4. Ejecuta esta celda de nuevo")
    print("\nüí° Puedes obtener tu API key en: https://platform.openai.com/api-keys")

In [None]:
# Celda 3: Test de conexi√≥n con OpenAI y verificaci√≥n de cr√©ditos
from openai import OpenAI
import time

try:
    client = OpenAI(api_key=api_key)
    
    print("üîÑ Probando conexi√≥n con OpenAI...")
    start_time = time.time()
    
    # Test simple
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": "Di 'RAG Workshop Ready!' en 5 palabras"}],
        max_tokens=20
    )
    
    elapsed = (time.time() - start_time) * 1000
    
    print("‚úÖ Conexi√≥n con OpenAI exitosa!")
    print(f"‚è±Ô∏è  Latencia: {elapsed:.0f}ms")
    print(f"\nü§ñ Respuesta: {response.choices[0].message.content}")
    
    # Informaci√≥n sobre uso
    print(f"\nüí∞ Uso en esta query:")
    print(f"   - Tokens prompt: {response.usage.prompt_tokens}")
    print(f"   - Tokens respuesta: {response.usage.completion_tokens}")
    print(f"   - Total: {response.usage.total_tokens} tokens")
    print(f"   - Costo estimado: ~${response.usage.total_tokens * 0.0000015:.6f}")
    
    print("\n‚úÖ TODO LISTO PARA EL WORKSHOP! üéâ")
    
except Exception as e:
    error_msg = str(e)
    print(f"‚ùå Error conectando con OpenAI")
    print(f"   Error: {error_msg}\n")
    
    # Diagnosticar el error
    if "authentication" in error_msg.lower() or "invalid" in error_msg.lower():
        print("üîß SOLUCI√ìN: Tu API key no es v√°lida")
        print("   1. Verifica en: https://platform.openai.com/api-keys")
        print("   2. Genera una nueva si es necesario")
        print("   3. Actualiza tu archivo .env")
        
    elif "quota" in error_msg.lower() or "insufficient" in error_msg.lower():
        print("üîß SOLUCI√ìN: No tienes cr√©ditos suficientes")
        print("   1. Ve a: https://platform.openai.com/account/billing")
        print("   2. A√±ade m√≠nimo $5 USD de cr√©ditos")
        print("   3. Espera 5-10 minutos para que se reflejen")
        print("   4. Intenta de nuevo")
        
    elif "rate" in error_msg.lower():
        print("üîß SOLUCI√ìN: L√≠mite de tasa excedido")
        print("   1. Espera 1 minuto")
        print("   2. Ejecuta esta celda de nuevo")
        
    else:
        print("üîß SOLUCIONES GENERALES:")
        print("   - Verifica tu conexi√≥n a internet")
        print("   - Intenta recargar el notebook (F5)")
        print("   - Revisa el archivo .env")
        print(f"\nüìß Si persiste, contacta: aromero@secture.com")

In [None]:
# Celda 3.5: Verificar archivos de datos
from pathlib import Path

print("üìÇ Verificando archivos de datos...\n")

# Directorios y archivos requeridos
data_dir = Path("../data")
required_files = {
    "company_handbook.pdf": "Manual del empleado de ejemplo",
    "technical_docs.pdf": "Documentaci√≥n t√©cnica del sistema RAG",
    "faqs.json": "Preguntas frecuentes en formato JSON",
    "support_tickets.csv": "Tickets de soporte de ejemplo"
}

all_ok = True
for filename, description in required_files.items():
    file_path = data_dir / filename
    if file_path.exists():
        size_kb = file_path.stat().st_size / 1024
        print(f"‚úÖ {filename:25s} ({size_kb:.1f} KB) - {description}")
    else:
        print(f"‚ùå {filename:25s} - FALTANTE")
        all_ok = False

if all_ok:
    print("\n‚úÖ Todos los archivos de datos est√°n listos!")
else:
    print("\n‚ö†Ô∏è  FALTAN ARCHIVOS:")
    print("   Ejecuta en terminal: python src/utils.py --create-sample-data")
    print("   O descarga desde el repositorio original")

# Verificar directorios de trabajo
work_dirs = ["processed", "vectordb", "cache"]
print(f"\nüìÅ Directorios de trabajo:")
for dir_name in work_dirs:
    dir_path = data_dir / dir_name
    if dir_path.exists():
        print(f"‚úÖ data/{dir_name}/")
    else:
        print(f"‚ö†Ô∏è  data/{dir_name}/ (se crear√° autom√°ticamente)")

print("\n‚ú® Verificaci√≥n de archivos completada!")

## üéØ El Problema: LLMs Sin Contexto

Veamos por qu√© necesitamos RAG con un ejemplo real:

In [None]:
# Celda 4: Demostraci√≥n del problema
print("üîç EXPERIMENTO: LLM sin contexto empresarial\n")
print("="*50)

# Pregunta sobre datos espec√≠ficos de la empresa
pregunta = "¬øCu√°ntos d√≠as de vacaciones tienen los empleados en nuestra empresa?"

print(f"üìù Pregunta: {pregunta}\n")

# Sin RAG - El modelo no tiene contexto
response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": pregunta}]
)

print("‚ùå Respuesta SIN RAG:")
print("-"*40)
print(response.choices[0].message.content)
print("\n‚ö†Ô∏è Nota: El modelo no tiene informaci√≥n espec√≠fica de tu empresa!")

In [None]:
# Celda 5: Preview de la soluci√≥n con RAG
print("‚ú® PREVIEW: La misma pregunta CON RAG\n")
print("="*50)

# Simulamos contexto recuperado
contexto = """
Del Manual del Empleado (p√°gina 47):
- Empleados nuevos (0-5 a√±os): 22 d√≠as h√°biles
- Empleados senior (5-10 a√±os): 25 d√≠as h√°biles  
- Empleados veteran (10+ a√±os): 30 d√≠as h√°biles
- D√≠as adicionales por antig√ºedad cada 5 a√±os
- Posibilidad de comprar hasta 5 d√≠as extra
"""

# Con RAG - Proporcionamos contexto
prompt_con_rag = f"""
Contexto relevante:
{contexto}

Pregunta: {pregunta}

Responde bas√°ndote √öNICAMENTE en el contexto proporcionado.
"""

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": prompt_con_rag}]
)

print("‚úÖ Respuesta CON RAG:")
print("-"*40)
print(response.choices[0].message.content)
print("\nüéØ ¬°Esto es lo que construiremos hoy!")

## üìä M√©tricas que Vamos a Optimizar

Durante el d√≠a, mejoraremos estas m√©tricas progresivamente:

In [None]:
# Celda 6: Visualizar objetivos de mejora
import matplotlib.pyplot as plt
import numpy as np

# Datos de evoluci√≥n
modules = ['M√≥dulo 1\n(B√°sico)', 'M√≥dulo 2\n(Optimizado)', 'M√≥dulo 3\n(Avanzado)', 'M√≥dulo 4\n(Producci√≥n)']
latency = [2000, 1000, 800, 500]  # ms
cost = [0.010, 0.008, 0.006, 0.004]  # USD
accuracy = [70, 80, 85, 90]  # %

# Crear gr√°ficos
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(15, 5))

# Latencia
ax1.bar(modules, latency, color=['red', 'orange', 'yellow', 'green'])
ax1.set_ylabel('Latencia (ms)')
ax1.set_title('‚è±Ô∏è Reducci√≥n de Latencia')
ax1.set_ylim(0, 2500)
for i, v in enumerate(latency):
    ax1.text(i, v + 50, str(v), ha='center')

# Costo
ax2.bar(modules, cost, color=['red', 'orange', 'yellow', 'green'])
ax2.set_ylabel('Costo por query (USD)')
ax2.set_title('üí∞ Reducci√≥n de Costos')
ax2.set_ylim(0, 0.012)
for i, v in enumerate(cost):
    ax2.text(i, v + 0.0003, f'${v:.3f}', ha='center')

# Accuracy
ax3.bar(modules, accuracy, color=['red', 'orange', 'yellow', 'green'])
ax3.set_ylabel('Accuracy (%)')
ax3.set_title('üéØ Mejora en Precisi√≥n')
ax3.set_ylim(0, 100)
for i, v in enumerate(accuracy):
    ax3.text(i, v + 1, f'{v}%', ha='center')

plt.suptitle('üöÄ Evoluci√≥n de M√©tricas Durante el Workshop', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

print("\nüìà Mejoras que lograremos:")
print(f"- Latencia: {((latency[0]-latency[-1])/latency[0]*100):.0f}% m√°s r√°pido")
print(f"- Costo: {((cost[0]-cost[-1])/cost[0]*100):.0f}% m√°s barato")
print(f"- Accuracy: {accuracy[-1]-accuracy[0]}% m√°s preciso")

## üõ†Ô∏è Tu Kit de Herramientas

Durante el workshop usaremos:

In [None]:
# Celda 7: Explorar estructura del proyecto
print("üìÅ ESTRUCTURA DEL PROYECTO\n")
print("rag-workshop-2025/")
print("‚îÇ")
print("‚îú‚îÄ‚îÄ üìì notebooks/          # Tus notebooks de trabajo")
print("‚îÇ   ‚îú‚îÄ‚îÄ 00_inicio.ipynb   # ‚Üê Est√°s aqu√≠")
print("‚îÇ   ‚îú‚îÄ‚îÄ 01_fundamentos.ipynb")
print("‚îÇ   ‚îú‚îÄ‚îÄ 02_arquitectura.ipynb")
print("‚îÇ   ‚îú‚îÄ‚îÄ 03_frameworks.ipynb")
print("‚îÇ   ‚îú‚îÄ‚îÄ 04_produccion.ipynb")
print("‚îÇ   ‚îî‚îÄ‚îÄ 05_proyecto_final.ipynb")
print("‚îÇ")
print("‚îú‚îÄ‚îÄ üì¶ src/               # C√≥digo modular")
print("‚îÇ   ‚îú‚îÄ‚îÄ shared_config.py  # Configuraci√≥n compartida")
print("‚îÇ   ‚îú‚îÄ‚îÄ module_1_basics.py")
print("‚îÇ   ‚îú‚îÄ‚îÄ module_2_optimized.py")
print("‚îÇ   ‚îú‚îÄ‚îÄ module_3_advanced.py")
print("‚îÇ   ‚îî‚îÄ‚îÄ module_4_production.py")
print("‚îÇ")
print("‚îú‚îÄ‚îÄ üìä data/              # Documentos de prueba")
print("‚îÇ   ‚îú‚îÄ‚îÄ company_handbook.pdf")
print("‚îÇ   ‚îú‚îÄ‚îÄ technical_docs.pdf")
print("‚îÇ   ‚îî‚îÄ‚îÄ faqs.json")
print("‚îÇ")
print("‚îî‚îÄ‚îÄ üîß .env              # Tu configuraci√≥n (API keys)")

print("\n‚úÖ Todo listo para empezar!")

## üí° Tips para el Workshop

### üéØ Para aprovechar al m√°ximo:

1. **Experimenta sin miedo** - Los errores son aprendizaje
2. **Pregunta todo** - No hay preguntas tontas
3. **Toma notas** - Especialmente de los "aha moments"
4. **Comparte descubrimientos** - Todos aprendemos de todos
5. **Piensa en tu caso de uso** - ¬øD√≥nde aplicar√≠as RAG?

### ‚å®Ô∏è Atajos √∫tiles en Jupyter:

- `Shift + Enter` - Ejecutar celda y avanzar
- `Ctrl + Enter` - Ejecutar celda sin avanzar
- `Tab` - Autocompletar
- `Shift + Tab` - Ver documentaci√≥n
- `Esc + B` - Insertar celda abajo
- `Esc + DD` - Eliminar celda

### üîó Enlaces r√°pidos:

- [Documentaci√≥n OpenAI](https://platform.openai.com/docs)
- [LangChain Docs](https://python.langchain.com/)
- [LlamaIndex Docs](https://docs.llamaindex.ai/)
- [Canal Slack del Workshop](#)

## üöÄ ¬°Listos para Empezar!

### Siguiente paso:
üëâ Abre el notebook **`01_fundamentos.ipynb`** para comenzar con el M√≥dulo 1

---

**¬°Vamos a construir algo incre√≠ble!** üéâ