# 🚀 RAG Workshop 2025 - Bienvenida

## De Cero a Producción en 8 Horas

---

### 👋 ¡Bienvenido al Workshop!

En las próximas 8 horas vas a:
- 🎯 Entender qué es RAG y por qué es fundamental
- 🛠️ Construir tu propio sistema RAG desde cero
- ⚡ Optimizar para reducir latencia un 75%
- 🚀 Desplegar en producción
- 💡 Aplicar RAG a un caso real

### 📋 Agenda del Día

| Hora | Módulo | Objetivo |
|------|--------|----------|
| 08:00-08:15 | Apertura | Setup y contexto |
| 08:15-09:30 | **Módulo 1** | Fundamentos RAG |
| 09:30-09:45 | ☕ Break | Networking |
| 09:45-11:15 | **Módulo 2** | Arquitectura y Optimización |
| 11:15-12:00 | 🍕 Almuerzo | Recargar energía |
| 12:00-13:30 | **Módulo 3** | Frameworks Avanzados |
| 13:30-13:45 | ☕ Break | Stretch |
| 13:45-15:00 | **Módulo 4** | Producción |
| 15:00-15:45 | **Proyecto** | Tu propio RAG |
| 15:45-16:00 | Cierre | Q&A y siguientes pasos |

## 🔧 Verificación del Ambiente

Ejecuta las siguientes celdas para verificar que todo está configurado correctamente:

In [None]:
# Celda 1: Verificar importaciones básicas
print("🔍 Verificando instalación...\n")

import sys
import os
from pathlib import Path

# Añadir src al path
sys.path.append(str(Path.cwd().parent / 'src'))

# Verificar Python
print(f"✅ Python {sys.version.split()[0]}")

# Verificar librerías principales
try:
    import openai
    print(f"✅ OpenAI {openai.__version__}")
except:
    print("❌ OpenAI no instalado")

try:
    import chromadb
    print(f"✅ ChromaDB {chromadb.__version__}")
except:
    print("❌ ChromaDB no instalado")

try:
    import langchain
    print(f"✅ LangChain {langchain.__version__}")
except:
    print("❌ LangChain no instalado")

try:
    import llama_index
    print(f"✅ LlamaIndex {llama_index.__version__}")
except:
    print("❌ LlamaIndex no instalado")

print("\n✨ Ambiente verificado!")

In [None]:
# Celda 2: Verificar API Key
from dotenv import load_dotenv
import os

# Cargar variables de entorno
load_dotenv(override=True)

# Verificar API Key
api_key = os.getenv("OPENAI_API_KEY")

if api_key and api_key.startswith("sk-"):
    print("✅ API Key configurada correctamente")
    print(f"   Primeros caracteres: {api_key[:7]}...")
    
    # Validación adicional: formato correcto
    if len(api_key) < 20:
        print("⚠️  ADVERTENCIA: Tu API key parece demasiado corta. Verifica que sea correcta.")
else:
    print("❌ API Key no configurada o formato incorrecto")
    print("\n📝 Por favor:")
    print("1. Abre el archivo .env en la raíz del proyecto")
    print("2. Añade tu API key: OPENAI_API_KEY=sk-...")
    print("3. Guarda el archivo")
    print("4. Ejecuta esta celda de nuevo")
    print("\n💡 Puedes obtener tu API key en: https://platform.openai.com/api-keys")

In [None]:
# Celda 3: Test de conexión con OpenAI y verificación de créditos
from openai import OpenAI
import time

try:
    client = OpenAI(api_key=api_key)
    
    print("🔄 Probando conexión con OpenAI...")
    start_time = time.time()
    
    # Test simple
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": "Di 'RAG Workshop Ready!' en 5 palabras"}],
        max_tokens=20
    )
    
    elapsed = (time.time() - start_time) * 1000
    
    print("✅ Conexión con OpenAI exitosa!")
    print(f"⏱️  Latencia: {elapsed:.0f}ms")
    print(f"\n🤖 Respuesta: {response.choices[0].message.content}")
    
    # Información sobre uso
    print(f"\n💰 Uso en esta query:")
    print(f"   - Tokens prompt: {response.usage.prompt_tokens}")
    print(f"   - Tokens respuesta: {response.usage.completion_tokens}")
    print(f"   - Total: {response.usage.total_tokens} tokens")
    print(f"   - Costo estimado: ~${response.usage.total_tokens * 0.0000015:.6f}")
    
    print("\n✅ TODO LISTO PARA EL WORKSHOP! 🎉")
    
except Exception as e:
    error_msg = str(e)
    print(f"❌ Error conectando con OpenAI")
    print(f"   Error: {error_msg}\n")
    
    # Diagnosticar el error
    if "authentication" in error_msg.lower() or "invalid" in error_msg.lower():
        print("🔧 SOLUCIÓN: Tu API key no es válida")
        print("   1. Verifica en: https://platform.openai.com/api-keys")
        print("   2. Genera una nueva si es necesario")
        print("   3. Actualiza tu archivo .env")
        
    elif "quota" in error_msg.lower() or "insufficient" in error_msg.lower():
        print("🔧 SOLUCIÓN: No tienes créditos suficientes")
        print("   1. Ve a: https://platform.openai.com/account/billing")
        print("   2. Añade mínimo $5 USD de créditos")
        print("   3. Espera 5-10 minutos para que se reflejen")
        print("   4. Intenta de nuevo")
        
    elif "rate" in error_msg.lower():
        print("🔧 SOLUCIÓN: Límite de tasa excedido")
        print("   1. Espera 1 minuto")
        print("   2. Ejecuta esta celda de nuevo")
        
    else:
        print("🔧 SOLUCIONES GENERALES:")
        print("   - Verifica tu conexión a internet")
        print("   - Intenta recargar el notebook (F5)")
        print("   - Revisa el archivo .env")
        print(f"\n📧 Si persiste, contacta: aromero@secture.com")

In [None]:
# Celda 3.5: Verificar archivos de datos
from pathlib import Path

print("📂 Verificando archivos de datos...\n")

# Directorios y archivos requeridos
data_dir = Path("../data")
required_files = {
    "company_handbook.pdf": "Manual del empleado de ejemplo",
    "technical_docs.pdf": "Documentación técnica del sistema RAG",
    "faqs.json": "Preguntas frecuentes en formato JSON",
    "support_tickets.csv": "Tickets de soporte de ejemplo"
}

all_ok = True
for filename, description in required_files.items():
    file_path = data_dir / filename
    if file_path.exists():
        size_kb = file_path.stat().st_size / 1024
        print(f"✅ {filename:25s} ({size_kb:.1f} KB) - {description}")
    else:
        print(f"❌ {filename:25s} - FALTANTE")
        all_ok = False

if all_ok:
    print("\n✅ Todos los archivos de datos están listos!")
else:
    print("\n⚠️  FALTAN ARCHIVOS:")
    print("   Ejecuta en terminal: python src/utils.py --create-sample-data")
    print("   O descarga desde el repositorio original")

# Verificar directorios de trabajo
work_dirs = ["processed", "vectordb", "cache"]
print(f"\n📁 Directorios de trabajo:")
for dir_name in work_dirs:
    dir_path = data_dir / dir_name
    if dir_path.exists():
        print(f"✅ data/{dir_name}/")
    else:
        print(f"⚠️  data/{dir_name}/ (se creará automáticamente)")

print("\n✨ Verificación de archivos completada!")

## 🎯 El Problema: LLMs Sin Contexto

Veamos por qué necesitamos RAG con un ejemplo real:

In [None]:
# Celda 4: Demostración del problema
print("🔍 EXPERIMENTO: LLM sin contexto empresarial\n")
print("="*50)

# Pregunta sobre datos específicos de la empresa
pregunta = "¿Cuántos días de vacaciones tienen los empleados en nuestra empresa?"

print(f"📝 Pregunta: {pregunta}\n")

# Sin RAG - El modelo no tiene contexto
response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": pregunta}]
)

print("❌ Respuesta SIN RAG:")
print("-"*40)
print(response.choices[0].message.content)
print("\n⚠️ Nota: El modelo no tiene información específica de tu empresa!")

In [None]:
# Celda 5: Preview de la solución con RAG
print("✨ PREVIEW: La misma pregunta CON RAG\n")
print("="*50)

# Simulamos contexto recuperado
contexto = """
Del Manual del Empleado (página 47):
- Empleados nuevos (0-5 años): 22 días hábiles
- Empleados senior (5-10 años): 25 días hábiles  
- Empleados veteran (10+ años): 30 días hábiles
- Días adicionales por antigüedad cada 5 años
- Posibilidad de comprar hasta 5 días extra
"""

# Con RAG - Proporcionamos contexto
prompt_con_rag = f"""
Contexto relevante:
{contexto}

Pregunta: {pregunta}

Responde basándote ÚNICAMENTE en el contexto proporcionado.
"""

response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": prompt_con_rag}]
)

print("✅ Respuesta CON RAG:")
print("-"*40)
print(response.choices[0].message.content)
print("\n🎯 ¡Esto es lo que construiremos hoy!")

## 📊 Métricas que Vamos a Optimizar

Durante el día, mejoraremos estas métricas progresivamente:

In [None]:
# Celda 6: Visualizar objetivos de mejora
import matplotlib.pyplot as plt
import numpy as np

# Datos de evolución
modules = ['Módulo 1\n(Básico)', 'Módulo 2\n(Optimizado)', 'Módulo 3\n(Avanzado)', 'Módulo 4\n(Producción)']
latency = [2000, 1000, 800, 500]  # ms
cost = [0.010, 0.008, 0.006, 0.004]  # USD
accuracy = [70, 80, 85, 90]  # %

# Crear gráficos
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(15, 5))

# Latencia
ax1.bar(modules, latency, color=['red', 'orange', 'yellow', 'green'])
ax1.set_ylabel('Latencia (ms)')
ax1.set_title('⏱️ Reducción de Latencia')
ax1.set_ylim(0, 2500)
for i, v in enumerate(latency):
    ax1.text(i, v + 50, str(v), ha='center')

# Costo
ax2.bar(modules, cost, color=['red', 'orange', 'yellow', 'green'])
ax2.set_ylabel('Costo por query (USD)')
ax2.set_title('💰 Reducción de Costos')
ax2.set_ylim(0, 0.012)
for i, v in enumerate(cost):
    ax2.text(i, v + 0.0003, f'${v:.3f}', ha='center')

# Accuracy
ax3.bar(modules, accuracy, color=['red', 'orange', 'yellow', 'green'])
ax3.set_ylabel('Accuracy (%)')
ax3.set_title('🎯 Mejora en Precisión')
ax3.set_ylim(0, 100)
for i, v in enumerate(accuracy):
    ax3.text(i, v + 1, f'{v}%', ha='center')

plt.suptitle('🚀 Evolución de Métricas Durante el Workshop', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

print("\n📈 Mejoras que lograremos:")
print(f"- Latencia: {((latency[0]-latency[-1])/latency[0]*100):.0f}% más rápido")
print(f"- Costo: {((cost[0]-cost[-1])/cost[0]*100):.0f}% más barato")
print(f"- Accuracy: {accuracy[-1]-accuracy[0]}% más preciso")

## 🛠️ Tu Kit de Herramientas

Durante el workshop usaremos:

In [None]:
# Celda 7: Explorar estructura del proyecto
print("📁 ESTRUCTURA DEL PROYECTO\n")
print("rag-workshop-2025/")
print("│")
print("├── 📓 notebooks/          # Tus notebooks de trabajo")
print("│   ├── 00_inicio.ipynb   # ← Estás aquí")
print("│   ├── 01_fundamentos.ipynb")
print("│   ├── 02_arquitectura.ipynb")
print("│   ├── 03_frameworks.ipynb")
print("│   ├── 04_produccion.ipynb")
print("│   └── 05_proyecto_final.ipynb")
print("│")
print("├── 📦 src/               # Código modular")
print("│   ├── shared_config.py  # Configuración compartida")
print("│   ├── module_1_basics.py")
print("│   ├── module_2_optimized.py")
print("│   ├── module_3_advanced.py")
print("│   └── module_4_production.py")
print("│")
print("├── 📊 data/              # Documentos de prueba")
print("│   ├── company_handbook.pdf")
print("│   ├── technical_docs.pdf")
print("│   └── faqs.json")
print("│")
print("└── 🔧 .env              # Tu configuración (API keys)")

print("\n✅ Todo listo para empezar!")

## 💡 Tips para el Workshop

### 🎯 Para aprovechar al máximo:

1. **Experimenta sin miedo** - Los errores son aprendizaje
2. **Pregunta todo** - No hay preguntas tontas
3. **Toma notas** - Especialmente de los "aha moments"
4. **Comparte descubrimientos** - Todos aprendemos de todos
5. **Piensa en tu caso de uso** - ¿Dónde aplicarías RAG?

### ⌨️ Atajos útiles en Jupyter:

- `Shift + Enter` - Ejecutar celda y avanzar
- `Ctrl + Enter` - Ejecutar celda sin avanzar
- `Tab` - Autocompletar
- `Shift + Tab` - Ver documentación
- `Esc + B` - Insertar celda abajo
- `Esc + DD` - Eliminar celda

### 🔗 Enlaces rápidos:

- [Documentación OpenAI](https://platform.openai.com/docs)
- [LangChain Docs](https://python.langchain.com/)
- [LlamaIndex Docs](https://docs.llamaindex.ai/)
- [Canal Slack del Workshop](#)

## 🚀 ¡Listos para Empezar!

### Siguiente paso:
👉 Abre el notebook **`01_fundamentos.ipynb`** para comenzar con el Módulo 1

---

**¡Vamos a construir algo increíble!** 🎉