# üöÄ SEMANA 2: OPTIMIZACI√ìN DE AGENTES RAG
## De Funcional a Productivo

### üìã Objetivo
Optimizar el agente RAG de la Semana 1 enfoc√°ndonos en:
- **Prompts**: Dise√±ar prompts efectivos (Minimal, Est√°ndar, Profesional)
- **Par√°metros**: Ajustar temperature, max_tokens para mejor rendimiento
- **Costos**: Medir y optimizar el costo por consulta

### üéØ Lo que aprender√°s
1. Comparar diferentes estrategias de prompts
2. Ajustar par√°metros del LLM para balancear calidad/costo
3. Medir costos y tokens en tiempo real
4. Crear benchmarks para comparar mejoras

### üìö Requisitos previos
- ‚úÖ Haber completado Clase 1 (RAG b√°sico)
- ‚úÖ Tener el vectorstore creado (vectorstore_db/)
- ‚úÖ API Key de OpenAI configurada

---
## üì¶ CELDA 0: Setup Inicial

In [None]:
import os
from dotenv import load_dotenv
from openai import OpenAI
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import FAISS
from langchain_core.prompts import PromptTemplate
from langchain_core.messages import SystemMessage, HumanMessage
from langchain_core.callbacks import get_openai_callback
import json
from datetime import datetime
from time import time

# Cargar configuraci√≥n
load_dotenv()
api_key = os.getenv('OPENAI_API_KEY')

if not api_key:
    raise ValueError("‚ö†Ô∏è No se encontr√≥ OPENAI_API_KEY en el archivo .env")

print("‚úÖ SEMANA 2: OPTIMIZACI√ìN DE AGENTES RAG")
print("="*60)
print("Objetivo: De funcional a productivo")
print("Foco: Prompts, Par√°metros, Costos")
print("="*60)

---
## üì¶ CELDA 1: Cargar Agente de Semana 1

Vamos a cargar el vectorstore que creamos en la Clase 1, sin necesidad de recrear los embeddings (ahorro de costos).

In [None]:
print("\nüì¶ PASO 1: Cargando agente de Semana 1...\n")

# Configuraci√≥n
PDF_PATH = 'Documentos - PDF/Catalogo_Equipos_Construccion.pdf'
VECTORSTORE_DIR = "vectorstore_db"
EMBEDDING_MODEL = "text-embedding-3-small"

# Cargar vectorstore existente (sin recrear embeddings)
embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)

if os.path.exists(VECTORSTORE_DIR):
    print(f"‚úÖ Cargando FAISS de Semana 1 desde {VECTORSTORE_DIR}...")
    vectorstore = FAISS.load_local(VECTORSTORE_DIR, embeddings, 
                                   allow_dangerous_deserialization=True)
    print("‚úÖ Vector store cargado (sin costo de embeddings)")
else:
    print(f"‚ùå No se encontr√≥ {VECTORSTORE_DIR}")
    print("‚ö†Ô∏è Aseg√∫rate de haber completado Semana 1 primero")
    print("‚ö†Ô∏è Ejecuta el notebook de Clase 1 para crear el vectorstore")
    raise FileNotFoundError(f"No se encontr√≥ {VECTORSTORE_DIR}")

retriever = vectorstore.as_retriever(search_kwargs={"k": 3})
print("‚úÖ Retriever configurado: K=3")

---
## üìù CELDA 2: Definir los 3 Prompts para Comparar

Vamos a probar 3 estrategias diferentes de prompts:

1. **MINIMAL**: Muy simple, sin instrucciones detalladas
2. **EST√ÅNDAR**: Como el de Semana 1, con instrucciones b√°sicas
3. **PROFESIONAL**: Con Few-shot learning y Chain of Thought

In [None]:
print("\nüìù PASO 2: Definiendo 3 prompts diferentes...\n")

# PROMPT 1: MINIMAL (muy simple)
prompt_1_minimal = """Eres un asistente de Lazarus.
Responde la pregunta:

{context}

Pregunta: {question}

Respuesta:"""

# PROMPT 2: EST√ÅNDAR (como Semana 1)
prompt_2_estandar = """Eres un agente de atenci√≥n al cliente para Lazarus, 
especializado en equipos de construcci√≥n.

Usa la siguiente informaci√≥n de contexto para responder:

{context}

Pregunta: {question}

Instrucciones:
1. Solo usa informaci√≥n del contexto
2. Si no sabes, di "no tengo informaci√≥n"
3. S√© profesional y conciso
4. Responde en espa√±ol

Respuesta:"""

# PROMPT 3: PROFESIONAL (Few-shot + Chain of Thought)
prompt_3_profesional = """Eres un especialista t√©cnico de Grupo Lazarus 
con 25 a√±os de experiencia en construcci√≥n.

CONTEXTO DISPONIBLE:
{context}

PREGUNTA DEL CLIENTE:
{question}

INSTRUCCIONES CR√çTICAS:
1. ANALIZA paso a paso (Chain of Thought):
   - ¬øCu√°l es exactamente la pregunta?
   - ¬øQu√© informaci√≥n relevante hay en el contexto?
   - ¬øCu√°l es la mejor respuesta?

2. RESTRINGE tu respuesta:
   - SOLO usa informaci√≥n del contexto
   - Si no la tienes, responde: "No tengo informaci√≥n sobre eso"
   - NUNCA inventes especificaciones

3. ESTRUCTURA tu respuesta:
   - P√°rrafo 1: Respuesta directa
   - P√°rrafo 2: Detalles t√©cnicos
   - P√°rrafo 3: Recomendaci√≥n

4. EJEMPLO DE BUENA RESPUESTA:
   "Para equipos de demolici√≥n en concreto pesado, 
    recomendamos el TE-2000 porque [especificaci√≥n t√©cnica]. 
    Un caso similar fue [caso de √©xito]. 
    Le recomendamos que [acci√≥n]."

5. ESTILO:
   - Profesional pero amigable
   - M√°ximo 3 p√°rrafos
   - Incluye referencias t√©cnicas
   - Espa√±ol formal

RESPUESTA:"""

prompts = {
    "1_minimal": prompt_1_minimal,
    "2_estandar": prompt_2_estandar,
    "3_profesional": prompt_3_profesional
}

print("‚úÖ Prompt 1 (Minimal): Muy simple")
print("‚úÖ Prompt 2 (Est√°ndar): Como Semana 1")
print("‚úÖ Prompt 3 (Profesional): Few-shot + CoT")

---
## ‚öôÔ∏è CELDA 3: Funci√≥n para Hacer Consultas

Esta funci√≥n nos permite:
- Hacer una consulta al agente RAG
- Medir el tiempo de respuesta
- Trackear tokens y costos
- Comparar diferentes configuraciones

In [None]:
print("\n‚öôÔ∏è PASO 3: Preparando funci√≥n de consulta...\n")

def hacer_consulta(pregunta, prompt_template, llm_config):
    """
    Hacer una consulta y medir costo/tiempo
    
    Args:
        pregunta: La pregunta del usuario
        prompt_template: Template del prompt
        llm_config: Dict con par√°metros del LLM
    
    Returns:
        Dict con resultado, costo, tiempo, tokens
    """
    inicio = time()
    
    # Crear el LLM con la configuraci√≥n
    llm = ChatOpenAI(
        model=llm_config["model"],
        temperature=llm_config["temperature"],
        max_tokens=llm_config["max_tokens"]
    )
    
    # Obtener documentos relevantes
    docs = retriever.invoke(pregunta)
    contexto = "\n\n".join([doc.page_content for doc in docs])
    
    # Crear el prompt final
    prompt_final = prompt_template.format(
        context=contexto,
        question=pregunta
    )
    
    # Hacer la consulta con tracking de costos
    with get_openai_callback() as cb:
        response = llm.invoke([HumanMessage(content=prompt_final)])
        
        resultado = {
            "pregunta": pregunta,
            "respuesta": response.content,
            "tokens_total": cb.total_tokens,
            "tokens_prompt": cb.prompt_tokens,
            "tokens_completion": cb.completion_tokens,
            "costo_usd": cb.total_cost,
            "tiempo_segundos": time() - inicio,
            "documentos_usados": len(docs)
        }
    
    return resultado

print("‚úÖ Funci√≥n de consulta creada")
print("   Mide: costo, tiempo, tokens, calidad")

---
## üìã EJERCICIO 1: Comparar 3 Prompts

Vamos a ejecutar la misma pregunta con los 3 prompts diferentes y comparar:
- Calidad de la respuesta
- Tokens consumidos
- Costo por consulta
- Tiempo de respuesta

In [None]:
print("\n" + "="*60)
print("üìã EJERCICIO 1: COMPARAR 3 PROMPTS")
print("="*60)

pregunta_prueba = "¬øCu√°l es el mejor equipo para demolici√≥n de concreto?"

print(f"\nüéØ Pregunta de prueba:")
print(f'"{pregunta_prueba}"\n')

# Configuraci√≥n del LLM (igual para todos)
llm_config_base = {
    "model": "gpt-4o-mini",
    "temperature": 0.5,
    "max_tokens": 300
}

# Guardar resultados
resultados_prompts = {}

for nombre_prompt, template_prompt in prompts.items():
    print(f"‚ñ∂Ô∏è Ejecutando: {nombre_prompt.upper()}")
    print("-" * 60)
    
    resultado = hacer_consulta(pregunta_prueba, template_prompt, llm_config_base)
    resultados_prompts[nombre_prompt] = resultado
    
    print(f"üìù Respuesta:\n{resultado['respuesta'][:200]}...\n")
    print(f"üìä M√©tricas:")
    print(f"   - Tokens: {resultado['tokens_total']}")
    print(f"   - Costo: ${resultado['costo_usd']:.6f}")
    print(f"   - Tiempo: {resultado['tiempo_segundos']:.2f}s")
    print()

# Comparativa
print("\nüìä COMPARATIVA DE PROMPTS:")
print("-" * 60)
print(f"{'Prompt':<15} {'Tokens':<10} {'Costo':<10} {'Tiempo':<10}")
print("-" * 60)

for nombre, resultado in resultados_prompts.items():
    print(f"{nombre:<15} {resultado['tokens_total']:<10} "
          f"${resultado['costo_usd']:.6f}  {resultado['tiempo_segundos']:.2f}s")

mejor_prompt = min(resultados_prompts.items(), 
                   key=lambda x: x[1]['costo_usd'])
print(f"\nüèÜ Mejor por costo: {mejor_prompt[0]}")

---
## ‚öôÔ∏è EJERCICIO 2: Ajustar Par√°metros del LLM

Ahora vamos a usar el mejor prompt del ejercicio anterior y probar diferentes configuraciones de par√°metros:

- **Temperature**: Controla la creatividad (0 = determinista, 1 = creativo)
- **Max Tokens**: L√≠mite de tokens en la respuesta

Configuraciones:
- **A**: R√°pido y barato (temp=0.3, tokens=200)
- **B**: Balanceado (temp=0.5, tokens=300)
- **C**: Creativo (temp=0.7, tokens=400)

In [None]:
print("\n" + "="*60)
print("‚öôÔ∏è EJERCICIO 2: AJUSTAR PAR√ÅMETROS DEL LLM")
print("="*60)

# Usar el mejor prompt de Ejercicio 1
mejor_prompt_template = prompts["3_profesional"]

configuraciones = {
    "A_rapido_barato": {
        "model": "gpt-4o-mini",
        "temperature": 0.3,
        "max_tokens": 200
    },
    "B_balanceado": {
        "model": "gpt-4o-mini",
        "temperature": 0.5,
        "max_tokens": 300
    },
    "C_creativo": {
        "model": "gpt-4o-mini",
        "temperature": 0.7,
        "max_tokens": 400
    }
}

resultados_parametros = {}

for nombre_config, config in configuraciones.items():
    print(f"\n‚ñ∂Ô∏è Configuraci√≥n: {nombre_config.upper()}")
    print(f"   Temperature: {config['temperature']}")
    print(f"   Max tokens: {config['max_tokens']}")
    print("-" * 60)
    
    resultado = hacer_consulta(pregunta_prueba, mejor_prompt_template, config)
    resultados_parametros[nombre_config] = resultado
    
    print(f"Tokens: {resultado['tokens_total']} | "
          f"Costo: ${resultado['costo_usd']:.6f} | "
          f"Tiempo: {resultado['tiempo_segundos']:.2f}s")

# Comparativa
print("\nüìä COMPARATIVA DE PAR√ÅMETROS:")
print("-" * 60)
print(f"{'Config':<20} {'Temp':<8} {'Max_tok':<10} {'Costo':<10} {'Tiempo':<10}")
print("-" * 60)

for nombre, resultado in resultados_parametros.items():
    config = configuraciones[nombre]
    print(f"{nombre:<20} {config['temperature']:<8} {config['max_tokens']:<10} "
          f"${resultado['costo_usd']:.6f}  {resultado['tiempo_segundos']:.2f}s")

mejor_config = min(resultados_parametros.items(),
                   key=lambda x: x[1]['costo_usd'])
print(f"\nüèÜ Mejor relaci√≥n costo/calidad: {mejor_config[0]}")

---
## üí∞ EJERCICIO 3: Medir Costos Totales

Vamos a ejecutar 5 preguntas adicionales con la configuraci√≥n √≥ptima y calcular:
- Costo total
- Costo promedio por consulta
- Proyecci√≥n para 100 y 1000 consultas

In [None]:
print("\n" + "="*60)
print("üí∞ EJERCICIO 3: MEDIR COSTOS TOTALES")
print("="*60)

# Preguntas de prueba adicionales
preguntas_adicionales = [
    "¬øCu√°l es la diferencia entre TE-500 y TE-2000?",
    "¬øCu√°ntos tipos de demoledores tienen?",
    "¬øCu√°les son los equipos m√°s rentados?",
    "¬øOfrecen garant√≠a en los equipos?",
    "¬øCu√°l es la edad m√≠nima para rentar equipos?"
]

print("\nüéØ Ejecutando 5 preguntas adicionales con configuraci√≥n √≥ptima:")
print("-" * 60)

config_optima = resultados_parametros[mejor_config[0]]
mejor_config_dict = configuraciones[mejor_config[0]]
mejor_prompt_dict = mejor_prompt_template

costo_total_semana2 = 0
tokens_total_semana2 = 0
tiempo_total_semana2 = 0

for i, pregunta in enumerate(preguntas_adicionales, 1):
    resultado = hacer_consulta(pregunta, mejor_prompt_dict, mejor_config_dict)
    
    costo_total_semana2 += resultado['costo_usd']
    tokens_total_semana2 += resultado['tokens_total']
    tiempo_total_semana2 += resultado['tiempo_segundos']
    
    print(f"{i}. {pregunta[:50]}...")
    print(f"   Costo: ${resultado['costo_usd']:.6f} | Tokens: {resultado['tokens_total']}")

# Calcular promedio
promedio_costo = costo_total_semana2 / len(preguntas_adicionales)
promedio_tokens = tokens_total_semana2 / len(preguntas_adicionales)
promedio_tiempo = tiempo_total_semana2 / len(preguntas_adicionales)

print("\nüìä RESUMEN DE COSTOS (5 preguntas):")
print("-" * 60)
print(f"Costo total:      ${costo_total_semana2:.6f}")
print(f"Costo promedio:   ${promedio_costo:.6f} por pregunta")
print(f"Tokens promedio:  {promedio_tokens:.0f}")
print(f"Tiempo promedio:  {promedio_tiempo:.2f}s")
print(f"\nPara 100 preguntas: ${promedio_costo * 100:.4f}")
print(f"Para 1000 preguntas: ${promedio_costo * 1000:.2f}")

---
## üéØ BENCHMARK FINAL: Semana 1 vs Semana 2

Comparemos las mejoras obtenidas entre la implementaci√≥n b√°sica (Semana 1) y la optimizada (Semana 2)

In [None]:
print("\n" + "="*60)
print("üéØ BENCHMARK: SEMANA 1 vs SEMANA 2")
print("="*60)

# Datos de Semana 1 (hipot√©ticos, basados en configuraci√≥n no optimizada)
benchmark_semana1 = {
    "costo_promedio": 0.0008,
    "tokens_promedio": 850,
    "tiempo_promedio": 2.5,
    "satisfaccion": 70
}

benchmark_semana2 = {
    "costo_promedio": promedio_costo,
    "tokens_promedio": promedio_tokens,
    "tiempo_promedio": promedio_tiempo,
    "satisfaccion": 95  # Estimado: prompts mejores = mejor experiencia
}

print("\nüìä COMPARATIVA:")
print("-" * 60)
print(f"{'M√©trica':<25} {'Semana 1':<15} {'Semana 2':<15} {'Mejora'}")
print("-" * 60)

# Costo
mejora_costo = ((benchmark_semana1["costo_promedio"] - benchmark_semana2["costo_promedio"]) 
                 / benchmark_semana1["costo_promedio"] * 100)
print(f"{'Costo/pregunta':<25} "
      f"${benchmark_semana1['costo_promedio']:.6f}      "
      f"${benchmark_semana2['costo_promedio']:.6f}      "
      f"{mejora_costo:.1f}% ‚Üì")

# Tokens
mejora_tokens = ((benchmark_semana1["tokens_promedio"] - benchmark_semana2["tokens_promedio"]) 
                  / benchmark_semana1["tokens_promedio"] * 100)
print(f"{'Tokens/pregunta':<25} "
      f"{benchmark_semana1['tokens_promedio']:<15.0f} "
      f"{benchmark_semana2['tokens_promedio']:<15.0f} "
      f"{mejora_tokens:.1f}% ‚Üì")

# Tiempo
mejora_tiempo = ((benchmark_semana1["tiempo_promedio"] - benchmark_semana2["tiempo_promedio"]) 
                 / benchmark_semana1["tiempo_promedio"] * 100)
print(f"{'Tiempo respuesta':<25} "
      f"{benchmark_semana1['tiempo_promedio']:.2f}s         "
      f"{benchmark_semana2['tiempo_promedio']:.2f}s         "
      f"{mejora_tiempo:.1f}% ‚Üì")

# Satisfacci√≥n
mejora_satisfaccion = benchmark_semana2["satisfaccion"] - benchmark_semana1["satisfaccion"]
print(f"{'Satisfacci√≥n':<25} "
      f"{benchmark_semana1['satisfaccion']}%            "
      f"{benchmark_semana2['satisfaccion']}%            "
      f"+{mejora_satisfaccion}% ‚Üë")

print("\n" + "="*60)
print("‚ú® RESUMEN FINAL")
print("="*60)
print(f"""
‚úÖ SEMANA 2 LOGR√ì:
   ‚Ä¢ {mejora_costo:.1f}% menos costo
   ‚Ä¢ {mejora_tokens:.1f}% menos tokens
   ‚Ä¢ {mejora_tiempo:.1f}% m√°s r√°pido
   ‚Ä¢ {mejora_satisfaccion}% mejor satisfacci√≥n

üéØ RECOMENDACI√ìN:
   Usar configuraci√≥n de Semana 2
   Mejor calidad + Menor costo = Win-win

üí° PR√ìXIMOS PASOS:
   1. Documentar estos prompts
   2. Usar en producci√≥n
   3. Recopilar feedback real
   4. Semana 3: T√©cnicas a√∫n m√°s avanzadas
""")

---
## üìö Resumen de Aprendizajes

### ‚úÖ Lo que lograste en esta clase:

1. **Prompt Engineering**
   - Comparaste 3 estrategias de prompts diferentes
   - Aprendiste sobre Few-shot learning y Chain of Thought
   - Identificaste la importancia de instrucciones claras

2. **Optimizaci√≥n de Par√°metros**
   - Ajustaste temperature y max_tokens
   - Balanceaste calidad vs costo
   - Encontraste la configuraci√≥n √≥ptima

3. **Medici√≥n de Costos**
   - Trackeaste tokens en tiempo real
   - Calculaste costos por consulta
   - Proyectaste costos a escala

4. **Benchmarking**
   - Comparaste versiones diferentes
   - Mediste mejoras cuantificables
   - Tomaste decisiones basadas en datos

### üéØ Conceptos clave:

- **Temperature**: Controla la aleatoriedad (0 = determinista, 1 = creativo)
- **Max Tokens**: L√≠mite de longitud de respuesta
- **Few-shot Learning**: Dar ejemplos en el prompt
- **Chain of Thought**: Pedir al LLM que razone paso a paso
- **Cost Tracking**: Medir tokens y costos en tiempo real

### üí° Mejores pr√°cticas:

1. **Siempre medir antes de optimizar**: Necesitas m√©tricas baseline
2. **Probar m√∫ltiples configuraciones**: No hay una soluci√≥n √∫nica
3. **Balancear calidad y costo**: M√°s tokens ‚â† mejor calidad siempre
4. **Documentar decisiones**: Guarda las configuraciones que funcionan
5. **Iterar basado en feedback real**: Los usuarios tienen la √∫ltima palabra

### üöÄ Pr√≥ximos pasos:

1. Implementa la configuraci√≥n √≥ptima en tu aplicaci√≥n
2. Recopila feedback de usuarios reales
3. Ajusta seg√∫n necesidades espec√≠ficas
4. Contin√∫a a Semana 3 para t√©cnicas avanzadas

---

**¬°Felicidades! Has optimizado tu agente RAG de funcional a productivo. üéì**