# LLMOps Workshop: 30-Minute Introduction

**Duration:** 30 minutes  
**Requirements:** Only local tools (no cloud services, no costs)

## What is LLMOps?

LLMOps (Large Language Model Operations) extends MLOps principles to manage the lifecycle of LLM applications:
- **Prompt Engineering & Versioning**
- **Model Evaluation & Testing**
- **Monitoring & Logging**
- **Deployment & Scaling**

## Workshop Overview
1. Setting up a local LLMOps environment
2. Prompt versioning and tracking
3. Simple evaluation metrics
4. Basic monitoring setup

## Part 1: Environment Setup (5 minutes)

We'll use only free, local tools:
- **Transformers** (Hugging Face) for local models
- **MLflow** for experiment tracking
- **JSON files** for simple logging

In [None]:
"""
INSTALACI√ìN DE DEPENDENCIAS PARA LLMOPS
=======================================

Este bloque instala todas las librer√≠as necesarias para el workshop de LLMOps.

Librer√≠as incluidas:
- transformers: Para cargar modelos de Hugging Face localmente
- torch: Motor de deep learning (PyTorch) requerido por transformers
- mlflow: Plataforma de tracking de experimentos de ML
- pandas: Manipulaci√≥n y an√°lisis de datos
- matplotlib: Visualizaci√≥n de datos
- seaborn: Gr√°ficos estad√≠sticos avanzados

Ejemplo de uso despu√©s de la instalaci√≥n:
from transformers import pipeline
generator = pipeline('text-generation', model='gpt2')

NOTA: Ejecutar solo una vez al inicio del workshop
"""
# Instalar paquetes requeridos (ejecutar solo una vez)
# Comentar la l√≠nea siguiente despu√©s de la primera ejecuci√≥n
!pip install transformers torch mlflow pandas matplotlib seaborn

In [None]:
"""
CONFIGURACI√ìN DEL ENTORNO LLMOPS LOCAL
=====================================

Este bloque configura el entorno base para nuestro pipeline de LLMOps.

Estructura de directorios creada:
üìÅ prompts/    -> Almacena versiones de prompts con metadatos
üìÅ logs/       -> Guarda m√©tricas y resultados de evaluaciones  
üìÅ experiments/ -> Tracking de experimentos y configuraciones

Librer√≠as importadas:
- json: Serializaci√≥n de datos de prompts y m√©tricas
- pandas: An√°lisis de datos de evaluaci√≥n
- matplotlib: Visualizaci√≥n de m√©tricas
- datetime: Timestamps para versionado
- transformers: Modelos de lenguaje locales
- mlflow: Tracking avanzado de experimentos
- os: Operaciones del sistema de archivos

Ejemplo de uso:
Los directorios permiten organizar:
- prompts/assistant_v1.json (versi√≥n 1 del prompt)
- logs/evaluation_metrics.json (m√©tricas guardadas)
- experiments/model_comparison.json (resultados de experimentos)
"""

import json
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from transformers import pipeline
import mlflow
import os

# Crear estructura de directorios para nuestro setup de LLMOps
# exist_ok=True evita errores si los directorios ya existen
os.makedirs('prompts', exist_ok=True)     # Versionado de prompts
os.makedirs('logs', exist_ok=True)        # M√©tricas y logs
os.makedirs('experiments', exist_ok=True) # Tracking de experimentos

print("‚úÖ Entorno LLMOps configurado correctamente!")

## Part 2: Load a Free Local Model (5 minutes)

We'll use a small, free model that runs locally without API costs.

In [None]:
"""
CARGA DE MODELO LOCAL PARA LLMOPS
=================================

Este bloque carga un modelo de lenguaje que funciona completamente local,
sin costos de API ni conexi√≥n a internet requerida.

Modelo seleccionado: microsoft/DialoGPT-small
- Tama√±o: ~117MB (modelo peque√±o y r√°pido)
- Tipo: Generaci√≥n de texto conversacional
- Ventajas: Gratuito, local, sin l√≠mites de tokens
- Desventajas: Menor calidad que modelos grandes (GPT-4, etc.)

Configuraci√≥n del pipeline:
- task='text-generation': Tipo de tarea (generaci√≥n de texto)
- return_full_text=False: Solo devuelve el texto generado (no el input)
- max_length=100: M√°ximo 100 tokens por respuesta

Ejemplo de uso despu√©s de cargar:
response = generator("Hola, ¬øc√≥mo est√°s?")
print(response[0]['generated_text'])

Alternativas de modelos locales:
- gpt2: Modelo base de OpenAI (m√°s general)
- distilgpt2: Versi√≥n m√°s r√°pida y ligera
- microsoft/DialoGPT-medium: Mejor calidad, m√°s pesado
"""

# Cargar modelo de generaci√≥n de texto local gratuito
print("Cargando modelo local DialoGPT-small...")
print("üìÅ Descargando ~117MB la primera vez...")

generator = pipeline(
    'text-generation',                    # Tarea: generaci√≥n de texto
    model='microsoft/DialoGPT-small',    # Modelo conversacional peque√±o
    return_full_text=False,              # Solo texto generado, no input
    max_length=100                       # M√°ximo 100 tokens por respuesta
)

print("‚úÖ Modelo cargado exitosamente!")
print("üöÄ Listo para generar texto localmente")

## Part 3: Prompt Versioning System (8 minutes)

Create a simple system to version and track prompts.

In [None]:
"""
SISTEMA DE VERSIONADO DE PROMPTS PARA LLMOPS
===========================================

Esta clase implementa un sistema de control de versiones para prompts,
fundamental en LLMOps para rastrear la evoluci√≥n y mejoras de prompts.

¬øPor qu√© versionar prompts?
- Reproducibilidad: Poder recrear exactamente un experimento
- A/B Testing: Comparar diferentes versiones de prompts
- Rollback: Volver a versiones anteriores si hay problemas
- Auditor√≠a: Rastrear qu√© cambios mejoraron el rendimiento

Estructura de datos guardada:
{
  "version": 1,
  "prompt": "Texto del prompt con {placeholders}",
  "description": "Descripci√≥n de los cambios",
  "created_at": "2024-01-15T10:30:00"
}

Ejemplo de evoluci√≥n de prompts:
v1: "Responde sobre: {tema}"
v2: "Como experto, explica detalladamente: {tema}"
v3: "Eres un especialista en {√°rea}. Explica {tema} con ejemplos pr√°cticos"

M√©todos de la clase:
- save_prompt(): Guarda nueva versi√≥n con metadatos autom√°ticos
- load_prompt(): Carga versi√≥n espec√≠fica o la m√°s reciente
"""

class PromptManager:
    """
    Gestor de versiones de prompts para LLMOps
    
    Permite guardar, cargar y versionar prompts con metadatos autom√°ticos.
    Cada prompt se guarda como JSON con timestamp y descripci√≥n.
    """
    
    def __init__(self, base_path='prompts'):
        """
        Inicializar el gestor de prompts
        
        Args:
            base_path (str): Directorio donde guardar los archivos de prompts
        """
        self.base_path = base_path
        self.current_version = 1
    
    def save_prompt(self, name, prompt, description=""):
        """
        Guardar una nueva versi√≥n de un prompt
        
        Args:
            name (str): Nombre identificador del prompt (ej: "assistant", "translator")
            prompt (str): Texto del prompt con placeholders opcionales {variable}
            description (str): Descripci√≥n de los cambios o prop√≥sito
            
        Returns:
            str: Ruta del archivo creado
            
        Ejemplo:
            pm.save_prompt("chatbot", "Responde como {persona}: {pregunta}", 
                          "A√±adido contexto de personalidad")
        """
        prompt_data = {
            'version': self.current_version,           # N√∫mero de versi√≥n auto-incrementado
            'prompt': prompt,                          # Texto del prompt
            'description': description,                # Descripci√≥n de cambios
            'created_at': datetime.now().isoformat()  # Timestamp ISO 8601
        }
        
        # Crear nombre de archivo con versi√≥n: assistant_v1.json
        filename = f"{self.base_path}/{name}_v{self.current_version}.json"
        
        # Guardar prompt con formato JSON legible (indent=2)
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(prompt_data, f, indent=2, ensure_ascii=False)
        
        self.current_version += 1
        return filename
    
    def load_prompt(self, name, version=None):
        """
        Cargar un prompt espec√≠fico por nombre y versi√≥n
        
        Args:
            name (str): Nombre del prompt a cargar
            version (int, optional): Versi√≥n espec√≠fica. Si None, carga la m√°s reciente
            
        Returns:
            dict: Datos del prompt incluyendo metadatos
            
        Ejemplo:
            prompt_data = pm.load_prompt("assistant", 1)
            texto = prompt_data['prompt'].format(tema="Python")
        """
        if version is None:
            version = self.current_version - 1  # Versi√≥n m√°s reciente
        
        filename = f"{self.base_path}/{name}_v{version}.json"
        
        with open(filename, 'r', encoding='utf-8') as f:
            return json.load(f)

# Inicializar el gestor de prompts
pm = PromptManager()

# Crear ejemplos de prompts con evoluci√≥n iterativa
prompt_v1 = "Generate a helpful response about: {topic}"
prompt_v2 = "As an expert assistant, provide detailed information about: {topic}"

# Guardar versiones con descripciones explicativas
pm.save_prompt("assistant", prompt_v1, "Prompt b√°sico inicial")
pm.save_prompt("assistant", prompt_v2, "Mejorado con persona de experto")

print("‚úÖ Sistema de versionado de prompts creado!")
print("üìÅ Archivos creados en directorio 'prompts/':")
print("   - assistant_v1.json (versi√≥n b√°sica)")
print("   - assistant_v2.json (versi√≥n con persona)")

## Part 4: Simple Evaluation Framework (7 minutes)

Create basic metrics to evaluate LLM responses.

In [None]:
"""
FRAMEWORK DE EVALUACI√ìN PARA LLMOPS
==================================

Esta clase implementa un sistema de evaluaci√≥n de respuestas de LLMs,
crucial para medir y mejorar la calidad de las respuestas generadas.

M√©tricas implementadas:
1. response_length: Longitud en caracteres de la respuesta
2. word_count: N√∫mero de palabras en la respuesta  
3. keyword_score: Porcentaje de palabras clave encontradas (0.0 - 1.0)

¬øPor qu√© evaluar respuestas LLM?
- Calidad: Medir si las respuestas son apropiadas
- Consistencia: Verificar comportamiento estable entre versiones
- Mejora continua: Identificar √°reas de optimizaci√≥n
- A/B Testing: Comparar diferentes prompts objetivamente

Estructura de m√©tricas guardadas:
{
  "timestamp": "2024-01-15T10:30:00",
  "prompt": "Prompt usado",
  "response": "Respuesta generada",
  "response_length": 150,
  "word_count": 25,
  "keyword_score": 0.75,
  "expected_keywords": ["algoritmo", "datos", "modelo"]
}

Ejemplo de evaluaci√≥n:
evaluator.evaluate_response(
    prompt="Explica machine learning",
    response="Machine learning usa algoritmos para analizar datos",
    expected_keywords=["algoritmo", "datos", "modelo"]
)
# Resultado: keyword_score = 0.67 (2 de 3 palabras encontradas)
"""

class LLMEvaluator:
    """
    Sistema de evaluaci√≥n de respuestas de modelos de lenguaje
    
    Calcula m√©tricas autom√°ticas para evaluar calidad y relevancia
    de las respuestas generadas por LLMs.
    """
    
    def __init__(self):
        """Inicializar evaluador con lista vac√≠a de m√©tricas"""
        self.metrics = []
    
    def evaluate_response(self, prompt, response, expected_keywords=None):
        """
        Evaluar una respuesta del LLM con m√∫ltiples m√©tricas
        
        Args:
            prompt (str): Prompt usado para generar la respuesta
            response (str): Respuesta generada por el modelo
            expected_keywords (list, optional): Palabras clave esperadas
            
        Returns:
            dict: Diccionario con todas las m√©tricas calculadas
            
        Ejemplo:
            metrics = evaluator.evaluate_response(
                prompt="¬øQu√© es Python?",
                response="Python es un lenguaje de programaci√≥n f√°cil de aprender",
                expected_keywords=["lenguaje", "programaci√≥n", "c√≥digo"]
            )
            print(f"Score: {metrics['keyword_score']}")  # 0.67
        """
        
        # M√©tricas b√°sicas de longitud
        response_length = len(response)                    # Caracteres totales
        word_count = len(response.split())                # Palabras totales
        
        # M√©trica de cobertura de palabras clave
        keyword_score = 0
        if expected_keywords:
            # Contar cu√°ntas keywords aparecen en la respuesta (case-insensitive)
            found_keywords = sum(
                1 for kw in expected_keywords 
                if kw.lower() in response.lower()
            )
            # Calcular porcentaje de cobertura (0.0 a 1.0)
            keyword_score = found_keywords / len(expected_keywords)
        
        # Estructura completa de m√©tricas con metadatos
        metrics = {
            'timestamp': datetime.now().isoformat(),       # Cu√°ndo se evalu√≥
            'prompt': prompt,                              # Prompt original
            'response': response,                          # Respuesta evaluada
            'response_length': response_length,            # M√©trica: longitud
            'word_count': word_count,                      # M√©trica: palabras
            'keyword_score': keyword_score,                # M√©trica: relevancia
            'expected_keywords': expected_keywords or []   # Keywords esperadas
        }
        
        # Agregar a la lista de m√©tricas para an√°lisis posterior
        self.metrics.append(metrics)
        return metrics
    
    def save_metrics(self, filename='logs/evaluation_metrics.json'):
        """
        Guardar todas las m√©tricas en archivo JSON
        
        Args:
            filename (str): Ruta donde guardar las m√©tricas
            
        Ejemplo:
            evaluator.save_metrics('experimento_01_metrics.json')
        """
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(self.metrics, f, indent=2, ensure_ascii=False)
    
    def get_summary(self):
        """
        Obtener resumen estad√≠stico de todas las m√©tricas
        
        Returns:
            pandas.DataFrame: Estad√≠sticas descriptivas (mean, std, min, max, etc.)
            
        Ejemplo:
            summary = evaluator.get_summary()
            print(f"Longitud promedio: {summary.loc['mean', 'response_length']}")
        """
        if not self.metrics:
            return "No hay m√©tricas disponibles para analizar"
        
        # Convertir m√©tricas a DataFrame para an√°lisis estad√≠stico
        df = pd.DataFrame(self.metrics)
        
        # Seleccionar solo columnas num√©ricas para estad√≠sticas
        numeric_columns = ['response_length', 'word_count', 'keyword_score']
        return df[numeric_columns].describe()

# Inicializar el evaluador
evaluator = LLMEvaluator()

print("‚úÖ Framework de evaluaci√≥n configurado!")
print("üìä M√©tricas disponibles:")
print("   - response_length: Longitud en caracteres")
print("   - word_count: N√∫mero de palabras")
print("   - keyword_score: Cobertura de palabras clave (0.0-1.0)")

## Part 5: Hands-on Example (5 minutes)

Let's test our LLMOps pipeline with real examples.

In [None]:
"""
EJEMPLO PR√ÅCTICO: PIPELINE COMPLETO DE LLMOPS
=============================================

Este bloque demuestra un pipeline completo de LLMOps ejecutando:
1. Carga de m√∫ltiples versiones de prompts
2. Generaci√≥n de respuestas con modelo local
3. Evaluaci√≥n comparativa de respuestas
4. Almacenamiento de m√©tricas para an√°lisis

Flujo del experimento:
üìù Cargar prompts v1 y v2
üéØ Formatear con temas de prueba  
ü§ñ Generar respuestas con modelo local
üìä Evaluar calidad con m√©tricas autom√°ticas
üíæ Guardar resultados para tracking

Temas de prueba seleccionados:
- "machine learning": Algoritmos de aprendizaje autom√°tico
- "data science": Ciencia de datos y an√°lisis
- "artificial intelligence": Inteligencia artificial

Palabras clave para evaluaci√≥n:
- "algorithm": Debe aparecer en respuestas t√©cnicas
- "data": Fundamental en temas de datos
- "model": Concepto clave en ML/AI
- "prediction": Objetivo com√∫n en estos campos

Comparaci√≥n A/B Testing:
- V1: Prompt b√°sico sin contexto espec√≠fico
- V2: Prompt con persona de "experto" para mejores respuestas
"""

# Configuraci√≥n del experimento de evaluaci√≥n comparativa
test_topics = ["machine learning", "data science", "artificial intelligence"]
test_keywords = ["algorithm", "data", "model", "prediction"]

print("üß™ Iniciando experimento de evaluaci√≥n comparativa")
print("üìã Temas a evaluar:", test_topics)
print("üîç Palabras clave esperadas:", test_keywords)
print("\n" + "="*60)

# Iterar sobre cada tema para evaluaci√≥n completa
for i, topic in enumerate(test_topics, 1):
    print(f"\nüìä Experimento {i}/3 - Tema: '{topic}'")
    
    # PASO 1: Cargar ambas versiones de prompts desde archivos JSON
    prompt_v1_data = pm.load_prompt("assistant", 1)  # Versi√≥n b√°sica
    prompt_v2_data = pm.load_prompt("assistant", 2)  # Versi√≥n con persona
    
    # PASO 2: Formatear prompts con el tema actual usando placeholders
    formatted_prompt_v1 = prompt_v1_data['prompt'].format(topic=topic)
    formatted_prompt_v2 = prompt_v2_data['prompt'].format(topic=topic)
    
    print(f"   üîÑ Prompts formateados para '{topic}'")
    
    # PASO 3: Generar respuestas usando el modelo local
    try:
        # Intentar generaci√≥n real con el modelo DialoGPT
        response_v1 = generator(formatted_prompt_v1, max_length=50, num_return_sequences=1)[0]['generated_text']
        response_v2 = generator(formatted_prompt_v2, max_length=50, num_return_sequences=1)[0]['generated_text']
        print(f"   ‚úÖ Respuestas generadas por modelo local")
        
    except Exception as e:
        # Fallback con respuestas simuladas si hay errores
        print(f"   ‚ö†Ô∏è  Modelo no disponible, usando respuestas simuladas")
        response_v1 = f"Basic information about {topic} including algorithms and data processing."
        response_v2 = f"As an expert, {topic} involves sophisticated algorithms, data analysis, and predictive modeling techniques."
    
    # PASO 4: Evaluar ambas respuestas con m√©tricas autom√°ticas
    eval_v1 = evaluator.evaluate_response(
        prompt=formatted_prompt_v1,
        response=response_v1,
        expected_keywords=test_keywords
    )
    
    eval_v2 = evaluator.evaluate_response(
        prompt=formatted_prompt_v2,
        response=response_v2,
        expected_keywords=test_keywords
    )
    
    # PASO 5: Mostrar comparaci√≥n de resultados
    print(f"   üìà Resultados comparativos:")
    print(f"      V1 (b√°sico)  - Longitud: {eval_v1['response_length']:3d} chars, Keywords: {eval_v1['keyword_score']:.2f}")
    print(f"      V2 (experto) - Longitud: {eval_v2['response_length']:3d} chars, Keywords: {eval_v2['keyword_score']:.2f}")
    
    # Determinar qu√© versi√≥n tuvo mejor rendimiento
    if eval_v2['keyword_score'] > eval_v1['keyword_score']:
        print(f"      üèÜ V2 (experto) obtuvo mejor keyword score")
    elif eval_v1['keyword_score'] > eval_v2['keyword_score']:
        print(f"      üèÜ V1 (b√°sico) obtuvo mejor keyword score")
    else:
        print(f"      ü§ù Ambas versiones obtuvieron el mismo keyword score")

print("\n" + "="*60)

# PASO 6: Guardar todas las m√©tricas para an√°lisis posterior
evaluator.save_metrics()
print("‚úÖ Experimento completado!")
print("üíæ M√©tricas guardadas en 'logs/evaluation_metrics.json'")
print("üìä Datos listos para an√°lisis y dashboard de monitoreo")

## Part 6: Simple Monitoring Dashboard (Bonus)

Create basic visualizations of our metrics.

In [None]:
"""
DASHBOARD DE MONITOREO PARA LLMOPS
=================================

Este bloque crea visualizaciones para monitorear el rendimiento del LLM,
elemento esencial en LLMOps para tracking continuo de la calidad.

Gr√°ficos generados:
1. Distribuci√≥n de longitud de respuestas
   - Identifica respuestas muy cortas (posibles errores)
   - Detecta respuestas muy largas (posible divagaci√≥n)
   - Muestra consistencia en la longitud de output

2. Distribuci√≥n de keyword score
   - Mide relevancia de respuestas (0.0 = irrelevante, 1.0 = perfecta)
   - Identifica problemas de calidad en prompts
   - Compara rendimiento entre versiones

¬øPor qu√© monitorear LLMs?
- Detectar degradaci√≥n de calidad en tiempo real
- Identificar prompts problem√°ticos
- Validar mejoras en nuevas versiones
- Mantener SLAs de calidad en producci√≥n

M√©tricas adicionales para producci√≥n:
- Tiempo de respuesta (latencia)
- Tasa de errores del modelo
- Costos de tokens (si usa APIs de pago)
- Satisfacci√≥n del usuario (feedback)

Alertas recomendadas:
- Keyword score < 0.3 (baja relevancia)
- Response length < 10 chars (respuestas muy cortas)
- Response length > 1000 chars (posible alucinaci√≥n)
"""

# Verificar si tenemos m√©tricas para visualizar
if evaluator.metrics:
    print("üìä Generando dashboard de monitoreo...")
    
    # Convertir m√©tricas a DataFrame para an√°lisis
    df = pd.DataFrame(evaluator.metrics)
    print(f"üìà Procesando {len(df)} evaluaciones realizadas")
    
    # Crear figura con 2 subplots lado a lado
    fig, axes = plt.subplots(1, 2, figsize=(15, 6))
    fig.suptitle('Dashboard de Monitoreo LLMOps', fontsize=16, fontweight='bold')
    
    # GR√ÅFICO 1: Distribuci√≥n de longitud de respuestas
    axes[0].hist(df['response_length'], bins=10, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0].set_title('Distribuci√≥n de Longitud de Respuestas', fontweight='bold')
    axes[0].set_xlabel('Caracteres')
    axes[0].set_ylabel('Frecuencia')
    axes[0].grid(True, alpha=0.3)
    
    # Agregar l√≠neas de referencia para alertas
    mean_length = df['response_length'].mean()
    axes[0].axvline(mean_length, color='red', linestyle='--', 
                   label=f'Promedio: {mean_length:.0f}')
    axes[0].legend()
    
    # GR√ÅFICO 2: Distribuci√≥n de keyword score
    axes[1].hist(df['keyword_score'], bins=10, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1].set_title('Distribuci√≥n de Keyword Score', fontweight='bold')
    axes[1].set_xlabel('Score (0.0 - 1.0)')
    axes[1].set_ylabel('Frecuencia')
    axes[1].grid(True, alpha=0.3)
    
    # Agregar l√≠neas de referencia para calidad
    mean_score = df['keyword_score'].mean()
    axes[1].axvline(mean_score, color='red', linestyle='--', 
                   label=f'Promedio: {mean_score:.2f}')
    axes[1].axvline(0.5, color='orange', linestyle=':', 
                   label='Umbral m√≠nimo: 0.5')
    axes[1].legend()
    
    # Ajustar layout y guardar dashboard
    plt.tight_layout()
    plt.savefig('logs/monitoring_dashboard.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print("‚úÖ Dashboard guardado en 'logs/monitoring_dashboard.png'")
    
    # AN√ÅLISIS ESTAD√çSTICO DETALLADO
    print("\nüìà Resumen Estad√≠stico Completo:")
    print("="*50)
    
    # Obtener estad√≠sticas descriptivas
    summary = evaluator.get_summary()
    print(summary)
    
    # ALERTAS AUTOM√ÅTICAS basadas en umbrales
    print("\nüö® Sistema de Alertas:")
    print("="*30)
    
    # Verificar m√©tricas problem√°ticas
    low_quality_responses = df[df['keyword_score'] < 0.3]
    very_short_responses = df[df['response_length'] < 10]
    very_long_responses = df[df['response_length'] > 500]
    
    if len(low_quality_responses) > 0:
        print(f"‚ö†Ô∏è  ALERTA: {len(low_quality_responses)} respuestas con baja relevancia (score < 0.3)")
    
    if len(very_short_responses) > 0:
        print(f"‚ö†Ô∏è  ALERTA: {len(very_short_responses)} respuestas muy cortas (< 10 caracteres)")
    
    if len(very_long_responses) > 0:
        print(f"‚ö†Ô∏è  ALERTA: {len(very_long_responses)} respuestas muy largas (> 500 caracteres)")
    
    if len(low_quality_responses) == 0 and len(very_short_responses) == 0 and len(very_long_responses) == 0:
        print("‚úÖ Todas las m√©tricas est√°n dentro de rangos aceptables")
    
    # RECOMENDACIONES AUTOM√ÅTICAS
    avg_score = df['keyword_score'].mean()
    if avg_score < 0.5:
        print(f"\nüí° Recomendaci√≥n: Keyword score promedio ({avg_score:.2f}) es bajo.")
        print("   Considera mejorar los prompts o ajustar las palabras clave esperadas.")
    elif avg_score > 0.8:
        print(f"\nüéâ Excelente: Keyword score promedio ({avg_score:.2f}) es muy bueno.")
    
else:
    print("üìä No hay m√©tricas disponibles para el dashboard.")
    print("   Ejecuta primero el bloque de evaluaci√≥n para generar datos.")

## Summary: What We Built (Bonus)

In 30 minutes, we created a complete local LLMOps pipeline:

### ‚úÖ Components Created:
1. **Prompt Versioning System** - Track and manage prompt evolution
2. **Local Model Integration** - No API costs, runs offline
3. **Evaluation Framework** - Measure response quality
4. **Simple Monitoring** - Basic metrics and visualizations
5. **Experiment Tracking** - Log all interactions and results

### üéØ Key LLMOps Principles Covered:
- **Reproducibility** - Version control for prompts
- **Evaluation** - Systematic quality measurement
- **Monitoring** - Track performance over time
- **Cost Management** - Use free, local resources

### üöÄ Next Steps:
- Integrate with MLflow for advanced experiment tracking
- Add more sophisticated evaluation metrics
- Implement automated testing pipelines
- Scale to production deployment