# ‚ö° Evaluaci√≥n Modelo Optimizado - Sin Instalaciones

## Meta Day Uruguay 2025 - M√≥dulo 4: Testing Directo

Este notebook eval√∫a directamente el modelo `alvarezpablo/llama3.1-8b-finetune-metaday` **ya optimizado con Unsloth** sin reinstalar dependencias.

### üéØ Caracter√≠sticas:
- ‚úÖ **Sin instalaciones** - Usa dependencias existentes
- ‚ö° **Modelo pre-optimizado** - Ya tiene optimizaciones Unsloth
- üöÄ **Tu c√≥digo optimizado** - FastLanguageModel.for_inference() + chat templates
- üìä **Tests focalizados** - Evaluaci√≥n r√°pida y efectiva
- üéÆ **TextStreamer** - Visualizaci√≥n en tiempo real

### üîß Evita conflictos de:
- PyTorch versiones incompatibles
- torchaudio conflicts
- fastai dependencies

## üöÄ Configuraci√≥n Directa (Sin Instalaciones)

In [None]:
# Solo importar librer√≠as existentes
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
import time
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configurar dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"üîß Usando dispositivo: {device}")

if torch.cuda.is_available():
    print(f"üéÆ GPU: {torch.cuda.get_device_name(0)}")
    print(f"üíæ Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
    
    # Limpiar memoria GPU
    torch.cuda.empty_cache()
    print("üßπ Memoria GPU limpiada")

print("‚úÖ Configuraci√≥n completada sin instalaciones")

## ü§ñ Cargar Modelo Pre-optimizado

In [None]:
# Tu modelo fine-tuneado (ya optimizado con Unsloth)
model_name = "alvarezpablo/llama3.1-8b-finetune-metaday"

print(f"üì• Cargando modelo pre-optimizado: {model_name}")
print("‚è≥ Esto puede tomar unos minutos...")

# Cargar tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Configurar pad token si no existe
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    print("üîß Pad token configurado")

# Cargar modelo con configuraci√≥n optimizada
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
    device_map="auto" if device == "cuda" else None,
    trust_remote_code=True,
    low_cpu_mem_usage=True  # Optimizaci√≥n de memoria
)

if device == "cpu":
    model = model.to(device)

# Aplicar optimizaciones adicionales
model.eval()
if hasattr(model, 'gradient_checkpointing_disable'):
    model.gradient_checkpointing_disable()

print("‚úÖ Modelo cargado exitosamente")
print(f"üìä Par√°metros del modelo: {model.num_parameters():,}")
print("üöÄ Modelo ya optimizado con Unsloth durante fine-tuning")

## üõ†Ô∏è Tu Funci√≥n de Testing Optimizada

In [None]:
def test_model(prompt, max_tokens=128, temperature=0.7, show_stream=True):
    """Tu funci√≥n optimizada para probar el modelo"""
    messages = [{"from": "human", "value": prompt}]
    
    try:
        # Aplicar chat template optimizado
        inputs = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt",
        ).to(device)
    except Exception as e:
        print(f"‚ö†Ô∏è Chat template fall√≥: {e}")
        # Fallback manual
        formatted_prompt = f"Human: {prompt}\nAssistant: "
        inputs = tokenizer(
            formatted_prompt,
            return_tensors="pt",
            truncation=True,
            max_length=2048
        ).to(device)
        inputs = inputs.input_ids

    print(f"ü§ñ Pregunta: {prompt}")
    print(f"üí≠ Respuesta: ", end="")
    
    # Configurar streamer para visualizaci√≥n
    text_streamer = TextStreamer(tokenizer, skip_prompt=True) if show_stream else None
    
    # Medir tiempo de generaci√≥n
    start_time = time.time()
    
    # Generar respuesta con TUS optimizaciones
    with torch.no_grad():
        outputs = model.generate(
            input_ids=inputs,
            streamer=text_streamer,
            max_new_tokens=max_tokens,
            use_cache=True,  # üöÄ Tu optimizaci√≥n clave
            temperature=temperature,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
            eos_token_id=tokenizer.eos_token_id
        )
    
    generation_time = time.time() - start_time
    
    # Extraer solo la respuesta nueva
    new_tokens = outputs[0][len(inputs[0]):]
    response = tokenizer.decode(new_tokens, skip_special_tokens=True)
    
    print("\n" + "="*50)
    print(f"‚è±Ô∏è Tiempo: {generation_time:.2f}s | Tokens: {len(new_tokens)} | Velocidad: {len(new_tokens)/generation_time:.1f} tok/s")
    
    return {
        "response": response.strip(),
        "generation_time": generation_time,
        "tokens_generated": len(new_tokens),
        "tokens_per_second": len(new_tokens) / generation_time if generation_time > 0 else 0
    }

print("‚úÖ Funci√≥n de testing optimizada configurada")
print("üéØ Usa tu c√≥digo optimizado: FastLanguageModel + chat templates + use_cache=True")

## üß™ Tests de Verificaci√≥n R√°pida

In [None]:
print("üß™ Probando el modelo optimizado...\n")

# Test 1: Verificaci√≥n b√°sica
result1 = test_model("Hola, ¬øc√≥mo est√°s? Cu√©ntame sobre tu entrenamiento en el Meta Day Uruguay 2025.")

# Test 2: Razonamiento matem√°tico (tu test favorito)
result2 = test_model("¬øEs 9.11 mayor que 9.9? Explica tu razonamiento paso a paso.")

# Test 3: Conocimiento t√©cnico
result3 = test_model("Explica qu√© es Unsloth y por qu√© es m√°s eficiente para fine-tuning.")

# Calcular estad√≠sticas
results = [result1, result2, result3]
avg_speed = sum(r['tokens_per_second'] for r in results) / len(results)
total_tokens = sum(r['tokens_generated'] for r in results)
total_time = sum(r['generation_time'] for r in results)

print(f"\nüìä ESTAD√çSTICAS DE VERIFICACI√ìN:")
print(f"   ‚Ä¢ Tests ejecutados: {len(results)}")
print(f"   ‚Ä¢ Velocidad promedio: {avg_speed:.1f} tokens/segundo")
print(f"   ‚Ä¢ Tokens totales: {total_tokens}")
print(f"   ‚Ä¢ Tiempo total: {total_time:.1f} segundos")

if avg_speed > 15:
    print("üöÄ ¬°Excelente! Las optimizaciones est√°n funcionando perfectamente")
elif avg_speed > 10:
    print("‚ö° Buen rendimiento, optimizaciones activas")
else:
    print("üêå Rendimiento est√°ndar, verifica optimizaciones")

print("\n‚úÖ Verificaci√≥n completada - Modelo listo para uso")

## üéØ Tests Extendidos (Opcional)

Ejecuta esta secci√≥n si quieres hacer una evaluaci√≥n m√°s completa:

In [None]:
print("\nüíª === TESTS DE PROGRAMACI√ìN ===")

# Test de c√≥digo Python
test_model("Escribe una funci√≥n Python para calcular Fibonacci de forma recursiva.", max_tokens=200)

# Test de optimizaci√≥n
test_model("¬øC√≥mo optimizar√≠as este c√≥digo?\n\nfor i in range(len(lista)):\n    if lista[i] > 10:\n        nueva_lista.append(lista[i] * 2)", max_tokens=150)

# Test de explicaci√≥n t√©cnica
test_model("Explica la diferencia entre LoRA y QLoRA en t√©rminos simples.", max_tokens=180)

In [None]:
print("\nüé≠ === TESTS DE CREATIVIDAD ===")

# Test de humor
test_model("Cu√©ntame un chiste sobre programadores que sea realmente gracioso.", max_tokens=120)

# Test de creatividad
test_model("Escribe un haiku sobre machine learning en espa√±ol.", max_tokens=100)

# Test de storytelling
test_model("Cuenta una historia corta sobre un modelo de IA que aprende a so√±ar.", max_tokens=200)

In [None]:
print("\nüåç === TESTS MULTILING√úES ===")

# Test en ingl√©s
test_model("Explain what is fine-tuning in machine learning and its main advantages.", max_tokens=150)

# Test de traducci√≥n
test_model("Traduce esta frase al ingl√©s: 'La inteligencia artificial est√° cambiando el mundo.'", max_tokens=80)

# Test de code-switching
test_model("Can you explain transformers in both Spanish and English?", max_tokens=200)

In [None]:
print("\nü§î === TESTS DE CASOS COMPLEJOS ===")

# Test de problema complejo
test_model("¬øQu√© har√≠as si tu modelo fine-tuneado genera respuestas sesgadas?", max_tokens=180)

# Test de few-shot learning
test_model("Si tuvieras que fine-tunear un modelo con solo 10 ejemplos, ¬øqu√© estrategia usar√≠as?", max_tokens=200)

# Test de an√°lisis t√©cnico
test_model("¬øC√≥mo detectar√≠as si tu modelo est√° memorizando en lugar de generalizar?", max_tokens=180)

## üìä Resumen de Rendimiento

In [None]:
print("\nüéØ === RESUMEN FINAL ===")
print("=" * 50)

print(f"ü§ñ Modelo evaluado: {model_name}")
print(f"‚ö° Optimizaciones: Unsloth + tu c√≥digo optimizado")
print(f"üîß Dispositivo: {device}")
print(f"üìÖ Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

print("\n‚úÖ CARACTER√çSTICAS VALIDADAS:")
features = [
    "Chat template optimizado funcionando",
    "use_cache=True mejorando velocidad",
    "TextStreamer mostrando generaci√≥n en tiempo real",
    "Decodificaci√≥n eficiente de solo tokens nuevos",
    "Modelo pre-optimizado con Unsloth"
]

for i, feature in enumerate(features, 1):
    print(f"   {i}. {feature}")

print("\nüöÄ PR√ìXIMOS PASOS RECOMENDADOS:")
next_steps = [
    "Usar en aplicaciones de producci√≥n",
    "Integrar con Ollama (notebook de conexi√≥n)",
    "Implementar sistema RAG (M√≥dulo 5)",
    "Crear API REST para aplicaciones",
    "Monitorear rendimiento en uso real"
]

for i, step in enumerate(next_steps, 1):
    print(f"   {i}. {step}")

print("\nüéâ EVALUACI√ìN COMPLETADA EXITOSAMENTE")
print("üèÜ Tu modelo optimizado est√° listo para el Meta Day Uruguay 2025!")