<a href="https://colab.research.google.com/github/alvarezpablo/Llama-Tech-Talks/blob/main/Llama3.1-MetaDay-UR-2025/m√≥dulo%204/Llama3.1_Unsloth_FineTuning_Optimizado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ü¶ô Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth

## Meta Day Uruguay 2025 - M√≥dulo 4 Optimizado

Este notebook implementa las t√©cnicas m√°s avanzadas de fine-tuning usando **Unsloth** para obtener:
- ‚ö° **2x m√°s r√°pido** que m√©todos tradicionales
- üíæ **60% menos uso de memoria**
- üéØ **Rank-Stabilized LoRA (rsLoRA)**
- üìä **Chat templates optimizados**
- üîß **Configuraci√≥n autom√°tica de hiperpar√°metros**

Basado en el art√≠culo: [Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth](https://huggingface.co/blog/mlabonne/sft-llama3)

## üöÄ Configuraci√≥n e Instalaci√≥n

### Verificar GPU disponible

In [None]:
import torch
print(f"CUDA disponible: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"Memoria GPU: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
else:
    print("‚ö†Ô∏è Ejecutando en CPU - El entrenamiento ser√° m√°s lento")

### Instalar Unsloth y dependencias optimizadas

In [None]:
# üîß Soluci√≥n para error de protobuf
import os
os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python"

# Instalaci√≥n optimizada para Colab
!pip install "protobuf<=3.20.3"
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes

print("‚úÖ Instalaci√≥n completada con fix de protobuf")

### Importar librer√≠as

In [None]:
import torch
from trl import SFTTrainer
from datasets import load_dataset
from transformers import TrainingArguments, TextStreamer
from unsloth.chat_templates import get_chat_template
from unsloth import FastLanguageModel, is_bfloat16_supported
import os
from datetime import datetime

print(f"üöÄ Configuraci√≥n completada - {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

## ü§ñ Carga del Modelo Llama 3.1 8B

Usamos la versi√≥n pre-cuantizada de Unsloth para m√°xima eficiencia:

In [None]:
# Configuraci√≥n del modelo
max_seq_length = 2048  # Ajusta seg√∫n tu GPU (hasta 128k para Llama 3.1)
model_name = "unsloth/Meta-Llama-3.1-8B-bnb-4bit"

print(f"üì• Cargando modelo: {model_name}")
print(f"üìè Longitud m√°xima de secuencia: {max_seq_length}")

# Cargar modelo y tokenizer
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    load_in_4bit=True,
    dtype=None,  # Auto-detecta BF16 para GPUs Ampere+
)

print("‚úÖ Modelo cargado exitosamente")

## ‚öôÔ∏è Configuraci√≥n LoRA Optimizada

Implementamos **Rank-Stabilized LoRA (rsLoRA)** con configuraci√≥n optimizada:

In [None]:
# Configuraci√≥n LoRA optimizada
model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # Rank - balance entre calidad y eficiencia
    lora_alpha=16,  # Scaling factor (t√≠picamente 1x o 2x el rank)
    lora_dropout=0,  # Sin dropout para entrenamiento m√°s r√°pido
    target_modules=[
        "q_proj", "k_proj", "v_proj",  # Attention
        "up_proj", "down_proj", "o_proj", "gate_proj"  # Feed-forward
    ], 
    use_rslora=True,  # üéØ Rank-Stabilized LoRA para mejor estabilidad
    use_gradient_checkpointing="unsloth"  # Optimizaci√≥n de memoria
)

# Mostrar estad√≠sticas de par√°metros
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
percentage = (trainable_params / total_params) * 100

print(f"üìä Par√°metros totales: {total_params:,}")
print(f"üéØ Par√°metros entrenables: {trainable_params:,} ({percentage:.4f}%)")
print(f"üíæ Reducci√≥n de par√°metros: {100-percentage:.2f}%")

## üìö Preparaci√≥n del Dataset

Usamos el dataset **FineTome-100k** - ultra alta calidad con conversaciones, razonamiento y function calling:

In [None]:
# Configurar chat template (ChatML - est√°ndar de la comunidad)
tokenizer = get_chat_template(
    tokenizer,
    mapping={"role": "from", "content": "value", "user": "human", "assistant": "gpt"},
    chat_template="chatml",
)

def apply_template(examples):
    """Aplica el chat template a las conversaciones"""
    messages = examples["conversations"]
    text = [
        tokenizer.apply_chat_template(
            message, 
            tokenize=False, 
            add_generation_prompt=False
        ) for message in messages
    ]
    return {"text": text}

print("‚úÖ Chat template configurado (ChatML)")

In [None]:
# Cargar dataset - ajusta el subset para entrenamientos m√°s r√°pidos
dataset_size = "train[:10000]"  # Cambia a "train" para dataset completo (100k samples)

print(f"üì• Cargando dataset: mlabonne/FineTome-100k ({dataset_size})")
dataset = load_dataset("mlabonne/FineTome-100k", split=dataset_size)
dataset = dataset.map(apply_template, batched=True)

print(f"üìä Dataset cargado: {len(dataset):,} muestras")
print(f"üìù Ejemplo de conversaci√≥n formateada:")
print("=" * 50)
print(dataset[0]["text"][:500] + "...")
print("=" * 50)

## üèãÔ∏è Entrenamiento con Hiperpar√°metros Optimizados

Configuraci√≥n basada en las mejores pr√°cticas del art√≠culo de Hugging Face:

In [None]:
# Configuraci√≥n de entrenamiento optimizada
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=True,  # üöÄ Combina m√∫ltiples muestras peque√±as en un batch
    args=TrainingArguments(
        # Configuraci√≥n de learning rate
        learning_rate=3e-4,  # √ìptimo para LoRA
        lr_scheduler_type="linear",  # Scheduler lineal recomendado
        
        # Configuraci√≥n de batch
        per_device_train_batch_size=8,  # Ajusta seg√∫n tu GPU
        gradient_accumulation_steps=2,  # Batch efectivo = 8 * 2 = 16
        
        # √âpocas y pasos
        num_train_epochs=1,  # 1 √©poca suele ser suficiente con datasets de calidad
        warmup_steps=10,  # Warmup para estabilizar entrenamiento inicial
        
        # Optimizaci√≥n
        fp16=not is_bfloat16_supported(),  # FP16 para GPUs m√°s antiguas
        bf16=is_bfloat16_supported(),      # BF16 para GPUs Ampere+
        optim="adamw_8bit",  # üéØ AdamW 8-bit para menor uso de memoria
        weight_decay=0.01,   # Regularizaci√≥n
        
        # Logging y guardado
        logging_steps=1,
        output_dir="output",
        seed=0,  # Reproducibilidad
        
        # Configuraciones adicionales
        remove_unused_columns=False,
        dataloader_pin_memory=False,
    ),
)

print("‚öôÔ∏è Trainer configurado con hiperpar√°metros optimizados")
print(f"üéØ Batch size efectivo: {8 * 2} (per_device_batch_size * gradient_accumulation_steps)")
print(f"üîß Optimizador: AdamW 8-bit")
print(f"üìä Precisi√≥n: {'BF16' if is_bfloat16_supported() else 'FP16'}")

In [None]:
# üöÄ ¬°Iniciar entrenamiento!
print("üèãÔ∏è Iniciando entrenamiento...")
print(f"‚è∞ Tiempo estimado: ~20-30 min para 10k muestras en T4")
print("=" * 60)

trainer.train()

print("=" * 60)
print("üéâ ¬°Entrenamiento completado!")

## üß™ Prueba del Modelo Fine-tuneado

Probemos el modelo con algunas preguntas para verificar su funcionamiento:

In [None]:
# Preparar modelo para inferencia (2x m√°s r√°pido)
model = FastLanguageModel.for_inference(model)

def test_model(prompt, max_tokens=128):
    """Funci√≥n helper para probar el modelo"""
    messages = [{"from": "human", "value": prompt}]
    inputs = tokenizer.apply_chat_template(
        messages,
        tokenize=True,
        add_generation_prompt=True,
        return_tensors="pt",
    ).to("cuda" if torch.cuda.is_available() else "cpu")
    
    text_streamer = TextStreamer(tokenizer)
    print(f"ü§ñ Pregunta: {prompt}")
    print(f"üí≠ Respuesta: ", end="")
    
    _ = model.generate(
        input_ids=inputs, 
        streamer=text_streamer, 
        max_new_tokens=max_tokens, 
        use_cache=True,
        temperature=0.7,
        do_sample=True
    )
    print("\n" + "="*50)

print("üß™ Probando el modelo fine-tuneado...")

In [None]:
# Pruebas del modelo
test_prompts = [
    "¬øEs 9.11 mayor que 9.9?",
    "Explica qu√© es el fine-tuning en t√©rminos simples",
    "¬øCu√°les son las ventajas de usar LoRA?",
    "Escribe un c√≥digo Python para calcular la secuencia de Fibonacci"
]

for i, prompt in enumerate(test_prompts, 1):
    print(f"\nüîç Prueba {i}/{len(test_prompts)}")
    test_model(prompt)
    
print("\n‚úÖ Todas las pruebas completadas")

## üíæ Guardar y Exportar el Modelo

Guardamos el modelo en diferentes formatos para m√°xima compatibilidad:

In [None]:
# Opci√≥n 1: Guardar solo los adaptadores LoRA (m√°s peque√±o)
print("üíæ Guardando adaptadores LoRA...")
model.save_pretrained("lora_model")
tokenizer.save_pretrained("lora_model")
print("‚úÖ Adaptadores LoRA guardados en './lora_model'")

# Opci√≥n 2: Guardar modelo completo fusionado (16-bit)
print("\nüîó Fusionando y guardando modelo completo...")
model.save_pretrained_merged("merged_model", tokenizer, save_method="merged_16bit")
print("‚úÖ Modelo fusionado guardado en './merged_model'")

In [None]:
# Opcional: Subir a Hugging Face Hub
# Descomenta y configura tu token de HF para subir el modelo

# from huggingface_hub import login
# login()  # Ingresa tu token de Hugging Face

# # Subir modelo fusionado
# model_name = "tu-usuario/llama3.1-8b-finetune-metaday"
# model.push_to_hub_merged(model_name, tokenizer, save_method="merged_16bit")
# print(f"üöÄ Modelo subido a: https://huggingface.co/{model_name}")

print("‚ÑπÔ∏è Para subir a HF Hub, descomenta y configura el c√≥digo anterior")

### üì¶ Exportar a formato GGUF (para Ollama, LM Studio, etc.)

In [None]:
# Exportar a GGUF para usar con Ollama, LM Studio, etc.
print("üì¶ Exportando a formato GGUF...")

# Diferentes niveles de cuantizaci√≥n
quant_methods = ["q4_k_m", "q5_k_m", "q8_0"]  # M√©todos m√°s comunes

for quant in quant_methods:
    print(f"üîÑ Exportando {quant}...")
    model.save_pretrained_gguf(f"gguf_model", tokenizer, quantization_method=quant)
    print(f"‚úÖ {quant} guardado")

print("\nüéâ Todos los formatos GGUF exportados en './gguf_model'")
print("üí° Puedes usar estos archivos con:")
print("   ‚Ä¢ Ollama: ollama create mi-modelo -f ./gguf_model")
print("   ‚Ä¢ LM Studio: Importar directamente")
print("   ‚Ä¢ llama.cpp: ./main -m ./gguf_model/model-q4_k_m.gguf")

## üéØ Resumen y Pr√≥ximos Pasos

### ‚úÖ Lo que hemos logrado:
- Fine-tuning ultra-eficiente con **Unsloth** (2x m√°s r√°pido, 60% menos memoria)
- Implementaci√≥n de **Rank-Stabilized LoRA (rsLoRA)** para mejor estabilidad
- Uso del dataset **FineTome-100k** de ultra alta calidad
- Chat template **ChatML** optimizado
- Hiperpar√°metros basados en mejores pr√°cticas
- Exportaci√≥n a m√∫ltiples formatos (LoRA, merged, GGUF)

### üöÄ Pr√≥ximos pasos sugeridos:
1. **Evaluaci√≥n**: Usar Open LLM Leaderboard o LLM AutoEval
2. **Alignment**: Aplicar DPO con dataset de preferencias
3. **Cuantizaci√≥n**: Probar EXL2, AWQ, GPTQ para inferencia m√°s r√°pida
4. **Deployment**: Usar Hugging Face Spaces, Ollama, o vLLM
5. **Escalado**: Probar con modelos m√°s grandes (70B, 405B)

### üìö Recursos adicionales:
- [LLM Course](https://github.com/mlabonne/llm-course) - Curso completo de LLMs
- [Unsloth Documentation](https://github.com/unslothai/unsloth) - Documentaci√≥n oficial
- [FineTome Dataset](https://huggingface.co/datasets/mlabonne/FineTome-100k) - Dataset usado

---
**Meta Day Uruguay 2025** - M√≥dulo 4: Fine-tuning Optimizado üá∫üáæ