# üî• Fine-Tuning de BLOOM-560M para Transformaciones en Guaran√≠

## Proyecto Final - PLN e IA

**Objetivo:** Entrenar un modelo ligero multiling√ºe usando **LoRA (Low-Rank Adaptation)** para mejorar el rendimiento en transformaciones morfol√≥gicas del guaran√≠.

### ¬øPor qu√© BLOOM-560M?
- **Multiling√ºe:** Entrenado en 46 idiomas (incluye lenguas de bajo recurso)
- **Eficiente:** 560M par√°metros (funciona en Colab gratuito con GPU T4)
- **Open-source:** Sin restricciones de uso

### ¬øQu√© es LoRA?
**LoRA (Low-Rank Adaptation)** entrena solo ~1% de los par√°metros del modelo mediante matrices de bajo rango, reduciendo:
- ‚è±Ô∏è **Tiempo:** 10x m√°s r√°pido que full fine-tuning
- üíæ **Memoria:** Usa 4-bit quantization (modelo cabe en 2GB VRAM)
- üí∞ **Costo:** Sin necesidad de GPUs A100 caras

### Configuraci√≥n del Experimento
- **Dataset:** AmericasNLP 2025 - Guaran√≠ (train: ~800 ejemplos)
- **√âpocas:** 5
- **M√©todo:** LoRA + 4-bit quantization
- **Evaluaci√≥n:** Dev set (100 ejemplos)

---

## 1. Verificar GPU Disponible

In [None]:
import torch

print("üîç Verificando hardware...\n")

# Verificar CUDA
if torch.cuda.is_available():
    print(f"‚úÖ GPU disponible: {torch.cuda.get_device_name(0)}")
    print(f"   VRAM total: {torch.cuda.get_device_properties(0).total_memory / 1e9:.2f} GB")
    print(f"   CUDA version: {torch.version.cuda}")
else:
    print("‚ö†Ô∏è GPU no disponible. El entrenamiento ser√° LENTO.")
    print("üí° En Colab: Runtime > Change runtime type > GPU (T4)")

## 2. Instalaci√≥n de Dependencias

In [None]:
print("üì¶ Instalando dependencias para fine-tuning con LoRA...\n")

!pip install -q \
  transformers==4.36.0 \
  datasets==2.16.0 \
  peft==0.7.1 \
  bitsandbytes==0.41.3 \
  accelerate==0.25.0 \
  trl==0.7.4 \
  sentencepiece \
  sacrebleu \
  pandas \
  tqdm

print("\n‚úÖ Dependencias instaladas correctamente")
print("\nüìö Bibliotecas clave:")
print("  ‚Ä¢ transformers: Modelos y tokenizers")
print("  ‚Ä¢ peft: LoRA y adaptadores eficientes")
print("  ‚Ä¢ bitsandbytes: Cuantizaci√≥n 4-bit")
print("  ‚Ä¢ trl: Trainer optimizado para LLMs")

## 3. Importaciones

In [None]:
import os
import json
import pandas as pd
import requests
from io import StringIO
from typing import Dict, List
import warnings
warnings.filterwarnings('ignore')

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline
)
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
    PeftModel
)
from trl import SFTTrainer
from datasets import Dataset
from sacrebleu.metrics import BLEU
from tqdm import tqdm

print("‚úÖ Importaciones completadas")

## 4. Configuraci√≥n de Hugging Face Token

**Nota:** Necesitas un token de Hugging Face para descargar BLOOM.
1. Ve a: https://huggingface.co/settings/tokens
2. Crea un token (Read)
3. Gu√°rdalo en Colab Secrets como `HF_TOKEN`

In [None]:
from google.colab import userdata

try:
    hf_token = userdata.get("HF_TOKEN")
    os.environ["HF_TOKEN"] = hf_token
    print("‚úÖ Hugging Face token configurado")
except Exception as e:
    print("‚ö†Ô∏è No se encontr√≥ HF_TOKEN en Secrets")
    print("üí° Config√∫ralo en: Secrets (üîë) > Add new secret > Name: HF_TOKEN")
    hf_token = None

## 5. Descarga del Dataset AmericasNLP

In [None]:
BASE_URL = "https://raw.githubusercontent.com/AmericasNLP/americasnlp2025/main/ST2_EducationalMaterials/data/"

def load_dataset_from_url(url: str) -> pd.DataFrame:
    """Descarga dataset TSV desde GitHub."""
    r = requests.get(url)
    r.raise_for_status()
    return pd.read_csv(StringIO(r.text), sep="\t")

print("üì• Descargando dataset AmericasNLP...\n")

datasets_urls = {
    "train": f"{BASE_URL}guarani-train.tsv",
    "dev":   f"{BASE_URL}guarani-dev.tsv",
    "test":  f"{BASE_URL}guarani-test.tsv"
}

datasets = {}
for split, url in datasets_urls.items():
    try:
        df = load_dataset_from_url(url)
        datasets[split] = df
        print(f"‚úÖ {split.upper():5} ‚Üí {len(df):4} ejemplos | Columnas: {list(df.columns)}")
    except Exception as e:
        print(f"‚ùå Error cargando {split}: {e}")

print(f"\nüìä Total train: {len(datasets['train'])} ejemplos para fine-tuning")
print(f"üìä Total dev:   {len(datasets['dev'])} ejemplos para validaci√≥n")

### Vista Previa del Dataset

In [None]:
print("\nüîç Ejemplos del train set:\n")
display(datasets["train"].head(5))

print("\nüìà Distribuci√≥n de transformaciones en train:")
print(datasets["train"]["Change"].value_counts())

## 6. Preparaci√≥n del Dataset para Fine-Tuning

Convertimos cada ejemplo en un formato de instrucci√≥n:
```
### Instrucci√≥n:
Transforma la siguiente oraci√≥n en guaran√≠ seg√∫n la regla indicada.

### Entrada:
Oraci√≥n: "Ore ndorombyai kuri"
Regla: TYPE:AFF

### Respuesta:
Ore rombyai kuri
```

In [None]:
# Diccionario de reglas (mismo del notebook principal)
TRANSFORMATION_RULES = {
    "TYPE:AFF": "Convierte una oraci√≥n negativa en afirmativa removiendo la negaci√≥n (ndo-...-i)",
    "TYPE:NEG": "Convierte una oraci√≥n afirmativa en negativa usando ndo- y -i",
    "TENSE:FUT_SIM": "Transforma el verbo al futuro simple agregando -ta",
    "TENSE:PAST": "Convierte la oraci√≥n al pasado usando kuri",
    "PERSON:1_PL_INC": "Cambia el sujeto a primera persona plural inclusiva (√±ande)",
    "PERSON:1_PL_EXC": "Cambia el sujeto a primera persona plural exclusiva (ore)",
    "PERSON:3": "Cambia el sujeto a tercera persona singular (ha'e)"
}

def format_instruction(row: pd.Series) -> str:
    """Convierte una fila del dataset en formato de instrucci√≥n."""
    rule_desc = TRANSFORMATION_RULES.get(row["Change"], row["Change"])
    
    return f"""### Instrucci√≥n:
Transforma la siguiente oraci√≥n en guaran√≠ seg√∫n la regla indicada.

### Entrada:
Oraci√≥n: "{row["Source"]}"
Regla: {row["Change"]} ({rule_desc})

### Respuesta:
{row["Target"]}"""


print("üîß Formateando dataset para fine-tuning...\n")

# Formatear train y dev
train_texts = [format_instruction(row) for _, row in datasets["train"].iterrows()]
dev_texts = [format_instruction(row) for _, row in datasets["dev"].iterrows()]

# Crear datasets de Hugging Face
train_dataset = Dataset.from_dict({"text": train_texts})
dev_dataset = Dataset.from_dict({"text": dev_texts})

print(f"‚úÖ Train dataset: {len(train_dataset)} ejemplos")
print(f"‚úÖ Dev dataset:   {len(dev_dataset)} ejemplos")

print("\nüìù Ejemplo formateado:")
print("=" * 70)
print(train_dataset[0]["text"])
print("=" * 70)

## 7. Carga del Modelo Base (BLOOM-560M) con Cuantizaci√≥n 4-bit

In [None]:
MODEL_NAME = "bigscience/bloom-560m"

print(f"ü§ñ Cargando modelo: {MODEL_NAME}\n")

# Configuraci√≥n de cuantizaci√≥n 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,                      # Cuantizaci√≥n 4-bit
    bnb_4bit_quant_type="nf4",              # Tipo: NormalFloat4
    bnb_4bit_compute_dtype=torch.float16,   # Computaci√≥n en FP16
    bnb_4bit_use_double_quant=True          # Doble cuantizaci√≥n
)

# Cargar modelo con cuantizaci√≥n
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    token=hf_token
)

# Cargar tokenizer
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True,
    token=hf_token
)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

print("\n‚úÖ Modelo y tokenizer cargados")
print(f"üìä Par√°metros totales: {model.num_parameters() / 1e6:.0f}M")
print(f"üíæ Tama√±o en memoria: ~2GB (cuantizado 4-bit)")

## 8. Configuraci√≥n de LoRA

**LoRA** a√±ade matrices de bajo rango entrenables a las capas de atenci√≥n del modelo.

In [None]:
print("‚öôÔ∏è Configurando LoRA...\n")

# Preparar modelo para k-bit training
model = prepare_model_for_kbit_training(model)

# Configuraci√≥n de LoRA
lora_config = LoraConfig(
    r=16,                           # Rango de las matrices LoRA
    lora_alpha=32,                  # Escalado de LoRA
    target_modules=[                # Capas a adaptar
        "query_key_value",          # Atenci√≥n (espec√≠fico de BLOOM)
    ],
    lora_dropout=0.05,              # Dropout
    bias="none",                    # No entrenar bias
    task_type="CAUSAL_LM"           # Tipo de tarea
)

# Aplicar LoRA al modelo
model = get_peft_model(model, lora_config)

# Mostrar par√°metros entrenables
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in model.parameters())

print("‚úÖ LoRA configurado correctamente\n")
print(f"üìä Par√°metros totales:      {total_params / 1e6:.1f}M")
print(f"üéØ Par√°metros entrenables:  {trainable_params / 1e6:.1f}M ({100 * trainable_params / total_params:.2f}%)")
print(f"üí° Eficiencia: Entrenamos solo el {100 * trainable_params / total_params:.2f}% del modelo")

## 9. Configuraci√≥n del Entrenamiento

In [None]:
OUTPUT_DIR = "./bloom-560m-guarani-lora"

training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    
    # Hiperpar√°metros principales
    num_train_epochs=5,                 # 5 √©pocas
    per_device_train_batch_size=4,      # Batch size por GPU
    gradient_accumulation_steps=4,      # Simular batch=16
    learning_rate=2e-4,                 # Learning rate
    
    # Optimizaci√≥n
    optim="paged_adamw_8bit",           # Optimizador eficiente
    warmup_steps=50,                    # Warmup
    max_grad_norm=0.3,                  # Gradient clipping
    
    # Logging y guardado
    logging_steps=25,                   # Log cada 25 pasos
    save_strategy="epoch",              # Guardar cada √©poca
    evaluation_strategy="epoch",        # Evaluar cada √©poca
    
    # Eficiencia
    fp16=True,                          # Mixed precision
    group_by_length=True,               # Agrupar por longitud
    
    # Otros
    report_to="none",                   # Sin wandb
    load_best_model_at_end=True,        # Cargar mejor modelo
    metric_for_best_model="loss",       # M√©trica
)

print("‚úÖ Training arguments configurados")
print(f"\nüìã Configuraci√≥n:")
print(f"   √âpocas: {training_args.num_train_epochs}")
print(f"   Batch size efectivo: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"   Learning rate: {training_args.learning_rate}")
print(f"   Pasos totales: ~{len(train_dataset) * training_args.num_train_epochs // (training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps)}")

## 10. Inicializaci√≥n del Trainer

In [None]:
print("üéØ Inicializando SFTTrainer...\n")

trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=dev_dataset,
    tokenizer=tokenizer,
    dataset_text_field="text",
    max_seq_length=512,
    packing=False,
)

print("‚úÖ Trainer inicializado y listo para entrenar")

## 11. üöÄ Entrenamiento del Modelo

**Tiempo estimado:** ~30-45 minutos en Colab con GPU T4 (5 √©pocas, ~800 ejemplos)

‚ö†Ô∏è **Nota:** El entrenamiento puede tardar. Ve por un caf√© ‚òï

In [None]:
print("="*70)
print("üî• INICIANDO FINE-TUNING")
print("="*70)
print(f"Modelo: {MODEL_NAME}")
print(f"Dataset: {len(train_dataset)} ejemplos")
print(f"√âpocas: {training_args.num_train_epochs}")
print(f"M√©todo: LoRA (r={lora_config.r}, alpha={lora_config.lora_alpha})")
print("="*70 + "\n")

# ENTRENAR
trainer.train()

print("\n" + "="*70)
print("‚úÖ FINE-TUNING COMPLETADO")
print("="*70)

## 12. Guardar el Modelo Fine-Tuned

In [None]:
print("üíæ Guardando modelo fine-tuned...\n")

# Guardar adaptadores LoRA
trainer.model.save_pretrained(OUTPUT_DIR)
tokenizer.save_pretrained(OUTPUT_DIR)

print(f"‚úÖ Modelo guardado en: {OUTPUT_DIR}")
print(f"üì¶ Tama√±o: ~50MB (solo adaptadores LoRA)")

# Opcional: Descargar modelo
print("\nüì• Para descargar el modelo, ejecuta:")
print(f"!zip -r {OUTPUT_DIR}.zip {OUTPUT_DIR}")
print("from google.colab import files")
print(f"files.download('{OUTPUT_DIR}.zip')")

## 13. Evaluaci√≥n del Modelo Fine-Tuned

Comparamos el modelo fine-tuned con el baseline (Claude Few-Shot: 50%)

In [None]:
print("üìä Evaluando modelo fine-tuned en dev set...\n")

# Crear pipeline de generaci√≥n
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=50,
    temperature=0.1,
    do_sample=False,
    pad_token_id=tokenizer.eos_token_id
)

def extract_response(generated_text: str, input_prompt: str) -> str:
    """Extrae la respuesta del texto generado."""
    # Remover el prompt original
    response = generated_text.replace(input_prompt, "").strip()
    
    # Tomar solo la primera l√≠nea despu√©s de "### Respuesta:"
    if "### Respuesta:" in response:
        response = response.split("### Respuesta:")[-1].strip()
    
    # Tomar solo hasta el primer salto de l√≠nea
    response = response.split("\n")[0].strip()
    
    return response


# Evaluar en dev set (primeros 50 para rapidez)
dev_sample = datasets["dev"].head(50)
results = []

print(f"Evaluando {len(dev_sample)} ejemplos...\n")

for idx, row in tqdm(dev_sample.iterrows(), total=len(dev_sample)):
    # Crear prompt sin respuesta
    rule_desc = TRANSFORMATION_RULES.get(row["Change"], row["Change"])
    input_prompt = f"""### Instrucci√≥n:
Transforma la siguiente oraci√≥n en guaran√≠ seg√∫n la regla indicada.

### Entrada:
Oraci√≥n: "{row["Source"]}"
Regla: {row["Change"]} ({rule_desc})

### Respuesta:
"""
    
    # Generar
    outputs = pipe(input_prompt)
    generated = outputs[0]["generated_text"]
    
    # Extraer respuesta
    prediction = extract_response(generated, input_prompt)
    
    # Comparar
    correct = prediction.lower().strip() == row["Target"].lower().strip()
    
    results.append({
        "id": row["ID"],
        "source": row["Source"],
        "change": row["Change"],
        "target": row["Target"],
        "prediction": prediction,
        "correct": correct
    })

# Calcular m√©tricas
correct_count = sum(r["correct"] for r in results)
total = len(results)
accuracy = (correct_count / total) * 100

# BLEU
bleu = BLEU()
predictions = [r["prediction"] for r in results]
references = [[r["target"]] for r in results]
bleu_score = bleu.corpus_score(predictions, references).score

print("\n" + "="*70)
print("RESULTADOS DE EVALUACI√ìN")
print("="*70)
print(f"\nüéØ Accuracy: {accuracy:.2f}% ({correct_count}/{total})")
print(f"üìä BLEU Score: {bleu_score:.2f}")

print("\nüìà Comparaci√≥n con baseline:")
print(f"   Claude 3.5 Few-Shot: 50.0% (mejor anterior)")
print(f"   BLOOM-560M Fine-Tuned: {accuracy:.2f}%")

if accuracy > 50:
    print("\nüèÜ ¬°El modelo fine-tuned SUPER√ì el baseline!")
elif accuracy > 40:
    print("\n‚úÖ Rendimiento competitivo con el baseline")
else:
    print("\n‚ö†Ô∏è Rendimiento por debajo del baseline (puede mejorar con m√°s √©pocas)")

## 14. Ejemplos de Predicciones

In [None]:
print("\n" + "="*70)
print("EJEMPLOS DE PREDICCIONES")
print("="*70)

for i, result in enumerate(results[:10], 1):
    status = "‚úÖ" if result["correct"] else "‚ùå"
    print(f"\n{status} Ejemplo {i}:")
    print(f"   Oraci√≥n:    {result['source']}")
    print(f"   Regla:      {result['change']}")
    print(f"   Esperado:   {result['target']}")
    print(f"   Predicci√≥n: {result['prediction']}")

## 15. Guardar Resultados de Evaluaci√≥n

In [None]:
import json

# Guardar resultados
eval_results = {
    "model": MODEL_NAME,
    "method": "LoRA Fine-Tuning",
    "epochs": training_args.num_train_epochs,
    "train_size": len(train_dataset),
    "eval_size": len(results),
    "accuracy": accuracy,
    "bleu": bleu_score,
    "correct": correct_count,
    "total": total,
    "predictions": results
}

with open("finetuning_results.json", "w", encoding="utf-8") as f:
    json.dump(eval_results, f, ensure_ascii=False, indent=2)

print("‚úÖ Resultados guardados en: finetuning_results.json")

# Descargar
try:
    from google.colab import files
    files.download("finetuning_results.json")
    print("üì• Archivo descargado")
except:
    print("üí° Descarga manual disponible en archivos")

## 16. Tabla Comparativa Final

Comparamos todas las estrategias probadas en el proyecto.

In [None]:
import pandas as pd

# Resultados anteriores del notebook principal
comparison_data = [
    {"Modelo": "GPT-3.5 Turbo", "Estrategia": "Zero-Shot", "Accuracy (%)": 0.0, "BLEU": 59.46},
    {"Modelo": "GPT-3.5 Turbo", "Estrategia": "Few-Shot", "Accuracy (%)": 10.0, "BLEU": 0.0},
    {"Modelo": "GPT-3.5 Turbo", "Estrategia": "Semantic RAG", "Accuracy (%)": 0.0, "BLEU": 59.46},
    {"Modelo": "GPT-3.5 Turbo", "Estrategia": "Hybrid RAG", "Accuracy (%)": 10.0, "BLEU": 0.0},
    {"Modelo": "Claude 3.5 Sonnet", "Estrategia": "Zero-Shot", "Accuracy (%)": 30.0, "BLEU": 0.0},
    {"Modelo": "Claude 3.5 Sonnet", "Estrategia": "Few-Shot", "Accuracy (%)": 50.0, "BLEU": 0.0},
    {"Modelo": "Claude 3.5 Sonnet", "Estrategia": "Semantic RAG", "Accuracy (%)": 20.0, "BLEU": 0.0},
    {"Modelo": "Claude 3.5 Sonnet", "Estrategia": "Hybrid RAG", "Accuracy (%)": 40.0, "BLEU": 0.0},
    # Agregar resultado del fine-tuning
    {"Modelo": "BLOOM-560M", "Estrategia": "Fine-Tuning (LoRA)", "Accuracy (%)": round(accuracy, 2), "BLEU": round(bleu_score, 2)}
]

comparison_df = pd.DataFrame(comparison_data)

# Ordenar por accuracy
comparison_df = comparison_df.sort_values("Accuracy (%)", ascending=False)

print("\n" + "="*70)
print("TABLA COMPARATIVA COMPLETA - TODOS LOS EXPERIMENTOS")
print("="*70)
print(comparison_df.to_string(index=False))

# Identificar mejor
best = comparison_df.iloc[0]
print("\n" + "="*70)
print("üèÜ MEJOR CONFIGURACI√ìN")
print("="*70)
print(f"Modelo:      {best['Modelo']}")
print(f"Estrategia:  {best['Estrategia']}")
print(f"Accuracy:    {best['Accuracy (%)']}%")
print(f"BLEU:        {best['BLEU']}")

## 17. Conclusiones del Fine-Tuning

### ¬øQu√© aprendimos?

1. **Fine-tuning con LoRA es eficiente:**
   - Entrenar solo ~1% de par√°metros
   - Funciona en Colab gratuito (GPU T4)
   - Modelo final: ~50MB (vs 1.1GB del modelo completo)

2. **BLOOM-560M es competitivo para guaran√≠:**
   - Modelo multiling√ºe pre-entrenado
   - Se adapta bien con pocos ejemplos (~800)

3. **Comparaci√≥n con baseline:**
   - Si accuracy > 50%: Fine-tuning super√≥ a Claude Few-Shot
   - Si accuracy < 50%: Necesita m√°s √©pocas o datos

### Pr√≥ximos pasos

Para mejorar a√∫n m√°s:
- ‚úÖ Usar todo el train set (hecho)
- ‚úÖ Probar m√°s √©pocas (5 √©pocas completadas)
- üîÑ Ajustar hiperpar√°metros (learning rate, r, alpha)
- üîÑ Probar modelos m√°s grandes (BLOOM-1b7, mGPT)
- üîÑ Data augmentation (generar m√°s ejemplos sint√©ticos)

---

## üéâ ¬°Experimento completado!

**Archivos generados:**
- `bloom-560m-guarani-lora/` - Modelo fine-tuned
- `finetuning_results.json` - Resultados de evaluaci√≥n

**Para usar el modelo:**
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained("bigscience/bloom-560m")
model = PeftModel.from_pretrained(base_model, "./bloom-560m-guarani-lora")
tokenizer = AutoTokenizer.from_pretrained("./bloom-560m-guarani-lora")
```