1Ô∏è‚É£ Instalar dependencias

In [None]:
!pip install "unsloth[cuda12]" datasets accelerate bitsandbytes trl

2Ô∏è‚É£ Cargar el modelo

In [None]:
from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/mistral-7b-bnb-4bit",  # modelo base
    max_seq_length=2048,
    load_in_4bit=True,
    dtype=None,
)

3Ô∏è‚É£ Preparar los datos de entrenamiento

Ejemplo m√≠nimo con un dataset estilo instrucci√≥n-respuesta.

In [None]:
from datasets import Dataset

data = [
    {"instruction": "Explica qu√© es el reciclaje.", "output": "El reciclaje consiste en reutilizar materiales para reducir desechos."},
    {"instruction": "¬øQu√© es Python?", "output": "Python es un lenguaje de programaci√≥n interpretado y multiparadigma."},
]

dataset = Dataset.from_list(data)

def format_prompt(example):
    return f"Instrucci√≥n: {example['instruction']}\nRespuesta: {example['output']}"

dataset = dataset.map(lambda e: {"text": format_prompt(e)})

4Ô∏è‚É£ Activar modo entrenamiento

In [None]:
model = FastLanguageModel.for_training(model)

5Ô∏è‚É£ Configurar entrenamiento con LoRA (ajuste liviano)

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=512,
    packing=False,
    args=TrainingArguments(
        output_dir="mistral-finetuned",
        per_device_train_batch_size=1,
        gradient_accumulation_steps=4,
        num_train_epochs=2,
        learning_rate=2e-4,
        fp16=True,
        logging_steps=10,
        save_strategy="epoch",
        optim="paged_adamw_8bit",
    ),
)
trainer.train()

6Ô∏è‚É£ Guardar el modelo ajustado


In [None]:
model.save_pretrained("mistral_finetuned_unsloth")
tokenizer.save_pretrained("mistral_finetuned_unsloth")

7Ô∏è‚É£ Probar el modelo

In [None]:
inputs = tokenizer("Instrucci√≥n: ¬øQu√© es el reciclaje?\nRespuesta:", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=80)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# Ventajas de usar unsloth:

Usa quantization 4-bit ‚Üí ahorra RAM VRAM.

Entrena mucho m√°s r√°pido (hasta 2‚Äì3√ó que HF normal).

Soporta LoRA y QLoRA sin configuraci√≥n complicada.

Compatible con Hugging Face y TRL.

# üß© ¬øQu√© es LoRA?

LoRA (Low-Rank Adaptation) es una t√©cnica para ajustar modelos grandes sin modificar todos sus par√°metros.

üëâ En lugar de reentrenar los miles de millones de par√°metros del modelo, LoRA:

Congela el modelo original.
Los pesos base del modelo (por ejemplo, de Mistral o Llama) no se tocan.

Agrega peque√±as capas entrenables (matrices de baja dimensi√≥n) dentro de las capas del modelo.
Esas matrices (llamadas A y B) aprenden los ajustes necesarios para la nueva tarea.

Durante la inferencia, el modelo base + las capas LoRA producen el resultado ajustado.

üîπ Ventaja:
Solo entrenas un 1‚Äì2% del total de par√°metros.
‚û°Ô∏è Mucho m√°s r√°pido, menos memoria y puedes cambiar tareas f√°cilmente solo cargando distintas capas LoRA.

üì¶ Ejemplo:

‚ÄúTomo Mistral 7B, lo adapto con LoRA para responder preguntas legales en Chile.‚Äù
Si luego quiero un modelo para educaci√≥n, solo cambio las capas LoRA por otras.

# ‚öôÔ∏è ¬øQu√© es QLoRA?

QLoRA (Quantized LoRA) es una versi√≥n a√∫n m√°s optimizada de LoRA.

Parte de la misma idea, pero cuantiza el modelo base antes del entrenamiento.

‚ÄúCuantizar‚Äù significa representar los pesos con menos bits (por ejemplo, 4-bit en lugar de 16 o 32).

As√≠ el modelo ocupa mucho menos VRAM (puedes entrenar un modelo de 7B en una GPU de 12GB o incluso menos).

Entonces:

üî∏ LoRA = capas adicionales peque√±as.

üî∏ QLoRA = LoRA + modelo base en 4-bit (m√°s liviano).