# Fine-tuning Llama 3.1 8B LoRA con Unsloth

> Sígueme en RRSS para apoyar este contenido ❤️: <br>
x -> [@codingmindsetio](https://x.com/codingmindsetio) <br>
YT 🎥 -> [CodingMindset](https://www.youtube.com/@CodingMindsetIO?sub_confirmation=1) <br>
IG 📸 -> [@codingmindset](https://www.instagram.com/codingmindset?igsh=ZGx5aGd4MXBwYmx5&utm_source=qr)

## Instalación e importación de dependencias

Para instalar Unsloth en tu propio PC, sigue las instrucciones de instalación de la página de Github [aquí](https://github.com/unslothai/unsloth?tab=readme-ov-file#-installation-instructions).

In [18]:
%%capture
# Instala Unsloth, Xformers (Flash Attention) y todos los demás paquetes.
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# Tenemos que comprobar qué versión de Torch para Xformers (2.3 -> 0.0.27)
from torch import __version__; from packaging.version import Version as V
xformers = "xformers==0.0.27" if V(__version__) < V("2.4.0") else "xformers"
!pip install --no-deps {xformers} trl peft accelerate bitsandbytes triton

Comprobamos si tenemos disponible una GPU de Nvidia, si no al importar Unsloth obtendremos un RuntimeError

In [19]:
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)
if gpu_info.find('failed') >= 0:
  print('Not connected to a GPU')
else:
  print(gpu_info)

Sun Sep  8 23:07:16 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   76C    P0              32W /  70W |  11157MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

Importamos todas las dependecias a utilizar

In [20]:
import torch
from trl import SFTTrainer
from datasets import load_dataset
from transformers import TrainingArguments, TextStreamer
from unsloth.chat_templates import get_chat_template
from unsloth import FastLanguageModel, is_bfloat16_supported

## Descarga del modelo

 ### Parámetros

 `max_seq_length`: Al preparar el modelo para su uso, es necesario establecer un límite máximo para la longitud de las secuencias, lo que afecta su capacidad de procesar información contextual. Aunque la versión 3.1 de Llama puede manejar contextos de hasta 128 mil tokens, en este caso optaremos por una configuración más modesta de 2,048 tokens. Esta elección se debe a que utilizar la capacidad máxima requiere considerablemente más recursos computacionales y de VRAM.
 <br>
 <br>
 `dtype`: se refiere al tipo de datos que se utilizará para representar los números en el modelo. Es importante porque afecta la precisión de los cálculos, el uso de memoria y la velocidad de procesamiento.

*   **None**: Detección automática
*   **torch.float32**: Precisión estándar, compatible con la mayoría de GPUs
*   **torch.float16**: Para GPUs Tesla T4, V100
*   **torch.bfloat16**: Para GPUs Ampere y más recientes

`load_in_4bit`: Activa la cuantización de 4 bits para ahorrar memoria. Es opcional (puede ser False)
 <br>
 <br>
`model_name`: En este caso escogemos la versión pre-cuantizada de Llama de 4-bit, debido a que es mucho más ligera (5.4 GB) comprado con la versión original con precisión de 16-bit (16 GB)



In [None]:
max_seq_length = 2048
dtype = None
load_in_4bit = True

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-bnb-4bit",
    max_seq_length=max_seq_length,
    load_in_4bit=True,
    dtype=None,
)

## Preparación LoRA - PEFT (Parameter Efficient Fine Tuning)

LoRA tiene tres parámetros fundamentales:

1. `r` (Rango): Este valor determina el tamaño de las matrices de LoRA. Normalmente, se empieza con un rango de 8, pero puede llegar hasta 256. Un rango mayor permite almacenar más información, pero también aumenta el coste computacional y de memoria. En este caso, hemos optado por un valor de 16.

2. `lora_alpha` (α): Es un factor de escala para las actualizaciones. Alfa influye directamente en cuánto contribuyen los adaptadores (controla la magnitud de la contribución de los adaptadores LoRA a la red principal) y suele establecerse como 1 o 2 veces el valor del rango. En este caso, hemos optado por un valor de 16 (1 * r).

3. `target_modules`: LoRA se puede aplicar a varios componentes del modelo, como los mecanismos de atención (matrices Q, K, V), proyecciones de salida, bloques feed-forward y capas lineales de salida. Aunque inicialmente se centra en los mecanismos de atención, expandir LoRA a otros componentes ha demostrado ser beneficioso. Sin embargo, adaptar más módulos implica un aumento en el número de parámetros entrenables y en las necesidades de memoria. En este caso,  hemos decidido aplicar LoRA a todos los módulos lineales para maximizar la calidad.

Otros parámetros:

`lora_dropout`: Técnica de regularización que desactiva aleatoriamente un porcentaje de conexiones en las matrices de adaptación durante el entrenamiento. Su objetivo principal es prevenir el sobreajuste. Ralentiza ligeramente el entrenamiento por lo que en este caso optamos por no usarlo.

`use_rslora` (Estabilizador de rango): Introduce una modificación en el factor de escala de los adaptadores LoRA. En lugar de usar una proporción de 1/r, emplea 1/√r. Este sutil pero importante cambio tiene dos efectos principales:

1. Estabiliza el proceso de aprendizaje, siendo especialmente beneficioso cuando se utilizan rangos de adaptador más altos.

2. Permite mejorar el rendimiento del fine-tuning a medida que se incrementa el rango del adaptador.

En esencia, rsLoRA busca optimizar el equilibrio entre la capacidad de adaptación y la estabilidad del entrenamiento, especialmente al trabajar con configuraciones de LoRA más complejas.

`use_gradient_checkpointing`: Unsloth se encarga de gestionar el checkpointing del gradiente. Esta técnica consiste en almacenar temporalmente en el disco duro las capas de embedding de entrada y salida, en lugar de mantenerlas constantemente en la memoria de la tarjeta gráfica. El objetivo principal de esta estrategia es optimizar el uso de la VRAM, liberando espacio para otros procesos del modelo durante el entrenamiento.



In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    lora_alpha=16,
    lora_dropout=0,
    target_modules=["q_proj", "k_proj", "v_proj", "up_proj", "down_proj", "o_proj", "gate_proj"],
    use_rslora=True,
    use_gradient_checkpointing="unsloth"
)

## Preparación del Dataset y el Tokenizador

Preparamos el tokenizador

In [None]:
tokenizer = get_chat_template(
    tokenizer,
    mapping={"role": "from", "content": "value", "user": "human", "assistant": "gpt"},
    chat_template="chatml",
)


En este caso vamos a usar el dataset `"mlabonne/FineTome-100k"`. Usa el formato ShareGPT (dataset), ideal para conversaciones multi-turno. Este formato se procesa para extraer pares de instrucción-respuesta. Luego, los datos se reformatean según una plantilla de chat, como ChatML, que estructura la conversación. ChatML usa tokens especiales para marcar el inicio y fin de cada mensaje.

In [23]:
def apply_template(examples):
    messages = examples["conversations"]
    text = [tokenizer.apply_chat_template(message, tokenize=False, add_generation_prompt=False) for message in messages]
    return {"text": text}

In [24]:
dataset = load_dataset("mahiatlinux/Reflection-Dataset-ShareGPT-v1", split="train")
dataset = dataset.map(apply_template, batched=True)

Map:   0%|          | 0/6335 [00:00<?, ? examples/s]

## Entrenamiento



Los hiperparámetros clave en el entrenamiento de modelos incluyen:

1. **`packing` (Empaquetado)**: Técnica para combinar múltiples muestras pequeñas en un lote, mejorando la eficiencia del procesamiento.

2. **`learning_rate` (Tasa de aprendizaje)**: Controla la intensidad de las actualizaciones de los parámetros. Debe equilibrarse para evitar un aprendizaje lento o inestable. Usaremos 0.0003 (3e-4)

3. **`lr_scheduler_type` (Planificador de tasa de aprendizaje)**: Ajusta la tasa durante el entrenamiento, generalmente comenzando alta y disminuyendo gradualmente. En este caso nos decantamos por la opcion lineal, una de las opciones más comunes.

4. **`per_device_train_batch_size` (Tamaño del lote)**: Determina cuántas muestras se procesan antes de actualizar los pesos. Lotes más grandes pueden mejorar la estabilidad y velocidad, pero requieren más memoria. El tamaño del lote será 8.

5. **`gradient_accumulation_steps` (Acumulador de gradientes)**: Es una técnica que permite simular un tamaño de lote más grande sin aumentar el uso de memoria. Funciona acumulando gradientes durante varias pasadas hacia adelante y hacia atrás antes de realizar una actualización de los pesos del modelo. Para esta ocasión, con 2 será suficiente.

6. **`num_train_epochs` (Número de épocas)**: Cantidad de veces que el modelo recorre todo el conjunto de datos. Más épocas pueden mejorar el rendimiento, pero también pueden causar sobreajuste. Para ejemplificar usaré 1 step, una vuelta completa a todo el set de entramiento.

7. **`optim` (Optimizador)**: Algoritmo para ajustar los parámetros del modelo. Se recomienda AdamW de 8 bits por su eficiencia en uso de memoria.

8. **`weight_decay` (Decaimiento de pesos)**: Técnica de regularización que penaliza pesos grandes para prevenir el sobreajuste.

9. **`warmup_steps`** (Pasos de calentamiento): Periodo inicial donde la tasa de aprendizaje aumenta gradualmente, ayudando a estabilizar el entrenamiento.


Cada uno de estos hiperparámetros juega un papel crucial en el rendimiento y la eficiencia del entrenamiento, y su ajuste adecuado es fundamental para obtener los mejores resultados.

Otros parámetros:
- `fp16`: Habilita el entrenamiento en precisión mixta de 16 bits (si bfloat16 no es compatible).

- `bf16`: Habilita el entrenamiento en bfloat16 (si es compatible).

- `seed`: Semilla para la generación de números aleatorios (puede ser cualquier número).

In [25]:
trainer=SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=True,
    args=TrainingArguments(
        learning_rate=3e-4,
        lr_scheduler_type="linear",
        per_device_train_batch_size=3,
        gradient_accumulation_steps=2,
        num_train_epochs=1,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        warmup_steps=10,
        output_dir="output",
        seed=0,
    ),
)

Generating train split: 0 examples [00:00, ? examples/s]

Ejecutamos el entranamiento

In [None]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs = 1
   \\   /|    Num examples = 1,712 | Num Epochs = 1
O^O/ \_/ \    Batch size per device = 3 | Gradient Accumulation steps = 2
\        /    Total batch size = 6 | Total steps = 285
 "-____-"     Number of trainable parameters = 41,943,040


Step,Training Loss
1,1.3877
2,1.3008


## Inferencia

`FastLanguageModel.for_inference()` nos proporciona de manera nativa una inferencia el doble de rápida

In [None]:
model = FastLanguageModel.for_inference(model)

Finalmente. realizamos la inferencia:

In [None]:
messages = [
    {"from": "human", "value": "Which number is larger: 9.9 or 9.11"},
]

In [None]:
inputs = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
).to("cuda")

In [None]:
text_streamer = TextStreamer(tokenizer)

In [None]:
outputs = model.generate(input_ids=inputs, streamer=text_streamer, max_new_tokens=1000, use_cache=True)

## Guardado del modelo

Ahora es el momento de guardar nuestro modelo entrenado. Es importante recordar que, debido a la naturaleza de LoRA y QLoRA, lo que realmente hemos entrenado no es el modelo completo, sino un conjunto de adaptadores.

Unsloth nos ofrece tres métodos para guardar nuestro trabajo:

1. `lora`: Este método guarda únicamente los adaptadores, sin el modelo base.

2. `merged_16bit`: Combina los adaptadores con el modelo base y los guarda en precisión de 16 bits.

3. `merged_4bit`: Similar al anterior, pero guarda el modelo combinado en precisión de 4 bits, lo que resulta en un archivo más compacto.

La elección del método dependerá de nuestras necesidades específicas de almacenamiento y uso futuro del modelo. En nuestro caso escogemos la opción de 16bit para mayor precisión.

In [None]:
# Guarda el modelo en local
model.save_pretrained_merged("lora_model", tokenizer, save_method="merged_16bit")


Guardamos el modelo en nuestro repositorio de HuggingFace

In [None]:
model.push_to_hub_merged("Machaxante600/llama-promete-3.1-bit4", tokenizer, save_method="merged_16bit", token="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")

Unsloth ofrece una funcionalidad adicional muy útil: la conversión directa de tu modelo al formato GGUF. Este formato de cuantización, diseñado originalmente para llama.cpp, es ampliamente compatible con diversos motores de inferencia, como LM Studio, Ollama, etc.

Una de las ventajas del formato GGUF es que permite especificar diferentes niveles de precisión. Aprovecharemos esta característica para generar múltiples versiones cuantizadas del modelo. Concretamente, crearemos versiones en las siguientes precisiones: `q2_k`, `q3_k_m`, `q4_k_m`, `q5_k_m`, `q6_k` y `q8_0`.

Todas estas versiones cuantizadas se subirán a Hugging Face. El repositorio contendrá todos nuestros archivos GGUF generados.

Esta approach nos permite ofrecer una gama de opciones que equilibran el tamaño del modelo y su precisión, adaptándose así a diferentes necesidades de implementación.

In [None]:
model.push_to_hub_gguf(
        "Machaxante600/llama-promete-3.1-bit4F", # Cambia hf por tu nombre de usuario / nombre del repo
        tokenizer,
        quantization_method = ["q2_k", "q3_k_m", "q4_k_m", "q5_k_m", "q6_k", "q8_0"],
        token = "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", # Obtén tu token de hf en https://huggingface.co/settings/tokens
    )

## Nota importante

Si has llegado hasta aquí, espero que este tutorial detallado te haya sido de gran ayuda. Si ha sido así, te agradecería mucho que me ayudases apoyando el contenido para poder seguir creando estos tutoriales tan detallados, ya que llevan muchas horas de trabajo.

Apoya el contenido dejándo tu like y un comentario 🙏🙏❤️

Y no olvides seguirme en mis redes!

x -> [@codingmindsetio](https://x.com/codingmindsetio) <br>
YT 🎥 -> [CodingMindset](https://www.youtube.com/@CodingMindsetIO?sub_confirmation=1) <br>
IG 📸 -> [@codingmindset](https://www.instagram.com/codingmindset?igsh=ZGx5aGd4MXBwYmx5&utm_source=qr)

Muchas gracias de corazón! ❤️

In [None]:
from functools import partial

quant_methods = ["q2_k", "q3_k_m", "q4_k_m", "q5_k_m", "q6_k", "q8_0"]

def push_to_hub_gguf_with_quant(model, tokenizer, hub_path, quant):
    model.push_to_hub_gguf(hub_path, tokenizer, quant, token="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")

push_model = partial(push_to_hub_gguf_with_quant, model, tokenizer, "Machaxante600/llama-promete-3.1-bit4")

list(map(push_model, quant_methods))