# Afinamiento de modelos de lenguaje para dominios específicos

## Paso 1: Fine tuning de un modelo con dataset tipo 'instruct'

El ajuste fino con datos tipo "instruct" adapta los modelos de lenguaje (LLMs) para responder eficazmente a instrucciones específicas.

### **Características clave**:
1. **Entrenamiento con pares de instrucciones y respuestas**: Se utilizan ejemplos como "Resume este texto en dos frases" y su respuesta esperada, para enseñar al modelo a seguir comandos.
2. **Datos etiquetados o supervisados**: Las respuestas pueden ser creadas por humanos o generadas por modelos existentes y revisadas manualmente.

### **Proceso**:
1. **Creación del dataset**: Se compilan instrucciones y respuestas alineadas con los objetivos del usuario.
2. **Ajuste fino supervisado (SFT)**: El modelo se entrena utilizando estos pares para mejorar su capacidad de responder a comandos de manera precisa y alineada con la intención del usuario.

In [21]:
!pip install bitsandbytes==0.44.1 > /dev/null 2>&1
!pip install datasets==3.1.0 > /dev/null 2>&1
!pip install peft==0.13.2 > /dev/null 2>&1
!pip install wandb==0.18.7 > /dev/null 2>&1
!pip install trl==0.12.1 > /dev/null 2>&1

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from transformers import DataCollatorForLanguageModeling
from datasets import load_dataset
from peft import LoraConfig, get_peft_model, TaskType
from trl import SFTTrainer, SFTConfig
import wandb
import os
import warnings

os.environ['WANDB_NOTEBOOK_NAME'] = 'nb01-instruct.ipynb'

### 1. Importar el modelo ya pre-entrenado y el tokenizador

El modelo `unsloth/mistral-7b-instruct-v0.2-bnb-4bit` es una variante compacta del modelo Mistral de 7 mil millones de parámetros, diseñada para tareas de instrucción. Utiliza técnicas de cuantización en 4 bits (bnb-4bit) para optimizar el uso de memoria y permitir su ejecución en hardware menos potente sin perder demasiada precisión. Este modelo está ajustado para interpretar y responder instrucciones en lenguaje natural, siendo útil para aplicaciones en procesamiento de lenguaje natural (NLP) que requieren respuestas eficientes y precisas en un entorno optimizado.

In [4]:
warnings.filterwarnings("ignore")

model_name = "unsloth/mistral-7b-instruct-v0.2-bnb-4bit"
tokenizer_name = "unsloth/mistral-7b-instruct-v0.2-bnb-4bit"
tokenizer = AutoTokenizer.from_pretrained(tokenizer_name, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True, device_map='auto')

tokenizer_config.json:   0%|          | 0.00/2.13k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/438 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.
Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.


model.safetensors:   0%|          | 0.00/4.13G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/155 [00:00<?, ?B/s]

### 2. Carga de los datos de entrenamiento

In [5]:
train_dataset = load_dataset('json', data_files='/content/drive/MyDrive/training/data/list_of_strings.jsonl', split="train")


def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=64)

tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True, remove_columns=['text'])


wandb.init(
    project='LLM_training',
    name=model_name + '_autoregressive_instruct_fine_tuning'
)

Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/150 [00:00<?, ? examples/s]

[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

 ··········


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


### 3. Configuración del entrenamiento mediante LoRA y SFT

- **LoRA (Low-Rank Adaptation):**  
LoRA es una técnica utilizada para ajustar modelos grandes de lenguaje de manera eficiente. En lugar de actualizar todos los parámetros del modelo durante el entrenamiento, LoRA introduce matrices adicionales de bajo rango que capturan los cambios necesarios. Esto reduce significativamente el costo computacional y de memoria, permitiendo un ajuste fino (fine-tuning) eficiente sin necesidad de almacenar o modificar todos los parámetros originales del modelo.

- **SFT (Supervised Fine-Tuning):**  
SFT se refiere al ajuste fino de un modelo de lenguaje utilizando datos etiquetados de manera supervisada. Este proceso entrena el modelo para realizar tareas específicas mediante ejemplos claros de entrada y salida, como preguntas y respuestas, traducción, o clasificación. Es un paso clave para especializar modelos generales en tareas concretas o dominios específicos.

In [6]:
# Configuración de LoRA
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,  # rango de LoRA
    lora_alpha=16,  # hiperparámetro de LoRA
    lora_dropout=0.1,  # dropout de LoRA
    target_modules=['q_proj', 'v_proj', 'k_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj']  # módulos objetivo para aplicar LoRA
)

model = get_peft_model(model, lora_config)

# Configuración de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    overwrite_output_dir=True,
    num_train_epochs=10,
    per_device_train_batch_size=2,
    save_steps=10_000,
    save_total_limit=2,
    logging_steps=100,
    learning_rate=1e-4,
    fp16=True,
    evaluation_strategy="no",
    eval_steps=10_000,
    report_to="wandb"
)

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)


# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=tokenized_train_dataset,
    max_seq_length=64,
    tokenizer=tokenizer,
    args=training_args,
    packing=True,
    data_collator=data_collator,
)

### 4. Entrenamiento del modelo

In [7]:
trainer.train()



Step,Training Loss
100,1.6897
200,0.6215
300,0.5704
400,0.5086
500,0.4502
600,0.3586
700,0.2562


TrainOutput(global_step=750, training_loss=0.6088946825663248, metrics={'train_runtime': 808.3992, 'train_samples_per_second': 1.856, 'train_steps_per_second': 0.928, 'total_flos': 4107819810816000.0, 'train_loss': 0.6088946825663248, 'epoch': 10.0})

### 5. Guardar el modelo

In [21]:
wandb.finish()

trainer.save_model("./drive/MyDrive/training/models/sft_lora_multiples_of_three")
tokenizer.save_pretrained("./drive/MyDrive/training/models/sft_lora_multiples_of_three")

('./drive/MyDrive/training/models/sft_lora_multiples_of_three/tokenizer_config.json',
 './drive/MyDrive/training/models/sft_lora_multiples_of_three/special_tokens_map.json',
 './drive/MyDrive/training/models/sft_lora_multiples_of_three/tokenizer.model',
 './drive/MyDrive/training/models/sft_lora_multiples_of_three/added_tokens.json',
 './drive/MyDrive/training/models/sft_lora_multiples_of_three/tokenizer.json')

### 6. Evaluación del modelo

In [9]:
import torch
import random

In [22]:
model_path = "./drive/MyDrive/training/models/sft_lora_multiples_of_three"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
`low_cpu_mem_usage` was None, now default to True since model is quantized.


In [23]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [17]:
# Función para generar texto
def generate_text(prompt, max_length=100, num_return_sequences=1):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        num_return_sequences=num_return_sequences,
        do_sample=True,
        top_k=50,
        top_p=0.95,
        temperature=0.01
    )
    return [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]

In [18]:
numeros_a_palabras = {
    1: "uno", 2: "dos", 3: "tres", 4: "cuatro", 5: "cinco",
    6: "seis", 7: "siete", 8: "ocho", 9: "nueve"
}

texto_a_numero = {v: k for k, v in numeros_a_palabras.items()}

def generar_serie_objetivo(objetivo):
    serie = []
    suma_actual = 0
    while suma_actual < objetivo:
        numero = random.randint(1, min(9, objetivo - suma_actual))
        serie.append(numero)
        suma_actual += numero
    return serie


def comprobar_suma(cadena):
    numero_inicial = int(cadena.split()[0])

    palabras = cadena.split()[3:]  # Ignorar "es igual a"
    suma_numeros = sum(texto_a_numero.get(palabra, 0) for palabra in palabras)
    return abs(numero_inicial - suma_numeros)

In [26]:
prompt = "<s>[INST] 13 es igual a [/INST]"
generated_texts = generate_text(prompt, max_length=45, num_return_sequences=1)

for i, text in enumerate(generated_texts):
    print(f"Generated Text {i+1}:\n{text}\n")
    cadena = f"{text}"

Generated Text 1:
[INST] 13 es igual a [/INST] cinco más ocho 



## Paso 2: Fine tuning de un modelo con dataset tipo 'instruct' para números impares

### 1. Generación de nuevos números de entrenamiento que no sean múltiplos de 3

In [27]:
# Paso 1: Generar un número aleatorio entre 10 y 50 que no sea múltiplo de 3
def generar_numero_aleatorio_no_multiplo_de_tres():
    numero = random.randint(10, 50)
    while numero % 3 == 0:
        numero = random.randint(10, 50)
    return numero

# Diccionario para convertir números a palabras
numeros_a_palabras = {
    1: "uno", 2: "dos", 3: "tres", 4: "cuatro", 5: "cinco",
    6: "seis", 7: "siete", 8: "ocho", 9: "nueve"
}

# Paso 2 y 3: Generar una serie de números cuya suma sea el número aleatorio
def generar_serie_objetivo(objetivo):
    serie = []
    suma_actual = 0

    while suma_actual < objetivo:
        numero = random.randint(1, min(9, objetivo - suma_actual))
        serie.append(numero)
        suma_actual += numero

    return serie

# Paso 4 y 5: Generar múltiples cadenas con números no múltiplos de 3
def generate_lots_of_strings(n=10):
    list_of_strings = []
    for _ in range(n):
        # Generar un número aleatorio entre 10 y 50 que no sea múltiplo de 3
        numero_aleatorio = generar_numero_aleatorio_no_multiplo_de_tres()
        serie_aleatoria = generar_serie_objetivo(numero_aleatorio)
        serie_en_palabras = " más ".join(numeros_a_palabras[numero] for numero in serie_aleatoria)
        s = '{"text": "<s>[INST] %d es igual a [/INST] %s </s>"}' % (numero_aleatorio, serie_en_palabras)
        list_of_strings.append(s)

    # Guardar la lista de cadenas en un archivo
    with open("./drive/MyDrive/training/data/list_of_strings_no_multiples_of_3.jsonl", "w") as file:
        file.write("\n".join(list_of_strings))

# Generar las cadenas
generate_lots_of_strings(150)


### 2. Cargar el modelo

In [7]:
model_path = "./drive/MyDrive/training/models/sft_lora_multiples_of_three/"
model_name = "sft_lora_multiples_of_three"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
`low_cpu_mem_usage` was None, now default to True since model is quantized.


### 3. Cargar los nuevos datos de entrenamiento

In [8]:
train_dataset = load_dataset('json', data_files='./drive/MyDrive/training/data/list_of_strings_no_multiples_of_3.jsonl', split="train")


def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=64)

tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True, remove_columns=['text'])


wandb.init(
    project='LLM_training',
    name=model_name + '_autoregressive_instruct_fine_tuning_non_multiples_of_three'
)

[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
[34m[1mwandb[0m: Currently logged in as: [33msusanasrez[0m ([33mdata2023[0m). Use [1m`wandb login --relogin`[0m to force relogin


### 4. Configuración del entrenamiento mediante LoRA y SFT

In [9]:
# Configuración de LoRA
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,  # rango de LoRA
    lora_alpha=16,  # hiperparámetro de LoRA
    lora_dropout=0.1,  # dropout de LoRA
    target_modules=['q_proj', 'v_proj', 'k_proj', 'o_proj', 'gate_proj', 'up_proj', 'down_proj']  # módulos objetivo para aplicar LoRA
)

model = get_peft_model(model, lora_config)

# Configuración de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    overwrite_output_dir=True,
    num_train_epochs=10,
    per_device_train_batch_size=2,
    save_steps=10_000,
    save_total_limit=2,
    logging_steps=100,
    learning_rate=1e-4,
    fp16=True,
    evaluation_strategy="no",
    eval_steps=10_000,
    report_to="wandb"
)

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)


# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=tokenized_train_dataset,
    max_seq_length=64,
    tokenizer=tokenizer,
    args=training_args,
    packing=True,
    data_collator=data_collator,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


In [10]:
trainer.train()



Step,Training Loss
100,1.6322
200,0.6328
300,0.5977
400,0.5454
500,0.4846
600,0.3964
700,0.2688


TrainOutput(global_step=750, training_loss=0.6236700134277344, metrics={'train_runtime': 779.7464, 'train_samples_per_second': 1.924, 'train_steps_per_second': 0.962, 'total_flos': 4107819810816000.0, 'train_loss': 0.6236700134277344, 'epoch': 10.0})

### 5. Guardar el modelo

In [12]:
wandb.finish()

trainer.save_model("./drive/MyDrive/training/models/sft_lora_NON_multiples_of_three")
tokenizer.save_pretrained("./drive/MyDrive/training/models/sft_lora_NON_multiples_of_three")

0,1
train/epoch,▁▂▃▄▅▆▇█
train/global_step,▁▂▃▄▅▆▇█
train/grad_norm,▄▄▇▆▅█▁
train/learning_rate,█▇▆▄▃▂▁
train/loss,█▃▃▂▂▂▁

0,1
total_flos,4107819810816000.0
train/epoch,10.0
train/global_step,750.0
train/grad_norm,1.58736
train/learning_rate,1e-05
train/loss,0.2688
train_loss,0.62367
train_runtime,779.7464
train_samples_per_second,1.924
train_steps_per_second,0.962


('./drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/tokenizer_config.json',
 './drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/special_tokens_map.json',
 './drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/tokenizer.model',
 './drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/added_tokens.json',
 './drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/tokenizer.json')

### 6. Evaluación del modelo

In [15]:
import torch

In [13]:
model_path = "./drive/MyDrive/training/models/sft_lora_NON_multiples_of_three/"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
`low_cpu_mem_usage` was None, now default to True since model is quantized.


In [16]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [19]:
prompt = "<s>[INST] 13 es igual a [/INST]"
generated_texts = generate_text(prompt, max_length=45, num_return_sequences=1)

for i, text in enumerate(generated_texts):
    print(f"Generated Text {i+1}:\n{text}\n")
    cadena = f"{text}"

Generated Text 1:
[INST] 13 es igual a [/INST] cinco más cuatro más tres más uno 



In [20]:
prompt = "<s>[INST] 17 es igual a [/INST]"
generated_texts = generate_text(prompt, max_length=45, num_return_sequences=1)

for i, text in enumerate(generated_texts):
    print(f"Generated Text {i+1}:\n{text}\n")
    cadena = f"{text}"

Generated Text 1:
[INST] 17 es igual a [/INST] nueve más ocho 

