<img src="../imgs/Adevinta-ULPGC-logo.jpg" width="530px" align="right">

# **Parameter-Efficient Fine-Tuning (PEFT)**

https://huggingface.co/docs/peft/index  <-- Empezar por aquí

https://huggingface.co/docs/peft/en/conceptual_guides/prompting

El Parameter-Efficient Fine-Tuning (PEFT) se refiere a técnicas de ajuste fino que buscan mejorar o adaptar modelos de aprendizaje profundo preentrenados, especialmente modelos de lenguaje de gran escala, a tareas específicas sin necesidad de reentrenar completamente todos los parámetros del modelo. Este enfoque es particularmente valioso dada la creciente escala de los modelos de lenguaje natural (como GPT, BERT, y similares), cuyo entrenamiento completo requiere una cantidad significativa de recursos computacionales y energéticos.

PEFT aborda el desafío de cómo hacer que el ajuste fino de estos modelos sea más accesible y práctico, permitiendo personalizar los modelos a tareas específicas con menos recursos. Algunas de las técnicas dentro de este enfoque incluyen:

### 1. **Low-Rank Adaptation**

<a href="https://arxiv.org/pdf/2106.09685.pdf">LoRA: Low-Rank Adaptation of Large Language Models</a>

Esta técnica se basa en la adición de matrices de bajo rango que modifican las representaciones intermedias del modelo. Al ajustar estas matrices de bajo rango, se puede influir en el comportamiento del modelo con un costo computacional relativamente bajo.

<div align="center">
    <img src="./imgs/LoRA.png" width="350px">
</div>

Estas matrices de bajo rango se insertan en los parámetros de un modelo preentrenado, específicamente en los puntos de interacción clave como las matrices de transformación en capas de atención y capas feed-forward. 

Matemáticamente, esto se logra ya que la matriz de adaptación es el producto de dos matrices más pequeñas, facilitando así una modificación eficiente del comportamiento del modelo con una cantidad mínima de parámetros adicionales.

Consideremos una capa específica en un modelo, donde la operación lineal original es $ W $, una matriz que transforma la entrada $ x $ en la salida $ y $, es decir, $ y = Wx $.

1. **Introducción del Adaptador de Bajo Rango:**
   En LoRA, en lugar de modificar $ W $ directamente, se introduce una adaptación $ \Delta W $ que es de bajo rango. Matemáticamente, $ \Delta W $ se expresa como el producto de dos matrices de menor dimensión $ A $ y $ B $, es decir,
   $$
   \Delta W = AB
   $$
   donde $ A $ es una matriz de $ d \times r $ y $ B $ es una matriz de $ r \times d $. Aquí, $ r $ es el rango de la adaptación y es mucho menor que $ d $, la dimensión de la entrada y salida.

2. **Modificación de la Transformación Lineal:**
   La nueva transformación lineal del modelo con la adaptación de bajo rango se convierte en:
   $$
   y = (W + \Delta W)x = (W + AB)x
   $$
   Aquí, $ W $ es la matriz original y $ AB $ es la adaptación de bajo rango que ajusta la transformación de $ W $ para adaptarse mejor a una tarea específica.

3. **Cálculo de la Salida Modificada:**
   Al descomponer $ \Delta W $ en el producto de $ A $ y $ B $, reducimos el número de parámetros a entrenar desde $ d^2 $ (si se modificara $ W $ completamente) a $ d \times r + r \times d $, lo cual es significativamente menor si $ r $ es pequeño.

##### **Ejemplo en un Transformer**

Consideremos la capa de atención donde $ Q, K, V $ (consultas, claves y valores) son transformados por las matrices $ W^Q, W^K, W^V $. Con LoRA, se introducirían adaptaciones $ \Delta W^Q, \Delta W^K, \Delta W^V $ tal que:
   $$
   Q = (W^Q + \Delta W^Q)X, \quad K = (W^K + \Delta W^K)X, \quad V = (W^V + \Delta W^V)X
   $$
donde $ X $ es la entrada a la capa de atención y cada $ \Delta W $ es una adaptación de bajo rango específica para $ Q, K, $ o $ V $.

Este enfoque permite una flexibilidad considerable en la adaptación del modelo a nuevas tareas, permitiendo ajustes finos donde es más necesario con un mínimo impacto en el tamaño y la complejidad del modelo.


#### **QLoRA: Quantized Low-Rank Adaptation for Efficient Fine-Tuning of Pretrained Transformers**

QLoRA y LoRA son técnicas de adaptación para modelos de lenguaje de gran escala, pero QLoRA presenta cuantización, lo que significa que utiliza versiones de menor precisión de los números para reducir los requisitos de memoria y computación. Esto es especialmente útil para despliegues en dispositivos con recursos limitados.

### 2. **Adapters**

<a href="https://arxiv.org/pdf/1902.00751.pdf">Parameter-Efficient Transfer Learning for NLP</a>

Un "adapter" es esencialmente un módulo pequeño y entrenable que se inserta entre las capas preexistentes de un modelo de lenguaje grande. Estos módulos tienen una estructura específica, generalmente consistiendo en una capa de reducción de dimensionalidad, una transformación no lineal, y una capa de expansión de dimensionalidad. La idea es que estos adapters aprendan ajustes específicos para la tarea en cuestión, mientras que los parámetros originales del modelo (los de las grandes capas preentrenadas) permanecen congelados.

<div align="center">
    <img src="./imgs/adapters.webp" width="650px">
</div>

<div align="center">
    <img src="./imgs/adapters.png" width="250px">
</div>


### 3. **Prompt Tuning**
Consiste en diseñar y optimizar un conjunto de *prompts* que se añaden a la entrada del modelo para guiar su generación de texto o predicciones hacia la tarea deseada. Estos prompts pueden ser fijos o aprendidos durante un proceso de ajuste fino limitado.

### 4. **Layer Tuning**
En esta técnica, solo un subconjunto de las capas del modelo (por ejemplo, las últimas capas) se ajustan para una tarea específica, mientras que el resto de las capas permanecen congeladas. Esto reduce el número de parámetros que necesitan ser ajustados.

### 5. **BitFit**
Se refiere a ajustar únicamente los parámetros de sesgo (bias) del modelo mientras se mantienen fijos los pesos de las conexiones. A pesar de su simplicidad, esta técnica ha demostrado ser sorprendentemente efectiva para el ajuste fino de modelos de lenguaje.



PEFT
Accelerate
bitsandbytes
tlr
evaluate
tqdm



### **ROUGE**
https://huggingface.co/spaces/evaluate-metric/rouge

La métrica **ROUGE** (Recall-Oriented Understudy for Gisting Evaluation) es una familia de métricas utilizada para evaluar la calidad de los resúmenes generados automáticamente comparándolos con uno o más resúmenes de referencia hechos por humanos. Fue desarrollada principalmente para tareas de evaluación en sistemas de resumen automático de textos, pero también se usa en otras aplicaciones de procesamiento de lenguaje natural donde se requiere la comparación de secuencias de texto, como en la evaluación de respuestas de modelos de lenguaje.

#### **Variantes Principales de ROUGE**

**1. ROUGE-N:**
   - Mide la coincidencia de n-gramas entre el texto generado y los textos de referencia. "N" se refiere al tamaño de los n-gramas (por ejemplo, ROUGE-1 para unigramas, ROUGE-2 para bigramas, etc.). Esta métrica se centra en la precisión y el recall de n-gramas específicos.

**2. ROUGE-L:**
   - Basada en la longitud de la secuencia más larga común (LCS, Longest Common Subsequence) entre el texto generado y la referencia. ROUGE-L es sensible al orden de las palabras y es útil para evaluar la coherencia de largos segmentos de texto en el resumen.

**3. ROUGE-S:**
   - Considera la co-ocurrencia de bigramas en las secuencias pero permite saltos entre las palabras (skip-bigram). Es menos restrictiva en términos del orden exacto de las palabras, siendo útil para evaluar la relevancia de los contenidos sin penalizar tanto la reorganización de palabras.

**4. ROUGE-W:**
   - Es una variación de ROUGE-L que incorpora un factor de ponderación para dar más importancia a las secuencias más largas, ayudando a enfocar la evaluación en la coherencia global del texto en lugar de solo fragmentos coincidentes.

#### **Cómo Funciona ROUGE**

- **Recall en ROUGE** se refiere a la proporción de n-gramas en los resúmenes de referencia que también aparecen en el resumen generado. Un recall alto indica que el resumen generado cubre mucho de lo que está en los resúmenes de referencia.
- **Precision en ROUGE** mide cuántos n-gramas del resumen generado están presentes en los resúmenes de referencia, lo cual indica la relevancia de la información generada respecto al contenido de referencia.
- A menudo, se calcula el **F1-score**, que es el promedio armónico de la precisión y el recall, proporcionando un balance entre ambos.

In [10]:
# https://huggingface.co/docs/evaluate/a_quick_tour

import evaluate

metric = evaluate.load("rouge")

In [14]:
# Compute the score
prediction = ["Estaba jugando con mi perro cuando sonó el timbre de la puerta"]
reference = ["Cuando sonó el timbre de la puerta, estaba jugando con mi perro"]
score = metric.compute(predictions=prediction, references=reference)

for key, value in score.items():
    print(f"{key}: {round(value, 2)}")

rouge1: 1.0
rouge2: 0.91
rougeL: 0.58
rougeLsum: 0.58


# **GPT**
-----------------

In [1]:
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model
from torch.utils.data import Dataset, DataLoader
import torch

'NoneType' object has no attribute 'cadam32bit_grad_fp32'


  warn("The installed version of bitsandbytes was compiled without GPU support. "


In [2]:
class TextDataset(Dataset):
    def __init__(self, tokenizer, file_path, block_size=128):
        with open(file_path, 'r', encoding='utf-8') as file:
            lines = [line.strip() for line in file if line.strip()]

        self.examples = []
        for line in lines:
            tokens = tokenizer.encode(line, add_special_tokens=True)
            if len(tokens) > block_size:
                tokens = tokens[:block_size]
            tokens += [tokenizer.eos_token_id]
            tokens += [tokenizer.pad_token_id] * (block_size - len(tokens))
            self.examples.append(torch.tensor(tokens))

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, i):
        res = {"input_ids": self.examples[i][:-1], "labels": self.examples[i][1:], "attention_mask": (self.examples[i] != 0).float()}
        # res = {"input_ids": self.examples[i]}
        return res

In [3]:
# Configuraciones
file_path = 'data/numbers_gpt.csv'  # Ajusta esto al path de tu archivo de texto
block_size = 128  # Longitud máxima de las secuencias de tokens

# Cargar tokenizer
tokenizer = AutoTokenizer.from_pretrained('gpt2')
tokenizer.pad_token_id = tokenizer.eos_token_id

# Preparar el dataset
dataset = TextDataset(tokenizer, file_path, block_size)

# Crear DataLoader para iterar sobre el dataset durante el entrenamiento
data_loader = DataLoader(dataset, batch_size=4, shuffle=True)

In [7]:
model = AutoModelForCausalLM.from_pretrained('gpt2')

# Número de parámetros entrenables del modelo
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"El modelo tiene {num_params} parámetros entrenables")

# Número de parámetros del modelo
num_params = sum(p.numel() for p in model.parameters())
print(f"El modelo tiene {num_params} parámetros")

El modelo tiene 124439808 parámetros entrenables
El modelo tiene 124439808 parámetros


In [8]:
# Configurar LoRA
config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["c_attn", "c_proj", "c_fc"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    fan_in_fan_out=True,
)
model = get_peft_model(model, config)

In [9]:
# Número de parámetros entrenables del modelo
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"El modelo tiene {num_params} parámetros entrenables")

# Número de parámetros del modelo
num_params = sum(p.numel() for p in model.parameters())
print(f"El modelo tiene {num_params} parámetros")

El modelo tiene 1179648 parámetros entrenables
El modelo tiene 125619456 parámetros


In [None]:
def custom_save_function(output_dir):
    model.save_pretrained(output_dir)

# Configurar los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="modelo_entrenado",
    num_train_epochs=1,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="logs",
    logging_steps=10,
    save_steps=10,
    save_strategy="no",
)

# Crear el objeto Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    # eval_dataset=tokenized_dataset["validation"],
    tokenizer=tokenizer,
)

# Entrenar el modelo
trainer.train()

# Guardar el modelo entrenado
model.save_pretrained("modelo_entrenado")
tokenizer.save_pretrained("modelo_entrenado")

# **FIN**

In [9]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Cargar el modelo y el tokenizador entrenados
model_path = "modelo_entrenado"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# model = AutoModelForCausalLM.from_pretrained(model_path)

# Generar número en formato textual
def generate_textual_number(numeric_number):
    input_text = str(numeric_number)
    input_ids = tokenizer.encode(input_text, return_tensors="pt").to("mps")
    output = model.generate(input_ids, max_length=50, num_return_sequences=1)
    textual_number = tokenizer.decode(output[0], skip_special_tokens=True)
    return textual_number

# Ejemplo de uso
numeric_number = 123456789
textual_number = generate_textual_number(numeric_number)
print(f"El número {numeric_number} en formato textual es: {textual_number}")


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


El número 123456789 en formato textual es: 123456789 one one one one one one one one one one one one one one
