## Instalar AdapterHub

La siguiente l√≠nea es para descargar e instalar **AdapterHub**.

In [None]:
#!pip install adapter-transformers



## Librer√≠as

In [1]:
import numpy as np
import pandas as pd
import torch
import matplotlib.pyplot as plt
import os

## Dataset

In [2]:
# CREATE DATASET CLASS---------------------------------------------------------------------------------------------

import os
from torch.utils.data import Dataset

class polar(Dataset):

  def __init__(self, Dir, split, tokenizer, use_labels=True):
    self.use_labels = use_labels

    csv_file   = os.path.join(Dir, split + '.csv')

    self.df = pd.read_csv(csv_file)

    labels_file = os.path.join(Dir, split + '_labels.txt')
    if self.use_labels:
      self.labels    = self.df['polarization']

    self.texts = self.df['text'].tolist()

    self.encodings = tokenizer(
        self.texts,
        max_length = 128,
        truncation = True,
        padding = True
      )

  def __len__(self):
    return len(self.texts)

  def __getitem__(self, idx):
    item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
    item['text']   = self.texts[idx]
    if self.use_labels:
      item['labels'] = torch.tensor(self.labels[idx])
    return item

Ahora se carga el tokenizador preentrenado de RoBERTuito, usando la clase AutoTokenizer

In [3]:
# GET TOKENIZER, VOCAB AND DIR OF DATASET--------------------------------------------------------------------------

from transformers import AutoTokenizer


tokenizer = AutoTokenizer.from_pretrained("BSC-LT/mRoBERTa")

Dir = "../../corpus/proyecto"
vocab = tokenizer.get_vocab()

id2w = {}
for w in vocab:
    id2w[vocab[w]] = w

Finalmente, se crean las instancias de los datasets train y val

In [4]:
train_dataset = polar(Dir, 'train', tokenizer)
val_dataset   = polar(Dir, 'test'  , tokenizer, False)

## Modelo

As√≠ como en HuggingFace se tiene la clase AutoModel, an√°logamente, en AdapterHub se tiene la clase AutoAdapterModel, con el que se puede cargar un modelo pre-entrenado de HuggingFace sin especificar la arquitectura, con la diferencia de que ya tiene todos los m√©todos para el uso de adapters incluidos

In [9]:
# Verificar que se instal√≥ correctamente
import subprocess
import sys

# Listar paquetes instalados
!pip list | grep -i adapter

# Intentar importar
try:
    import adapter_transformers
    print("‚úÖ adapter_transformers importado correctamente")

    # Mostrar versi√≥n
    import importlib.metadata
    version = importlib.metadata.version('adapter-transformers')
    print(f"üì¶ Versi√≥n: {version}")

except Exception as e:
    print(f"‚ùå Error: {e}")

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


adapter-transformers         4.0.0
adapters                     1.2.0
‚ùå Error: No module named 'adapter_transformers'


In [10]:
from adapters import AutoAdapterModel

model = AutoAdapterModel.from_pretrained("BSC-LT/mRoBERTa", num_labels = 2)

  warn(


config.json:   0%|          | 0.00/638 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.13G [00:00<?, ?B/s]

Some weights of RobertaAdapterModel were not initialized from the model checkpoint at BSC-LT/mRoBERTa and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
model

## Adapter

Los modelos soportados por AdapterHub tienen el m√©todo "add_adapter"" que sirve para a√±adir un adapter al modelo. Principalmente tiene  dos par√°metros:

*   **adapter_name: [string]** ,    usualmente nombre de la tarea que resuelve
*   **config: [str, dict, AdapterConfig]** ,    la arquitectura del adapter.

AdapterHub soporta diferentes arquitecturas para adapters de art√≠culos recientes. Hay algunas configuraciones pre-establecidas como: PfeifferConfig(default), HoulsbyConfig, ParallelConfig, etc.. Tambi√©n hay alrededor de 400 adapters pre-entrenados que se pueden utilizar.

Cada **adapter** debe tener una **etiqueta de tipo string**, para referirse a √©l en el futuro, ya que un mismo modelo base puede tener m√°s de un adapter. Si el adapter se utilizar√° para clasificaci√≥n, debe a√±adirse tambi√©n su respectiva **cabeza de clasificaci√≥n con la misma etiqueta**.

In [None]:
# name of the task
task_name = "mexA3"

# Add a new adapter
from transformers import ParallelConfig

model.add_adapter(
    adapter_name = task_name,
    config       = ParallelConfig()
)

# Add a matching classification head
model.add_classification_head(
    head_name  = task_name,
    num_labels = 2,
    id2label   = { 0: "Neutro", 1: "Agresivo"}
)

Hasta este punto, ya se a√±adi√≥ un adapter y una cabeza de clasificaci√≥n. Sin embargo, como se puede ver en las siguientes celdas, todos los par√°metros son entrenables.

In [None]:
def trainable_parameters_relation(model):
  total_params = 0
  train_params = 0
  for name, param in model.named_parameters():
    curr = np.array(param.shape).prod()
    total_params += curr
    if param.requires_grad:
      #print(name)
      train_params += curr

  return 100*train_params/total_params

In [None]:
print("\nParametros entrenables:", trainable_parameters_relation(model), "%")

En la siguiente celda se aplican dos operaciones:


*   La primera sirve para activar el adapter que vamos a utilizar, lo que obliga a que el input use las capas asociadas al adapter y a la cabeza de clasificaci√≥n.
*   La segunda l√≠nea es NECESARIA para entrenar el adapter. Una de sus funciones es congelar los pesos del modelo base.



In [None]:
# Activate the adapter
model.set_active_adapters(task_name)
model.train_adapter(task_name)

Se verifica nuevamente el procentaje de par√°metros entrenables.

In [None]:
print("\nParametros entrenables:", trainable_parameters_relation(model), "%")

## Entrenamiento

HuggingFace cuenta con una clase llamada Trainer, que sirve para entrenar sus modelos de forma sencilla en los casos m√°s est√°ndar (como en este caso, clasificaci√≥n).

Antes de crear una instancia de Trainer, es necesario definir los par√°metros que se utilizar√°n para el entrenamiento. Para ello, hay que crear una instancia de la clase TrainingArguments.

**Algunas ventajas**: cuida que el modelo y los datos est√©n en el mismo dispositivo (gpu, cpu) y, si hay m√°s de 1 gpu, utiliza todos para hacer el entrenamiento en paralelo.

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    learning_rate               = 1e-4,
    #weight_decay                 = 0.01,
    num_train_epochs            = 5,
    per_device_train_batch_size = 32,
    per_device_eval_batch_size  = 32,
    logging_steps               = 100,
    output_dir                  = "./training_output",
    overwrite_output_dir        = True,
    # The next line is important to ensure the dataset labels are properly passed to the model
    remove_unused_columns       = False,
)

An√°logamente, AdapterHub tiene la clase AdapterTrainer, que est√° pensada para entrenar √∫nicamente adapters. Se utiliza igual que Trainer.

Una de las ventajas es que si los pesos del modelo base no est√°n congelados, al intentar entrenar con AdapterTrainer arrojar√° error.

In [None]:
from transformers import AdapterTrainer, EvalPrediction

def compute_accuracy(p: EvalPrediction):
  preds = np.argmax(p.predictions, axis=1)
  return {"acc": (preds == p.label_ids).mean()}

trainer = AdapterTrainer(
    model           = model,
    args            = training_args,
    train_dataset   = train_dataset,
    eval_dataset    = val_dataset,
    compute_metrics = compute_accuracy,
)
trainer.args._n_gpu = 1

In [None]:
trainer.train()

In [None]:
trainer.evaluate()

In [None]:
model.save_adapter("weights", "mexA3")