# Entrenar un modelo para un problema de clasificación

## Inicialización del entorno

In [1]:
!pip install datasets



In [2]:
!pip install transformers[torch]



In [3]:
!pip install accelerate -U



## Cargar un dataset desde HuggingFace

In [4]:
# TODO: Importar el dataset "mteb/amazon_reviews_multi" en español desde el hub de HuggingFace
# TIP: La función para cargar el dataset se importa desde la librería "datasets"
from datasets import load_dataset

dataset = load_dataset("mteb/amazon_reviews_multi", "es")
dataset

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


DatasetDict({
    train: Dataset({
        features: ['id', 'text', 'label', 'label_text'],
        num_rows: 200000
    })
    validation: Dataset({
        features: ['id', 'text', 'label', 'label_text'],
        num_rows: 5000
    })
    test: Dataset({
        features: ['id', 'text', 'label', 'label_text'],
        num_rows: 5000
    })
})

In [5]:
# TODO: Obtener 10 muestras aleatorias de train
# TIP: Usar las funciones "shuffle" y "select"
# TIP: Usar la semilla 1234
dataset_sample_train = dataset["train"].shuffle(seed=1234).select(range(10))
dataset_sample_train

Dataset({
    features: ['id', 'text', 'label', 'label_text'],
    num_rows: 10
})

In [6]:
# TODO: Obtener 10 muestras aleatorias de test
# TIP: Usar las funciones "shuffle" y "select"
# TIP: Usar la semilla 1234
dataset_sample_test = dataset["test"].shuffle(seed=1234).select(range(10))
dataset_sample_test

Dataset({
    features: ['id', 'text', 'label', 'label_text'],
    num_rows: 10
})

## Tokenizar

In [7]:
# TODO: Importar el tokenizador de BETO.
# TIP: El tokenizador se llama "dccuchile/bert-base-spanish-wwm-uncased"
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')

In [8]:
# TODO: Completa el espacio para que tokenize el texto de cada lote de "examples"
def tokenize_function(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

In [9]:
# TODO: Usa la función "map" para tokenizar los textos del dataset de train y de test
tokenized_train_dataset = dataset_sample_train.map(tokenize_function, batched=True)
tokenized_test_dataset = dataset_sample_test.map(tokenize_function, batched=True)

Map:   0%|          | 0/10 [00:00<?, ? examples/s]

In [10]:
tokenized_train_dataset

Dataset({
    features: ['id', 'text', 'label', 'label_text', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 10
})

In [11]:
# TODO: Imprime el texto y los tokens de la primera muestra de train
print(f"Text: {tokenized_train_dataset[0]['text']}\n")
print(f"Tokens: {tokenized_train_dataset[0]['input_ids']}")

Text: llegó antes de la fecha prevista,en buen estado.Lo recomiendo.

aun no lo he utilizado,pero me lo recomendaron,ya veremos sus resultados.Creo que aun es muy pronto para valorarlo.El servicio es muy bueno

Tokens: [4, 3665, 1670, 1009, 1032, 3305, 10773, 1019, 1035, 1274, 1520, 1008, 1086, 21620, 1008, 1977, 1054, 1086, 1440, 6785, 1019, 1195, 1094, 1086, 14651, 1022, 1019, 1319, 7540, 1233, 3267, 1008, 1664, 1041, 1977, 1028, 1355, 3007, 1097, 24361, 1092, 1008, 1039, 2809, 1028, 1355, 1491, 5, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [12]:
# TODO: Imprime el texto y los tokens de la segunda muestra de train
print(f"Text: {tokenized_train_dataset[1]['text']}\n")
print(f"Tokens: {tokenized_train_dataset[1]['input_ids']}")

Text: Esta bien para la noche de halloween

Esta bien para la noche de halloween

Tokens: [4, 1149, 1214, 1097, 1032, 1947, 1009, 17927, 1004, 14487, 1149, 1214, 1097, 1032, 1947, 1009, 17927, 1004, 14487, 5, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [13]:
# TODO: Imprime el texto y los tokens de la tercera muestra de train
print(f"Text: {tokenized_train_dataset[2]['text']}\n")
print(f"Tokens: {tokenized_train_dataset[2]['input_ids']}")

Text: ESTAFA

Es una estafa, el producto nunca llega y tampoco contestan a los mail! No comprar!

Tokens: [4, 24954, 1028, 1091, 24954, 1019, 1039, 4525, 1716, 4994, 1040, 3739, 13238, 30959, 1012, 1067, 13398, 1109, 1054, 4348, 1109, 5, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 

In [None]:
# TODO: ¿Por qué siempre el primer token y el último son iguales?
# Respuesta: Son los tokens de inicio de secuencia y final de secuencia

## Importar modelo

In [14]:
# TODO: Importa el modelo de BETO
# TIP: El modelo BETO se llama "dccuchile/bert-base-spanish-wwm-uncased" en HuggingFace
# TIP: Usa la función "AutoModelForSequenceClassification" de la librería "transformers"
# TIP: Recuerda indicar el número de etiquetas al importar el modelo
from transformers import AutoModelForSequenceClassification

num_labels = len(set(tokenized_train_dataset["label"]))

model = AutoModelForSequenceClassification.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased', num_labels=num_labels)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-uncased and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## Cargar métricas

In [15]:
import numpy as np
from datasets import load_metric

# TODO: Importa la métrica F1
f1_metric = load_metric("f1")

def compute_metrics(eval_pred):a
  logits, labels = eval_pred
  predictions = np.argmax(logits, axis=-1)
  # TODO: Haz un return con el valor de la métrica F1
  # TIP: average="weighted"
  return f1_metric.compute(predictions=predictions, references=labels, average='weighted')

  f1_metric = load_metric("f1")
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this metric from the next major release of `datasets`.


## Parámetros de entrenamiento

In [16]:
from transformers import TrainingArguments

# TODO: Crea un TrainingArguments con los siguientes parámetros:
# - output_dir = "./results"
# - num_train_epochs = 3
# per_device_train_batch_size = 8
# per_device_eval_batch_size = 8
# logging_steps = 10

training_args = TrainingArguments(
    output_dir='./results',          # directorio de salida para los checkpoints del modelo
    num_train_epochs=3,              # número total de épocas de entrenamiento
    per_device_train_batch_size=8,   # tamaño del batch de entrenamiento por dispositivo
    per_device_eval_batch_size=8,    # tamaño del batch de evaluación por dispositivo
    logging_steps=10,
)

## Entrenar el modelo

In [17]:
from transformers import Trainer

# TODO: Instancia un trainer con:
# - el modelo
# - los argumentos de entrenamiento
# - el dataset de train
# - la métrica F1 creada

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_test_dataset,
    compute_metrics=compute_metrics,
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [18]:
# TODO: Entrena el trainer!
# TIP: Usa solo una llamada a una función sin parámetros
trainer.train()

Step,Training Loss


TrainOutput(global_step=6, training_loss=1.211087703704834, metrics={'train_runtime': 4.4541, 'train_samples_per_second': 6.735, 'train_steps_per_second': 1.347, 'total_flos': 7893544273920.0, 'train_loss': 1.211087703704834, 'epoch': 3.0})

## Evaluar el modelo

In [19]:
# TODO: Evalua el trainer!
# TIP: Usa solo una llamada a una función sin parámetros
trainer.evaluate()

{'eval_loss': 1.434790849685669,
 'eval_f1': 0.37435897435897436,
 'eval_runtime': 0.9306,
 'eval_samples_per_second': 10.746,
 'eval_steps_per_second': 2.149,
 'epoch': 3.0}