# Tarea 1: Classificaton Fine-tuning

Esta tarea consiste en desarrollar por vuestra cuenta un modelo de *Text-Classification*. En clase ya hemos visto este caso de uso y deber√≠a resultaros sencilla la transici√≥n. En cualquier caso, esta vez trabajar√©is solos. Prestad atenci√≥n a todos los pasos y no dud√©is en utilizar cualquier recurso para investigar.  

El dataset est√° seleccionado al comienzo del notebook. Sin embargo, la elecci√≥n, configuraci√≥n y entrenamiento del modelo es totalmente libre. No olvid√©is que el notebook tiene que estar entregado con todas las celdas ejecutadas y sin errores, incluidas las celdas de evaluaci√≥n al final del notebook.

In [None]:
# Librer√≠as

import logging
logging.getLogger("transformers").setLevel(logging.ERROR)

import torch
print("Is CUDA available:", torch.cuda.is_available())
print("CUDA version:", torch.version.cuda)
print("Number of GPUs available:", torch.cuda.device_count())

from time import time
from datasets import *
from transformers import *
from sklearn.metrics import *
import matplotlib.pyplot as plt

## Dataset

El split **MNLI** del dataset **GLUE** consiste en un par de oraciones (premisa e hip√≥tesis) y una etiqueta indicando la relaci√≥n entre ellas:

- _Entailment_: La hip√≥tesis es una conclusi√≥n l√≥gica de la premisa.
- _Neutral_: La hip√≥tesis no puede ser determinada como verdadera o falsa basada en la premisa.
- _Contradiction_: La hip√≥tesis contradice la premisa.

Adem√°s, este split contiene diferentes subconjuntos. Principalmente, usaremos el de _train_ para entrenar y los de _validation_ para evaluar la calidad del modelo. Los de _test_ los omitiremos para este trabajo.
- _Train_: Dataset que usaremos para entrenar el modelo.
- _MNLI-matched_ (MNLI-m): Dataset de validaci√≥n creado a partir de las mismas categor√≠as de los del conjunto de entrenamiento (e.g., noticias, ficci√≥n).
- _MNLI-mismatched_ (MNLI-mm): Dataset de validaci√≥n creado a partir de diferentes categor√≠as de los del conjunto de entrenamiento (e.g., discursos pol√≠ticos, cartas).

Aqu√≠ la ficha del dataset para que pod√°is explorarla: https://huggingface.co/datasets/nyu-mll/glue

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

dataset = load_dataset("glue", "mnli")
dataset

Con el √∫nico motivo de no demorar los tiempos de entrenamiento. Filtraremos el dataset y nos quedaremos solo con los registros que tenga longitud del campo _premise_ inferior a 20.

El resto de la pr√°ctica se pide trabajarla sobre la variable `dataset` ya filtrada.

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

def filter_rows(x):
    return len(x['premise'])<20
dataset = dataset.filter(filter_rows)

assert len(dataset['train']) == 13635
assert len(dataset['validation_matched']) == 413
assert len(dataset['validation_mismatched']) == 296

dataset

## Modeling

En este apartado es donde tendr√©is que realizar todo el trabajo de la pr√°ctica. El formato, el an√°lisis, el modelo escogido y cualquier proceso intermedio que consider√©is es totalmente libre. Sin embargo, hay algunas pautas que tendr√©is que cumplir:

- La variable `model_checkpoint` debe almacenar el nombre del modelo y el tokenizador de ü§ó que vais a utilizar.
- La variable `model` y la variable `tokenizer` almacenar√°n, respectivamente, el modelo y el tokenizador de ü§ó que vais a utilizar.
- La variable `trainer` almacenar√° el _Trainer_ de ü§ó que, en la siguiente secci√≥n utilizar√©is para entrenar el modelo.
- Debe existir una funci√≥n llamada `preprocess_function` que realice la tokenizaci√≥n y, si lo consider√°is oportuno, transformaciones de las _features_.

Nota: En el _tokenizer_, es obligatorio que su salida sean **tensores** de pytorch.

**Importante**
No est√° permitido utilizar modelos pre-entrenados de Huggingface que han sido ya entrenados con este dataset, `GLUE MNIST`. Por ejemplo, no se permitir√≠a usar `deberta-large-mnli`, `roberta-base-MNLI`, `glue_sst_classifier`, etc.

In [None]:
#model_checkpoint = None
#tokenizer = None
#model = None

#def preprocess_function(x):
 #   return x

#trainer = None

In [17]:
import numpy as np

model_checkpoint = "roberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)


label_list = dataset["train"].features["label"].names \
    if hasattr(dataset["train"].features["label"], "names") \
    else sorted(list(set(dataset["train"]["label"])))
num_labels = len(label_list)

model = AutoModelForSequenceClassification.from_pretrained(
    model_checkpoint,
    num_labels=num_labels
)

def preprocess_function(examples):

    tokenized_inputs = tokenizer(
        examples["premise"],
        examples["hypothesis"],
        padding="max_length",
        truncation=True,
        max_length=128
    )

    tokenized_inputs["labels"] = examples["label"]
    return tokenized_inputs


tokenized_datasets = dataset.map(preprocess_function, batched=True)


def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return {"accuracy": (predictions == labels).astype(float).mean()}


training_args = TrainingArguments(
    output_dir="./results",
    eval_strategy="epoch",
    save_strategy="epoch",
    learning_rate=4e-5,
    per_device_train_batch_size=16,
    num_train_epochs=1,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model="accuracy",
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],

    eval_dataset=tokenized_datasets["validation_matched"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

Map:   0%|          | 0/13635 [00:00<?, ? examples/s]

Map:   0%|          | 0/413 [00:00<?, ? examples/s]

Map:   0%|          | 0/296 [00:00<?, ? examples/s]

Map:   0%|          | 0/382 [00:00<?, ? examples/s]

Map:   0%|          | 0/288 [00:00<?, ? examples/s]

  trainer = Trainer(


## Training

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

assert len(trainer.train_dataset) == 13635

start = time()

trainer.train()

end = time()
print(f">>>>>>>>>>>>> elapsed time: {(end-start)/60:.0f}m")



## Evaluation

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

print(f"**** EVALUACI√ìN ****")
print(f"********\nTokenizer config:\n{tokenizer}")
print(f"\n\n********\nModel config:\n{model.config}")
print(f"\n\n********\nTrainer arguments:\n{trainer.args}")

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

sample = dataset['validation_matched'][0]
inputs = preprocess_function(sample)
for key, value in inputs.items():
    if isinstance(value, torch.Tensor):
        print(f"{key} es una instancia de torch.Tensor")
    else:
        print(f"{key} no es una instancia de torch.Tensor")

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

def predict(x):
    inputs = preprocess_function(x)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.argmax(outputs.logits, dim=-1)
        return {'prediction': predictions.item()}

ds_predictions = dataset.map(predict)

assert len(ds_predictions['train']) == 13635
assert len(ds_predictions['validation_matched']) == 413
assert len(ds_predictions['validation_mismatched']) == 296

ds_predictions

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

for subset in ['train', 'validation_matched', 'validation_mismatched']:
    y_true = ds_predictions[subset]['label']
    y_pred = ds_predictions[subset]['prediction']
    cm = confusion_matrix(y_true=y_true, y_pred=y_pred)
    print(f"*** {subset} ***")
    ConfusionMatrixDisplay(cm).plot()
    plt.show()

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

metrics = {}
for subset in ['train', 'validation_matched', 'validation_mismatched']:
    y_true = ds_predictions[subset]['label']
    y_pred = ds_predictions[subset]['prediction']
    acc = accuracy_score(y_true=y_true, y_pred=y_pred)
    pre = precision_score(y_true=y_true, y_pred=y_pred, average=None)
    rec = recall_score(y_true=y_true, y_pred=y_pred, average=None)
    metrics[subset] = [acc] + pre.tolist() + rec.tolist()
    print(f"Subset: {subset}:")
    print(f"Accuracy: {acc:.2f} | Precision0: {pre[0]:.2f} | Precision1: {pre[1]:.2f} | Precision2: {pre[2]:.2f} | Recall0: {rec[0]:.2f} | Recall1: {rec[1]:.2f} | Recall2: {rec[2]:.2f}")
    print("-----\n")

### Criterio de evaluaci√≥n

La **nota final de la tarea1** estar√° relacionada con el resultado de las m√©tricas de vuestro modelo en la combinaci√≥n de *accuracy*, *precision* y *recall* para cada _split_ de datos.

El criterio de evaluaci√≥n ser√° el siguiente:
- La tarea1 se aprobar√° si el notebook se entrega sin fallos y con un modelo entrenado (independientemente de sus m√©tricas).
- La tarea1 tiene un 10 si se cumple que las m√©tricas de vuestro modelo entrenado igualan o superan los siguientes umbrales:

| Subset               | Accuracy | Precision0 | Precision1 | Precision2 | Recall0 | Recall1 | Recall2 |
|----------------------|----------|------------|------------|------------|---------|---------|---------|
| validation_matched    | 0.78     | 0.78       | 0.76       | 0.85       | 0.80    | 0.77    | 0.81    |
| validation_mismatched | 0.79     | 0.70       | 0.70       | 0.70       | 0.65    | 0.71    | 0.85    |

- Por cada valor inferior a dicha m√©trica, la tarea pierde 0.5 puntos (m√°ximo 5.0 puntos de p√©rdida).

Nota: La nota que se calcula a continuaci√≥n es orientativa y podr√≠a verse reducida en funci√≥n del c√≥digo de la entrega.

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

def calculo_nota(metric):

    vm_acc = float(metric['validation_matched'][0])
    vm_pre0 = float(metric['validation_matched'][1])
    vm_pre1 = float(metric['validation_matched'][2])
    vm_pre2 = float(metric['validation_matched'][3])
    vm_rec0 = float(metric['validation_matched'][4])
    vm_rec1 = float(metric['validation_matched'][5])
    vm_rec2 = float(metric['validation_matched'][6])
    vmm_acc = float(metric['validation_mismatched'][0])
    vmm_pre0 = float(metric['validation_mismatched'][1])
    vmm_pre1 = float(metric['validation_mismatched'][2])
    vmm_pre2 = float(metric['validation_mismatched'][3])
    vmm_rec0 = float(metric['validation_mismatched'][4])
    vmm_rec1 = float(metric['validation_mismatched'][5])
    vmm_rec2 = float(metric['validation_mismatched'][6])

    thresholds = {
        'vm_acc': 0.78, 'vm_pre0': 0.78, 'vm_pre1': 0.76, 'vm_pre2': 0.85,
        'vm_rec0': 0.80, 'vm_rec1': 0.77, 'vm_rec2': 0.81,
        'vmm_acc': 0.79, 'vmm_pre0': 0.70, 'vmm_pre1': 0.70, 'vmm_pre2': 0.70,
        'vmm_rec0': 0.65, 'vmm_rec1': 0.71, 'vmm_rec2': 0.85,
    }
    values = {
        'vm_acc': vm_acc, 'vm_pre0': vm_pre0, 'vm_pre1': vm_pre1, 'vm_pre2': vm_pre2,
        'vm_rec0': vm_rec0, 'vm_rec1': vm_rec1, 'vm_rec2': vm_rec2,
        'vmm_acc': vmm_acc, 'vmm_pre0': vmm_pre0, 'vmm_pre1': vmm_pre1, 'vmm_pre2': vmm_pre2,
        'vmm_rec0': vmm_rec0, 'vmm_rec1': vmm_rec1, 'vmm_rec2': vmm_rec2,
    }

    nota = 10
    for key in thresholds:
        if values[key] < thresholds[key]:
            nota -= 0.5
    return max(nota, 5.0)

print(f"Tu nota de la tarea1 es: {calculo_nota(metrics)}")