<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>  

# Pr√°ctica 1 - EDOS (parte 2: transformers)

(EDOS)


En este notebook, exploramos distintos transformers para las tareas de EDOS (SemEval 2023 - Task 10 - Explainable Detection of Online Sexism). El objetivo de esta tarea  es desarrollar sistemas autom√°ticos que permitan identificar contenidos sexistas y dar m√°s explicaciones al respecto.

Recuerda que el conjunto de datos para la tarea EDOS (https://github.com/rewire-online/edos).



**NOTA PARA PODER EJECUTAR ESTE NOTEBOOK**:

1) Para poder ejercutar correctamente este notebook, deber√°s abrirlo en tu Google Drive (por ejemplo, en la carpeta 'Colab Notebooks').

2) Adem√°s, debes guardar el dataset en tu Google Drive, dentro de carpeta 'Colab Notebooks/data/edos/'.



En concreto, vamos a comparar los siguientes transformers, y los aplicaremos a cada una de las tres tareas:


In [1]:
models = ['bert-base-uncased', 'bert-base-cased',
          'distilbert-base-uncased', 'distilbert-base-cased',
          'roberta-base',
          'xlnet-base-cased',
          'gpt2', 't5-small']

model_name = models[0]

TASK = "a" # a, b or c
TASK = TASK.lower()

print(model_name, TASK)


bert-base-uncased a


## Instalar librer√≠as

Como siempre tenemos que instalar las librer√≠as de transformers y datasets:

In [2]:
import torch
torch.__version__

'2.0.1+cu118'

In [3]:
!pip install -q transformers[torch] datasets


Para garantizar la reproductividad de nuestros experimentos vamos a fijar una semilla. Con esto conseguimos que las inicializaciones siempre sean las mismas:

In [4]:
from transformers import set_seed
set_seed(42)

## Dataset

Vamos a cargar el dataset, tal y como ya hicimos en la primera parte de esta pr√°ctica:


In [5]:
from google.colab import drive
drive.mount('/content/drive')

import os
os.chdir('/content/drive/My Drive/Colab Notebooks/data/edos/')

import pandas as pd
df = pd.read_csv("edos_labelled.csv")
df.head()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Unnamed: 0,rewire_id,text,label_sexist,label_category,label_vector,split
0,sexism2022_english-9609,"In Nigeria, if you rape a woman, the men rape ...",not sexist,none,none,dev
1,sexism2022_english-16993,"Then, she's a keeper. üòâ",not sexist,none,none,train
2,sexism2022_english-13149,This is like the Metallica video where the poo...,not sexist,none,none,train
3,sexism2022_english-13021,woman?,not sexist,none,none,train
4,sexism2022_english-966,I bet she wished she had a gun,not sexist,none,none,dev


Cargamos cada split en un dataframe distinto. Cada dataframe ser√° utlizado para crear un objeto Dataset, y finalmente el objeto DatasetDict que contenga los tres splits:

In [6]:
df_train = df[df['split']=='train']
df_dev = df[df['split']=='dev']
df_test = df[df['split']=='test']

# de dataframes a dataset
from datasets import DatasetDict, Dataset
dict_dataset= DatasetDict()
dict_dataset['train'] = Dataset.from_pandas(df_train )
dict_dataset['validation'] = Dataset.from_pandas(df_dev)
dict_dataset['test'] = Dataset.from_pandas(df_test)

# borramos las columnas que nos vamos a utilizar
dict_dataset=dict_dataset.remove_columns(['split','__index_level_0__'])

dict_dataset


DatasetDict({
    train: Dataset({
        features: ['rewire_id', 'text', 'label_sexist', 'label_category', 'label_vector'],
        num_rows: 14000
    })
    validation: Dataset({
        features: ['rewire_id', 'text', 'label_sexist', 'label_category', 'label_vector'],
        num_rows: 2000
    })
    test: Dataset({
        features: ['rewire_id', 'text', 'label_sexist', 'label_category', 'label_vector'],
        num_rows: 4000
    })
})

Para las tareas B y C (clasificaci√≥n y clasificaci√≥n fina de mensajes sexistas) deberemos eliminar todos los mensajes que no est√°n clasificados con la clase 'sexist' en el campo 'label_sexist':

In [7]:
if TASK != 'a':
    dict_dataset = dict_dataset.filter(lambda example: example["label_sexist"]=='sexist')

# Cada tarea, tiene un nombre de label distinto:
label_task = {'a': 'label_sexist', 'b': 'label_category', 'c':'label_vector'}

# Borramos todas las columnas excepto el texto y el campo label correspondiente a la tarea
columns_to_remove = list(set(dict_dataset['train'].features) - set(['text', label_task[TASK]]))
dict_dataset = dict_dataset.remove_columns(columns_to_remove)
# renombramos el campo label espec√≠fico de la tarea a label
print('renombramos: ', label_task[TASK])
dict_dataset = dict_dataset.rename_column(label_task[TASK],'label')
dict_dataset

renombramos:  label_sexist


DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 14000
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 4000
    })
})

### Label encoding

Las labels en este dataset son textos. As√≠, por ejemplo, para la tarea A, las labels son: 'not sexist' y 'sexist'.
Para la tarea B, las labels son:
- 1. threats, plans to harm and incitement
- 2. derogation
- 3. animosity
- 4. prejudiced discussions

Y para la tarea C, las labels son:
- '1.1 threats of harm'',
-  '1.2 incitement and encouragement of harm',
-  '2.1 descriptive attacks',
-  '2.2 aggressive and emotive attacks',
-  '2.3 dehumanising attacks & overt sexual objectification',
-  '3.1 casual use of gendered slurs, profanities, and insults',
-  '3.2 immutable gender differences and gender stereotypes',
-  '3.3 backhanded gendered compliments',
-  '3.4 condescending explanations or unwelcome advice',
-  '4.1 supporting mistreatment of individual women',
-  '4.2 supporting systemic discrimination against women as a group'

Las labels deben ser transformadas en n√∫meros enteros. Para ello usaremos la clase LabelEncoder de sklearn:

In [8]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

# entrenamos el codificador de etiquetas
le.fit(dict_dataset['train']['label'])
# guardamos el conjunto de labels y su n√∫mero
LABELS = list(le.classes_)
NUM_LABELS = len(LABELS)

# transformamos las etiquetas de texto a n√∫mero en los tres splits
# las guardamos en tres listas
y_train = le.transform(dict_dataset['train']['label'])
y_val = le.transform(dict_dataset['validation']['label'])
y_test = le.transform(dict_dataset['test']['label'])




Vamos a comprobar que en efecto la transformaci√≥n se ha hecho de forma correcta. Tomamos, por ejemplo, las 5 primero labels del conjunto test y vemos que se han codificado correctamente:

In [9]:
print(dict_dataset['test']['label'][:5])
print(y_test[:5])

['not sexist', 'sexist', 'not sexist', 'sexist', 'sexist']
[0 1 0 1 1]


## Tokenizaci√≥n

Siempre es necesario cargar el tokenizador asociado con el transformer que vayamos a utilizar.


In [10]:
if 'uncased' in model_name:
        do_lower_case = True
else:
        do_lower_case = False

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name, do_lower_case=do_lower_case)


In [11]:
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=NUM_LABELS)
print(model_name, ' cargado')

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


bert-base-uncased  cargado


### Tama√±o de los textos

Aunque ya hemos estudiamos la distribuci√≥n de los textos en el notebook anterior (y vimos que el tama√±o medio de los textos es de unos 22 tokens), vamos a mirar qu√© tama√±o es el del texto m√°s largo. En este caso, ya s√≠ vamos a usar el tokenizador:

In [12]:
# obtenemos la longitud de la secuencia m√°s larga en el conjunto de training
MAX_LENGTH = max([len(tokenizer(text).tokens())  for text in dict_dataset['train']['text']])
print(MAX_LENGTH)


93


Vemos que el tama√±o m√°ximo es de 93 tokens. En realidad, en esos 93 tokens habr√° tokens y tambi√©n subtokens, porque los tokenizadores de los transformers dividien las palabras desconocidas (es decir, aquellas que no est√°n en la colecci√≥n de textos utilizada para pre-entrenar el modelo) en subtokens para que puedan ser represenatdos.

El tama√±o m√°ximo que permiten la mayor√≠a de los modelos es 512, as√≠ que podr√≠amos preparar nuestras entradas para que tuvieran esa longitud, pero en realidad usando una longitud de 93, vamos a representar todas los textos de nuestro dataset, y adem√°s, vamos a ahorrar recursos.

In [13]:
MAX_LENGTH = min(MAX_LENGTH, 512)
print('MAX_LENGTH:', MAX_LENGTH)

MAX_LENGTH: 93


Una vez que ya hemos estimado el tama√±o m√°ximo de nuestras secuencias (textos) de entrada, ya podemos definir nuestra funci√≥n para tokenizar todos los textos de los tres splits.

Es necesario el par√°metro **truncation** igual a True, porque en el conjunto de validaci√≥n o en el conjunto test, podr√≠a existir alg√∫n texto con un n√∫mero mayor de tokens.



In [14]:
def tokenize(example):
    return tokenizer(example["text"], truncation=True, padding=True, max_length=MAX_LENGTH)


Una vez definida la funci√≥n, la aplicamos sobre todo el dataset, gracias a la funci√≥n map. Adem√°s, vamos a borrar la columna text.

La columna 'label' tambi√©n la eliminamos porque sus valores est√°n en formato string. Lo que hacemos es eliminar dicha columna y volver a a√±adirla en cada split, pero ahora guardando los valores de las labels ya codificados (transformados a n√∫meros):

In [15]:
encoded_dataset = dict_dataset.map(tokenize, batched=True)
# quitamos text y label. label se quita porque sus valores son string
encoded_dataset = encoded_dataset.remove_columns(['text','label'])
# a√±adimos a cada split la columna label otra vez, pero ahora con sus correspodientes valores transformados a n√∫meros (lo hicimos en Label encoding)
encoded_dataset['train'] = encoded_dataset['train'].add_column('label', y_train)
encoded_dataset['validation'] = encoded_dataset['validation'].add_column('label', y_val)
# adem√°s, borramos la codificaci√≥n de test, porque realmente no se va a usar durante el entrenamiento
del(encoded_dataset['test'] )
encoded_dataset

Map:   0%|          | 0/14000 [00:00<?, ? examples/s]

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

Map:   0%|          | 0/4000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'label'],
        num_rows: 14000
    })
    validation: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'label'],
        num_rows: 2000
    })
})

## Modelo

Como vimos durante los ejercicios del curso, antes de entrenar un modelo, siempre hay que proporcionar un conjunto de hiperpar√°metros (que siempre es recomendable probar durante la experimentaci√≥n con distintos valroes para encontrar los mejores valores) y un conjunto de m√©tricas asociado con la tarea.
En nuestro caso, como la tarea es clasificaci√≥n, utilizaremos las m√©tricas de precisi√≥n, recall y f1, y para su c√°lculo simplemente vamos a utilizar la librer√≠a sklearn:

In [16]:
# define metrics
import numpy as np
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

def compute_metrics(eval_pred):

    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, predictions, average='macro')
    acc = accuracy_score(labels, predictions)
    return {
        'accuracy': acc,    #we could return just the accuracy
        'f1': f1,
        'precision': precision,
        'recall': recall
    }



Respecto a los argumentos, como ya hemos visto en otros ejercicios, usaremos la clase TrainingArguments que ya tiene los hiper-par√°metros definidos e inicializados para este tipo de tareas. Trata a modificar algunos valores como el n√∫mero de epochs, el ratio de aprendizaje (learning rate) o el tama√±o del batch, y estudia si los resultados mejoran en el conjunto de validaci√≥n.

In [17]:

from transformers import TrainingArguments
args = TrainingArguments(
    output_dir='./outputs/',
    # overwrite_output_dir = True,  # If `True`, overwrite the content of the output directory. Use this to continue training if `output_dir` points to a checkpoint directory.
    logging_dir='./logs',
    num_train_epochs=1, # usa 1 para un entrenamiento r√°pido, aunque lo recomendable es un valor de 3 a 5
    evaluation_strategy = "epoch",  # "steps",   evaluate each `logging_steps`, logging_steps=400,               # log & save weights each logging_steps     save_steps=400,
                                    # save_steps=400,
    save_strategy = "epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    weight_decay=0.01,
    load_best_model_at_end=True,
    metric_for_best_model="f1",

)

Ya estamos listos para crear el objeto Trainer, al que pasamos el modelo, el tokenizador, los argumentos, la funci√≥n que c√°lcula las m√©tricas, y los datos codificados de training y validaci√≥n:

In [18]:
from transformers import Trainer

trainer = Trainer(
    model,                                  # the model
    args,                                   # the arguments of the model
    train_dataset=encoded_dataset['train'],               # the training dataset
    eval_dataset=encoded_dataset['validation'],               #the validation dataset
    tokenizer=tokenizer,                    # the tokenizer
    compute_metrics=compute_metrics,        # the metrics used to evaluate the validation, these are calculated in each epoch
)

# training
print('Training: ', model_name)
trainer.train()

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Training:  bert-base-uncased


Epoch,Training Loss,Validation Loss,Accuracy,F1,Precision,Recall
1,0.39,0.307273,0.872,0.817063,0.836359,0.80229


TrainOutput(global_step=875, training_loss=0.3605895298549107, metrics={'train_runtime': 275.5108, 'train_samples_per_second': 50.815, 'train_steps_per_second': 3.176, 'total_flos': 667627858535040.0, 'train_loss': 0.3605895298549107, 'epoch': 1.0})

Con una sola epoch, la f1 es de 0.81. No est√° mal para una tarea de clasificaci√≥n binaria.


En la siguiente celda, puedes evaluar el mejor modelo obtenido durante el training sobre el conjunto de validaci√≥n:

In [19]:
result = trainer.evaluate()
result

{'eval_loss': 0.3072728216648102,
 'eval_accuracy': 0.872,
 'eval_f1': 0.8170634103953718,
 'eval_precision': 0.8363587972344377,
 'eval_recall': 0.802289740202554,
 'eval_runtime': 9.5868,
 'eval_samples_per_second': 208.619,
 'eval_steps_per_second': 13.039,
 'epoch': 1.0}

###¬†Guardar el modelo

A veces es interesante guardar el modelo para  utilizarlo m√°s tarde para inferir la clasificaci√≥n sobre nuevos textos, sin necesidad de volver a repetir el entrenamiento. En la siguiente celda, puedes ver que el modelo se almacena en la subcarpeta models (en la carpeta actual de trabajo, o podr√≠as indicar otra ruta).
Es necesario guardar el tokenizador y el modelo.


In [20]:
import os
SAVE_MODEL = False
if SAVE_MODEL:
    models_dir = 'models/'
    if not os.path.exists(models_dir): ### If the file directory doesn't already exists,
        os.makedirs(models_dir) ### Make it please

    model_path = models_dir+model_name
    model_path += "_{}".format(TASK)

    # grabamos el modelo y el tokenizador
    tokenizer.save_pretrained(model_path)
    trainer.save_model(model_path)

Una vez entrenado el modelo, podemos usarlo sobre los textos del conjunto test para inferir sus etiquetas. Estas se compar√°n con las del conjunto test, y se podr√°n obtener los resultados finales:


In [21]:
def get_prediction(text):
    # recibe el texto y lo tokeniza usando la misma funci√≥n que se uso para el training
    inputs = tokenizer(text, truncation=True, padding='max_length', max_length=MAX_LENGTH, return_tensors="pt").to("cuda")
    # aplica el modelo sobre la entrada
    outputs = model(**inputs)
    # recupera las probabilidades
    probs = outputs[0].softmax(1)
    # la funci√≥n argmax nos devuelve la clase con mayor probabilidad
    #¬†devuelve el nombre de la clase, no su codificaci√≥n
    return probs.argmax().item()

Aplicamos la funci√≥n get_prediction sobre todos los textos del conjunto test, y adem√°s recuperamos las labels del conjunto test:

In [22]:
y_pred=[LABELS[get_prediction(text)] for text in dict_dataset['test']['text']]


Recuperamos las labels del conjunto (sin codificar):

In [23]:
y_test = dict_dataset['test']['label']
y_test[:5]

['not sexist', 'sexist', 'not sexist', 'sexist', 'sexist']

In [24]:
from sklearn.metrics import classification_report, confusion_matrix
print(classification_report(y_true = y_test, y_pred = y_pred, target_names=LABELS))
print(confusion_matrix(y_test, y_pred))


              precision    recall  f1-score   support

  not sexist       0.90      0.93      0.92      3030
      sexist       0.76      0.68      0.72       970

    accuracy                           0.87      4000
   macro avg       0.83      0.80      0.82      4000
weighted avg       0.87      0.87      0.87      4000

[[2821  209]
 [ 312  658]]


Puedes almacenar los resultados para poder compararlos con lso de los otros modelos:

In [25]:
import os
output_dir = 'results/'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

clsf_report = pd.DataFrame(classification_report(y_true = y_test, y_pred = y_pred, target_names=LABELS, output_dict=True)).transpose()
path_results = output_dir+model_name

clsf_report.to_csv(path_results+'_{}.csv'.format(TASK), index= True)
print(path_results+'_{}.csv'.format(TASK), ' grabado!')


results/bert-base-uncased_a.csv  grabado!


Ajusta cada uno de los modelos para cada una de las tareas, y almacena sus resultados.
¬øQu√© modelo es el mejor para cada tarea?, ¬øcu√°l es la mejor f1 para cada tarea?. Tambi√©n es interesante que discutas los resultados para las clases en las tareas B y C.