# CLASIFICADOR DE TEXTO MEDIANTE VOTACION MAYORITARIA TASK 5

## Importar Dependencias y Librerias

In [None]:
# Instalacion de dependencias
!pip install pytorch-lightning
!pip install --upgrade accelerate
!pip install framework-reproducibility
!pip install transformers datasets
!pip install --upgrade numpy
!pip install --upgrade pandas
!pip install --upgrade scikit-learn

Collecting pytorch-lightning
  Downloading pytorch_lightning-2.3.0-py3-none-any.whl (812 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m812.2/812.2 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
Collecting torchmetrics>=0.7.0 (from pytorch-lightning)
  Downloading torchmetrics-1.4.0.post0-py3-none-any.whl (868 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m868.8/868.8 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
Collecting lightning-utilities>=0.8.0 (from pytorch-lightning)
  Downloading lightning_utilities-0.11.2-py3-none-any.whl (26 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=2.0.0->pytorch-lightning)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=2.0.0->pytorch-lightning)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=2.0.0->pyto

Reiniciar Entorno (Recomendable de hacer siempre despues de instalar dependencias)

In [None]:
# Instalacion de librerias
import random
import torch
import numpy as np
import os
from pytorch_lightning import seed_everything
import matplotlib.pyplot as plt
import seaborn as sns
import re

seed_val = 42
random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)# Store the average loss after eachepoch so we can plot them.
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False
os.environ["TF_DETERMINISTIC_OPS"] = "1" # See:https://github.com/NVIDIA/tensorflow-determinism#confirmed-current-gpu-specific-sources-of-non-determinism-with-solutions
seed_everything(42, workers=True)

from datasets import Dataset, DatasetDict, load_metric
import pandas as pd
import sklearn as sk
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, average_precision_score, f1_score
from sklearn.model_selection import train_test_split
from transformers import AutoTokenizer, AutoModelForSequenceClassification, \
TrainingArguments, Trainer, pipeline, EarlyStoppingCallback

INFO:lightning_fabric.utilities.seed:Seed set to 42


In [None]:
# Comprobacion GPU
# Check that pyTorch is identifying the GPU
if torch.cuda.device_count() > 0:
    # If a GPU is available, print its name
    print(f'GPU detected. Currently using: "{torch.cuda.get_device_name(0)}"')
    # Set the device to GPU for accelerated computations
    device = torch.device("cuda")
else:
    # If no GPU is available, inform the user to change the runtime type
    print('Currently using CPU. To utilize GPU acceleration, change the runtime type in the \'runtime\' tab.')

Currently using CPU. To utilize GPU acceleration, change the runtime type in the 'runtime' tab.


In [None]:
# Conexion drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Lectura y Etiquetado de Datos

Cargar los datos de entrenamiento y test

In [None]:
# En este caso, tenemos un único fichero de entrenamiento y un fichero independiente de test
train_data_path = '/content/drive/MyDrive/Dataset/Task 5/train_original.json'
test_data_path = '/content/drive/MyDrive/Dataset/Task 5/test_task5_hard.json'
#############################################################################################

# Los transformamos en Dataframes
train_df_full = pd.read_json(train_data_path, orient='index')
test_df = pd.read_json(test_data_path, orient='index')

Hard voting train_df

In [None]:
train_df_full.reset_index(drop=True, inplace=True)

# Cuenta la etiqueta más usada
def most_common_label(labels):
    counts = {}
    for label in labels:
        counts[label] = counts.get(label, 0) + 1
    return max(counts, key=counts.get)

columna_labels_task5 = train_df_full['labels_task5']
mv = []
indices = []
i = 0

for columna in columna_labels_task5:
    labels = []
    for data in columna:
        if data == 'DIRECT':
            labels.append('DIRECT')
        elif data == 'JUDGEMENTAL':
            labels.append('JUDGEMENTAL')
    if labels != []:
        mas_usado = most_common_label(labels)
        mv.append(mas_usado)
        indices.append(i)
    i += 1

train_df_full = train_df_full.loc[indices]
train_df_full['labels_task5'] = mv
train_df_full

Balanceo de datos y divison train-valid

In [None]:
# Usamos estas variables para que el código sea más portable
nombre_etiqueta = 'labels_task5'

# Muestra la distribucón original de las etiquetas
print("Distribución original - Train completo: ", train_df_full.value_counts(nombre_etiqueta))

######## Undersampling manual ########################
# Para hacer un undersampling manual, se construye un dataframe para cada clase
# Por ejemplo, si se quiere hacer undersampling de la clase mayoritaria (0), se guarda
# en df_0 el número de filas de clase 0 que se quiere mantener y en df_1 todas las filas de clase 1

# Contar cuántos son de cada clase y coger el minimo
num_class1 = (train_df_full[nombre_etiqueta] == 'DIRECT').sum()
num_class2 = (train_df_full[nombre_etiqueta] == 'JUDGEMENTAL').sum()
min_size = min(num_class1,num_class2)

# *******
df_0 = train_df_full[train_df_full[nombre_etiqueta]=='DIRECT'].sample(n=min_size,random_state=42)
df_1 = train_df_full[train_df_full[nombre_etiqueta]=='JUDGEMENTAL'].sample(n=min_size,random_state=42)
# Se vuelve a construir el fichero de entrenamiento concatenando los 2 dataframes
train_df_full = pd.concat([df_0,df_1])
print("Distribución despues del undersampling: ", train_df_full.value_counts(nombre_etiqueta))
######################################################
# *******

###### División train/valid/test #####################
# Si hay un único fichero
train_df, valid_df = train_test_split(train_df_full, test_size = 0.15, shuffle = True, stratify=train_df_full[[nombre_etiqueta]])
#valid_df, test_df = train_test_split(auxiliar_df, test_size = 0.3, shuffle = True, stratify=auxiliar_df[[nombre_etiqueta]])

# Si hay ficheros de train y test independientes, sólo se hace división train/valid
train_df, valid_df = train_test_split(train_df_full, test_size = 0.15, shuffle = True, stratify=train_df_full[[nombre_etiqueta]])
######################################################


print("Ejemplos del conjunto completo de entrenamiento ", len(train_df_full))
print("Ejemplos usados para entrenar: ", len(train_df))
print("Ejemplos usados para validar: ", len(valid_df))
print("Ejemplos usados para test: ", len(test_df))

In [None]:
# Para saber el número de filas de cada clase en cada división
print("distribución original - Train: ",train_df.value_counts(nombre_etiqueta))
print("distribución original - Valid: ",valid_df.value_counts(nombre_etiqueta))
print("distribución original - Test: ",test_df.value_counts(nombre_etiqueta))

## Preprocesado de Datos

Funciones de limpieza

In [None]:
import re

def remove_links(tweet):
    """Takes a string and removes web links from it"""
    tweet = re.sub(r'http\S+', '', tweet)        # remove http links
    tweet = re.sub(r'bit.ly/\S+', '', tweet)     # remove bitly links
    tweet = re.sub(r'\[link\]', '', tweet )      # remove [link]
    tweet = re.sub(r'\[url\]', '', tweet )       # remove [url]
    tweet = re.sub(r'pic.twitter\S+','', tweet)
    return tweet

def remove_users(tweet):
    """Takes a string and removes retweet and @user information"""
    tweet = re.sub('(RT\s@[A-Za-z]+[A-Za-z0-9-_]+)', '', tweet)  # remove re-tweet
    tweet = re.sub('(@[A-Za-z]+[A-Za-z0-9-_]+)', '', tweet)      # remove tweeted at
    tweet = re.sub(r'\[user\]', '', tweet )                      # remove [user]
    return tweet

def remove_hashtags(tweet):
    """Takes a string and removes any hash tags"""
    tweet = re.sub('(#[A-Za-z]+[A-Za-z0-9-_]+)', '', tweet)      # remove hash tags
    return tweet

def remove_av(tweet):
    """Takes a string and removes AUDIO/VIDEO tags or labels"""
    tweet = re.sub('VIDEO:', '', tweet)  # remove 'VIDEO:' from start of tweet
    tweet = re.sub('AUDIO:', '', tweet)  # remove 'AUDIO:' from start of tweet
    return tweet

def remove_emojis(tweet):
    emoj = re.compile("["
        u"\U00002700-\U000027BF"  # Dingbats
        u"\U0001F600-\U0001F64F"  # Emoticons
        u"\U00002600-\U000026FF"  # Miscellaneous Symbols
        u"\U0001F300-\U0001F5FF"  # Miscellaneous Symbols And Pictographs
        u"\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
        u"\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
        u"\U00010000-\U0010FFFF"
        u"\U0001F680-\U0001F6FF"  # Transport and Map Symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642"
        u"\u2600-\u2B55"
        u"\ufe0f"  # dingbats

                      "]+", re.UNICODE)
    return re.sub(emoj, '', tweet)

Aplicación de las funciones

In [None]:
campo_texto = 'text'

train_df[campo_texto] = train_df[campo_texto].str.lower()
valid_df[campo_texto] = valid_df[campo_texto].str.lower()
test_df[campo_texto] = test_df[campo_texto].str.lower()

#train_df[campo_texto] = train_df[campo_texto].apply(remove_links)
#valid_df[campo_texto] = valid_df[campo_texto].apply(remove_links)
#test_df[campo_texto] = test_df[campo_texto].apply(remove_links)

#train_df[campo_texto] = train_df[campo_texto].apply(remove_users)
#valid_df[campo_texto] = valid_df[campo_texto].apply(remove_users)
#test_df[campo_texto] = test_df[campo_texto].apply(remove_users)

#train_df[campo_texto] = train_df[campo_texto].apply(remove_hashtags)
#valid_df[campo_texto] = valid_df[campo_texto].apply(remove_hashtags)
#test_df[campo_texto] = test_df[campo_texto].apply(remove_hashtags)

#train_df[campo_texto] = train_df[campo_texto].apply(remove_emojis)
#valid_df[campo_texto] = valid_df[campo_texto].apply(remove_emojis)
#test_df[campo_texto] = test_df[campo_texto].apply(remove_emojis)

train_df

## Formateo y Etiquetado de los Datos

In [None]:
# Se convierten los dataframes en objetos Datasets para que los acepten los Rransformers
train_dataset = Dataset.from_pandas(train_df)
valid_dataset = Dataset.from_pandas(valid_df)
test_dataset = Dataset.from_pandas(test_df)

print(train_dataset, valid_dataset, test_dataset)

In [None]:
# Los objetos de tipo Dataset también se pueden mostrar en formato pandas
train_dataset.set_format("pandas")
train_dataset[:]

In [None]:
# Reseteamos el formato para que evitar posibles fallos
train_dataset.reset_format()
valid_dataset.reset_format()

In [None]:
# Esta función toma un registro como entrada, que contiene una etiqueta llamada 'label'.
# Si el valor de esta etiqueta es 0, asigna 0 a la variable 'label'. Si el valor no es 0
# asigna 1 a 'label'. A continuación, la función devuelve un diccionario con la etiqueta modificada, llamado "labels"

def set_labels(records):
  if records[nombre_etiqueta] == 'JUDGEMENTAL':
    label = 0
  else:
    label = 1
  return {'labels': label}

## Mapeado de la Función

In [None]:
# Aplicamos la función a cada fila de los conjuntos de entrenamiento y validación
train_dataset = train_dataset.map(set_labels)
valid_dataset = valid_dataset.map(set_labels)

print(train_dataset, valid_dataset)

In [None]:
# Reseteamos el formato para que no haya fallos
train_dataset.reset_format()
valid_dataset.reset_format()
test_dataset.reset_format()

## Selección de Modelo

In [None]:
# Define the model checkpoint to be used for the task.
# Uncomment the desired model_checkpoint or replace it with your own.

#model_checkpoint = 'xlm-roberta-base' # This model is one of the top-performing models in our experiments por the Spanish dataset
model_checkpoint = 'bert-base-multilingual-uncased'

## Tokenización

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_auth_token='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')

In [None]:
# Función para tokenizar un dataset
# La función tokenizer() hace la tokenización y devuelve los 'inputs_id' y los 'attention_mask'

# Definir el método que se asignará al conjunto de datos para tokenizar los datos.
# Esta función toma un diccionario 'examples' como entrada, que contiene una clave llamada 'campo_texto'.
# La función usa el tokenizer para tokenizar el texto, lo trunca si excede la longitud máxima (MAX_LENGTH),
# y lo rellena para asegurar que todas las secuencias tienen la misma longitud.

def tokenize_data(examples):
  return tokenizer(examples[campo_texto], truncation=True, max_length=MAX_LENGTH, padding=True)

In [None]:
MAX_LENGTH = 128

# Construción de los ficheros codificados (encoded)
columns_train = train_dataset.column_names  # Coge todas las columnas
columns_valid = valid_dataset.column_names  # Coge todas las columnas
columns_train.remove("labels") # Elimina la columna "labels"
columns_valid.remove("labels") # Elimina la columna "labels"


# Hace la tokenización y elimina todas las columnas que no se necesitan
encoded_train_dataset = train_dataset.map(tokenize_data, batched=True, remove_columns=columns_train)
encoded_valid_dataset = valid_dataset.map(tokenize_data, batched=True, remove_columns=columns_valid)
encoded_train_dataset[100]

In [None]:
train_df.reset_index(drop=True, inplace=True)
train_df.loc[0]

## Definición de Métricas

In [None]:
# Función para realizar distintas métricas en ejecución

def compute_metrics(eval_pred):

  ##############
  ## predictions son logits, que son tuplas de la forma [valor1, valor2]
  ## Por ejemplo [-1.5606991,  1.6122842] significa que ha predicho eso para un documento
  ## Eso es lo que pasa a la última capa del transformer (softmax si es binario)
  ## Por eso se utiliza el índice del valor máximo de la tupla, para decir que esa es la clase que predice

  ## label_ids = [0, 1, 1, 0, 1]  # Etiquetas reales
  ## predictions = [
  ##  [0.8, 0.2],  # Predicciones para la primera instancia
  ##  [0.3, 0.7],  # Predicciones para la segunda instancia
  ##  [0.1, 0.9],  # Predicciones para la tercera instancia
  ##  [0.9, 0.1],  # Predicciones para la cuarta instancia
  ##  [0.4, 0.6],  # Predicciones para la quinta instancia
  ##           ]

  ##############

  labels = eval_pred.label_ids
  preds = eval_pred.predictions.argmax(-1)

  # Compute precision, recall, F1-score, and support
  precision, recall, f1, _ = sk.metrics.precision_recall_fscore_support(labels, preds, average="macro")

  # Calculate F1-score for the minority class (label = 1)
  f1_minoritaria= f1_score(labels, preds, pos_label=1)

  # Calculate F1-score for the majority class (label = 0)
  f1_mayoritaria = f1_score(labels, preds, pos_label=0)

  # Calculate accuracy
  acc = sk.metrics.accuracy_score(labels, preds)

  # Calculate Area Under the Curve (AUC)
  AUC = roc_auc_score(labels, preds)

  # Calculate Precision-Recall Area Under the Curve (AUC)
  PREC_REC = average_precision_score(labels, preds)

  return {
      'accuracy': acc,
      'f1': f1,
      'precision': precision,
      'recall': recall,
      'AUC': AUC,
      'f1_minoritaria': f1_minoritaria,
      'f1_mayoritaria': f1_mayoritaria,
      'PREC_REC': PREC_REC
  }

## Entrenamiento del Modelo

In [None]:
# Se carga el modelo preentrenado
n_labels = 2

# El uso de una función de inicialización facilita la repetición del entrenamiento
# Se puede usar la misma función de inicialización en diferentes ejecuciones del código o en configuraciones de entrenamiento diferentes
# Esto facilita la repetición del entrenamiento y la reproducibilidad, ya que se puede inicializar el modelo
# de la misma manera en cada ejecución.

def model_init():
    return AutoModelForSequenceClassification.from_pretrained(model_checkpoint,
                                                              num_labels = n_labels) #, return_dict = True )
                                                              # use_auth_token = 'token propio de HugginFace')

In [None]:
# Para saber el nombre del modelo
model_name = model_checkpoint.split("/")[-1]
model_name

Fine-tuning

In [None]:
# Selección de hiperparámetros
BATCH_SIZE = 32
NUM_TRAIN_EPOCHS = 15
LEARNING_RATE = 3e-5
MAX_LENGTH = 128
WEIGHT_DECAY = 0.1

In [None]:
# Se definen los parámetros del Trainer()
def maximum(a, b):
    if a >= b:
        return a
    else:
        return b


num_train_samples = int(len(encoded_train_dataset))
num_evaluation= int(len(encoded_valid_dataset))

value = len(encoded_train_dataset) // (2 * BATCH_SIZE * NUM_TRAIN_EPOCHS)
logging_steps = maximum(1, value)

# logging_steps = max(1,len(encoded_train_dataset) // (2 * BATCH_SIZE * NUM_TRAIN_EPOCHS))

optim = ["adamw_hf", "adamw_torch", "adamw_apex_fused", "adafactor", "adamw_torch_xla"]

training_args = TrainingArguments(
    output_dir = 'results',
    num_train_epochs = NUM_TRAIN_EPOCHS,
    learning_rate = LEARNING_RATE,
    per_device_train_batch_size = BATCH_SIZE,
    per_device_eval_batch_size = BATCH_SIZE,
    load_best_model_at_end = True,
    metric_for_best_model = 'f1', # Cambiar la metrica por la que queremos ajustar
    #metric_for_best_model = 'eval_loss',
    weight_decay = WEIGHT_DECAY,
    evaluation_strategy = 'epoch',
    save_strategy = 'epoch',
    #logging_steps = logging_steps,
    save_total_limit = 3,
    optim = optim[1],
    push_to_hub = False
)

In [None]:
# Se crea el objeto Trainer()
trainer = Trainer(
    model_init = model_init,
    args = training_args,
    compute_metrics = compute_metrics,
    callbacks = [EarlyStoppingCallback(early_stopping_patience=3)],
    train_dataset = encoded_train_dataset,
    eval_dataset = encoded_valid_dataset,
    tokenizer = tokenizer
)

In [None]:
# A entrenar
trainer.train()

## Evaluación del Modelo

Durante validación

In [None]:
eval = trainer.evaluate()
# Se pasa el resultado a Dataframe
dfeval = pd.DataFrame(list(eval.items()), columns = ['Nombre','Valor'])
dfeval

In [None]:
# Se graba el modelo entrenado
trainer.save_model('/home/alvarocarrillo/TFG/Trabajo/Dataset/Modelos/Modelo_Roberta')

Evaluación con el test

In [None]:
# Lo pasamos a objeto dataset
test_dataset = Dataset.from_pandas(test_df)
test_dataset

In [None]:
### SOLO CUANDO ESTAMOS EVALUANDO UN TEST ETIQUETADO
# Pasamos la etiqueta a label y le damos formato numérico
test_dataset = test_dataset.map(set_labels)  # La función set_labels ya se definió en el entrenamiento
test_dataset

Predicciones

In [None]:
# Se carga el modelo que se ha entrenado
model_path = '/home/alvarocarrillo/TFG/Trabajo/Dataset/Modelos/Modelo_Roberta'

model = AutoModelForSequenceClassification.from_pretrained(model_path)

In [None]:
# Predicción con pipeline
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)

In [None]:
# Hacemos las prediciones
def get_predictions(records):
  result = pipe(records[campo_texto], truncation=True)
  pred_label = result[0]['label']
  score_label = result[0]['score']
  #print(pred_label)

  if pred_label == 'LABEL_0':
    pred_label = 0
  else:
    pred_label = 1

  return {'pred_label': pred_label, 'score_label': score_label}

In [None]:
# Se hacen las predicciones sobre el conjunto de test
test_dataset_predicted = test_dataset.map(get_predictions)
test_dataset_predicted[0]

In [None]:
test_dataset_predicted.set_format('pandas')
df_test = test_dataset_predicted[:]
df_test

In [None]:
# Añadimos la función de evaluación
def compute_metrics(pred):
  labels = pred[0]
  preds = pred[1]
  precision, recall, f1, _ = sk.metrics.precision_recall_fscore_support(labels, preds, average="macro")
  acc = sk.metrics.accuracy_score(labels, preds)
  AUC = roc_auc_score(labels, preds)
  PREC_REC = average_precision_score(labels, preds)
  return { 'accuracy': acc, 'f1': f1, 'precision': precision,
          'recall': recall, 'AUC': AUC, 'PREC_REC': PREC_REC }

In [None]:
# Convert the pandas series to python list to apply the compute_metric function
test_labels = df_test['labels'].values.tolist()
test_predictions = df_test['pred_label'].values.tolist()
eval_pred_test = [test_labels, test_predictions]

In [None]:
p_test = compute_metrics(eval_pred_test)
dftest = pd.DataFrame([[key, p_test[key]] for key in p_test.keys()], columns=['Name', 'Value'])
dftest