<a href="https://colab.research.google.com/github/MdelaVilla/MORS/blob/main/Sesion_5_MORS_Clasificaci%C3%B3n_binaria_con_Transformers_y_corpus_HateEval.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Cuaderno hecho para el grupo **I2C** por los profesores Jacinto Mata y Victoria Pach√≥n.

*Tras cada secci√≥n aparece un comentario aclaratoio que explica l√≠nea a l√≠nea el proceso seguido.*

## **1. Importar librer√≠as**

In [19]:
!pip install datasets transformers
!pip install --upgrade datasets transformers



## **Explicaci√≥n del Cuaderno Paso a Paso**

### **1. Importar Librer√≠as**

Esta secci√≥n instala y carga las librer√≠as necesarias para el proyecto. Es crucial tener las versiones correctas de las librer√≠as `datasets` y `transformers`, ya que son fundamentales para el procesamiento de datos y la construcci√≥n del modelo BERT.

*   `!pip install transformers==4.30.0 datasets==2.10.0`: Este comando se asegura de instalar versiones espec√≠ficas de las librer√≠as `transformers` y `datasets`. Es importante usar versiones compatibles para evitar problemas de compatibilidad y errores que puedan surgir de cambios en la API entre diferentes versiones. La versi√≥n `4.30.0` de `transformers` y `2.10.0` de `datasets` son versiones estables y conocidas por funcionar bien juntas en tareas de procesamiento de lenguaje natural con modelos como BERT.

In [22]:
import pandas as pd
import re
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments, EarlyStoppingCallback
import torch
from sklearn.model_selection import train_test_split
from torch.utils.data import DataLoader, Dataset
from sklearn.metrics import classification_report

*   `import pandas as pd`: Importa la librer√≠a `pandas`, que es una herramienta muy potente para la manipulaci√≥n y an√°lisis de datos en formato de tablas (DataFrames).
*   `import re`: Importa el m√≥dulo `re`, que proporciona operaciones con expresiones regulares, √∫til para el preprocesamiento de texto.
*   `from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments, EarlyStoppingCallback`: Importa componentes espec√≠ficos de la librer√≠a `transformers`:
    *   `BertTokenizer`: Se encarga de convertir el texto en un formato que el modelo BERT pueda entender.
    *   `BertForSequenceClassification`: La clase principal para el modelo BERT adaptado a tareas de clasificaci√≥n de secuencias.
    *   `Trainer`: Una clase de utilidad que facilita el bucle de entrenamiento, evaluaci√≥n y predicci√≥n de modelos de Transformers.
    *   `TrainingArguments`: Define los hiperpar√°metros y configuraciones para el entrenamiento del modelo.
    *   `EarlyStoppingCallback`: Una herramienta para detener el entrenamiento si la m√©trica de evaluaci√≥n no mejora despu√©s de un cierto n√∫mero de √©pocas, evitando el sobreajuste.
*   `import torch`: Importa la librer√≠a `torch`, que es el framework de aprendizaje profundo subyacente utilizado por `transformers`.
*   `from sklearn.model_selection import train_test_split`: Importa la funci√≥n `train_test_split` de `scikit-learn`, que se utiliza para dividir el conjunto de datos en subconjuntos de entrenamiento y prueba.
*   `from torch.utils.data import DataLoader, Dataset`: Importa clases de `PyTorch` para trabajar con conjuntos de datos y cargadores de datos, que permiten manejar grandes vol√∫menes de datos de manera eficiente durante el entrenamiento.
*   `from sklearn.metrics import classification_report`: Importa la funci√≥n `classification_report` de `scikit-learn` para generar un informe detallado de las m√©tricas de clasificaci√≥n (precisi√≥n, recall, f1-score) del modelo.

In [23]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## **2. Cargar Dataset**

In [24]:
# Cargamos el dataset desde un archivo CSV
df = pd.read_csv('/content/drive/MyDrive/corpus/HateEval/train_es.tsv', sep='\t', usecols =["text","HS"])
# Mostramos los primeros registros para verificar que los datos se cargaron correctamente
print(df.head())

                                                text  HS
0  Easyjet quiere duplicar el n√∫mero de mujeres p...   1
1  El gobierno debe crear un control estricto de ...   1
2  Yo veo a mujeres destruidas por acoso laboral ...   0
3  ‚Äî Yo soy respetuoso con los dem√°s, s√≥lamente l...   0
4  Antonio Caballero y como ser de mal gusto e ig...   0


### **2. Cargar Dataset**

Esta secci√≥n se enfoca en cargar el conjunto de datos principal para el entrenamiento y evaluaci√≥n del modelo. El dataset se carga desde un archivo CSV ubicado en Google Drive, lo que requiere montar primero la unidad de Drive en Colab.

*   `from google.colab import drive` y `drive.mount('/content/drive')`: Estas l√≠neas son est√°ndar en Google Colab para permitir que el cuaderno acceda a los archivos almacenados en tu Google Drive. Al ejecutar `drive.mount()`, se te pedir√° que autorices el acceso.

*   `df = pd.read_csv('/content/drive/MyDrive/corpus/HateEval/train_es.tsv', sep='\t', usecols=["text","HS"])`: Aqu√≠ se lee el archivo `train_es.tsv` (que es un archivo de valores separados por tabulaciones, `sep='\t'`) utilizando `pandas`. Se especifican las columnas `"text"` y `"HS"` (que probablemente representa 'Hate Speech' o similar) para cargar solo los datos relevantes. `df` es el DataFrame de pandas que contendr√° nuestros datos.

*   `print(df.head())`: Despu√©s de cargar los datos, esta l√≠nea muestra las primeras cinco filas del DataFrame para que puedas verificar que la carga se realiz√≥ correctamente y que los datos tienen el formato esperado.

*   `df.columns = ['text', 'label']`: Se renombran las columnas del DataFrame para que sean m√°s descriptivas y coherentes con la terminolog√≠a de los modelos de clasificaci√≥n. `text` para el contenido textual y `label` para la categor√≠a o etiqueta (en este caso, si es discurso de odio o no).

*   `value_counts = df['label'].value_counts()`: Esta l√≠nea calcula cu√°ntas instancias hay de cada valor √∫nico en la columna `label`. Es una forma r√°pida de ver la distribuci√≥n de las clases en el dataset (por ejemplo, cu√°ntos ejemplos son 'discurso de odio' y cu√°ntos no lo son). Esto es √∫til para identificar posibles desequilibrios de clases.

In [25]:
df.columns = ['text', 'label']
df

Unnamed: 0,text,label
0,Easyjet quiere duplicar el n√∫mero de mujeres p...,1
1,El gobierno debe crear un control estricto de ...,1
2,Yo veo a mujeres destruidas por acoso laboral ...,0
3,"‚Äî Yo soy respetuoso con los dem√°s, s√≥lamente l...",0
4,Antonio Caballero y como ser de mal gusto e ig...,0
...,...,...
4464,@miriaan_ac @Linaveso_2105 @HumildesSquad_ C√ÅL...,1
4465,"@IvanDuque presidente en C√∫cuta , tenemos prob...",1
4466,- Callat√© Visto Que Te Dejo En Putaüé§üé∂,0
4467,-¬øporque los hombres se casan con las mujeres?...,1


In [26]:
#Vemos cuantas instancias hay de cada tipo en el dataset

value_counts = df['label'].value_counts()
value_counts

Unnamed: 0_level_0,count
label,Unnamed: 1_level_1
0,2631
1,1838


## **3. Preprocesado b√°sico**

In [27]:
def to_lowercase(tweet):
    """Takes a string and converts all characters to lowercase"""
    return tweet.lower()

In [28]:
# Aplicamos el preprocesamiento al texto de nuestro DataFrame
df['text'] = df['text'].apply(to_lowercase)

Comprobamos si ha funcionado el preprocesado

In [29]:
#Mostramos dos filas

print(df.iloc[17]['text'])
print(df.iloc[24]['text'])

vamoooo la puta madre se lo merec√≠a tanto esfuerzo y haber pasado tantos tel√©fonos necesit√°bamos este descanso #soltartenoest√°enmisplanesmica
si cualquier cosa es violaci√≥n o acoso, se minimizan la violaci√≥n y el acoso. por lo tanto, pierden las v√≠ctimas de las mierdas que se dedican a violar y/o acosar.


## **3. Preprocesado b√°sico**

Esta secci√≥n se centra en las primeras etapas de limpieza del texto, que son fundamentales para preparar los datos antes de la tokenizaci√≥n y el entrenamiento del modelo. Un preprocesamiento adecuado puede mejorar significativamente el rendimiento del modelo.

*   `def to_lowercase(tweet): return tweet.lower()`: Define una funci√≥n simple llamada `to_lowercase` que toma una cadena de texto (`tweet`) y devuelve la misma cadena convertida completamente a min√∫sculas. Esta es una pr√°ctica com√∫n en el procesamiento de lenguaje natural para estandarizar el texto y asegurar que, por ejemplo, 'Hola' y 'hola' se traten como la misma palabra.

*   `df['text'] = df['text'].apply(to_lowercase)`: Aplica la funci√≥n `to_lowercase` a cada entrada de la columna `text` de tu DataFrame `df`. El m√©todo `.apply()` de pandas es muy √∫til para aplicar una funci√≥n a todos los elementos de una serie (columna) de un DataFrame.

*   **Comprobaci√≥n del preprocesado:** Las l√≠neas siguientes en el cuaderno (`print(df.iloc[17]['text'])` y `print(df.iloc[24]['text'])`) est√°n dise√±adas para mostrar c√≥mo ha quedado el texto despu√©s de aplicar la conversi√≥n a min√∫sculas, permitiendo verificar que el preprocesamiento se realiz√≥ correctamente.

## **4. Conversi√≥n a Dataset y Tokenizaci√≥n**

Usamos el tokenizador de BERT para convertir el texto en vectores que pueda entender el modelo, truncando o rellenando hasta la longitud m√°xima establecida.

In [30]:
# Cargar el tokenizador de BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Convertir el DataFrame a Dataset
from datasets import Dataset
dataset = Dataset.from_pandas(df)

# Definir la funci√≥n de tokenizaci√≥n
def tokenize_function(example):
    return tokenizer(example["text"], padding='max_length', truncation=True, max_length=128)

# Aplicar la tokenizaci√≥n al Dataset
tokenized_dataset = dataset.map(tokenize_function, batched=True)

# Convertir las columnas necesarias a formato tensor de PyTorch
tokenized_dataset = tokenized_dataset.with_format("torch", columns=["input_ids", "attention_mask", "label"])

# Verificar el dataset tokenizado
print(tokenized_dataset[0])

Map:   0%|          | 0/4469 [00:00<?, ? examples/s]

{'label': tensor(1), 'input_ids': tensor([  101,  3733, 15759, 21864,  7869,  4241, 24759,  5555,  2099,  3449,
        16371,  5017,  2080,  2139, 14163, 20009,  2229,  4405,  2080,  1005,
        12297,  2015, 10722, 11498,  9706,  2906, 10010,  3449, 20704,  3258,
         1012,  1012,  8299,  1024,  1013,  1013,  1056,  1012,  2522,  1013,
         4805, 11231, 13687,  2213,  2692,  2683,  2595,   102,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,  

## **4. Conversi√≥n a Dataset y Tokenizaci√≥n**

En esta secci√≥n, el texto se prepara para ser introducido en el modelo BERT. Esto implica dos pasos principales: la conversi√≥n del DataFrame de pandas a un objeto `Dataset` de Hugging Face y la tokenizaci√≥n del texto.

*   `tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')`: Aqu√≠ se carga un tokenizador pre-entrenado espec√≠fico para el modelo `bert-base-uncased`. El tokenizador es esencial para dividir el texto en "tokens" (palabras o subpalabras), a√±adir tokens especiales (`[CLS]`, `[SEP]`), y convertir estos tokens en IDs num√©ricos que el modelo entiende. `bert-base-uncased` se refiere a la versi√≥n base de BERT, que no distingue entre may√∫sculas y min√∫sculas.

*   `from datasets import Dataset` y `dataset = Dataset.from_pandas(df)`: La librer√≠a `datasets` de Hugging Face es muy eficiente para manejar grandes conjuntos de datos en el contexto del aprendizaje profundo. Esta l√≠nea convierte el DataFrame de pandas (`df`) que contiene nuestro texto y etiquetas en un objeto `Dataset` de Hugging Face, lo cual es el formato preferido para trabajar con los modelos de la librer√≠a `transformers`.

*   `def tokenize_function(example): return tokenizer(example["text"], padding='max_length', truncation=True, max_length=128)`: Se define una funci√≥n para tokenizar el texto. Esta funci√≥n toma un ejemplo del dataset, extrae el texto (`example["text"]`), y lo tokeniza usando el `tokenizer` cargado. Los argumentos importantes son:
    *   `padding='max_length'`: Asegura que todas las secuencias tokenizadas tengan la misma longitud, rellenando con ceros si son m√°s cortas que `max_length`.
    *   `truncation=True`: Si una secuencia es m√°s larga que `max_length`, se trunca para ajustarse.
    *   `max_length=128`: Define la longitud m√°xima de la secuencia de tokens. Este valor es importante porque los modelos BERT tienen un l√≠mite en la longitud de entrada.

*   `tokenized_dataset = dataset.map(tokenize_function, batched=True)`: Esta l√≠nea aplica la funci√≥n `tokenize_function` a todo el `dataset`. El argumento `batched=True` permite que el tokenizador procese m√∫ltiples ejemplos a la vez, lo que es mucho m√°s eficiente.

*   `tokenized_dataset = tokenized_dataset.with_format("torch", columns=["input_ids", "attention_mask", "label"])`: Despu√©s de la tokenizaci√≥n, se configuran las columnas necesarias (`input_ids`, `attention_mask`, y `label`) para que est√©n en formato `torch.Tensor`. Esto es fundamental ya que `torch` es el backend de PyTorch que utiliza `transformers`.

*   `print(tokenized_dataset[0])`: Finalmente, se imprime el primer ejemplo del `tokenized_dataset` para verificar c√≥mo se ve un ejemplo despu√©s de la tokenizaci√≥n, mostrando los `input_ids` (IDs num√©ricos de los tokens), la `attention_mask` (para indicar qu√© tokens son reales y cu√°les son relleno) y la `label`.

## **5. Divisi√≥n en Conjuntos de Entrenamiento, validaci√≥n y test**

Dividimos el conjunto de entrenamiento en 65% train, 15% validaci√≥n y 20% test

In [31]:
# Dividir en entrenamiento (80%) y test (20%)
train_test_split = tokenized_dataset.train_test_split(test_size=0.2, seed=42)
train_data = train_test_split['train']
test_data = train_test_split['test']


# Dividir el conjunto de entrenamiento en entrenamiento (70%) y validaci√≥n (30%)
train_valid_split = train_data.train_test_split(test_size=0.3, seed=42)
train_data = train_valid_split['train']
valid_data = train_valid_split['test']

In [32]:
train_data

Dataset({
    features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 2502
})

In [33]:
valid_data

Dataset({
    features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 1073
})

In [34]:
test_data

Dataset({
    features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 894
})

## **5. Divisi√≥n en Conjuntos de Entrenamiento, validaci√≥n y test**

Esta secci√≥n es crucial para asegurar una evaluaci√≥n imparcial del modelo. El dataset tokenizado se divide en tres partes:

*   **Conjunto de Entrenamiento (Train Set):** Utilizado para entrenar el modelo. El modelo aprende de estos datos.
*   **Conjunto de Validaci√≥n (Validation Set):** Utilizado durante el entrenamiento para ajustar hiperpar√°metros y detectar el sobreajuste. El rendimiento del modelo en este conjunto gu√≠a las decisiones durante el entrenamiento.
*   **Conjunto de Prueba (Test Set):** Utilizado para la evaluaci√≥n final del modelo, una vez que el entrenamiento ha concluido. Estos datos son completamente nuevos para el modelo y proporcionan una estimaci√≥n realista de su rendimiento en datos no vistos.

El proceso de divisi√≥n se realiza en dos pasos:

1.  **Divisi√≥n inicial en Entrenamiento y Prueba:**
    *   `train_test_split = tokenized_dataset.train_test_split(test_size=0.2, seed=42)`: El `tokenized_dataset` se divide por primera vez. El `test_size=0.2` indica que el 20% de los datos se asignar√° al conjunto de prueba, y el 80% restante al conjunto de entrenamiento inicial. `seed=42` asegura que la divisi√≥n sea reproducible.
    *   `train_data = train_test_split['train']`: Los datos del 80% se asignan a `train_data`.
    *   `test_data = train_test_split['test']`: Los datos del 20% se asignan a `test_data`.

2.  **Divisi√≥n del Conjunto de Entrenamiento inicial en Entrenamiento y Validaci√≥n:**
    *   `train_valid_split = train_data.train_test_split(test_size=0.3, seed=42)`: El `train_data` (el 80% original) se divide nuevamente. Esta vez, el `test_size=0.3` significa que el 30% de este 80% (lo que representa el 24% del dataset total: 0.3 * 0.8 = 0.24) se utilizar√° para validaci√≥n. El `seed=42` se mantiene para reproducibilidad.
    *   `train_data = train_valid_split['train']`: El 70% del `train_data` inicial (56% del total: 0.7 * 0.8 = 0.56) se convierte en el conjunto de entrenamiento final.
    *   `valid_data = train_valid_split['test']`: El 30% del `train_data` inicial (24% del total) se convierte en el conjunto de validaci√≥n.

Al final, los datos se dividen aproximadamente en:
*   **Entrenamiento:** 56% del total (originalmente 65% + 15% + 20%, se reajusta a 56% train, 24% validation, 20% test).
*   **Validaci√≥n:** 24% del total.
*   **Prueba:** 20% del total.

Las impresiones de `train_data`, `valid_data`, y `test_data` que ves en las celdas siguientes (`Ntz5qTO3Rs0F`, `Ib1Nto-yRxtV`, `B9C8oxprRzfo`) muestran un resumen de cada `Dataset`, incluyendo las caracter√≠sticas disponibles y el n√∫mero de filas en cada conjunto, confirmando el resultado de las divisiones.

## **6. Carga del modelo BERT para clasificaci√≥n**

Cargamos el modelo preentrenado BertForSequenceClassification con dos etiquetas de salida.

In [35]:
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## **6. Carga del modelo BERT para clasificaci√≥n**

Esta secci√≥n se encarga de cargar el modelo BERT que utilizaremos para la tarea de clasificaci√≥n de secuencias.

*   `model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)`: Esta l√≠nea es clave. Aqu√≠:
    *   `BertForSequenceClassification`: Es la clase de modelo de la librer√≠a `transformers` espec√≠ficamente dise√±ada para tareas de clasificaci√≥n de secuencias utilizando BERT.
    *   `from_pretrained('bert-base-uncased')`: Carga los pesos pre-entrenados del modelo `bert-base-uncased`. `bert-base-uncased` es una versi√≥n de BERT que ha sido entrenada con un gran corpus de texto y no distingue entre may√∫sculas y min√∫sculas (de ah√≠ 'uncased'). Utilizar un modelo pre-entrenado es una pr√°ctica com√∫n en NLP, ya que permite aprovechar el conocimiento ling√º√≠stico adquirido durante su pre-entrenamiento en una tarea general de comprensi√≥n del lenguaje.
    *   `num_labels=2`: Indica que el modelo se est√° configurando para una tarea de clasificaci√≥n binaria, donde hay dos posibles etiquetas de salida (en nuestro caso, probablemente 0 para 'no discurso de odio' y 1 para 'discurso de odio'). El modelo ajustar√° su capa de clasificaci√≥n final para tener dos neuronas de salida.

## **7. Configuraci√≥n de par√°metros de entrenamiento**

Configuramos los par√°metros de entrenamiento, incluyendo el n√∫mero de √©pocas y el tama√±o del lote.

In [39]:
training_args = TrainingArguments(
    output_dir='./results',       # Carpeta para guardar los resultados
    num_train_epochs=4,           # N√∫mero de √©pocas
    per_device_train_batch_size=8,  # Tama√±o del lote de entrenamiento
    per_device_eval_batch_size=8,  # Tama√±o del lote de evaluaci√≥n
    eval_strategy="epoch",   # Evaluar al final de cada √©poca
    logging_dir='./logs',
    load_best_model_at_end = True,
    metric_for_best_model = 'f1',
    save_strategy = 'epoch'
)

## **7. Configuraci√≥n de par√°metros de entrenamiento**

Esta secci√≥n define los argumentos y configuraciones que guiar√°n el proceso de entrenamiento del modelo BERT.

*   `training_args = TrainingArguments(...)`: Se crea un objeto `TrainingArguments` que encapsula todos los hiperpar√°metros y la configuraci√≥n para el `Trainer`. Analicemos los argumentos clave:
    *   `output_dir='./results'`: Especifica el directorio donde se guardar√°n los resultados del entrenamiento, como los checkpoints del modelo y las m√©tricas de evaluaci√≥n.
    *   `num_train_epochs=4`: Define el n√∫mero total de √©pocas (pasadas completas sobre el conjunto de datos de entrenamiento) que el modelo realizar√°.
    *   `per_device_train_batch_size=8`: Establece el tama√±o del lote para el entrenamiento en cada dispositivo (GPU/CPU). Lotes m√°s peque√±os pueden requerir m√°s tiempo de entrenamiento pero pueden ser √∫tiles con memoria limitada o para mejorar la generalizaci√≥n.
    *   `per_device_eval_batch_size=8`: Establece el tama√±o del lote para la evaluaci√≥n en cada dispositivo.
    *   `eval_strategy="epoch"`: Indica que la evaluaci√≥n del modelo se realizar√° al final de cada √©poca de entrenamiento. Tambi√©n podr√≠a ser por pasos (`"steps"`).
    *   `logging_dir='./logs'`: Especifica el directorio donde se guardar√°n los logs del entrenamiento, √∫tiles para monitorear el progreso con herramientas como TensorBoard.
    *   `load_best_model_at_end=True`: Configura el `Trainer` para que, al finalizar el entrenamiento, cargue autom√°ticamente la versi√≥n del modelo que obtuvo el mejor rendimiento en el conjunto de validaci√≥n (seg√∫n `metric_for_best_model`).
    *   `metric_for_best_model='f1'`: Define la m√©trica que el `Trainer` usar√° para determinar cu√°l es el "mejor" modelo. En este caso, es el F1-score, que es una m√©trica com√∫n para problemas de clasificaci√≥n, especialmente cuando hay desequilibrio de clases. El `Trainer` intentar√° maximizar esta m√©trica.
    *   `save_strategy="epoch"`: Especifica que el modelo se guardar√° (checkpoint) al final de cada √©poca. Esto permite recuperar el entrenamiento si se interrumpe y comparar el rendimiento de diferentes √©pocas.

## **8. Entrenamiento y evaluaci√≥n del modelo**

Usamos Trainer para entrenar y evaluar el modelo con el conjunto de entrenamiento y el de validaci√≥n.

In [40]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

# Definir la funci√≥n compute_metrics
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    preds = predictions.argmax(axis=-1)

    # Calcular las m√©tricas usando las predicciones y etiquetas
    accuracy = accuracy_score(labels, preds)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')

    return {
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1
    }




trainer = Trainer(
    model=model,                         # Modelo a entrenar
    args=training_args,                  # Argumentos de entrenamiento
    train_dataset=train_data,            # Conjunto de entrenamiento
    eval_dataset=valid_data,             # Conjunto de evaluaci√≥n
    compute_metrics=compute_metrics,
    callbacks = [EarlyStoppingCallback(early_stopping_patience=3)]
)

# Ejecutar el entrenamiento
trainer.train()

# Evaluar el modelo
trainer.evaluate()

  | |_| | '_ \/ _` / _` |  _/ -_)
[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize?ref=models
[34m[1mwandb[0m: Paste an API key from your profile and hit enter:

 ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mmdelavilla[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Epoch,Training Loss,Validation Loss,Accuracy,Precision,Recall,F1
1,No log,0.62991,0.689655,0.649025,0.529545,0.583229
2,0.598800,0.508991,0.792171,0.780362,0.686364,0.730351
3,0.598800,0.517332,0.785648,0.738636,0.738636,0.738636
4,0.403500,0.828,0.79124,0.762136,0.713636,0.737089


{'eval_loss': 0.5173322558403015,
 'eval_accuracy': 0.7856477166821995,
 'eval_precision': 0.7386363636363636,
 'eval_recall': 0.7386363636363636,
 'eval_f1': 0.7386363636363636,
 'eval_runtime': 7.3043,
 'eval_samples_per_second': 146.9,
 'eval_steps_per_second': 18.482,
 'epoch': 4.0}

## **8. Entrenamiento y evaluaci√≥n del modelo**

En esta secci√≥n, se configura y ejecuta el proceso de entrenamiento y evaluaci√≥n del modelo BERT utilizando la clase `Trainer` de la librer√≠a `transformers`.

*   `from sklearn.metrics import accuracy_score, precision_recall_fscore_support`:
    Se importan las m√©tricas necesarias de `scikit-learn` para evaluar el rendimiento del modelo.

*   `def compute_metrics(eval_pred): ...`:
    Se define una funci√≥n `compute_metrics` que el `Trainer` utilizar√° para calcular m√©tricas de evaluaci√≥n durante el entrenamiento y la evaluaci√≥n. Esta funci√≥n toma las predicciones (`predictions`) y las etiquetas reales (`labels`) del modelo. Dentro de la funci√≥n:
    *   `preds = predictions.argmax(axis=-1)`: Convierte las logits (salidas crudas del modelo antes de la funci√≥n de activaci√≥n) en predicciones de clases, seleccionando la clase con la probabilidad m√°s alta.
    *   `accuracy = accuracy_score(labels, preds)`: Calcula la precisi√≥n, que es la proporci√≥n de predicciones correctas.
    *   `precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')`: Calcula la precisi√≥n, recall y F1-score. `average='binary'` se usa para problemas de clasificaci√≥n binaria, donde se calcula la m√©trica para la clase positiva (generalmente 1).
    *   La funci√≥n devuelve un diccionario con estas m√©tricas.

*   `trainer = Trainer(...)`:
    Se inicializa el objeto `Trainer` con los siguientes par√°metros:
    *   `model=model`: El modelo `BertForSequenceClassification` que hemos cargado previamente.
    *   `args=training_args`: Los argumentos de entrenamiento definidos en la secci√≥n anterior (`TrainingArguments`).
    *   `train_dataset=train_data`: El conjunto de datos de entrenamiento.
    *   `eval_dataset=valid_data`: El conjunto de datos de validaci√≥n, que se usar√° para evaluar el modelo durante el entrenamiento y para la parada temprana.
    *   `compute_metrics=compute_metrics`: La funci√≥n que hemos definido para calcular las m√©tricas.
    *   `callbacks = [EarlyStoppingCallback(early_stopping_patience=3)]`: Se a√±ade una callback de parada temprana. Esto significa que si la m√©trica de evaluaci√≥n (en este caso, 'f1' como se defini√≥ en `TrainingArguments`) no mejora durante 3 √©pocas consecutivas, el entrenamiento se detendr√° autom√°ticamente para evitar el sobreajuste.

*   `trainer.train()`:
    Inicia el proceso de entrenamiento del modelo. El `Trainer` gestionar√° el bucle de entrenamiento, la evaluaci√≥n peri√≥dica y el guardado del mejor modelo seg√∫n los `training_args`.

*   `trainer.evaluate()`:
    Despu√©s de que el entrenamiento ha finalizado, esta l√≠nea eval√∫a el modelo (normalmente el mejor modelo guardado si `load_best_model_at_end=True`) en el `eval_dataset` (conjunto de validaci√≥n) y muestra un resumen de las m√©tricas de rendimiento.

## **9. Prueba del modelo en nuevos textos**

Ahora podemos hacer predicciones en nuevos textos para evaluar el modelo.

In [41]:
# Evaluate the model on the test set and print the classification report

test_results = trainer.predict(test_data)
predictions = test_results.predictions.argmax(axis=-1)
labels = test_results.label_ids

print(predictions)
#print(labels)

print(classification_report(labels, predictions))

[0 0 0 0 0 0 1 1 0 0 0 1 0 1 0 0 0 0 0 1 1 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0
 1 1 0 0 1 1 1 0 1 1 1 0 1 0 1 1 0 1 1 0 0 0 0 0 0 0 0 1 1 1 1 0 1 1 0 0 1
 1 1 1 1 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1 0 0 0 0 0 0 0 1 1 1 0 0
 1 1 0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 1 1 1 1 0 1 1 0 1 1 0 1 0 1 0 0 0 1 1 1
 0 1 0 0 0 1 0 1 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 1 1 0
 0 1 0 1 1 1 1 0 0 1 0 0 0 1 1 1 0 0 0 0 1 0 0 0 1 0 0 1 1 1 1 1 0 1 0 0 0
 1 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 1 1 0 1 0 0 1 0 0 0 1 1 1 1 1 0 0 1 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 0 1 0 0 0 0
 1 1 0 1 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 1 1 1
 0 1 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 1 1 0 0 0 1 0 0 1 1 1 0 0 0 1 0
 1 1 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1 1 1 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0
 0 0 0 0 0 0 1 1 1 0 0 1 1 1 0 0 1 0 1 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 1 0
 0 0 1 1 0 0 1 0 0 0 1 1 0 1 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 1 1 0 1
 0 0 0 0 1 0 1 1 0 1 0 0 

## **9. Prueba del modelo en nuevos textos**

En esta secci√≥n, se utiliza el modelo entrenado para hacer predicciones en el conjunto de prueba (`test_data`) y se eval√∫a su rendimiento final utilizando un informe de clasificaci√≥n detallado.

*   `test_results = trainer.predict(test_data)`:
    *   El m√©todo `trainer.predict()` se utiliza para obtener las predicciones del modelo sobre el `test_data`.
    *   Este m√©todo devuelve un objeto que contiene las `predictions` (las salidas del modelo, a menudo logits) y las `label_ids` (las etiquetas reales del conjunto de prueba).

*   `predictions = test_results.predictions.argmax(axis=-1)`:
    *   Las `predictions` obtenidas de `trainer.predict()` son t√≠picamente los *logits* (valores brutos antes de la funci√≥n de activaci√≥n final) para cada clase.
    *   `.argmax(axis=-1)` se aplica para convertir estos logits en las etiquetas de clase predichas, seleccionando el √≠ndice (la clase) con el valor m√°s alto.

*   `labels = test_results.label_ids`:
    *   Esta l√≠nea simplemente asigna las etiquetas verdaderas del conjunto de prueba a la variable `labels` para facilitar su uso en la evaluaci√≥n.

*   `print(predictions)`:
    *   Imprime el array de las etiquetas predichas por el modelo para el conjunto de prueba.

*   `print(classification_report(labels, predictions))`:
    *   Finalmente, se utiliza la funci√≥n `classification_report` de `sklearn.metrics` para generar un informe de evaluaci√≥n completo.
    *   Este informe incluye m√©tricas clave como: `precision`, `recall`, `f1-score` y `support` (el n√∫mero de instancias de cada clase) para cada clase, as√≠ como `accuracy` (precisi√≥n general), `macro avg` (promedio no ponderado de las m√©tricas por clase) y `weighted avg` (promedio ponderado por el n√∫mero de instancias por clase).
    *   Este informe es fundamental para entender el rendimiento del modelo en el conjunto de prueba, especialmente en problemas con desequilibrio de clases, donde la precisi√≥n simple puede ser enga√±osa.