## Contexto

El discurso de odio es cualquier expresi√≥n que promueva o incite a la discriminaci√≥n, la hostilidad o la violencia hacia una persona o grupo de personas en una relaci√≥n asim√©trica de poder, tal como la raza, la etnia, el g√©nero, la orientaci√≥n sexual, la religi√≥n, la nacionalidad, una discapacidad u otra caracter√≠stica similar.

En cambio, la incivilidad se refiere a cualquier comportamiento o actitud que rompe las normas de respeto, cortes√≠a y consideraci√≥n en la interacci√≥n entre personas. Esta puede manifestarse de diversas formas, tal como insultos, ataques personales, sarcasmo, desprecio, entre otras.

En esta tarea tendr√°n a su disposici√≥n un dataset de textos con las etiquetas `odio`, `incivilidad` o `normal`. La mayor parte de los datos se encuentra en espa√±ol de Chile. Con estos datos, deber√°n entrenar un modelo que sea capaz de predecir la etiqueta de un texto dado.

El corpus para esta tarea se compone de 3 datasets:  
- [Multilingual Resources for Offensive Language Detection de Arango et al. (2022)](https://aclanthology.org/2022.woah-1.pdf#page=136)
- [Dataton UTFSM No To Hate (2022)](http://dataton.inf.utfsm.cl/)
- Datos generados usando la [API de GPT3 (modelo DaVinci 03)](https://platform.openai.com/docs/models/gpt-3).

Agradecimientos a los autores por compartir los datos y a David Miranda, Fabi√°n Diaz, Santiago Maass y Jorge Ortiz por revisar y reetiquetar los datos en el contexto del curso "Taller de Desarrollo de Proyectos de IA" (CC6409), Departamento de Ciencias de la Computaci√≥n, Universidad de Chile.

Los datos solo pueden ser usados con fines de investigaci√≥n y docencia. Est√° prohibida la difusi√≥n externa.


## Tarea a resolver

Para esta tarea 2, buscaremos desarrollar un *benchmark* sobre una tarea de clasificaci√≥n de NLP. Un benchmark es b√°sicamente utilizar diferentes t√©cnicas para resolver una misma tarea espec√≠fica, en este caso seguiremos buscando alternativas para resolver el problema de clasificaci√≥n de la tarea 1. Particularmente, se le pide:

- Implementar una arquitectura en RNN utilizando PyTorch.
- Utilizar transformers para revolver el problema de clasificaci√≥n, en especifico utilizar BETO.
- Utilizar alg√∫n LLM utilizando Zero y Few short learning para resolver el problema de clasificaci√≥n.


### Cargar el dataset


En esta secci√≥n, cargaremos el dataset desde el repositorio del m√≥dulo. Para ello ejecute las siguientes l√≠neas:

In [None]:
import pandas as pd

In [None]:
# Dataset.
dataset_df = pd.read_csv("https://raw.githubusercontent.com/dccuchile/CC6205/master/assignments/new/assignment_1/train/train.tsv", sep="\t")


### Analizar los datos

En esta secci√≥n analizaremos el balance de los datos. Para ello se imprime la cantidad de tweets de cada dataset agrupados por la intensidad de sentimiento.

In [None]:
dataset_df.sample(20)

In [None]:
dataset_df["clase"].value_counts()

In [None]:
target_classes = list(dataset_df['clase'].unique())
target_classes

### Instalar librerias

Puede usar esta celda para instalar las librer√≠as que estime necesario.

In [None]:
%%capture



### Importar librer√≠as

En esta secci√≥n, importamos la liber√≠as necesarias para el correcto desarrollo de esta tarea. Puede utilizar otras librer√≠as que no se en encuentran aqu√≠, pero debe citar su fuente.

In [None]:
'''
!pip uninstall torch torchvision torchaudio

!pip install torch==2.3.0 --index-url https://download.pytorch.org/whl/cpu
!pip uninstall scipy
!pip install scipy==1.11.4
!pip install torchtext
!pip install scikit-plot
'''

In [None]:
import nltk
import numpy as np

from nltk import word_tokenize

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.base import BaseEstimator, TransformerMixin

# importe aqu√≠ sus clasificadores

import matplotlib.pyplot as plt

# word2vec
from gensim.models import Word2Vec, KeyedVectors
from gensim.models.phrases import Phrases, Phraser

# Pytorch imports
import torch
from torchtext.data import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

from torch.utils.data import DataLoader
from torchtext.data.functional import to_map_style_dataset

from torch import nn
from torch.nn import functional as F

from tqdm import tqdm
from sklearn.metrics import accuracy_score
import gc

from torch.optim import Adam


### Crear un clasificador basado en RNN

En esta parte de le pide definir un clasificador utilizando `PyTorch` con alguna arquitectura en Redes Recurrentes. Para ello debe realizar todos los pasos vistos en el tutorial 5, por lo que se recomienda revisarlo. Importante, no puede replicar ning√∫n ejemplo de los del tutorial 5, debe proponer sus propias arquitecturas. Se le recomienda leer como utilizar variaciones de la RNN, como la LSTM o GRU en `Pytorch`.

Para completa esta parte deber√° replicar el flujo de trabajo de como utilizar `PyTorch`. Esta esctrictamente prohibido utilizar variaciones que resuelvan directamente este problema, como `PyTorch Lightning` o `TensorFlow`. Los pasos a completar son los siguientes:

#### Cargar el dataset.

In [None]:
from sklearn.model_selection import train_test_split

def split_df(df, test_size = 0.2, seed: int = 42):
    train_df, test_df = train_test_split(df, test_size=test_size, random_state=seed, stratify=df['clase'])
    return train_df, test_df


def load_df(df):
   for _, row in df.iterrows():
     yield row['texto'], row['clase']


train_df, test_df = split_df(dataset_df)

train_dataset = load_df(train_df)
test_dataset = load_df(test_df)

#### Definir el vocabulario.

In [164]:
import re

def tokenizer_es(text: str):
    return re.findall(r"\b[\w√°√©√≠√≥√∫√º√±√Å√â√ç√ì√ö√ú√ë]+\b", str(text).lower())

def normalize(text):
    text = re.sub(r"http\S+","<URL>", text)
    text = re.sub(r"@\w+","<USER>", text)
    text = re.sub(r"#(\w+)","\\1", text)     # quita # pero deja la palabra
    return text

def tokenizer_es_norm(t):
    return tokenizer_es(normalize(t))


tokenizer = get_tokenizer("basic_english")

def generate_tokens(example: iter):
    for text, _ in example:
        yield tokenizer_es_norm(text)



def build_vocab(example: iter, min_freq=1):
    vocab = build_vocab_from_iterator(
        generate_tokens(example),
        min_freq=min_freq,
        specials=["<PAD>", "<UNK>"]   # <--- a√±ade PAD primero
    )
    vocab.set_default_index(vocab["<UNK>"])
    return vocab


vocab = build_vocab_from_iterator(
    build_vocabulary([train_dataset, test_dataset]), 
    min_freq=1, 
    specials=["<PAD>","<UNK>"]
)
pad_idx = vocab["<PAD>"]
vocab.set_default_index(vocab["<UNK>"])


print(f"Tama√±o del vocabulario: {len(vocab)}")
print(list(vocab.get_stoi().items())[:50])

Tama√±o del vocabulario: 28258
[('ùóôùóúùó°ùóîùóüùóúùó≠ùóî', 28256), ('ùóòùóπ', 28255), ('ùóóùóò', 28254), ('ùóñùó®ùó•ùó¶ùó¢', 28252), ('ùêåùêöùê†ùêùùêöùê•ùêûùêßùêö', 28249), ('ùêÉùê¢ùê†ùê¢ùê≠ùêöùê•', 28248), ('ùêÅùê¢ùêõùê•ùê¢ùê®ùê≠ùêûùêúùêö', 28247), ('Î∞©ÌÉÑÏÜåÎÖÑÎã®', 28244), ('√∫tero', 28243), ('√∫salas', 28242), ('√≥pera', 28240), ('√≥leo', 28239), ('√±uke', 28238), ('√±ora', 28236), ('√±oquis', 28235), ('√±ino', 28233), ('√±ero', 28232), ('√±ato', 28231), ('√±a', 28229), ('√≠ntimas', 28228), ('√≠ntimamente', 28227), ('√©so', 28221), ('√ßal', 28217), ('√°rboles', 28216), ('√°ngulo', 28213), ('√°ngelo', 28212), ('√°ngel', 28210), ('√°mense', 28209), ('¬Ω', 28205), ('zurich', 28202), ('zurdita', 28199), ('zurdis', 28198), ('zurdaje', 28196), ('zopiza', 28188), ('zoomjakoll', 28187), ('zoo', 28184), ('zona0', 28182), ('zionista', 28180), ('zikes', 28179), ('zendal', 28176), ('zekhem', 28174), ('zarro', 28173), ('zarpes', 28172), ('zares', 28

#### Definir la red recurrente.

Recuerde que debe difirnir los hyperparametros que estime conveniente.

In [165]:
embed_len = 50
hidden_dim = 50
n_layers=1


class RNNClassifier(nn.Module):
    def __init__(self, vocab_size, embed_len, hidden_dim, num_classes):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_len)
        self.rnn = nn.GRU(embed_len, hidden_dim, batch_first=True)
        self.linear = nn.Linear(hidden_dim, num_classes)
        
    def forward(self, X):
        # X: (batch, seq_len) con padding = 0
        emb = self.embedding(X)  # (batch, seq_len, embed_len)
        
        # longitudes reales (contar tokens != 0)
        lengths = (X != 0).sum(dim=1)

        packed = torch.nn.utils.rnn.pack_padded_sequence(
            emb, lengths.cpu(), batch_first=True, enforce_sorted=False
        )
        _, hidden = self.rnn(packed)               # hidden: (num_layers, batch, hidden_dim)
        logits = self.linear(hidden[-1])           # (batch, num_classes)
        return logits


#### Funciones de entrenamiento y evaluaci√≥n.

Para esta parte, puede utilizar las funciones vista en el tutorial directamente. Pero es su reponsabilidad ajustarlas a su c√≥digo.

In [166]:
def CalcValLossAndAccuracy(model, loss_fn, val_loader):
    with torch.no_grad():
        Y_shuffled, Y_preds, losses = [],[],[]
        for X, Y in val_loader:
            preds = model(X)
            loss = loss_fn(preds, Y)
            losses.append(loss.item())

            Y_shuffled.append(Y)
            Y_preds.append(preds.argmax(dim=-1))

        Y_shuffled = torch.cat(Y_shuffled)
        Y_preds = torch.cat(Y_preds)

        print("Valid Loss : {:.3f}".format(torch.tensor(losses).mean()))
        print("Valid Acc  : {:.3f}".format(accuracy_score(Y_shuffled.detach().numpy(), Y_preds.detach().numpy())))


def TrainModel(model, loss_fn, optimizer, train_loader, val_loader, epochs=10):
    for i in range(1, epochs+1):
        losses = []
        for X, Y in tqdm(train_loader):
            Y_preds = model(X)

            loss = loss_fn(Y_preds, Y)
            losses.append(loss.item())

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        print("Train Loss : {:.3f}".format(torch.tensor(losses).mean()))
        CalcValLossAndAccuracy(model, loss_fn, val_loader)

def MakePredictions(model, loader):
    Y_shuffled, Y_preds = [], []
    for X, Y in loader:
        preds = model(X)
        Y_preds.append(preds)
        Y_shuffled.append(Y)
    gc.collect()
    Y_preds, Y_shuffled = torch.cat(Y_preds), torch.cat(Y_shuffled)

    return Y_shuffled.detach().numpy(), F.softmax(Y_preds, dim=-1).argmax(dim=-1).detach().numpy()



##### Entrenamiento del modelo

Ejecute el entrenamiento de su modelo propuesto.

In [None]:
from torch.utils.data import DataLoader


rnn_classifier = RNNClassifier(len(vocab), embed_len, hidden_dim, len(target_classes))


train_dataset = load_df(train_df)
test_dataset = load_df(test_df)

train_dataset = to_map_style_dataset(train_dataset)
test_dataset = to_map_style_dataset(test_dataset)

train_loader = DataLoader(
    train_dataset,
    batch_size=32,
    shuffle=True,
    collate_fn=vectorize_batch,
)

test_loader = DataLoader(
    test_dataset,
    batch_size=32,
    shuffle=False,
    collate_fn=vectorize_batch,
)

epochs = 10
learning_rate = 0.001
loss_fn = nn.CrossEntropyLoss()
optimizer = Adam(rnn_classifier.parameters(), lr=learning_rate)

TrainModel(rnn_classifier, loss_fn, optimizer, train_loader, test_loader, epochs)




100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:09<00:00, 32.84it/s]


Train Loss : 1.021
Valid Loss : 0.967
Valid Acc  : 0.539


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:09<00:00, 33.36it/s]


Train Loss : 0.867
Valid Loss : 0.892
Valid Acc  : 0.590


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 34.38it/s]


Train Loss : 0.730
Valid Loss : 0.825
Valid Acc  : 0.644


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 34.60it/s]


Train Loss : 0.592
Valid Loss : 0.836
Valid Acc  : 0.664


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 34.64it/s]


Train Loss : 0.470
Valid Loss : 0.860
Valid Acc  : 0.669


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 34.84it/s]


Train Loss : 0.357
Valid Loss : 0.868
Valid Acc  : 0.673


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 35.42it/s]


Train Loss : 0.261
Valid Loss : 0.998
Valid Acc  : 0.675


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 36.04it/s]


Train Loss : 0.183
Valid Loss : 1.123
Valid Acc  : 0.672


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 35.51it/s]


Train Loss : 0.129
Valid Loss : 1.254
Valid Acc  : 0.674


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 306/306 [00:08<00:00, 35.59it/s]


Train Loss : 0.088
Valid Loss : 1.347
Valid Acc  : 0.677


'\n\n\n\n\nembed_len = 50\nhidden_dim1 = 50\nhidden_dim2 = 60\nhidden_dim3 = 75\nn_layers=1\n\n\n\n\n\n\n\n\nbatch_size = 32  # o el que uses\n\n\nrnn_classifier = RNNClassifier(len(vocab), embed_len, hidden_dim1, len(target_classes))\nloss_fn = nn.CrossEntropyLoss()\noptimizer = Adam(rnn_classifier.parameters(), lr=learning_rate) \n\n\n#train_loader = DataLoader(train_dataset, batch_size=1024, collate_fn=vectorize_batch, shuffle=True)\n# test_loader  = DataLoader(test_dataset , batch_size=1024, collate_fn=vectorize_batch)\n\nTrainModel(rnn_classifier, loss_fn, optimizer, train_loader, test_loader, epochs)\n'

##### Evaluacion del modelo

Ejecute la evaluaci√≥n de su modelo, y genere un reporte de evaluaci√≥n similar al de la pregunta anterior.

In [162]:
Y_actual, Y_preds = MakePredictions(rnn_classifier, test_loader)

In [163]:
print("Test Accuracy : {}".format(accuracy_score(Y_actual, Y_preds)))
print("\nClassification Report : ")
print(classification_report(Y_actual, Y_preds, target_names=target_classes))
print("\nConfusion Matrix : ")
print(confusion_matrix(Y_actual, Y_preds))

Test Accuracy : 0.6827670896438804

Classification Report : 
              precision    recall  f1-score   support

      normal       0.64      0.68      0.66       856
 incivilidad       0.75      0.72      0.74      1085
        odio       0.61      0.59      0.60       502

    accuracy                           0.68      2443
   macro avg       0.67      0.67      0.67      2443
weighted avg       0.68      0.68      0.68      2443


Confusion Matrix : 
[[585 165 106]
 [213 786  86]
 [110  95 297]]


Finalmente, an√°lice sus resultados, ¬øPorqu√© cree que obtuvo esos resultados?, ¬øEs mejor que s√≥lo utilizar Word Embeddings, porque?. Justique.

Se obtiene un accuracy cercano a 0,68 y un f1 macro ~0,67, ya que el modelo captura patrones generales. Sin embargo, las fronteras entre ‚Äúnormal‚Äù, ‚Äúincivilidad‚Äù y ‚Äúodio‚Äù son muy difusas. La matriz de confusi√≥n muestra que ‚Äúincivilidad‚Äù tiende a confundirse con las otras altenativas.
Se considera que el rendimiento est√° condicionado por la calidad de los datos; en este caso, pese a que se realiz√≥ un preprocesamiento menor,  los datos prencente.

Si solo se usara word embeddings, este ser√≠a un an√°lisis de menor calidad. Frases como ‚Äúno es odio‚Äù y ‚Äúes odio‚Äù pueden quedar muy parecidas num√©ricamente. Por otro lado, la RNN procesa palabra a palabra, incorporando orden y negaciones.

La red construida sigue usando embeddings como representaci√≥n b√°sica, pero a√±ade una capa que mejora el an√°lisis que permite entender c√≥mo se construye cada mensaje a lo largo del texto. Esto es especialmente importante en una tarea donde la forma de decir las cosas es tan relevantes como las palabras en s√≠.

### Transformers BERT.

Para esta tarea se le piden crear una representaci√≥n de texto usando la arquitectura basada en transformers, BERT:



In [None]:
!pip install transformers


#### Import BETO

Para esto debe importar el tokenizador y el modelo BETO.

In [None]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

#### Ejemplo de extracci√≥n de features.

Luego, debe cargar los modelos pre-entrenados:

In [None]:
tokenizer = AutoTokenizer.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')
model = AutoModelForMaskedLM.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased', output_hidden_states=True)

Una vez cargado BETO, debe utilizarlo para extraer los embeddings asociados a la texto de su corpus. Se espera que usted realice lo siguiente:



Tokenizamos el texto para extraer los ids a cada palabra en el vocabulario interno de BETO, se recomienda utilizar el padding, trunctation, y max_length para considerar oraciones de diferentes tama√±os.

Luego, debe verificar si cada uno de los ids extra√≠dos se encuentran en la misma m√°quina donde fue cargado el modelo (CPU o GPU), se recomienda dejar todo en GPU.

In [None]:
# oraci√≥n
sentence = "Hola, que tal? me gusta mucho el curso de NLP"

# extraemos los ids de los tokens, se recomienda definir los valores de las variables:
#  padding, truncation, max_length debido a que las secuencia de texto puede tener diferentes largos
inputs = tokenizer(sentence, padding=True, truncation=True, return_tensors="pt", max_length=512)
# revisamos si cada de los ids, se encuentran en la misma m√°quina que el modelo (GPU o CPU)
inputs = {k: v.to(model.device) for k, v in inputs.items()}
inputs

Una vez, extra√≠dos los ids, usted debe obtener los estados ocultos de las ultimas capas de BETO.

In [None]:
# Extraemos la features
outputs = model(**inputs)

# ahora `outputs` tendr√° el atributo `hidden_states`
hidden_states = outputs.hidden_states


Finalmente, debe guardar los embeddings en CPU los embeddings del token [CLS] que ser√° usados en la clasificaci√≥n del an√°lisis de sentimientos.

In [None]:
with torch.no_grad():
# Seleccionamos la √∫ltima capa y obtenemos el primer token ([CLS]) para cada ejemplo
# Estos son los embeddings que normalmente se usan para tareas de clasificaci√≥n.
  cls_embeddings = hidden_states[-1][:, 0, :].cpu().numpy()


#### Extraer features de todo el dataset

Considerando lo anterior, usted debe implementar la funci√≥n `get_beto_features_in_batches` para extraer los features de BETO (los estados ocultos y los embeddings del token [CLS]).

Esta funci√≥n recibe dos par√°metros, el texto a vectorizar y un tama√±o de batch, debido a que es extramadamente recomendable a que procesen el texto por lotes, ya que si cargan todos el modelo se les agotar√° la memoria RAM.

In [None]:
# Funci√≥n para procesar los textos en lotes y obtener las caracter√≠sticas de BETO

def get_beto_features_in_batches(texts, batch_size):

  pass

Ahora extra√≠ga los features, un punto importante es que la extracci√≥n de features podr√≠a tomar alrededor de una a dos horas dependiendo del tama√±o del batch que utilicen.

In [None]:
train_embs = get_beto_features_in_batches(..., ...)

#### Clasificaci√≥n

Una vez extra√≠do los features de BETO, realice la clasificaci√≥n de los embeddings obtenidos. Debe implementar dos clasificadores a su elecci√≥n.

#### Reporte de evaluaci√≥n

Una vez realizada la clasificaci√≥n, realice el reporte de clasificaci√≥n y el an√°lsis de la matriz confusi√≥n para ambos clasificadores.

Recuerde que para hacer esto, debe extraer los features del dataset de testing.

Finalmente, que puede decir de los resultados obtenidos. ¬øSe diferencia de los resultados obtenidos de la red RNN? ¬øA que se debe esto? Justifique

### Large Language Model

##### Zero Shot Learning

Utilizando la t√©cnica de zero shot learning, utilice la API de `openai` para clasificar el texto del dataset.

Adem√°s, genere el reporte de clasificaci√≥n usando `scikit-learn` como en las preguntas anteriores.

Recuerde solicitar al profesor auxiliar el TOKEN para hacer consultas al LLM.

##### Few Shot Learning

Utilizando la t√©cnica de few shot learning, utilice la API de `openai` para clasificar el texto del dataset.

Adem√°s, genere el reporte de clasificaci√≥n usando `scikit-learn` como en las preguntas anteriores.

Recuerde solicitar al profesor auxiliar el TOKEN para hacer consultas al LLM.