<a href="https://colab.research.google.com/github/Israelchguevara/Deteccion-de-profesiones-en-Twitter/blob/main/Deteccion_de_profesiones_en_Twitter_GH.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install datasets
!pip install evaluate
!pip install fsspec==2023.9.2
!pip install transformers

## Imports

In [None]:
# Add your imports here
import numpy as np
import nltk
nltk.download('stopwords')
import os, random
import torch

SEED = 42

torch.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

random.seed(SEED)
np.random.seed(SEED)
os.environ["PYTHONHASHSEED"] = str(SEED)

try:
    import torch
    torch.manual_seed(SEED)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(SEED)
except Exception as e:
    print("Aviso: PyTorch no encontrado o sin GPU. Detalle:", e)


try:
    from transformers import set_seed
    set_seed(SEED)
except Exception as e:
    print("Aviso: Transformers no encontrado todav√≠a. Aseg√∫rate de instalarlo antes. Detalle:", e)

# üîç  Detecci√≥n de profesiones en tweets

## Enunciado

En este ejercicio vamos a trabajar con un conjunto de datos procedente de medios sociales online.

Utilizaremos un subconjunto de los datos de la proyecto 1 del shared task [**ProfNER**](https://temu.bsc.es/smm4h-spanish), centrada en la detecci√≥n de menciones a profesiones en tweets publicados durante la pandemia del COVID-19. El objetivo original de la proyecto era analizar que profesiones podr√≠an haber sido especialmente vulnerables en el contexto de la crisis sanitaria.

Para simplificar el ejercicio, he preparado una versi√≥n reducida del dataset original. Tu proyecto ser√° entrenar un clasificador binario basado en la arquitectura Transformers, que, dado un tweet, determine si contiene una menci√≥n expl√≠cita a una profesi√≥n (etiqueta `1`) o no (etiqueta `0`).




‚úÖ **Objetivos del ejercicio**

A lo largo de este notebook, completar√°s las siguientes etapas para construir un clasificador de menciones a profesiones en tweets:

1. **An√°lisis Exploratorio de Datos (EDA)**: Calcular estad√≠sticas b√°sicas del conjunto de datos (como el n√∫mero de ejemplos del training set, la distribuci√≥n de clases del dataset, la longitud media de los textos) o crear visualizaciones para cmprender mejor el contenido de los documentos usando wordclouds o histogramas.

2. **Selecci√≥n y justificaci√≥n del modelo**: Elegir un modelo del Hub de Huggingface adecuado para los datos con los que se va a trabajar y el tipo de proyecto a desarrollar.

3. **Entrenamiento del clasificador**: Entrenar el modelo de forma reproducible y evaluar su rendimiento sobreel conjunto de datos de validaci√≥n, incluyendo un classification score y matriz de confusion

4. **Generaci√≥n de predicciones sobre el conjunte de test**: Aplicar el modelo entrenado al conjunto de test, y guardar las predicciones en un archivo `.tsv` de 2 columnas `id` y `label` separadas por tabulador

# Tu resoluci√≥n (rellena las celdas marcadas)

## Obtenci√≥n de datos

Descargamos los datos del [repositorio de Huggingface](https://huggingface.co/datasets/luisgasco/profner_classification_master).

In [None]:
#NO-MODIFY: DATA LOAD
from datasets import load_dataset, Dataset, DatasetDict, ClassLabel
dataset = load_dataset("luisgasco/profner_classification_master")

El dataset contiene tres subsets:
- **train** y **validation**: Contienen el identificador del tweet, el texto, y su etiqueta, que podr√° tener valor 1, si contiene una menci√≥n de una profesi√≥n; o valor 0, si no contiene una menci√≥n de una profesi√≥n.
- **test**: El test set tambi√≠en contiene la informaci√≥n de label por un requerimiento de Huggingface, pero el contenido de esta variable es siempre "-1". Es decir que deber√©is predecir nuevas etiquetas una vez hay√°is entrenado el modelo utilizando el train y el validation set.

## An√°lisis exploratorio de datos

Para hacer el an√°lisis exploratorio de datos, transformamos cada subset a un pandas dataframe para mayor comodidad.

In [None]:
#NO-MODIFY: DATA LOAD
dataset_train_df = dataset["train"].to_pandas()
dataset_val_df = dataset["validation"].to_pandas()
dataset_test_df = dataset["test"].to_pandas()

**N√∫mero de documentos**

Obten con la funci√≥n `get_num_docs_evaluation()` el n√∫mero de documentos del dataset de training y validation.

> Recuerda incorporar la informaci√≥n para el c√°lculo dentro del a siguiente celda, sin modificar los atributos de entrada ni de salida de la funci√≥n, ni su nombre.

In [None]:
#MODIFY: ADD INFO TO SOLVE FUNCTION
def get_num_docs_evaluation(dataset_df):
  # Modifica la funci√≥n.
  num_docs = len(dataset_df)

  # No modifiques el return
  return num_docs

Una vez generada la funci√≥n, puedes utilizarla posteriormente para calcular resultados y comentarlos

In [None]:
# Aplica la funci√≥n
num_docs_train = get_num_docs_evaluation(dataset_train_df)
num_docs_val = get_num_docs_evaluation(dataset_val_df)

print(f"Number of documents in training set: {num_docs_train}")
print(f"Number of documents in validation set: {num_docs_val}")

**N√∫mero de documentos duplicados**

Obten con la funci√≥n `detect_duplicates_evaluation()` el n√∫mero de documentos duplicados del dataset de training y validation.

> Recuerda incorporar la informaci√≥n para el c√°lculo dentro del a siguiente celda, sin modificar los atributos de entrada ni de salida de la funci√≥n, ni su nombre.

In [None]:
#MODIFY: ADD INFO TO SOLVE FUNCTION
def detect_duplicates_evaluation(dataset_df):
  # Modifica la funci√≥n.
  num_duplicates = dataset_df.duplicated().sum()

  # No modifiques el return
  return num_duplicates

Una vez generada la funci√≥n, puedes utilizarla posteriormente para calcular resultados y comentarlos

In [None]:
# Aplica la funci√≥n
num_duplicates_train = detect_duplicates_evaluation(dataset_train_df)
num_duplicates_val = detect_duplicates_evaluation(dataset_val_df)

print(f"Number of duplicate documents in training set: {num_duplicates_train}")
print(f"Number of duplicate documents in validation set: {num_duplicates_val}")

**N√∫mero de documentos por cada clase:**


Obten con la funci√≥n `analyse_num_labels_evaluation()` para calcular el n√∫mero de documentos de cada categor√≠a en el dataset

> Recuerda incorporar la informaci√≥n para el c√°lculo dentro del a siguiente celda, sin modificar los atributos de entrada ni de salida de la funci√≥n, ni su nombre.

In [None]:
#MODIFY: ADD INFO TO SOLVE FUNCTION
def analyse_num_labels_evaluation(dataset_df):
  # Modifica la funci√≥n.
  num_positives = dataset_df[dataset_df['label'] == 1].shape[0]
  num_negatives = dataset_df[dataset_df['label'] == 0].shape[0]

  # No modifiques el return
  return num_positives, num_negatives

Una vez generada la funci√≥n, puedes utilizarla posteriormente para calcular resultados y comentarlos

In [None]:
# Aplica la funci√≥n
num_positives_train, num_negatives_train = analyse_num_labels_evaluation(dataset_train_df)
num_positives_val, num_negatives_val = analyse_num_labels_evaluation(dataset_val_df)

print(f"Training set: Positive examples: {num_positives_train}, Negative examples: {num_negatives_train}")
print(f"Validation set: Positive examples: {num_positives_val}, Negative examples: {num_negatives_val}")


**Distribuci√≥n de la longitud de los tweet en caracteres:**

In [None]:
import matplotlib.pyplot as plt

# Calculate the length of each tweet
dataset_train_df['tweet_length'] = dataset_train_df['text'].apply(len)
dataset_val_df['tweet_length'] = dataset_val_df['text'].apply(len)

# Plot the distribution of tweet lengths
plt.figure(figsize=(8, 5))
plt.hist(dataset_train_df['tweet_length'], bins=50, alpha=0.7, label='Train')
plt.hist(dataset_val_df['tweet_length'], bins=50, alpha=0.7, label='Validation')
plt.xlabel('Tweet Length (characters)')
plt.ylabel('Frequency')
plt.title('Distribution of Tweet Lengths')
plt.legend()
plt.show()

**Interpretaci√≥n del gr√°fico de Distribuci√≥n de la Longitud de los Tweets:**

El histograma visualiza c√≥mo se distribuye la longitud (en caracteres) de los tweets en tus conjuntos de datos de entrenamiento y validaci√≥n.

Al observar este histograma, puedes entender caracter√≠sticas clave de tus datos, como:

*   **La longitud m√°s com√∫n:** La barra m√°s alta indica el rango de longitud donde se concentra la mayor cantidad de tweets.
*   **La dispersi√≥n de las longitudes:** Puedes ver si las longitudes est√°n muy agrupadas o si hay una amplia variaci√≥n.
*   **Presencia de tweets muy cortos o muy largos:** Los extremos del histograma te mostrar√°n si hay una cantidad significativa de tweets con longitudes inusuales.
*   **Comparaci√≥n entre conjuntos:** Las barras para el conjunto de entrenamiento (azul) y validaci√≥n (naranja) te permiten ver si la distribuci√≥n de longitudes es similar en ambos conjuntos.

Este an√°lisis es √∫til para tareas de procesamiento de texto, ya que puede guiar decisiones sobre la longitud m√°xima a considerar para la tokenizaci√≥n o el padding.

**An√°lisis de contenido de los tweets**

Para ello utiliza wordclouds

In [None]:
!pip install wordcloud

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# Combine text from positive and negative examples
positive_text = " ".join(dataset_train_df[dataset_train_df['label'] == 1]['text'])
negative_text = " ".join(dataset_train_df[dataset_train_df['label'] == 0]['text'])

# Create wordcloud for positive examples
wordcloud_positive = WordCloud(width=800, height=400, background_color='white').generate(positive_text)

# Create wordcloud for negative examples
wordcloud_negative = WordCloud(width=800, height=400, background_color='white').generate(negative_text)

# Display the wordclouds
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.imshow(wordcloud_positive, interpolation='bilinear')
plt.axis('off')
plt.title('Wordcloud for Positive Examples (Profession Mentioned)')

plt.subplot(1, 2, 2)
plt.imshow(wordcloud_negative, interpolation='bilinear')
plt.axis('off')
plt.title('Wordcloud for Negative Examples (No Profession Mentioned)')

plt.show()

**Interpretaci√≥n de Wordclouds:**

*   **"Wordcloud for Positive Examples (Profession Mentioned)"**: Esta wordcloud visualiza las palabras que aparecen con mayor frecuencia en los tweets del conjunto de entrenamiento que han sido etiquetados con la clase `1`. La etiqueta `1` en este conjunto de datos indica que el tweet **contiene una menci√≥n expl√≠cita a una profesi√≥n**. Por lo tanto, esta wordcloud te muestra las palabras m√°s comunes en los tweets donde se habla de profesiones.

*   **"Wordcloud for Negative Examples (No Profession Mentioned)"**: Esta wordcloud visualiza las palabras que aparecen con mayor frecuencia en los tweets del conjunto de entrenamiento que han sido etiquetados con la clase `0`. La etiqueta `0` en este conjunto de datos indica que el tweet **no contiene una menci√≥n expl√≠cita a una profesi√≥n**. Esta wordcloud, por lo tanto, te muestra las palabras m√°s comunes en los tweets que no hablan de profesiones.

Comparar estas dos wordclouds te permite identificar visualmente las palabras que son m√°s distintivas o frecuentes en cada una de las dos categor√≠as de tweets, lo cual es un paso √∫til en el an√°lisis exploratorio para entender las diferencias entre las clases.

## Tokenizaci√≥n

El texto del dataset no est√° preparado para ser introducido en un modelo Transformers. Lleva a cabo el proceso de tokenizaci√≥n.

In [None]:
# IMPORTS
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer

Selecciona un modelo apropiado para la proyecto:

> Recuerda que en la siguiente celda s√≥lo debes asignar un valor a model_name. No a√±adas m√°s informaci√≥n en la celda.

In [None]:
#NO-MODIFY: VARIABLE NAME
# BERT-based model trained on Spanish data
model_name = 'dccuchile/bert-base-spanish-wwm-cased'

## Justificaci√≥n del modelo

Para este ejercicio se emplea **BETO** (`dccuchile/bert-base-spanish-wwm-cased`), un BERT preentrenado **espec√≠fico para espa√±ol** y con **Whole Word Masking (WWM)**. Las razones de esta elecci√≥n son:

- **Adecuaci√≥n al idioma**: el corpus de preentrenamiento es espa√±ol, lo que mejora la cobertura l√©xica, morfol√≥gica y fen√≥menos propios del idioma frente a modelos multiling√ºes.
- **WWM**: enmascara palabras completas durante el preentrenamiento, beneficiando tareas de clasificaci√≥n de texto donde la integridad de las unidades l√©xicas aporta se√±al.
- **Balance capacidad/recursos**: tama√±o base (~110M par√°metros), entrenable en una GPU de docencia con tiempos razonables.
- **Resultados contrastados**: BETO ha mostrado buen rendimiento en m√∫ltiples tareas de PLN en espa√±ol (clasificaci√≥n, NER, an√°lisis de sentimiento), por lo que es una opci√≥n s√≥lida como baseline fuerte.

Alternativas razonables ser√≠an **mBERT** o modelos recientes como **roberta-base-bne** (es-core news) o **ALBERT/DeBERTa** adaptados al espa√±ol, pero BETO ofrece un equilibrio muy adecuado entre rendimiento y coste computacional para este entorno docente.


Puedes continuar con el proceso aqu√≠:

In [None]:
# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Tokenize the datasets
def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

## Fine-tuning

Carga el model para ser ajustado posteriormente:

In [None]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

### Configuracion training_args

Configura los par√°metros de entrenamiento del modelo.


>

> Recuerda que en la siguiente celda s√≥lo debes asignar atributos a la variable training_args. No a√±adas  otras variables en la celda

In [None]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    seed=SEED,
    output_dir="./results",  # Directorio de salida para los resultados del entrenamiento
    learning_rate=2e-5,  # Tasa de aprendizaje
    per_device_train_batch_size=32,  # Tama√±o del batch por dispositivo para entrenamiento
    per_device_eval_batch_size=32,  # Tama√±o del batch por dispositivo para evaluaci√≥n
    num_train_epochs=3,  # N√∫mero de √©pocas de entrenamiento
    weight_decay=0.01,  # Decaimiento del peso
    do_train=False,
    do_eval=True,
    logging_dir="./logs",
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    eval_dataset=tokenized_datasets["validation"],
)


In [None]:
import numpy as np
import evaluate

metric = evaluate.load("f1")

import evaluate, numpy as np
precision_metric = evaluate.load("precision")
recall_metric = evaluate.load("recall")
f1_metric = evaluate.load("f1")
accuracy_metric = evaluate.load("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    preds = np.argmax(logits, axis=-1)
    return {
        "precision": precision_metric.compute(predictions=preds, references=labels, average="binary")["precision"],
        "recall":    recall_metric.compute(predictions=preds, references=labels, average="binary")["recall"],
        "f1":        f1_metric.compute(predictions=preds, references=labels, average="binary")["f1"],
        "accuracy":  accuracy_metric.compute(predictions=preds, references=labels)["accuracy"],
    }


### Ajuste del modelo

Lleva a cabo el ajuste del modelo:

In [None]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=compute_metrics,
)

trainer.train()

In [None]:
trainer.evaluate()

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
import numpy as np

# Assuming y_true and y_pred are already available from a previous prediction/evaluation step
# If not, you would need to run trainer.predict() first to get them.
# Based on the notebook state, y_true and y_pred were generated in cell ZUkg3iH7Uf7m

# Generate classification report
report = classification_report(y_true, y_pred, target_names=["No Profession", "Profession"]) # Assuming class names based on previous analysis

print("Classification Report for Validation Set:")
print(report)

print("\n" + "="*50 + "\n") # Separator for clarity

# Generate and display confusion matrix (Code moved from cell ZUkg3iH7Uf7m)
cm = confusion_matrix(y_true, y_pred)

# Define class labels for display
class_names = ["No Profession", "Profession"] # Assuming 0 is No Profession and 1 is Profession based on previous analysis

# Display the confusion matrix
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=class_names)
disp.plot(cmap=plt.cm.Blues)
plt.title("Confusion Matrix for Validation Set")
plt.show()

## Genera predicciones

Genera predicciones sobre el test set. Recuerda que el archivo que generes y adjuntes al ejercicio debe tener dos columnas:


| id         | label |
|------------|-------|
| 1234567890 | 1     |
| 1234567891 | 0     |
| 1234567892 | 0     |
| 1234567893 | 1     |

- El archivo debe estar en formato **TSV** (separado por tabuladores).
- Debe contener exactamente **dos columnas**: `id` y `label`.
- Es obligatorio incluir la **cabecera**.


In [None]:
tokenized_datasets["test"]["label"][0:4]

In [None]:
def fix_labels(example):
    example["label"] = 1  # O lo que toque
    return example
ClassLabel
# Aplica la funci√≥n al dataset de evaluaci√≥n
dataset_test = tokenized_datasets["test"].map(fix_labels)

In [None]:
label2id = {"SIN_PROFESION":0, "CON_PROFESION":1}

#NO-MODIFY: DATA LOAD
from datasets import load_dataset, Dataset, DatasetDict, ClassLabel
dataset = load_dataset("luisgasco/profner_classification_master")

dataset_test = dataset["test"]

In [None]:
x_id = [x["tweet_id"] for x in dataset_test]
documentos = [x["text"] for x in dataset_test]

In [None]:
documentos[0:3]

In [None]:
from tqdm import tqdm
import torch
batch_size = 32
preds = []

for i in tqdm(range(0, len(documentos), batch_size)):
    batch = documentos[i:i+batch_size]
    # Tokenizar el batch
    tokenized_batch = tokenizer(batch, padding="max_length", truncation=True, return_tensors="pt")
    with torch.no_grad():
        # Mover el batch tokenizado al mismo dispositivo que el modelo
        tokenized_batch = {k: v.to(model.device) for k, v in tokenized_batch.items()}
        batch_preds = model(**tokenized_batch)
    preds.extend(batch_preds.logits)

In [None]:
import numpy as np

# Get the predicted labels from the logits
predicted_labels = [np.argmax(p.cpu().numpy()) for p in preds]

# Create the num_preds list
num_preds = predicted_labels

In [None]:
import pandas as pd
output_df2 = pd.DataFrame(
    {'id': x_id,
     'label': num_preds
    })

In [None]:
output_df2.head(3)

In [None]:
output_df2.to_csv("predicciones.tsv", sep="\t",index=False)

In [None]:
output_df2

In [None]:
from google.colab import files
files.download("predicciones.tsv")