### Introducción

Este cuaderno cubre el proceso de desarrollo de un modelo de NLP (BERT) para predecir el sentimiento de los tweets relacionados con el cambio climático. Cubrirá cuatro fases principales:

- Modelado y entrenamiento: donde se construirá el modelo.
- Optimización: donde se registrarán y compararán las métricas adquiridas para diferentes combinaciones de las fases anteriores.

### Import de las funciones y librerias pertinentes

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
import torch
import pandas as pd

### Carga de los datos

In [None]:
df = pd.read_csv('preprocessed_tweets_roberta.csv')[['RawContent', 'Sentiment']]

# El modelo de roberta que se va a usar para clasificar los tweets es binario, por lo que se eliminan los tweets neutrales
df = df[df['Sentiment'] != 1]

In [None]:
preprocessed_tweets = df['RawContent']

### Entrenamiento del modelo

In [None]:

import numpy as np
from sklearn.metrics import classification_report

In [None]:
# Construcción del modelo
tokenizer = AutoTokenizer.from_pretrained("VerificadoProfesional/SaBERT-Spanish-Sentiment-Analysis")
model = AutoModelForSequenceClassification.from_pretrained("VerificadoProfesional/SaBERT-Spanish-Sentiment-Analysis")
classifier = pipeline('sentiment-analysis', tokenizer=tokenizer, model=model)

# Predicción de los tweets
predictions = classifier.predict(list(i[:500] for i in preprocessed_tweets))

# De la salida del modelo se extrae la etiqueta predicha
predicted_labels = [prediction['label'] for prediction in predictions]
# Y se convierten las etiquetas originales al mismo formato que las predichas
original_labels = ['Negative' if label == 0 else 'Positive' for label in df['Sentiment']]

# Obtencion de las metricas de evaluacion
print(classification_report(original_labels, predicted_labels))