# DummyClassifier para análisis de sentimiento
Este notebook entrena un modelo de línea base usando DummyClassifier sobre el dataset preprocesado de tweets del Mundial Qatar 2022.

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report

# Cargar el CSV limpio
df = pd.read_csv("fifa_tweets_clean.csv")
df = df[df['clean_tweet'].str.strip() != '']

df = df.dropna(subset=['clean_tweet'])  # elimina filas con NaN en clean_tweet

df = df.dropna(subset=['Sentiment'])  # eliminar filas sin etiqueta

# Codificar etiquetas
label_encoder = LabelEncoder()
df['Sentiment_encoded'] = label_encoder.fit_transform(df['Sentiment'])

# Vectorizar el texto (Bag of Words)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['clean_tweet'])
y = df['Sentiment_encoded']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar DummyClassifier
dummy = DummyClassifier(strategy="most_frequent")
dummy.fit(X_train, y_train)
y_pred = dummy.predict(X_test)

from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score, classification_report
)

# Métricas con zero_division=0
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred, average='macro', zero_division=0))
print("Recall:", recall_score(y_test, y_pred, average='macro', zero_division=0))
print("F1-score:", f1_score(y_test, y_pred, average='macro', zero_division=0))
print("\nClassification Report:\n")
print(classification_report(y_test, y_pred, target_names=label_encoder.classes_, zero_division=0))


Accuracy: 0.35753908219868885
Precision: 0.11917969406622962
Recall: 0.3333333333333333
F1-score: 0.1755819712729074

Classification Report:

              precision    recall  f1-score   support

    negative       0.00      0.00      0.00       600
     neutral       0.00      0.00      0.00       674
    positive       0.36      1.00      0.53       709

    accuracy                           0.36      1983
   macro avg       0.12      0.33      0.18      1983
weighted avg       0.13      0.36      0.19      1983



El DummyClassifier sirvió como una línea base para evaluar modelos más complejos. Sus métricas reflejan un rendimiento muy pobre, con total incapacidad para predecir correctamente las clases neutral y negative. Esto es coherente con su estrategia de predecir siempre la clase mayoritaria (positive). Cualquier modelo real deberá superar estas métricas mínimas para considerarse útil.

