Utilizando el dataset " Twitter Sentiment Analysis in Spanish Tweets", deberás
implementar y comparar diferentes técnicas de Inteligencia Artificial y Modelos de
Lenguaje (LLM) para la clasificación de sentimientos en comentarios de usuarios.
• Demostrar conocimientos prácticos en técnicas de IA/ML
• Evaluar capacidad de prompt engineering con LLMs
• Analizar críticamente los resultados obtenidos
• Muestra a utilizar: Los primeros 100 datos seleccionados aleatoriamente
• Etiquetas esperadas: POSITIVO, NEGATIVO, NEUTRO

In [2]:
import pandas as pd

df = pd.read_csv("sentiment_analysis_dataset.csv")
df.head()

Unnamed: 0,user,text,date,emotion,sentiment
0,@erreborda,termine bien abrumado después de hoy,"Jan 6, 2024 · 2:53 AM UTC",overwhelmed,scared
1,@shpiderduck,me siento abrumado,"Jan 6, 2024 · 2:35 AM UTC",overwhelmed,scared
2,@Alex_R_art,Me siento un poco abrumado por la cantidad de ...,"Jan 6, 2024 · 12:20 AM UTC",overwhelmed,scared
3,@anggelinaa97,Salvador la única persona que no la ha abrumad...,"Jan 5, 2024 · 10:38 PM UTC",overwhelmed,scared
4,@diegoreyesvqz,Denme un helado o algo que ando full abrumado.,"Jan 5, 2024 · 8:38 PM UTC",overwhelmed,scared


In [3]:
print("Categorías en 'emotion':", df['emotion'].unique())
print("Categorías en 'sentiment':", df['sentiment'].unique())

Categorías en 'emotion': ['overwhelmed' 'embarrassed' 'jealous' 'irritated' 'frustrated' 'distant'
 'stupid' 'isolated' 'sleepy' 'responsive' 'relaxed' 'loving' 'thankful'
 'secure' 'confident' 'successful' 'surprised' 'playful' 'optimistic'
 'daring']
Categorías en 'sentiment': ['scared' 'mad' 'sad' 'peaceful' 'powerful' 'joyful']


In [4]:
# Diccionarios de mapeo
emotion_map = {
    'overwhelmed': 'NEGATIVO', 'embarrassed': 'NEGATIVO', 'jealous': 'NEGATIVO',
    'irritated': 'NEGATIVO', 'frustrated': 'NEGATIVO', 'distant': 'NEGATIVO',
    'stupid': 'NEGATIVO', 'isolated': 'NEGATIVO', 'sleepy': 'NEGATIVO',

    'responsive': 'NEUTRO', 'relaxed': 'NEUTRO',

    'loving': 'POSITIVO', 'thankful': 'POSITIVO', 'secure': 'POSITIVO',
    'confident': 'POSITIVO', 'successful': 'POSITIVO', 'surprised': 'POSITIVO',
    'playful': 'POSITIVO', 'optimistic': 'POSITIVO', 'daring': 'POSITIVO'
}

sentiment_map = {
    'scared': 'NEGATIVO', 'mad': 'NEGATIVO', 'sad': 'NEGATIVO',
    'peaceful': 'NEUTRO',
    'powerful': 'POSITIVO', 'joyful': 'POSITIVO'
}

# Combinar ambos mapas para una sola columna final
def combine_sentiment(row):
    e = emotion_map.get(row['emotion'], 'NEUTRO')
    s = sentiment_map.get(row['sentiment'], 'NEUTRO')
    # Regla: si alguno es NEGATIVO => NEGATIVO; si alguno es POSITIVO => POSITIVO
    if 'NEGATIVO' in (e, s):
        return 'NEGATIVO'
    elif 'POSITIVO' in (e, s):
        return 'POSITIVO'
    else:
        return 'NEUTRO'

df['sentiment_label'] = df.apply(combine_sentiment, axis=1)

# Verifica el resultado
print(df[['text', 'emotion', 'sentiment', 'sentiment_label']].sample(10))
print(df['sentiment_label'].value_counts())

                                                   text      emotion  \
2106                       El sorprendido fui yo jajaja    surprised   
1391  En serio me gustaría tener un novio para ir a ...      relaxed   
658             Ya estoy tan cansado tan harto tan todo   frustrated   
1958  Fuero exclusivo o necesario: solo es competent...    confident   
184                               Muy tímido el viernes  embarrassed   
1520  pokemon concierge eh tao querido caloroso amav...       loving   
1322  soy un chico tranquilito sosegado calmado adem...      relaxed   
15             Desbordado de felicidad y de ansiedad🥹🫶🏽  overwhelmed   
2128  Y daré en asombro Mi silencio Mueca de rostro ...    surprised   
173   Me regalaron dos rosas bonitas 💕 fue muy bonit...  embarrassed   

     sentiment sentiment_label  
2106  powerful        POSITIVO  
1391  peaceful          NEUTRO  
658        mad        NEGATIVO  
1958  powerful        POSITIVO  
184     scared        NEGATIVO  
1520  pea

In [5]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

# selecciono 100 al azar para acelerar pruebas

df_sample = df.sample(n=100, random_state=42).reset_index(drop=True)
print(df_sample['sentiment_label'].value_counts())


# Selecciona el texto y la etiqueta
X = df['text']
y = df['sentiment_label']

# Divide en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Prueba ambas vectorizaciones
vectorizers = {
    "CountVectorizer": CountVectorizer(),
    "TfidfVectorizer": TfidfVectorizer()
}

models = {
    "Logistic Regression": LogisticRegression(max_iter=1000),
    "Naive Bayes": MultinomialNB(),
    "Linear SVM": LinearSVC()
}

for vec_name, vectorizer in vectorizers.items():
    print(f"\n--- Usando {vec_name} ---")
    X_train_vec = vectorizer.fit_transform(X_train)
    X_test_vec = vectorizer.transform(X_test)
    
    for model_name, model in models.items():
        print(f"\nModelo: {model_name}")
        model.fit(X_train_vec, y_train)
        y_pred = model.predict(X_test_vec)
        
        acc = accuracy_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred, average='macro')
        cm = confusion_matrix(y_test, y_pred, labels=['POSITIVO', 'NEGATIVO', 'NEUTRO'])
        
        print(f"Accuracy: {acc:.4f}")
        print(f"F1-score (macro): {f1:.4f}")
        print("Matriz de confusión:")
        print(cm)
        print("Reporte de clasificación:")
        print(classification_report(y_test, y_pred, digits=4))

sentiment_label
NEGATIVO    48
POSITIVO    33
NEUTRO      19
Name: count, dtype: int64

--- Usando CountVectorizer ---

Modelo: Logistic Regression
Accuracy: 0.7857
F1-score (macro): 0.6607
Matriz de confusión:
[[199  33   6]
 [ 33 196   3]
 [ 22  14  12]]
Reporte de clasificación:
              precision    recall  f1-score   support

    NEGATIVO     0.8066    0.8448    0.8253       232
      NEUTRO     0.5714    0.2500    0.3478        48
    POSITIVO     0.7835    0.8361    0.8089       238

    accuracy                         0.7857       518
   macro avg     0.7205    0.6437    0.6607       518
weighted avg     0.7742    0.7857    0.7735       518


Modelo: Naive Bayes
Accuracy: 0.7645
F1-score (macro): 0.5486
Matriz de confusión:
[[205  29   4]
 [ 41 190   1]
 [ 24  23   1]]
Reporte de clasificación:
              precision    recall  f1-score   support

    NEGATIVO     0.7851    0.8190    0.8017       232
      NEUTRO     0.1667    0.0208    0.0370        48
    POSITIVO     



Accuracy: 0.8224
F1-score (macro): 0.7713
Matriz de confusión:
[[205  26   7]
 [ 35 194   3]
 [ 13   8  27]]
Reporte de clasificación:
              precision    recall  f1-score   support

    NEGATIVO     0.8509    0.8362    0.8435       232
      NEUTRO     0.7297    0.5625    0.6353        48
    POSITIVO     0.8103    0.8613    0.8350       238

    accuracy                         0.8224       518
   macro avg     0.7970    0.7534    0.7713       518
weighted avg     0.8210    0.8224    0.8203       518


--- Usando TfidfVectorizer ---

Modelo: Logistic Regression
Accuracy: 0.7625
F1-score (macro): 0.5580
Matriz de confusión:
[[208  29   1]
 [ 47 185   0]
 [ 26  20   2]]
Reporte de clasificación:
              precision    recall  f1-score   support

    NEGATIVO     0.7906    0.7974    0.7940       232
      NEUTRO     0.6667    0.0417    0.0784        48
    POSITIVO     0.7402    0.8739    0.8015       238

    accuracy                         0.7625       518
   macro avg    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])
  _warn_prf(average, modifier, f"{metric.capitalize()} is", result.shape[0])


## Interpretación de resultados y modelo recomendado
Se compararon tres modelos de clasificación de sentimientos (Logistic Regression, Naive Bayes y Linear SVM) usando dos técnicas de vectorización de texto (CountVectorizer y TfidfVectorizer).
- **CountVectorizer**: Linear SVM obtuvo la mejor precisión (Accuracy: 0.82, F1 macro: 0.77), mostrando buen desempeño en las clases POSITIVO y NEGATIVO, aunque la clase NEUTRO fue la más difícil de predecir (menor recall y f1-score).
- **TfidfVectorizer**: Linear SVM también fue el mejor (Accuracy: 0.81, F1 macro: 0.71), pero la clase NEUTRO sigue siendo la menos representada correctamente.
En general, **Linear SVM con CountVectorizer** fue el modelo más robusto, logrando el mejor balance entre precisión y F1-score macro. Sin embargo, todos los modelos presentan dificultades para clasificar correctamente la clase NEUTRO, posiblemente por desbalance de clases o menor información en los textos asociados.
**Conclusión:** El modelo recomendado es **Linear SVM con CountVectorizer**, ya que ofrece el mejor desempeño global en este problema de clasificación de sentimientos en tweets en español.

In [6]:
# -------------------------------------------------------
# 🔹 Predicciones usando un LLM (OpenAI GPT-4)
# -------------------------------------------------------
from openai import OpenAI
import time

client = OpenAI(api_key="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")

def get_llm_prediction(text):
    prompt = f"""
    Clasifica el siguiente tweet en una de las categorías: POSITIVO, NEGATIVO o NEUTRO.
    Tweet: {text}
    Responde solo con una palabra: POSITIVO, NEGATIVO o NEUTRO.
    """
    try:
        response = client.chat.completions.create(
            model="gpt-4o-mini",  # o "gpt-3.5-turbo"
            messages=[{"role": "user", "content": prompt}],
            max_tokens=5,
            temperature=0
        )
        label = response.choices[0].message.content.strip().upper()
        # Aseguramos que la salida sea válida
        if label not in ["POSITIVO", "NEGATIVO", "NEUTRO"]:
            label = "NEUTRO"
        return label
    except Exception as e:
        print(f"Error con el texto: {text[:50]} -> {e}")
        return "NEUTRO"

# -------------------------------------------------------
# 🔹 Aplica el modelo LLM sobre los datos de test
# -------------------------------------------------------
df_test = df.loc[X_test.index].copy()

# ⚠️ Si el dataset es grande, prueba con un subconjunto
# df_test = df_test.sample(20, random_state=42)

df_test["pred_llm"] = df_test["text"].apply(get_llm_prediction)
time.sleep(1)

# -------------------------------------------------------
# 🔹 Evaluación de desempeño
# -------------------------------------------------------
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report

acc_llm = accuracy_score(df_test["sentiment_label"], df_test["pred_llm"])
f1_llm = f1_score(df_test["sentiment_label"], df_test["pred_llm"], average="macro")
cm_llm = confusion_matrix(df_test["sentiment_label"], df_test["pred_llm"], labels=["POSITIVO", "NEGATIVO", "NEUTRO"])

print(f"✅ Accuracy LLM: {acc_llm:.4f}")
print(f"✅ F1-score (macro) LLM: {f1_llm:.4f}")
print("\nMatriz de confusión LLM:")
print(cm_llm)
print("\nReporte de clasificación LLM:")
print(classification_report(df_test["sentiment_label"], df_test["pred_llm"], digits=4))


KeyboardInterrupt: 

In [None]:
# -------------------------------------------------------
# 🔹 Predicciones con modelo de HuggingFace (BETO)
# -------------------------------------------------------
from transformers import pipeline

# Carga el pipeline de análisis de sentimiento
sentiment_pipeline = pipeline(
    "sentiment-analysis",
    model="pysentimiento/bert-base-spanish-uncased"
)

def get_llm_prediction(text):
    result = sentiment_pipeline(text[:512])[0]
    label = result["label"].upper()
    if "POS" in label:
        return "POSITIVO"
    elif "NEG" in label:
        return "NEGATIVO"
    else:
        return "NEUTRO"

# Aplicar a los datos de test
df_test = df.loc[X_test.index].copy()
df_test["pred_llm"] = df_test["text"].apply(get_llm_prediction)

# Evaluar desempeño
acc_llm = accuracy_score(df_test["sentiment_label"], df_test["pred_llm"])
f1_llm = f1_score(df_test["sentiment_label"], df_test["pred_llm"], average="macro")
cm_llm = confusion_matrix(df_test["sentiment_label"], df_test["pred_llm"], labels=["POSITIVO", "NEGATIVO", "NEUTRO"])

print(f"✅ Accuracy LLM: {acc_llm:.4f}")
print(f"✅ F1-score (macro) LLM: {f1_llm:.4f}")
print("\nMatriz de confusión LLM:")
print(cm_llm)
print("\nReporte de clasificación LLM:")
print(classification_report(df_test["sentiment_label"], df_test["pred_llm"], digits=4))


ModuleNotFoundError: No module named 'transformers'