# SI7016 Applied NLP, 2026-1
# Lecture 02
# Classifiers: Naive Bayes and Logistic Regression

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# reviews de peliculas
texts = [
    "Me encantó la película, muy buena",
    "Una historia excelente y conmovedora",
    "Pésima, no la recomiendo",
    "Actuación muy mala y aburrida",
    "Gran producción y buen guión",
    "Una pérdida de tiempo, muy lenta",
    "Maravillosa, la volvería a ver",
    "Demasiado predecible y sin emoción"
]
labels = [1, 1, 0, 0, 1, 0, 1, 0]

# Representación del texto: BoW vs TF-IDF

In [None]:
tvectorizer = TfidfVectorizer()
Xtfidf = tvectorizer.fit_transform(texts)

cvectorizer = CountVectorizer()
Xbow = cvectorizer.fit_transform(texts)

In [None]:
# matriz de características TFIDF
print(Xtfidf.toarray())

In [None]:
# matriz de características BoW
print(Xbow.toarray())

- reto corto:

- Con el mismo corpus, crea TF-IDF con bigramas (1,2) y compara:
- tamaño del vocabulario
- 5 términos con mayor peso en un documento positivo y uno negativo

- Pregunta: ¿qué bigramas capturan mejor sentimiento que unigramas?


# Training and Test Datasets

In [None]:
# Training and Test data
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.25, random_state=42)

# Classifier: movie reviews with NAIVE BAYES

In [None]:
#  pipeline: TF-IDF + clasificador Naive Bayes
pipelineNB = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('nb', MultinomialNB())
])

# Entrenar modelo
pipelineNB.fit(X_train, y_train)

In [None]:
# evaluación del modelo NB
# Predicción
y_pred = pipelineNB.predict(X_test)

# Reporte de clasificación NB
print(classification_report(y_test, y_pred))

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.title("Matriz de Confusión")
plt.show()

In [None]:
# Clasificar nuevos reviews de peliculas con modelo NB
nuevas_opiniones = [
    "Fue una película muy inspiradora",
    "No me gustó, muy aburrida",
    "Una experiencia buena y emotiva"
]

# Predicción
predicciones = pipelineNB.predict(nuevas_opiniones)
for texto, pred in zip(nuevas_opiniones, predicciones):
    print(f"\nOpinión: '{texto}'\nSentimiento predicho: {'Positivo' if pred == 1 else 'Negativo'}")

- Reto corto
- usa datasets con datos más grandes, ej: UCI/Yelp, news-reuters, etc
- Entrena dos variantes de NB:
* CountVectorizer() + MultinomialNB()
* TfidfVectorizer() + MultinomialNB()
- Pregunta: ¿cuál generaliza mejor en el dataset UCI/Yelp?
- Explica el resultado conectándolo con “conteos” vs “reponderación”.

# Classifier: movie reviews with Logistic Regression

In [None]:
# entrenar el modelo de RL

# Definir pipeline
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression())
])

# Entrenar modelo
pipeline.fit(X_train, y_train)

In [None]:
# evaluación del modelo RL
# Predicción
y_pred = pipeline.predict(X_test)

# Reporte de clasificación
print(classification_report(y_test, y_pred))

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.title("Matriz de Confusión")
plt.show()

In [None]:
# Clasificar nuevos reviews de peliculas con modelo RL
nuevas_opiniones = [
    "Fue una película muy inspiradora",
    "No me gustó, muy aburrida",
    "Una experiencia buena y emotiva"
]

# Predicción
predicciones = pipeline.predict(nuevas_opiniones)
for texto, pred in zip(nuevas_opiniones, predicciones):
    print(f"\nOpinión: '{texto}'\nSentimiento predicho: {'Positivo' if pred == 1 else 'Negativo'}")

- Reto corto:

- En RL, prueba:
- unigramas vs bigramas (1,2)
- C=0.1, 1, 10 (regularización)
- Pregunta: ¿qué cambia más el desempeño: n-grams o regularización? ¿Por qué?

# SUPER RETO
# usar datasets de YELP etiquetados
# y adapte los clasificadores de NB y RL para entrenar, validar, y predecir

In [None]:
# URL del archivo en el repositorio UCI
import os
import zipfile
import urllib.request
import pandas as pd

# 1. URL del archivo ZIP de UCI
zip_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00331/sentiment%20labelled%20sentences.zip"
zip_filename = "sentiment_labelled_sentences.zip"
extract_dir = "sentiment_data"

# 2. Descargar el archivo zip si no existe
if not os.path.exists(zip_filename):
    print("Descargando archivo ZIP...")
    urllib.request.urlretrieve(zip_url, zip_filename)
    print("Descarga completada.")

# 3. Descomprimir el archivo zip
if not os.path.exists(extract_dir):
    print("Descomprimiendo archivo ZIP...")
    with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
        zip_ref.extractall(extract_dir)
    print("Descompresión completada.")

# 4. Leer el archivo yelp_labelled.txt
yelp_path = os.path.join(extract_dir, "sentiment labelled sentences", "yelp_labelled.txt")

df_yelp = pd.read_csv(yelp_path, sep="\t", header=None, names=["text", "label"])

# 5. Mostrar primeras filas
print("Primeras filas del DataFrame:")
print(df_yelp.head())

# Realiza sobre el super reto:

- En Yelp:
- Entrena NB y RL con TF-IDF unigramas
- Reporta F1 (macro) y matriz de confusión
- Muestra 3 ejemplos donde NB falla y RL acierta (y viceversa)
- Pregunta: ¿qué patrón lingüístico explica esos errores? (negación, ironía, adjetivos raros, expresiones compuestas, etc.)