🔹 ¿Qué es el análisis de sentimiento?

Es una técnica de Procesamiento de Lenguaje Natural (NLP) que busca identificar y clasificar las emociones u opiniones expresadas en un texto.

En palabras simples: trata de responder si un texto expresa algo positivo, negativo o neutral.

🔹 ¿Cómo funciona?

Recolectar datos → Ejemplo: reseñas de películas, comentarios en redes sociales, encuestas.

Procesar el texto → Limpieza, lematización, eliminación de stopwords.

Convertir en números → Usando BoW, TF-IDF, o embeddings como Word2Vec o BERT.

Entrenar un modelo de ML → Clasificador (Regresión Logística, SVM, Redes Neuronales) que aprenda a distinguir entre sentimientos.

Clasificación → El modelo predice si un nuevo texto es positivo, negativo o neutral.

🔹 Ejemplos

Texto: “La película fue increíble, me encantó” → Positivo 🎉

Texto: “El servicio fue terrible, no lo recomiendo” → Negativo 😡

Texto: “El producto llegó ayer” → Neutral 😐

🔹 Nombre en inglés

El término es:
👉 Sentiment Analysis

Otros sinónimos que se usan en inglés:

Opinion Mining

Sentiment Classification

💡 Se usa mucho en:

Opiniones de clientes (e-commerce, reseñas de productos).

Redes sociales (monitorear percepción de una marca).

Encuestas políticas (analizar opiniones sobre candidatos).

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# --- 1. Dataset de ejemplo (pequeño, tú puedes usar imdb_reviews_small_lemm.tsv) ---
data = {
    "review": [
        "I loved this movie, it was fantastic!",
        "What a terrible film, waste of time.",
        "Absolutely wonderful experience, highly recommend.",
        "The acting was awful and the story boring.",
        "Great movie, will watch it again!",
        "Worst movie I have ever seen."
    ],
    "sentiment": [1, 0, 1, 0, 1, 0]  # 1 = positivo, 0 = negativo
}
df = pd.DataFrame(data)

# --- 2. Dividir en entrenamiento y prueba ---
X_train, X_test, y_train, y_test = train_test_split(
    df["review"], df["sentiment"], test_size=0.3, random_state=42
)

# --- 3. Convertir texto a TF-IDF ---
vectorizer = TfidfVectorizer(stop_words="english")
X_train_tf = vectorizer.fit_transform(X_train)
X_test_tf = vectorizer.transform(X_test)

# --- 4. Entrenar modelo de clasificación ---
model = LogisticRegression(max_iter=1000)
model.fit(X_train_tf, y_train)

# --- 5. Evaluar en test ---
y_pred = model.predict(X_test_tf)
print("Accuracy en test:", accuracy_score(y_test, y_pred))

# --- 6. Probar con frases nuevas ---
nuevas = ["This film was amazing!", "I hated this movie so much."]
nuevas_tf = vectorizer.transform(nuevas)
print("Predicciones:", model.predict(nuevas_tf))


Accuracy en test: 0.5
Predicciones: [0 0]


🔹 ¿Qué pasa aquí?

1. Dataset pequeño → reseñas con etiqueta 1 (positivo) o 0 (negativo).

2. TF-IDF convierte las reseñas en vectores numéricos.

3. Logistic Regression aprende a distinguir patrones de palabras positivas (“loved”, “great”) y negativas (“awful”, “waste”).

4. El modelo se evalúa con accuracy (qué tan bien clasifica).

5. Probamos con frases nuevas → el modelo predice el sentimiento.

Para determinar el tono del texto, vamos a usar valores TF-IDF como características.

El análisis de sentimiento identifica textos cargados de emociones. Esta herramienta puede ser extremadamente útil en los negocios al evaluar las reacciones de los consumidores ante un nuevo producto. Un humano necesitaría varias horas para analizar miles de reseñas, mientras que una computadora lo haría en un par de minutos.

El análisis de sentimiento funciona etiquetando el texto como positivo o negativo. Al texto positivo se le asigna un "1" y al texto negativo se le asigna un "0".

### Ejercicio

Tu objetivo ahora es entrenar una regresión logística para determinar la tonalidad de las reseñas.

Tanto el dataset de entrenamiento como el conjunto de datos de prueba ya se han leído en el precódigo. Esto es lo que te pedimos que hagas:

1. Extrae reseñas lematizadas que se utilizarán para propósitos de entrenamiento y guárdalos en la variable train_corpus. Es importante observar que las reseñas lematizadas están en la columna review_lemm del dataset, así que no tendrás que lematizar reseñas por tu cuenta.
2. Establece las palabras vacías y guárdalas en la variable stop_words.
3. Inicializa el TF_IDF vectorizer y guárdalo en la variable count_tf_idf.
4. Ajusta y transforma el corpus de entrenamiento, y guarda los resultados en la variable tf_idf.
5. Las características que se usarán para el entrenamiento son los valores almacenados en la variable tf idf, así que establece features train en ella.
6. Los objetivos se encuentran en la columna pos del conjunto de datos (0 - reseña negativa, 1 - reseña positiva). Extrae los objetivos para fines de entrenamientos utilizando el nombre de la columna y guárdalos en la variable target_train.
7. Al igual que en el primer punto, extrae las reseñas lematizadas para probarlas y guárdalas en la variable test_corpus.
8. Obtén las características para probar transformando las reseñas lematizadas utilizando TF_IDF vectorizer, que utilizaste para el entrenamiento. Almacena los resultados de la transformación en la variable features_test.
9. Inicializa el modelo de regresión logística en la variable model y ajústalo con las características de entrenamiento y los objetivos.
10. Obtén predicciones para las características de prueba y almacénalos en la variable pred_test.

Las predicciones resultantes serán verificadas y si la precisión que alcanza tu modelo excede el 82%, se aceptará tu solución.

In [None]:
import pandas as pd
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.linear_model import LogisticRegression

train_data = pd.read_csv('/datasets/imdb_reviews_small_lemm_train.tsv', sep='\t')
test_data = pd.read_csv('/datasets/imdb_reviews_small_lemm_test.tsv', sep='\t')

train_corpus = train_data['review_lemm']# extraer reseñas lematizadas para el entrenamiento
stop_words = set(nltk_stopwords.words('english'))# definir las palabras vacías

count_tf_idf = TfidfVectorizer(stop_words=stop_words)# inicializar TfidVercorizer
tf_idf = count_tf_idf.fit_transform(train_corpus)# ajustar y transformar el corpus de entrenamiento

features_train = tf_idf# extraer características para el entrenamiento
target_train = train_data['pos']# extraer la columna objetivo

test_corpus = test_data['review_lemm']# extraer reseñas lematizadas para la prueba
features_test = count_tf_idf.transform(test_corpus)# transformar el corpus de entrenamiento

model = LogisticRegression(max_iter=1000)
model.fit(features_train, target_train)# inicializar el modelo de regresión logística y ajustarlo
pred_test = model.predict(features_test)# obtener predicciones para la parte de prueba de los datos

# transformar las predicciones en un DataFrame y guardarlo
submission = pd.DataFrame({'pos':pred_test})
print(submission)

#output
"""      pos
0       0
1       1
2       1
3       1
4       0
...   ...
2215    0
2216    1
2217    1
2218    1
2219    1

[2220 rows x 1 columns]"""

🔎 ¿Cómo decide el modelo?

TF-IDF vectorizer convierte cada reseña en un vector de números, donde cada número indica qué tan importante es una palabra en esa reseña comparada con todas las demás.

Regresión logística asigna un peso (coeficiente) a cada palabra.

Si el peso es positivo 👉 la palabra empuja la predicción hacia reseña positiva (1).

Si el peso es negativo 👉 la palabra empuja la predicción hacia reseña negativa (0).

📊 Ejemplo típico en reseñas de cine

Palabras con peso positivo (asociadas a reseñas positivas):
"amazing", "excellent", "great", "wonderful", "love".

Palabras con peso negativo (asociadas a reseñas negativas):
"boring", "awful", "waste", "terrible", "bad".

🛠 Cómo ver esto en tu código

Podemos revisar los coeficientes que aprendió el modelo:


In [None]:
# Obtener los pesos del modelo
feature_names = count_tf_idf.get_feature_names_out()
coefficients = model.coef_[0]

# Palabras más positivas
top_pos = sorted(zip(coefficients, feature_names), reverse=True)[:10]

# Palabras más negativas
top_neg = sorted(zip(coefficients, feature_names))[:10]

print("🔹 Palabras más asociadas a reseñas positivas:")
for coef, word in top_pos:
    print(f"{word}: {coef:.3f}")

print("\n🔹 Palabras más asociadas a reseñas negativas:")
for coef, word in top_neg:
    print(f"{word}: {coef:.3f}")


📌 Lo que verás

Una lista de las 10 palabras que más empujan a positivo (con coeficientes grandes y positivos).

Una lista de las 10 palabras que más empujan a negativo (con coeficientes negativos).

Esto te muestra directamente cómo el modelo "piensa" al clasificar sentimientos.

Conclusión

En este capítulo aprendiste a:

calcular vectores de texto usando el método "bolsa de palabras";
crear características con TF-IDF;
resolver tareas de clasificación de textos.