üîπ ¬øQu√© es el an√°lisis de sentimiento?

Es una t√©cnica de Procesamiento de Lenguaje Natural (NLP) que busca identificar y clasificar las emociones u opiniones expresadas en un texto.

En palabras simples: trata de responder si un texto expresa algo positivo, negativo o neutral.

üîπ ¬øC√≥mo funciona?

Recolectar datos ‚Üí Ejemplo: rese√±as de pel√≠culas, comentarios en redes sociales, encuestas.

Procesar el texto ‚Üí Limpieza, lematizaci√≥n, eliminaci√≥n de stopwords.

Convertir en n√∫meros ‚Üí Usando BoW, TF-IDF, o embeddings como Word2Vec o BERT.

Entrenar un modelo de ML ‚Üí Clasificador (Regresi√≥n Log√≠stica, SVM, Redes Neuronales) que aprenda a distinguir entre sentimientos.

Clasificaci√≥n ‚Üí El modelo predice si un nuevo texto es positivo, negativo o neutral.

üîπ Ejemplos

Texto: ‚ÄúLa pel√≠cula fue incre√≠ble, me encant√≥‚Äù ‚Üí Positivo üéâ

Texto: ‚ÄúEl servicio fue terrible, no lo recomiendo‚Äù ‚Üí Negativo üò°

Texto: ‚ÄúEl producto lleg√≥ ayer‚Äù ‚Üí Neutral üòê

üîπ Nombre en ingl√©s

El t√©rmino es:
üëâ Sentiment Analysis

Otros sin√≥nimos que se usan en ingl√©s:

Opinion Mining

Sentiment Classification

üí° Se usa mucho en:

Opiniones de clientes (e-commerce, rese√±as de productos).

Redes sociales (monitorear percepci√≥n de una marca).

Encuestas pol√≠ticas (analizar opiniones sobre candidatos).

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# --- 1. Dataset de ejemplo (peque√±o, t√∫ puedes usar imdb_reviews_small_lemm.tsv) ---
data = {
    "review": [
        "I loved this movie, it was fantastic!",
        "What a terrible film, waste of time.",
        "Absolutely wonderful experience, highly recommend.",
        "The acting was awful and the story boring.",
        "Great movie, will watch it again!",
        "Worst movie I have ever seen."
    ],
    "sentiment": [1, 0, 1, 0, 1, 0]  # 1 = positivo, 0 = negativo
}
df = pd.DataFrame(data)

# --- 2. Dividir en entrenamiento y prueba ---
X_train, X_test, y_train, y_test = train_test_split(
    df["review"], df["sentiment"], test_size=0.3, random_state=42
)

# --- 3. Convertir texto a TF-IDF ---
vectorizer = TfidfVectorizer(stop_words="english")
X_train_tf = vectorizer.fit_transform(X_train)
X_test_tf = vectorizer.transform(X_test)

# --- 4. Entrenar modelo de clasificaci√≥n ---
model = LogisticRegression(max_iter=1000)
model.fit(X_train_tf, y_train)

# --- 5. Evaluar en test ---
y_pred = model.predict(X_test_tf)
print("Accuracy en test:", accuracy_score(y_test, y_pred))

# --- 6. Probar con frases nuevas ---
nuevas = ["This film was amazing!", "I hated this movie so much."]
nuevas_tf = vectorizer.transform(nuevas)
print("Predicciones:", model.predict(nuevas_tf))


Accuracy en test: 0.5
Predicciones: [0 0]


üîπ ¬øQu√© pasa aqu√≠?

1. Dataset peque√±o ‚Üí rese√±as con etiqueta 1 (positivo) o 0 (negativo).

2. TF-IDF convierte las rese√±as en vectores num√©ricos.

3. Logistic Regression aprende a distinguir patrones de palabras positivas (‚Äúloved‚Äù, ‚Äúgreat‚Äù) y negativas (‚Äúawful‚Äù, ‚Äúwaste‚Äù).

4. El modelo se eval√∫a con accuracy (qu√© tan bien clasifica).

5. Probamos con frases nuevas ‚Üí el modelo predice el sentimiento.

Para determinar el tono del texto, vamos a usar valores TF-IDF como caracter√≠sticas.

El an√°lisis de sentimiento identifica textos cargados de emociones. Esta herramienta puede ser extremadamente √∫til en los negocios al evaluar las reacciones de los consumidores ante un nuevo producto. Un humano necesitar√≠a varias horas para analizar miles de rese√±as, mientras que una computadora lo har√≠a en un par de minutos.

El an√°lisis de sentimiento funciona etiquetando el texto como positivo o negativo. Al texto positivo se le asigna un "1" y al texto negativo se le asigna un "0".

### Ejercicio

Tu objetivo ahora es entrenar una regresi√≥n log√≠stica para determinar la tonalidad de las rese√±as.

Tanto el dataset de entrenamiento como el conjunto de datos de prueba ya se han le√≠do en el prec√≥digo. Esto es lo que te pedimos que hagas:

1. Extrae rese√±as lematizadas que se utilizar√°n para prop√≥sitos de entrenamiento y gu√°rdalos en la variable train_corpus. Es importante observar que las rese√±as lematizadas est√°n en la columna review_lemm del dataset, as√≠ que no tendr√°s que lematizar rese√±as por tu cuenta.
2. Establece las palabras vac√≠as y gu√°rdalas en la variable stop_words.
3. Inicializa el TF_IDF vectorizer y gu√°rdalo en la variable count_tf_idf.
4. Ajusta y transforma el corpus de entrenamiento, y guarda los resultados en la variable tf_idf.
5. Las caracter√≠sticas que se usar√°n para el entrenamiento son los valores almacenados en la variable tf idf, as√≠ que establece features train en ella.
6. Los objetivos se encuentran en la columna pos del conjunto de datos (0 - rese√±a negativa, 1 - rese√±a positiva). Extrae los objetivos para fines de entrenamientos utilizando el nombre de la columna y gu√°rdalos en la variable target_train.
7. Al igual que en el primer punto, extrae las rese√±as lematizadas para probarlas y gu√°rdalas en la variable test_corpus.
8. Obt√©n las caracter√≠sticas para probar transformando las rese√±as lematizadas utilizando TF_IDF vectorizer, que utilizaste para el entrenamiento. Almacena los resultados de la transformaci√≥n en la variable features_test.
9. Inicializa el modelo de regresi√≥n log√≠stica en la variable model y aj√∫stalo con las caracter√≠sticas de entrenamiento y los objetivos.
10. Obt√©n predicciones para las caracter√≠sticas de prueba y almac√©nalos en la variable pred_test.

Las predicciones resultantes ser√°n verificadas y si la precisi√≥n que alcanza tu modelo excede el 82%, se aceptar√° tu soluci√≥n.

In [None]:
import pandas as pd
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.linear_model import LogisticRegression

train_data = pd.read_csv('/datasets/imdb_reviews_small_lemm_train.tsv', sep='\t')
test_data = pd.read_csv('/datasets/imdb_reviews_small_lemm_test.tsv', sep='\t')

train_corpus = train_data['review_lemm']# extraer rese√±as lematizadas para el entrenamiento
stop_words = set(nltk_stopwords.words('english'))# definir las palabras vac√≠as

count_tf_idf = TfidfVectorizer(stop_words=stop_words)# inicializar TfidVercorizer
tf_idf = count_tf_idf.fit_transform(train_corpus)# ajustar y transformar el corpus de entrenamiento

features_train = tf_idf# extraer caracter√≠sticas para el entrenamiento
target_train = train_data['pos']# extraer la columna objetivo

test_corpus = test_data['review_lemm']# extraer rese√±as lematizadas para la prueba
features_test = count_tf_idf.transform(test_corpus)# transformar el corpus de entrenamiento

model = LogisticRegression(max_iter=1000)
model.fit(features_train, target_train)# inicializar el modelo de regresi√≥n log√≠stica y ajustarlo
pred_test = model.predict(features_test)# obtener predicciones para la parte de prueba de los datos

# transformar las predicciones en un DataFrame y guardarlo
submission = pd.DataFrame({'pos':pred_test})
print(submission)

#output
"""      pos
0       0
1       1
2       1
3       1
4       0
...   ...
2215    0
2216    1
2217    1
2218    1
2219    1

[2220 rows x 1 columns]"""

üîé ¬øC√≥mo decide el modelo?

TF-IDF vectorizer convierte cada rese√±a en un vector de n√∫meros, donde cada n√∫mero indica qu√© tan importante es una palabra en esa rese√±a comparada con todas las dem√°s.

Regresi√≥n log√≠stica asigna un peso (coeficiente) a cada palabra.

Si el peso es positivo üëâ la palabra empuja la predicci√≥n hacia rese√±a positiva (1).

Si el peso es negativo üëâ la palabra empuja la predicci√≥n hacia rese√±a negativa (0).

üìä Ejemplo t√≠pico en rese√±as de cine

Palabras con peso positivo (asociadas a rese√±as positivas):
"amazing", "excellent", "great", "wonderful", "love".

Palabras con peso negativo (asociadas a rese√±as negativas):
"boring", "awful", "waste", "terrible", "bad".

üõ† C√≥mo ver esto en tu c√≥digo

Podemos revisar los coeficientes que aprendi√≥ el modelo:


In [None]:
# Obtener los pesos del modelo
feature_names = count_tf_idf.get_feature_names_out()
coefficients = model.coef_[0]

# Palabras m√°s positivas
top_pos = sorted(zip(coefficients, feature_names), reverse=True)[:10]

# Palabras m√°s negativas
top_neg = sorted(zip(coefficients, feature_names))[:10]

print("üîπ Palabras m√°s asociadas a rese√±as positivas:")
for coef, word in top_pos:
    print(f"{word}: {coef:.3f}")

print("\nüîπ Palabras m√°s asociadas a rese√±as negativas:")
for coef, word in top_neg:
    print(f"{word}: {coef:.3f}")


üìå Lo que ver√°s

Una lista de las 10 palabras que m√°s empujan a positivo (con coeficientes grandes y positivos).

Una lista de las 10 palabras que m√°s empujan a negativo (con coeficientes negativos).

Esto te muestra directamente c√≥mo el modelo "piensa" al clasificar sentimientos.

Conclusi√≥n

En este cap√≠tulo aprendiste a:

calcular vectores de texto usando el m√©todo "bolsa de palabras";
crear caracter√≠sticas con TF-IDF;
resolver tareas de clasificaci√≥n de textos.