<a href="https://colab.research.google.com/github/HaroldSthid/blueprint_NLP_and_babysteps_LLMs/blob/main/NLP_LLMs_babysteps.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# -*- coding: utf-8 -*-
## An√°lisis de Sentimiento de Pel√≠culas de IMDb.ipynb

Automatically generated by Colab.

Original file is located at
    https://github.com/HaroldSthid/blueprint_NLP_and_babysteps_LLMs/blob/main/README.md

# üé¨ An√°lisis de Sentimiento de Pel√≠culas de IMDb

¬°Bienvenido! Este proyecto te ayudar√° a analizar rese√±as de pel√≠culas y descubrir patrones interesantes sobre qu√© hace que una pel√≠cula sea bien recibida.

## üìã Paso 0: Configuraci√≥n inicial

Primero, necesitamos preparar nuestro entorno instalando todas las herramientas necesarias.

In [None]:
# Instalar todas las librer√≠as necesarias
%pip install tensorflow tensorflow-datasets pandas numpy matplotlib seaborn wordcloud nltk scikit-learn gensim

In [None]:
# Importar todas las librer√≠as que vamos a utilizar
import tensorflow as tf
import tensorflow_datasets as tfds
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import string
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import pickle
import os

print("‚úÖ Todas las librer√≠as se instalaron e importaron correctamente")

## üì• Paso 1: Cargar los datos

Vamos a cargar dos conjuntos de datos:
1. Rese√±as de pel√≠culas de IMDb (con etiquetas de sentimiento)
2. Metadatos de pel√≠culas (informaci√≥n adicional como g√©nero, director, etc.)


In [None]:
# Descargar y cargar las rese√±as de IMDb
print("üì• Descargando rese√±as de pel√≠culas de IMDb...")
dataset, info = tfds.load('imdb_reviews', split='train', with_info=True, as_supervised=True)
print("‚úÖ Rese√±as cargadas correctamente")

# Ver informaci√≥n b√°sica del dataset
print(f"‚ÑπÔ∏è  El dataset contiene {info.splits['train'].num_examples} rese√±as")

# Mostrar algunas rese√±as de ejemplo
print("\nüîç Algunas rese√±as de ejemplo:")
for i, (text, label) in enumerate(dataset.take(3)):
    print(f"Rese√±a {i+1}: {text.numpy()[:100]}...")  # Mostrar solo los primeros 100 caracteres
    print(f"Sentimiento: {'Positivo' if label.numpy() else 'Negativo'}")
    print("---")

## üßπ Paso 2: Limpiar y preparar el texto

Las rese√±as de pel√≠culas a menudo contienen HTML, signos de puntuaci√≥n y otras cosas que no necesitamos para nuestro an√°lisis. Vamos a limpiarlas.

In [None]:
# Descargar recursos necesarios para procesamiento de texto
print("üì• Descargando recursos de procesamiento de lenguaje...")
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

# Configurar herramientas de limpieza de texto
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def clean_text(text):
    """
    Funci√≥n para limpiar texto:
    1. Convierte a min√∫sculas
    2. Elimina etiquetas HTML
    3. Elimina signos de puntuaci√≥n
    4. Elimina espacios extra
    """
    # Si es un tensor de TensorFlow, convertirlo a texto
    if isinstance(text, tf.Tensor):
        text = text.numpy().decode('utf-8')

    text = text.lower()  # Convertir a min√∫sculas
    text = re.sub(r'<br />', ' ', text)  # Eliminar etiquetas HTML
    text = re.sub(r'[%s]' % re.escape(string.punctuation), '', text)  # Eliminar puntuaci√≥n
    text = re.sub(r'\s+', ' ', text)  # Eliminar espacios extras
    text = text.strip()  # Eliminar espacios al inicio y final

    return text

# Probar la funci√≥n de limpieza con una rese√±a de ejemplo
print("üß™ Probando la limpieza de texto...")
sample_text = "This is a <br /> GREAT movie!!! It's amazing."
cleaned_text = clean_text(sample_text)
print(f"Texto original: {sample_text}")
print(f"Texto limpio: {cleaned_text}")

## üîÑ Paso 3: Procesamiento avanzado de texto

Ahora vamos a mejorar a√∫n m√°s nuestro texto usando t√©cnicas avanzadas como la lematizaci√≥n (convertir palabras a su forma base).

In [None]:
def lemmatize_text(text):
    """
    Funci√≥n para lematizar texto (convertir palabras a su forma base)
    Ejemplo: "running" -> "run", "better" -> "good"
    """
    # Descargar recurso punkt_tab if not already downloaded
    try:
        nltk.data.find('tokenizers/punkt_tab')
    except nltk.downloader.DownloadError:
        nltk.download('punkt_tab')

    # Tokenizar (dividir en palabras)
    words = word_tokenize(text)

    # Lematizar cada palabra y eliminar palabras vac√≠as
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]

    # Unir las palabras de nuevo en un texto
    return " ".join(lemmatized_words)

# Probar la lematizaci√≥n con un ejemplo
print("üß™ Probando lematizaci√≥n de texto...")
sample_text = "I was running quickly to find better solutions"
lemmatized_text = lemmatize_text(sample_text)
print(f"Texto original: {sample_text}")
print(f"Texto lematizado: {lemmatized_text}")

# Aplicar limpieza y lematizaci√≥n a todo el dataset
print("üîÑ Procesando todas las rese√±as (esto puede tomar unos minutos)...")

def process_dataset(dataset, sample_size=1000):
    """
    Procesa un conjunto de datos de rese√±as
    """
    texts = []
    labels = []

    for text, label in dataset.take(sample_size):  # Usar solo una muestra para no sobrecargar
        cleaned = clean_text(text)
        lemmatized = lemmatize_text(cleaned)
        texts.append(lemmatized)
        labels.append(label.numpy())

    return texts, labels

# Procesar las rese√±as
texts, labels = process_dataset(dataset, sample_size=1000)
print(f"‚úÖ Procesamiento completado. {len(texts)} rese√±as procesadas.")

## üìä Paso 4: An√°lisis y Visualizaci√≥n de Datos

Ahora que hemos limpiado y procesado el texto, podemos empezar a explorar los datos para encontrar patrones interesantes.

### Distribuci√≥n de Sentimientos

In [None]:
# Contar la distribuci√≥n de sentimientos
sentiment_counts = pd.Series(labels).value_counts()

plt.figure(figsize=(6, 4))
sns.barplot(x=sentiment_counts.index, y=sentiment_counts.values)
plt.xticks([0, 1], ['Negativo', 'Positivo'])
plt.title('Distribuci√≥n de Sentimientos en las Rese√±as')
plt.xlabel('Sentimiento')
plt.ylabel('N√∫mero de Rese√±as')
plt.show()

### Nube de Palabras para Rese√±as Positivas y Negativas

In [None]:
# Separar rese√±as positivas y negativas
positive_texts = [texts[i] for i, label in enumerate(labels) if label == 1]
negative_texts = [texts[i] for i, label in enumerate(labels) if label == 0]

# Generar nube de palabras para rese√±as positivas
positive_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(" ".join(positive_texts))

# Generar nube de palabras para rese√±as negativas
negative_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(" ".join(negative_texts))

# Mostrar las nubes de palabras
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.imshow(positive_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Palabras Comunes en Rese√±as Positivas')

plt.subplot(1, 2, 2)
plt.imshow(negative_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Palabras Comunes en Rese√±as Negativas')

plt.show()

## ü§ñ Paso 5: Entrenar un modelo de inteligencia artificial

Ahora vamos a entrenar un modelo que pueda predecir si una rese√±a es positiva o negativa bas√°ndose en su texto.

In [None]:
print("ü§ñ Entrenando modelo de an√°lisis de sentimiento...")

# Convertir texto a caracter√≠sticas num√©ricas usando TF-IDF
print("üìä Convirtiendo texto a caracter√≠sticas num√©ricas...")
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(texts)
y = np.array(labels)

print(f"‚úÖ Texto convertido. Dimensiones: {X.shape}")

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"üìù Datos de entrenamiento: {X_train.shape[0]} ejemplos")
print(f"üìù Datos de prueba: {X_test.shape[0]} ejemplos")

# Entrenar modelo de regresi√≥n log√≠stica
print("üéì Entrenando modelo...")
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

print("‚úÖ Modelo entrenado correctamente")

# Evaluar el modelo
print("üìà Evaluando modelo...")
y_pred = model.predict(X_test)

print("üîç Reporte de clasificaci√≥n:")
print(classification_report(y_test, y_pred, target_names=['Negativo', 'Positivo']))

# Matriz de confusi√≥n
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Negativo', 'Positivo'],
            yticklabels=['Negativo', 'Positivo'])
plt.title('Matriz de Confusi√≥n')
plt.ylabel('Verdaderos')
plt.xlabel('Predicciones')
plt.show()

## üíæ Paso 6: Guardar el modelo entrenado

Vamos a guardar nuestro modelo para usarlo m√°s tarde sin necesidad de volver a entrenarlo.

In [None]:
print("üíæ Guardando modelo y vectorizador...")

# Guardar modelo
with open('sentiment_model.pkl', 'wb') as f:
    pickle.dump(model, f)

# Guardar vectorizador
with open('tfidf_vectorizer.pkl', 'wb') as f:
    pickle.dump(vectorizer, f)

print("‚úÖ Modelo y vectorizador guardados correctamente")

## üéØ Paso 7: Probar el modelo con nuevas rese√±as

Ahora vamos a probar nuestro modelo con algunas rese√±as nuevas para ver c√≥mo funciona.

In [None]:
# Funci√≥n para predecir sentimiento de nuevo texto
def predict_sentiment(text, model, vectorizer):
    """
    Predice si un texto tiene sentimiento positivo o negativo
    """
    # Limpiar y procesar el texto
    cleaned_text = clean_text(text)
    lemmatized_text = lemmatize_text(cleaned_text)

    # Convertir a caracter√≠sticas
    features = vectorizer.transform([lemmatized_text])

    # Predecir
    prediction = model.predict(features)
    probability = model.predict_proba(features)

    # Obtener confianza de la predicci√≥n
    confidence = probability[0][prediction[0]]

    return "Positivo" if prediction[0] == 1 else "Negativo", confidence

# Probar con algunas rese√±as de ejemplo
test_reviews = [
    "This movie is absolutely fantastic! The acting was superb and the plot was engaging.",
    "I hated this film. It was boring and the characters were poorly developed.",
    "The movie was okay. Not great but not terrible either.",
    "This is the worst movie I have ever seen in my life. A complete waste of time.",
    "Brilliant cinematography and outstanding performances by the entire cast."
]

print("üß™ Probando el modelo con nuevas rese√±as...")
for i, review in enumerate(test_reviews):
    sentiment, confidence = predict_sentiment(review, model, vectorizer)
    print(f"Rese√±a {i+1}: {sentiment} (confianza: {confidence:.2f})")
    print(f"Texto: {review[:80]}...")  # Mostrar solo el inicio de la rese√±a
    print("---")

## üìà Paso 8: An√°lisis avanzado y visualizaci√≥n

Vamos a hacer un an√°lisis m√°s profundo para entender qu√© palabras son m√°s importantes para determinar el sentimiento.

In [None]:
# Obtener las palabras m√°s importantes para cada clase
print("üîç Analizando palabras m√°s importantes...")

feature_names = vectorizer.get_feature_names_out()
coefficients = model.coef_[0]

# Crear un DataFrame para las palabras y sus coeficientes
word_importance = pd.DataFrame({
    'word': feature_names,
    'coefficient': coefficients
})

# Ordenar por importancia
word_importance = word_importance.sort_values('coefficient', ascending=False)

# Mostrar las 10 palabras m√°s positivas y negativas
print("üìä Top 10 palabras para sentimiento POSITIVO:")
print(word_importance.head(10)[['word', 'coefficient']])

print("\nüìä Top 10 palabras para sentimiento NEGATIVO:")
print(word_importance.tail(10)[['word', 'coefficient']])

# Visualizar las palabras m√°s importantes
plt.figure(figsize=(12, 8))

# Palabras positivas
top_positive = word_importance.head(10)
plt.subplot(1, 2, 1)
plt.barh(top_positive['word'], top_positive['coefficient'], color='green')
plt.title('Palabras m√°s asociadas con rese√±as POSITIVAS')
plt.xlabel('Coeficiente (mayor = m√°s positivo)')

# Palabras negativas
top_negative = word_importance.tail(10)
plt.subplot(1, 2, 2)
plt.barh(top_negative['word'], top_negative['coefficient'], color='red')
plt.title('Palabras m√°s asociadas con rese√±as NEGATIVAS')
plt.xlabel('Coeficiente (menor = m√°s negativo)')

plt.tight_layout()
plt.show()


## üéâ ¬°Felicidades!

Has completado exitosamente el an√°lisis de sentimiento de pel√≠culas de IMDb.

### üìã Resumen de lo que lograste:

1. ‚úÖ Cargaste y exploraste un dataset de rese√±as de pel√≠culas
2. ‚úÖ Limpiaste y preprocesaste el texto de las rese√±as
3. ‚úÖ Visualizaste las palabras m√°s comunes en rese√±as positivas y negativas
4. ‚úÖ Entrenaste un modelo de machine learning para predecir sentimiento
5. ‚úÖ Evaluaste el rendimiento de tu modelo
6. ‚úÖ Probaste el modelo con nuevas rese√±as
7. ‚úÖ Analizaste qu√© palabras son m√°s importantes para determinar sentimiento

### üöÄ Pr√≥ximos pasos que puedes intentar:

1. **Mejorar el modelo**: Prueba con diferentes algoritmos de machine learning
2. **M√°s datos**: Usa el dataset completo en lugar de solo una muestra
3. **Aplicaci√≥n web**: Crea una interfaz web donde las personas puedan escribir rese√±as y obtener predicciones
4. **An√°lisis de g√©nero**: Combina con datos de g√©neros de pel√≠culas para ver qu√© g√©neros tienden a tener mejores rese√±as

### üìö Recursos para aprender m√°s:

- [Curso de Machine Learning para principiantes](https://www.coursera.org/learn/machine-learning)
- [Introducci√≥n a Procesamiento de Lenguaje Natural](https://www.youtube.com/watch?v=8S3qHHUKqYk)
- [TensorFlow para principiantes](https://www.tensorflow.org/resources/learn-ml)

¬°Gracias por seguir este tutorial! Si tienes preguntas o comentarios, no dudes en compartirlos.

In [None]:
# Mensaje final
print("\nüéâ ¬°An√°lisis completado exitosamente!")
print("üìÅ Los archivos del modelo se han guardado en tu entorno de Google Colab")
print("üöÄ Puedes ejecutar esta celda nuevamente para reentrenar el modelo o probar con nuevas rese√±as")