#  IA para Redes de Suministro 

üë§ **Autor:** John Leonardo Vargas Mesa  
üîó [LinkedIn](https://www.linkedin.com/in/leonardovargas/) | [GitHub](https://github.com/LeStark)  

## üìÇ Repositorio en GitHub  
- üìì **Notebooks:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/02%20-%20IA4SC)  
- üìë **Data sets:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/00%20-%20Data/02%20-%20SC)  
---

# üìò Notebook 5 ‚Äì Introducci√≥n a Natural Lenguage Processing para redes de suministro

Este notebook introduce los conceptos fundamentales del **Procesamiento de Lenguaje Natural (NLP)** a trav√©s de un caso pr√°ctico de **an√°lisis de sentimientos** utilizando rese√±as de productos de Amazon.

A lo largo del notebook se recorren las principales etapas del flujo de trabajo en NLP, desde la limpieza del texto hasta la interpretaci√≥n de los resultados del modelo.

## üß© **Contenido del Notebook**

1. **Carga y Exploraci√≥n del Dataset:**  
   Se utiliza un conjunto de rese√±as reales de Amazon que incluye texto y calificaci√≥n (`overall`). Se realiza una exploraci√≥n inicial para comprender la estructura de los datos.

2. **Conversi√≥n de Calificaciones a Sentimientos:**  
   Se crea una columna categ√≥rica (`sentiment`) basada en la calificaci√≥n:  
   - `Positive` (‚â• 4)  
   - `Neutral` (= 3)  
   - `Negative` (‚â§ 2)

3. **Codificaci√≥n y An√°lisis de Balance:**  
   Se codifican las etiquetas num√©ricamente (`LabelEncoder`) y se visualiza la distribuci√≥n de clases para detectar posibles desbalances en el dataset.

4. **Preprocesamiento del Texto:**  
   Se aplican t√©cnicas de limpieza y normalizaci√≥n como:
   - Conversi√≥n a min√∫sculas  
   - Eliminaci√≥n de signos, n√∫meros y URLs  
   - Tokenizaci√≥n  
   - Eliminaci√≥n de *stopwords*  
   - Lematizaci√≥n con spaCy  

   El resultado se almacena en la columna `clean_text`.

5. **Balanceo del Dataset:**  
   Se realiza un **submuestreo** para igualar la cantidad de rese√±as por clase, creando un conjunto balanceado llamado `amazon_reviews_balanced`.

6. **Vectorizaci√≥n (TF-IDF):**  
   Se transforma el texto limpio en vectores num√©ricos mediante **TF-IDF**, limitando el vocabulario a las palabras m√°s relevantes.

7. **Entrenamiento del Modelo:**  
   Se entrena una **Regresi√≥n Log√≠stica** con ajuste de pesos (`class_weight='balanced'`) para manejar el desbalance de clases.

8. **Evaluaci√≥n del Modelo:**  
   Se generan m√©tricas de rendimiento (precision, recall, f1-score) y se visualiza la matriz de confusi√≥n para interpretar los resultados.

9. **Predicci√≥n sobre Nuevos Textos:**  
   Se define una funci√≥n `predict_sentiment()` que integra todo el pipeline (preprocesamiento + vectorizaci√≥n + modelo + decodificaci√≥n) para clasificar nuevas rese√±as.

10. **Prueba con Datos Nuevos:**  
    Se aplica la funci√≥n a un archivo de rese√±as de muestra (`sample_amazon_reviews.csv`) y se observan las predicciones de sentimiento.

## üéØ **Objetivo de Aprendizaje**

Al finalizar el notebook, el estudiante podr√°:
- Comprender el flujo completo de un proyecto de NLP.  
- Implementar un pipeline b√°sico de an√°lisis de sentimientos.  
- Aplicar t√©cnicas de preprocesamiento y vectorizaci√≥n de texto.  
- Entrenar, evaluar y reutilizar un modelo de Machine Learning aplicado a lenguaje natural.

## üßæ **Herramientas Utilizadas**
- **Python:** procesamiento y modelado  
- **NLTK / spaCy:** limpieza, tokenizaci√≥n y lematizaci√≥n  
- **scikit-learn:** vectorizaci√≥n, modelado y evaluaci√≥n  
- **Matplotlib / Seaborn:** visualizaci√≥n de resultados  

*Este notebook sirve como punto de partida para comprender los fundamentos pr√°cticos del procesamiento de lenguaje natural y la construcci√≥n de modelos de an√°lisis de texto.*


In [None]:
# Instala las bibliotecas necesarias si no las tienes instaladas
!pip install pandas scikit-learn nltk spacy matplotlib seaborn imblearn

In [None]:
!pip install "numpy<2"

In [None]:
!python -m spacy download en_core_web_sm

In [None]:
# --- Manipulaci√≥n y an√°lisis de datos ---
import pandas as pd
import numpy as np

# --- Procesamiento de texto ---
import re
import nltk
import spacy
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# --- Modelado y vectorizaci√≥n ---
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay

# --- Manejo de desbalance ---
from imblearn.over_sampling import RandomOverSampler

# --- Visualizaci√≥n ---
import matplotlib.pyplot as plt
import seaborn as sns

# --- Descarga de recursos NLTK ---
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

# --- Carga del modelo de lenguaje de spaCy ---
try:
    nlp = spacy.load("en_core_web_sm")
except OSError:
    from spacy.cli import download
    download("en_core_web_sm")
    nlp = spacy.load("en_core_web_sm")


**Carga y Exploraci√≥n Inicial del Dataset**

En esta secci√≥n cargamos el dataset **Amazon Reviews**, que contiene opiniones reales de usuarios sobre distintos productos publicados en la plataforma de Amazon.  
El archivo se encuentra alojado en un repositorio p√∫blico de GitHub y se importa directamente desde su URL en formato CSV.

###  **Descripci√≥n del Dataset**

El dataset **Amazon Reviews** contiene rese√±as de productos realizadas por usuarios en la plataforma de Amazon.  
Incluye tanto el texto de la rese√±a como m√©tricas de utilidad y calificaciones otorgadas por otros usuarios.

A continuaci√≥n se describen las columnas principales:

| **Columna** | **Descripci√≥n** |
|--------------|-----------------|
| `reviewerName` | Nombre del usuario que escribi√≥ la rese√±a. |
| `overall` | Calificaci√≥n general otorgada al producto, en una escala de **1 a 5** (1 = muy mala, 5 = excelente). |
| `reviewText` | Texto libre con la opini√≥n o experiencia del usuario respecto al producto. |
| `reviewTime` | Fecha en la que la rese√±a fue publicada. |
| `day_diff` | Diferencia en d√≠as entre la fecha de la rese√±a y una fecha de referencia (√∫til para an√°lisis temporales). |
| `helpful_yes` | N√∫mero de votos que consideraron la rese√±a como √∫til. |
| `helpful_no` | N√∫mero de votos que consideraron la rese√±a como **no √∫til**. |
| `total_vote` | Total de votos recibidos (`helpful_yes + helpful_no`). |
| `score_pos_neg_diff` | Diferencia entre votos positivos y negativos (mide la percepci√≥n general de utilidad). |
| `score_average_rating` | Promedio de la puntuaci√≥n basada en votos de utilidad. |
| `wilson_lower_bound` | Estimaci√≥n estad√≠stica de la utilidad de la rese√±a considerando la incertidumbre de los votos (basada en el m√©todo de Wilson). |

Este conjunto de datos es ideal para realizar **an√°lisis de sentimientos** y explorar la relaci√≥n entre las calificaciones num√©ricas (`overall`) y las opiniones escritas (`reviewText`), complementadas con m√©tricas de confianza y popularidad de las rese√±as.




In [None]:
#TODO: cargar dataset "https://raw.githubusercontent.com/LeStark/Cursos/refs/heads/main/00%20-%20Data/03%20-%20NLP/amazon_reviews.csv"


### **Selecci√≥n de Columnas Relevantes**

En esta etapa se seleccionan √∫nicamente las columnas necesarias para el an√°lisis de sentimientos:  
- `reviewText`: texto de la rese√±a.  
- `overall`: calificaci√≥n num√©rica otorgada por el usuario.  

Esto simplifica el dataset para enfocarnos en las variables clave del modelo.


In [None]:
#TODO: seleccionar solo las columnas de interes

### **Conversi√≥n de Calificaciones Num√©ricas a Categor√≠as de Sentimiento**

En esta secci√≥n se transforma la columna `overall` (puntuaci√≥n de 1 a 5) en una variable categ√≥rica llamada `sentiment`.  
Esta nueva columna clasifica cada rese√±a seg√∫n el tono general de la opini√≥n del usuario:

- **Positive (‚â• 4):** opiniones favorables o muy satisfechas.  
- **Neutral (= 3):** opiniones intermedias o sin una posici√≥n clara.  
- **Negative (‚â§ 2):** opiniones desfavorables o con experiencias negativas.  

Esta conversi√≥n facilita el entrenamiento de modelos de **an√°lisis de sentimientos**, al convertir las valoraciones num√©ricas en etiquetas textuales comprensibles.


In [None]:
# --- Conversi√≥n de 'overall' a etiquetas de sentimiento ---
#TODO: definir una funci√≥n para convertir 'overall' a 'positive', 'neutral', 'negative'

# Crear la nueva columna
amazon_reviews["sentiment"] = amazon_reviews["overall"].apply(get_sentiment)

# Mostrar una muestra
amazon_reviews.head()


### **Codificaci√≥n de las Etiquetas de Sentimiento**

En esta etapa se convierte la columna `sentiment`, que contiene valores categ√≥ricos (*positive*, *neutral*, *negative*), en valores num√©ricos mediante la clase `LabelEncoder` de **scikit-learn**.  

Esto es necesario porque los algoritmos de Machine Learning trabajan con variables num√©ricas.  
Cada etiqueta de texto se transforma en un n√∫mero entero √∫nico, por ejemplo:

- **negative ‚Üí 0**  
- **neutral ‚Üí 1**  
- **positive ‚Üí 2**

El resultado se almacena en una nueva columna llamada `sentiment_encoded`, que servir√° como variable objetivo (`y`) durante el entrenamiento del modelo.


In [None]:

# --- Codificar la columna 'sentiment' ---
le = #usar el codiicador de etiquetas de sklearn

# Ajustar el codificador y transformar la columna

#TODO: definir la nueva columna con los valores codificados llamada sentiment_encoded

# Mostrar c√≥mo se asignaron los valores
for clase, codigo in zip(le.classes_, range(len(le.classes_))):
    print(f"{clase}: {codigo}")

# Vista r√°pida del DataFrame
amazon_reviews.head()


###  **Distribuci√≥n de Sentimientos y An√°lisis de Balance de Clases**

En esta secci√≥n se visualiza la cantidad de rese√±as por categor√≠a de sentimiento (*positive*, *neutral*, *negative*).  
El gr√°fico de barras permite identificar si existe **desbalance de clases**, es decir, si alguna categor√≠a tiene una cantidad de muestras mucho mayor que las dem√°s.

Este an√°lisis es fundamental antes de entrenar el modelo, ya que un conjunto de datos desequilibrado puede generar sesgos en las predicciones.  
Por ejemplo, si la mayor√≠a de rese√±as son positivas, el modelo tender√° a clasificar casi todo como *positive*, afectando la precisi√≥n en las clases minoritarias.

La informaci√≥n obtenida aqu√≠ servir√° para decidir estrategias de balanceo como:
- **Submuestreo o sobremuestreo** de clases.  
- **Ajuste de pesos de clase** durante el entrenamiento.  
- **Evaluaci√≥n con m√©tricas balanceadas** (precision, recall, F1-score).


In [None]:


# Contar cu√°ntas rese√±as hay por sentimiento
sentiment_counts = amazon_reviews["sentiment"].value_counts().sort_index()

# Crear gr√°fico de barras
plt.figure(figsize=(7,5))
sns.barplot(x=sentiment_counts.index, y=sentiment_counts.values, palette=["red", "gray", "green"])

# Etiquetas y t√≠tulo
plt.title("Distribuci√≥n de Sentimientos en Amazon Reviews", fontsize=14)
plt.xlabel("Sentimiento", fontsize=12)
plt.ylabel("N√∫mero de Rese√±as", fontsize=12)

# Mostrar los valores encima de cada barra
for i, value in enumerate(sentiment_counts.values):
    plt.text(i, value + (value*0.01), str(value), ha="center", va="bottom", fontsize=10)

plt.show()


### **Preprocesamiento del Texto**

El preprocesamiento es una etapa esencial en cualquier proyecto de **Procesamiento de Lenguaje Natural (NLP)**, ya que prepara los textos para que los algoritmos puedan interpretarlos correctamente.  
En esta celda se aplican diferentes t√©cnicas de limpieza y normalizaci√≥n al texto de las rese√±as.

#### **Pasos realizados:**

1. **Descarga de recursos ling√º√≠sticos:**  
   Se descargan los diccionarios de *stopwords* (palabras vac√≠as como ‚Äúthe‚Äù, ‚Äúand‚Äù, ‚Äúis‚Äù) y el tokenizador de `nltk`.  
   Adem√°s, se carga el modelo de lenguaje de **spaCy** (`en_core_web_sm`) para poder realizar la lematizaci√≥n.

2. **Conversi√≥n a min√∫sculas:**  
   Unifica el texto y evita que palabras como *‚ÄúGood‚Äù* y *‚Äúgood‚Äù* se traten como diferentes.

3. **Eliminaci√≥n de ruido:**  
   Se remueven URLs, signos de puntuaci√≥n, n√∫meros y otros caracteres que no aportan significado.

4. **Tokenizaci√≥n:**  
   El texto se divide en palabras individuales (*tokens*) para su an√°lisis.

5. **Eliminaci√≥n de stopwords:**  
   Se eliminan palabras comunes sin valor sem√°ntico relevante para el an√°lisis (por ejemplo: *‚Äúthis‚Äù, ‚Äúthat‚Äù, ‚Äúwas‚Äù*).

6. **Lematizaci√≥n:**  
   Cada palabra se transforma en su forma base o ra√≠z (*‚Äúrunning‚Äù ‚Üí ‚Äúrun‚Äù*), lo que ayuda a reducir la dimensionalidad del texto.

7. **Reconstrucci√≥n del texto limpio:**  
   Finalmente, las palabras procesadas se unen nuevamente en una cadena, generando una nueva columna llamada `clean_text`.

Esta nueva versi√≥n del texto ser√° la base para la **vectorizaci√≥n** y el **entrenamiento del modelo de an√°lisis de sentimientos**, garantizando que los datos est√©n homog√©neos y sin ruido.


In [None]:
# --- PREPROCESAMIENTO DE TEXTO PARA NLP ---

# En esta secci√≥n se realiza la limpieza y normalizaci√≥n del texto.
# Este paso es fundamental antes de entrenar un modelo de NLP, 
# ya que los algoritmos no pueden trabajar directamente con texto sin estructurar.

# -------------------------------------------------------------
#  1. Descarga de recursos necesarios (solo la primera vez)
# -------------------------------------------------------------
# 'stopwords': lista de palabras vac√≠as como "the", "and", "is"
# 'punkt': modelo de tokenizaci√≥n para dividir el texto en palabras
# nltk.download('stopwords')
# nltk.download('punkt')

# Cargar el modelo de lenguaje de spaCy (usado para la lematizaci√≥n)
nlp = spacy.load("en_core_web_sm")

# -------------------------------------------------------------
# 2. Definici√≥n de palabras vac√≠as (stopwords)
# -------------------------------------------------------------
# Estas palabras no aportan informaci√≥n relevante al an√°lisis de sentimiento,
# por lo que se eliminan del texto.
stop_words = set(stopwords.words("english"))

# -------------------------------------------------------------
# 3. Funci√≥n de preprocesamiento
# -------------------------------------------------------------
def preprocess_text(text):
    """
    Esta funci√≥n limpia y normaliza un texto en varios pasos:
    1. Convierte el texto a min√∫sculas.
    2. Elimina URLs, caracteres especiales, n√∫meros y signos.
    3. Tokeniza el texto (divide en palabras).
    4. Elimina stopwords y palabras muy cortas.
    5. Aplica lematizaci√≥n con spaCy (reduce palabras a su ra√≠z).
    6. Reconstruye el texto limpio.
    """
    
    # 1Ô∏è Pasar a min√∫sculas
    text = text.lower()
    
    # 2Ô∏è Eliminar URLs, menciones, signos y n√∫meros
    text = re.sub(r"http\S+|www\S+|https\S+", "", text)  # URLs
    text = re.sub(r"[^a-z\s]", "", text)                 # Solo letras
    
    # 3Ô∏è Tokenizaci√≥n (dividir en palabras)
    #TODO
    
    # 4Ô∏è Eliminar stopwords y palabras de longitud < 3
    tokens = [word for word in tokens if word not in stop_words and len(word) > 2]
    
    # 5Ô∏è Lematizaci√≥n con spaCy
    doc = nlp(" ".join(tokens))
    lemmas = [token.lemma_ for token in doc]
    
    # 6Ô∏è Reconstruir el texto limpio
    return " ".join(lemmas)

# -------------------------------------------------------------
# 4. Aplicar el preprocesamiento al dataset
# -------------------------------------------------------------
# Convertimos la columna 'reviewText' en texto limpio y normalizado.
# Este proceso puede tardar algunos minutos si el dataset es grande.
#TODO

# -------------------------------------------------------------
# 5. Visualizar los resultados
# -------------------------------------------------------------
# Mostramos una muestra comparando el texto original con el texto procesado.
amazon_reviews[["reviewText", "clean_text"]].head()



### **Balanceo del Dataset mediante Submuestreo**

En esta etapa se busca **equilibrar la cantidad de rese√±as por cada categor√≠a de sentimiento** para evitar que el modelo se sesgue hacia la clase mayoritaria (por lo general, *positive*).  

#### **Procedimiento:**
1. Se identifica el n√∫mero m√≠nimo de muestras entre las clases (en este caso, la cantidad de rese√±as *negative*).  
2. Se selecciona al azar la misma cantidad de rese√±as *positive* y *neutral* para igualar el tama√±o de cada grupo.  
   - En el caso de las rese√±as *neutral*, se permite el muestreo con reemplazo si son muy pocas.  
3. Se combinan los tres subconjuntos y se reordenan aleatoriamente para crear un nuevo DataFrame llamado `amazon_reviews_balanced`.  

#### **Resultado:**
El nuevo dataset tiene la misma cantidad de ejemplos por clase (*positive*, *neutral*, *negative*), lo cual facilita que el modelo aprenda de forma equitativa y reduzca el sesgo hacia una categor√≠a dominante.

La gr√°fica resultante muestra visualmente la distribuci√≥n balanceada de los sentimientos.


In [None]:
# Cantidad m√≠nima entre clases (usaremos la de 'negative')
min_count = amazon_reviews["sentiment"].value_counts()["negative"]

# Separar por clase
df_pos = amazon_reviews[amazon_reviews["sentiment"] == "positive"].sample(n=min_count, random_state=42)
df_neu = amazon_reviews[amazon_reviews["sentiment"] == "neutral"].sample(n=min_count, random_state=42, replace=True)  # opcional: con reemplazo si hay pocas
df_neg = amazon_reviews[amazon_reviews["sentiment"] == "negative"]

# Unir los subconjuntos balanceados
amazon_reviews_balanced = pd.concat([df_pos, df_neu, df_neg], axis=0).sample(frac=1, random_state=42).reset_index(drop=True)

# Verificar el nuevo balance
print("üîπ Distribuci√≥n balanceada:")
print(amazon_reviews_balanced["sentiment"].value_counts())

# (Opcional) Visualizar
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(6,4))
sns.countplot(x="sentiment", data=amazon_reviews_balanced, palette=["red", "gray", "green"])
plt.title("Dataset Balanceado (Submuestreo)")
plt.show()


### **Vectorizaci√≥n del Texto con TF-IDF**

En esta secci√≥n se transforma el texto limpio (`clean_text`) en una representaci√≥n num√©rica que los modelos de Machine Learning puedan interpretar.  
Para ello se utiliza la t√©cnica **TF-IDF (Term Frequency ‚Äì Inverse Document Frequency)**, que mide la importancia de cada palabra en relaci√≥n con el conjunto de documentos.

#### **Proceso:**
1. Se crea un objeto `TfidfVectorizer` que convierte las palabras en vectores num√©ricos.  
   - El par√°metro `max_features=1000` limita el vocabulario a las 1000 palabras m√°s relevantes, evitando un modelo demasiado grande.  
2. Se aplica el m√©todo `fit_transform()` sobre la columna `clean_text` para generar la matriz `X`, donde:
   - Cada fila representa una rese√±a.  
   - Cada columna representa una palabra del vocabulario.  
   - Los valores reflejan el peso TF-IDF de cada palabra.  
3. Finalmente, la variable `y` almacena las etiquetas num√©ricas (`sentiment_encoded`) que corresponden al sentimiento de cada rese√±a.

El resultado es una estructura matricial donde los textos quedan representados de forma cuantitativa, lista para alimentar al modelo de clasificaci√≥n.


In [None]:

# Crear el vectorizador
vectorizer = TfidfVectorizer(max_features=1000)  # puedes ajustar el n√∫mero de caracter√≠sticas

# Ajustar y transformar el texto limpio
X = vectorizer.fit_transform(amazon_reviews_balanced["clean_text"])

# Variable objetivo
y = amazon_reviews_balanced["sentiment_encoded"]

In [None]:

# Elegir un √≠ndice aleatorio o fijo para mostrar
idx = np.random.randint(0, X.shape[0])

# Texto original y limpio
print("üîπ Review original:")
print(amazon_reviews.loc[idx, "reviewText"])
print("\nüîπ Texto preprocesado:")
print(amazon_reviews.loc[idx, "clean_text"])
print("\nüîπ Sentimiento:", amazon_reviews.loc[idx, "sentiment"])

# Obtener las palabras del vocabulario
feature_names = vectorizer.get_feature_names_out()

# Convertir el vector a un DataFrame legible
vector_df = pd.DataFrame(
    X[idx].toarray().flatten(),
    index=feature_names,
    columns=["TF-IDF Value"]
)

# Mostrar solo las palabras con peso no cero
vector_df = vector_df[vector_df["TF-IDF Value"] > 0].sort_values(by="TF-IDF Value", ascending=False)

print("\nüîπ Palabras m√°s relevantes en este review:")
display(vector_df.head(15))


### **Divisi√≥n del Conjunto de Datos**

Se divide el dataset en dos subconjuntos:  
- **80%** para entrenamiento (`X_train`, `y_train`)  
- **20%** para prueba (`X_test`, `y_test`)  

El par√°metro `stratify=y` garantiza que la proporci√≥n de clases se mantenga equilibrada en ambos conjuntos.


In [None]:
# Dividir en conjunto de entrenamiento y prueba
#TODO

### **Entrenamiento del Modelo de Clasificaci√≥n**

Se entrena un modelo de **Regresi√≥n Log√≠stica** para predecir el sentimiento de las rese√±as.  
El par√°metro `class_weight='balanced'` ajusta autom√°ticamente el peso de cada clase para compensar posibles desbalances en los datos.


In [None]:
model = LogisticRegression(max_iter=1000, class_weight='balanced')
model.fit(X_train, y_train)

### **Evaluaci√≥n del Modelo**

Se generan las m√©tricas de desempe√±o del modelo mediante `classification_report`, que muestra **precisi√≥n**, **recobrado (recall)** y **F1-score** por clase.  
Adem√°s, la **matriz de confusi√≥n** permite visualizar los aciertos y errores en las predicciones de cada categor√≠a de sentimiento.


In [None]:
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Predicciones
y_pred = model.predict(X_test)

# Reporte de m√©tricas
print(classification_report(y_test, y_pred, target_names=le.classes_))

# Matriz de confusi√≥n
disp = ConfusionMatrixDisplay(confusion_matrix(y_test, y_pred), display_labels=le.classes_)
disp.plot(cmap="Blues")
plt.show()

### **Prueba del Modelo con Nuevas Rese√±as**

En esta secci√≥n se prueban ejemplos de texto reales para evaluar el comportamiento del modelo entrenado.  
Cada rese√±a se limpia con la misma funci√≥n de preprocesamiento y luego se transforma en un vector TF-IDF antes de ser clasificada.

El modelo devuelve la categor√≠a de sentimiento predicha (**positive**, **neutral** o **negative**), lo que permite comprobar de manera pr√°ctica c√≥mo interpreta nuevas opiniones de usuarios.


In [None]:
rese√±a_1 = "I bought 2 of those SanDisk 32 GB microSD , used them on my Galaxy Note and Galaxy S4First one , my phone started saying it was removed , then recognize it again :) then diedI thought it's just a luck , plugged in the 2nd one :) stayed for about 2 months and died suddenly ! and lost everythingnever buying from SanDisk again .. ever"
rese√±a_2 = "This product is amazing, I totally recommend it!"
nuevo_texto = [rese√±a_2]
nuevo_texto_limpio = [preprocess_text(t) for t in nuevo_texto]
nuevo_vector = vectorizer.transform(nuevo_texto_limpio)
pred = model.predict(nuevo_vector)
print("Predicci√≥n:", le.inverse_transform(pred)[0])

In [None]:
import joblib

joblib.dump(model, "sentiment_model.pkl")
joblib.dump(vectorizer, "tfidf_vectorizer.pkl")
joblib.dump(le, "label_encoder.pkl")
