#  IA para Redes de Suministro 

üë§ **Autor:** John Leonardo Vargas Mesa  
üîó [LinkedIn](https://www.linkedin.com/in/leonardovargas/) | [GitHub](https://github.com/LeStark)  

## üìÇ Repositorio en GitHub  
- üìì **Notebooks:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/02%20-%20IA4SC)  
- üìë **Data sets:** [Acceder aqu√≠](https://github.com/LeStark/Cursos/tree/main/00%20-%20Data/02%20-%20SC)  
---

# üìò Notebook 5A  Uso de los modelos entrenados

# ü§ñ Notebook 5A ‚Äì Uso de los Modelos Entrenados

Este notebook tiene como prop√≥sito mostrar c√≥mo **utilizar un modelo de an√°lisis de sentimientos previamente entrenado** para realizar predicciones sobre nuevos conjuntos de rese√±as.  
A partir del modelo desarrollado en el *Notebook 05 ‚Äì Introducci√≥n al NLP*, se construye un flujo reproducible para limpiar, vectorizar y clasificar texto sin necesidad de reentrenar el modelo.

## üß© **Contenido del Notebook**

1. **Carga de los Modelos Entrenados:**  
   Se importan los objetos generados durante el entrenamiento:  
   - `sentiment_model.pkl` ‚Üí modelo de clasificaci√≥n entrenado.  
   - `tfidf_vectorizer.pkl` ‚Üí vectorizador TF-IDF.  
   - `label_encoder.pkl` ‚Üí codificador de etiquetas.  

   Estos permiten replicar el proceso completo sin volver a ejecutar el entrenamiento.

2. **Definici√≥n del Preprocesamiento:**  
   Se implementa la misma funci√≥n `preprocess_text()` utilizada en el entrenamiento, que:
   - Convierte texto a min√∫sculas.  
   - Elimina caracteres no alfab√©ticos, n√∫meros y URLs.  
   - Tokeniza, elimina *stopwords* y aplica lematizaci√≥n.  

   Esto asegura la **consistencia** entre el entrenamiento y la inferencia.

3. **Creaci√≥n de la Funci√≥n de Predicci√≥n (`predict_sentiment`):**  
   Se desarrolla una funci√≥n integral que:
   - Limpia y normaliza el texto.  
   - Lo transforma con el vectorizador TF-IDF.  
   - Predice el sentimiento con el modelo cargado.  
   - Decodifica la salida num√©rica a etiquetas de texto (*positive*, *neutral*, *negative*).

4. **Prueba del Modelo con Nuevas Rese√±as:**  
   Se aplican ejemplos de texto reales para observar las predicciones y verificar que el modelo generaliza correctamente.

5. **Aplicaci√≥n Masiva sobre un DataFrame:**  
   Se carga un archivo CSV con rese√±as nuevas (`sample_amazon_reviews.csv`)  
   y se aplica la funci√≥n `predict_sentiment()` sobre toda la columna `reviewText`, generando una nueva columna `predicted_sentiment`.


## üéØ **Objetivo de Aprendizaje**

El estudiante comprender√° c√≥mo **reutilizar modelos de NLP ya entrenados** y c√≥mo integrarlos en flujos de predicci√≥n para analizar grandes vol√∫menes de texto.  
Adem√°s, aprender√° a mantener la coherencia del pipeline (preprocesamiento ‚Üí vectorizaci√≥n ‚Üí predicci√≥n ‚Üí decodificaci√≥n) al aplicar el modelo en nuevos contextos.

## üßæ **Herramientas Utilizadas**
- **joblib** ‚Üí para cargar los modelos y objetos guardados.  
- **NLTK / spaCy** ‚Üí preprocesamiento del texto.  
- **scikit-learn** ‚Üí vectorizaci√≥n y predicci√≥n.  
- **pandas** ‚Üí manipulaci√≥n de datos.  

üí° *Este notebook demuestra c√≥mo llevar un modelo de NLP desde su entrenamiento hasta su aplicaci√≥n pr√°ctica, preparando el terreno para integraciones en sistemas reales o aplicaciones de an√°lisis automatizado de texto.*


In [12]:
import pandas as pd
import numpy as np  
import joblib

# --- Procesamiento de texto ---
import re
import nltk
import spacy
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# --- Descarga de recursos NLTK ---
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

# --- Carga del modelo de lenguaje de spaCy ---
try:
    nlp = spacy.load("en_core_web_sm")
except OSError:
    from spacy.cli import download
    download("en_core_web_sm")
    nlp = spacy.load("en_core_web_sm")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jlvar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jlvar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\jlvar\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\jlvar\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


### **Carga del Archivo de Rese√±as de Muestra**

Se carga un archivo CSV con una muestra de 100 rese√±as de Amazon desde una URL p√∫blica de GitHub para realizar pruebas r√°pidas con el modelo entrenado.


In [4]:
url= r"https://raw.githubusercontent.com/LeStark/Cursos/refs/heads/main/00%20-%20Data/03%20-%20NLP/sample_amazon_reviews.csv"
data = pd.read_csv(url)
data.head()

Unnamed: 0,reviewText
0,When I opened the micro disc and adapter I did...
1,I purchased this product knowing there might b...
2,Bought October 7th. Passed away December 23rd....
3,This was an inexpensive way to get my Galaxy N...
4,"Works well, and fast, does everything it claim..."


###  **Carga del Modelo y Creaci√≥n de la Funci√≥n de Predicci√≥n**

En esta secci√≥n se cargan los objetos entrenados previamente para realizar predicciones sobre nuevas rese√±as de texto.  
Estos objetos fueron generados durante la etapa de entrenamiento y se almacenaron en la carpeta `Models/`:

- **`sentiment_model.pkl`** ‚Üí Modelo de clasificaci√≥n entrenado (Regresi√≥n Log√≠stica).  
- **`tfidf_vectorizer.pkl`** ‚Üí Vectorizador TF-IDF que transforma el texto en representaciones num√©ricas.  
- **`label_encoder.pkl`** ‚Üí Codificador de etiquetas que traduce las categor√≠as (*positive*, *neutral*, *negative*) a valores num√©ricos y viceversa.  

Adem√°s, se define nuevamente la funci√≥n `preprocess_text()` para limpiar y normalizar el texto con el mismo proceso utilizado en el entrenamiento (min√∫sculas, eliminaci√≥n de ruido, tokenizaci√≥n, stopwords y lematizaci√≥n).

Finalmente, la funci√≥n `predict_sentiment()` integra todo el flujo:
1. Preprocesa el texto nuevo.  
2. Lo transforma con el vectorizador TF-IDF original.  
3. Predice el sentimiento utilizando el modelo entrenado.  
4. Decodifica el resultado para obtener la etiqueta final (**positive**, **neutral** o **negative**).

Esta funci√≥n permitir√° aplicar el modelo de an√°lisis de sentimientos sobre cualquier conjunto nuevo de rese√±as.


In [14]:

# --- Cargar los objetos entrenados ---

model = joblib.load("Models/sentiment_model.pkl")
vectorizer = joblib.load("Models/tfidf_vectorizer.pkl")
le = joblib.load("Models/label_encoder.pkl")
stop_words = set(stopwords.words("english"))

# --- Funci√≥n de preprocesamiento (id√©ntica a la usada en el entrenamiento) ---
def preprocess_text(text):
    text = str(text).lower()
    text = re.sub(r"http\S+|www\S+|https\S+", "", text)
    text = re.sub(r"[^a-z\s]", "", text)
    tokens = nltk.word_tokenize(text)
    tokens = [word for word in tokens if word not in stop_words and len(word) > 2]
    doc = nlp(" ".join(tokens))
    lemmas = [token.lemma_ for token in doc]
    return " ".join(lemmas)

# --- Funci√≥n principal para predecir sentimiento ---
def predict_sentiment(text):
    """
    Recibe una rese√±a (o texto en bruto),
    aplica el mismo preprocesamiento usado en el entrenamiento,
    transforma el texto en vector TF-IDF y devuelve el sentimiento predicho.
    """
    # 1Ô∏è Limpiar el texto
    clean_text = preprocess_text(text)

    # 2Ô∏è Vectorizar usando el TF-IDF original
    vector = vectorizer.transform([clean_text])

    # 3Ô∏è Predecir usando el modelo cargado
    pred = model.predict(vector)

    # 4Ô∏è Decodificar la etiqueta num√©rica
    sentiment = le.inverse_transform(pred)[0]
    
    return sentiment



### **Aplicaci√≥n del Modelo a Nuevas Rese√±as**

Se aplica la funci√≥n `predict_sentiment()` a la columna `reviewText` del DataFrame para predecir el sentimiento de cada rese√±a y visualizar los primeros resultados.


In [19]:
# Aplicar la funci√≥n sobre una columna de un DataFrame
data["predicted_sentiment"] = data["reviewText"].apply(predict_sentiment)

# Ver resultados
data[["reviewText", "predicted_sentiment"]].head()

Unnamed: 0,reviewText,predicted_sentiment
0,When I opened the micro disc and adapter I did...,positive
1,I purchased this product knowing there might b...,negative
2,Bought October 7th. Passed away December 23rd....,negative
3,This was an inexpensive way to get my Galaxy N...,positive
4,"Works well, and fast, does everything it claim...",positive


In [None]:

print(data.iloc[1]["reviewText"])
print(data.iloc[1]["predicted_sentiment"])