## Ponemos a prueba el modelo NB entrenado con todo train (X,y) frente a solo entrenado con X_train

Al Reentrenar el modelo con todos los datos de entrenamiento, se observa una mejora en todas las métricas: precisión, exhaustividad, F1-score y exactitud. Esto indica que el modelo se ha beneficiado de utilizar el conjunto completo de datos para el entrenamiento, logrando un rendimiento más robusto y preciso en la predicción de mensajes ham y spam.

Vemos también en casos se equivoca y lo probamos con casos nuevos

# Paso 1: Cargar el Modelo Entrenado


In [1]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report, confusion_matrix
import pickle  

# Cargar el modelo entrenado

with open('../modelos_y_vectorizadores/modelo_naive_bayes_entrenado_completo.pkl', 'rb') as archivo: 
     loaded_model = pickle.load(archivo)

# Verificar que el modelo se haya cargado correctamente
print("Modelo cargado:", loaded_model)


Modelo cargado: MultinomialNB()


In [2]:
import joblib
# Cargar el vectorizador
vectorizador = joblib.load('../modelos_y_vectorizadores/vectorizador.pkl')


# Paso 2: Preprocesar test.csv

Ahora, procede a cargar y preprocesar test.csv de la misma manera que lo hicimos con train.csv

In [3]:
import pandas as pd

# Cargar test.csv
test_df = pd.read_csv('../data_es/test.csv')

test_df.head()


Unnamed: 0,mensaje,tipo
0,Tu devolucion esta siendo procesada,ham
1,Gana dinero por compartir tus opiniones,spam
2,Recordatorio de tu cita con el nutricionista,ham
3,Quema grasa abdominal con este suplemento,spam
4,Agradecemos tu preferencia,ham


In [4]:
test_df.describe()

Unnamed: 0,mensaje,tipo
count,209,209
unique,209,2
top,Tu devolucion esta siendo procesada,ham
freq,1,109


In [5]:
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   mensaje  209 non-null    object
 1   tipo     209 non-null    object
dtypes: object(2)
memory usage: 3.4+ KB


In [6]:
# Contar los mensajes duplicados
duplicados = test_df[test_df.duplicated(['mensaje'], keep=False)]

# Mostrar los mensajes duplicados
print("Mensajes duplicados:")
print(duplicados)


Mensajes duplicados:
Empty DataFrame
Columns: [mensaje, tipo]
Index: []


In [7]:
# Mostrar los nombres de las columnas del dataset
print(test_df.columns)

Index(['mensaje', 'tipo'], dtype='object')


In [8]:
import nltk
from nltk.corpus import stopwords
import re

nltk.download('stopwords')
stopwords_sp = stopwords.words('spanish')

# Agregar palabras adicionales que no aporten significado en este contexto específico
stopwords_sp.extend(['este', 'nuestro', 'con', 'para', 'esta'])  # Podemos ajustar esta lista según necesitemos

# Función para limpiar el texto y filtrar stopwords
def limpiar_texto_con_stopwords(texto):
    texto = re.sub(r'\W', ' ', texto) # Eliminar caracteres no alfanuméricos
    texto = texto.lower() # Convertir a minúsculas
    texto = re.sub(r'\s+', ' ', texto) # Eliminar espacios extra
    palabras = texto.split()
    palabras_filtradas = [palabra for palabra in palabras if palabra not in stopwords_sp]
    return ' '.join(palabras_filtradas)

# Aplicar limpieza con filtro de stopwords a los mensajes
test_df['mensaje_limpio_stopwords'] = test_df['mensaje'].apply(limpiar_texto_con_stopwords)

# Mostrar los mensajes limpios con filtrado de stopwords
print(test_df[['mensaje', 'mensaje_limpio_stopwords']].head(10))

                                          mensaje  \
0             Tu devolucion esta siendo procesada   
1         Gana dinero por compartir tus opiniones   
2    Recordatorio de tu cita con el nutricionista   
3       Quema grasa abdominal con este suplemento   
4                      Agradecemos tu preferencia   
5             Obten tu score crediticio sin costo   
6    Firma el acuerdo de confidencialidad adjunto   
7         Aprovecha descuentos exclusivos para ti   
8             Confirmamos que recibimos tu pedido   
9  Desata tu potencial sexual con estas pastillas   

                 mensaje_limpio_stopwords  
0             devolucion siendo procesada  
1         gana dinero compartir opiniones  
2         recordatorio cita nutricionista  
3        quema grasa abdominal suplemento  
4                 agradecemos preferencia  
5            obten score crediticio costo  
6  firma acuerdo confidencialidad adjunto  
7         aprovecha descuentos exclusivos  
8            confirm

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ferna\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Vectorización de los Mensajes de Test
limpios de test_df usando el vectorizador cargado:

In [9]:
# Aplicar transformación usando el vectorizador cargado
X_test = vectorizador.transform(test_df['mensaje_limpio_stopwords'])


# Hacer Predicciones con el Modelo
El modelo Naive Bayes cargado para hacer predicciones sobre X_test:

In [19]:
#Resultado solo entrenado por X-train
# 
# from sklearn.metrics import classification_report, confusion_matrix

# Predecir con el modelo cargado
y_pred_test = loaded_model.predict(X_test)

# Convertir etiquetas numéricas a strings ('ham' y 'spam')
y_pred_str = ['spam' if pred == 1 else 'ham' for pred in y_pred_test]

# Obtener métricas de evaluación
print("Reporte de Clasificación solo entrenado por X-train:")
print(classification_report(test_df['tipo'], y_pred_str))

# Obtener y mostrar la matriz de confusión
print("Matriz de Confusión:")
print(confusion_matrix(test_df['tipo'], y_pred_str))


Reporte de Clasificación:
              precision    recall  f1-score   support

         ham       0.91      0.83      0.87       109
        spam       0.83      0.91      0.87       100

    accuracy                           0.87       209
   macro avg       0.87      0.87      0.87       209
weighted avg       0.87      0.87      0.87       209

Matriz de Confusión:
[[90 19]
 [ 9 91]]


In [10]:
# Resultado entrenado con todo X,y

from sklearn.metrics import classification_report, confusion_matrix

# Predecir con el modelo cargado
y_pred_test = loaded_model.predict(X_test)

# Convertir etiquetas numéricas a strings ('ham' y 'spam')
y_pred_str = ['spam' if pred == 1 else 'ham' for pred in y_pred_test]

# Obtener métricas de evaluación
print("Reporte de Clasificación entrenado con todo X,y:")
print(classification_report(test_df['tipo'], y_pred_str))

# Obtener y mostrar la matriz de confusión
print("Matriz de Confusión:")
print(confusion_matrix(test_df['tipo'], y_pred_str))

Reporte de Clasificación:
              precision    recall  f1-score   support

         ham       0.92      0.86      0.89       109
        spam       0.86      0.92      0.89       100

    accuracy                           0.89       209
   macro avg       0.89      0.89      0.89       209
weighted avg       0.89      0.89      0.89       209

Matriz de Confusión:
[[94 15]
 [ 8 92]]


## Comparación de los Resultados

# Precisión (Precision):

Antes: ham = 0.91, spam = 0.83

Después: ham = 0.92, spam = 0.86

Observación: La precisión para ambos ham y spam ha mejorado después de reentrenar el modelo con todos los datos.

# Exhaustividad (Recall):

Antes: ham = 0.83, spam = 0.91

Después: ham = 0.86, spam = 0.92

Observación: La exhaustividad ha mejorado para ham y se ha mantenido alta para spam.

# F1-Score:

Antes: ham = 0.87, spam = 0.87

Después: ham = 0.89, spam = 0.89

Observación: El F1-score ha mejorado para ambos ham y spam, indicando una mejor precisión y exhaustividad combinada.

# Exactitud (Accuracy):

Antes: 0.87

Después: 0.89

Observación: La exactitud global del modelo ha mejorado después del reentrenamiento.

# Matriz de Confusión:

Antes:

[[90 19]
 [ 9 91]]

Después:

[[94 15]
 [ 8 92]]

Observación: La cantidad de falsos negativos para ham ha disminuido, mientras que la cantidad de falsos positivos para spam también ha disminuido ligeramente.

# Conclusión

Después de reentrenar el modelo con todos los datos de entrenamiento, se observa una mejora en todas las métricas: precisión, exhaustividad, F1-score y exactitud. Esto indica que el modelo se ha beneficiado de utilizar el conjunto completo de datos para el entrenamiento, logrando un rendimiento más robusto y preciso en la predicción de mensajes ham y spam.








In [19]:
# Mostrar mensajes donde el modelo se equivocó
test_df['prediccion'] = y_pred_str
errores = test_df[test_df['tipo'] != test_df['prediccion']]

print("Mensajes donde el modelo se equivocó:")
print(errores[['mensaje', 'tipo', 'prediccion']])


Mensajes donde el modelo se equivocó:
                                           mensaje  tipo prediccion
14               Confirma tu registro al seminario   ham       spam
24                  Tu donacion hara la diferencia   ham       spam
32          Encuentra tu equilibrio con meditacion   ham       spam
33         Danos tu opinion sobre nuestro servicio  spam        ham
35               No calificaste para este prestamo   ham       spam
56   Protegemos tus compras con garantia extendida   ham       spam
77        Regresa a tu infancia con estos juguetes  spam        ham
93       Se parte del record Guinness con nosotros  spam        ham
94       Tu certificado de ingresos ya fue emitido   ham       spam
98              Lee como protegemos tu informacion   ham       spam
103   Lee nuestro analisis semanal de la industria   ham       spam
139           Monitorea tu envio con este tracking   ham       spam
149  Verifica tu numero de cuenta para el deposito  spam        ham
158       

In [12]:
# Mensaje a probar
mensaje_prueba = 'URGENTE ponte en contacto conmigo'

# Preprocesar el mensaje
mensaje_prueba_limpio = limpiar_texto_con_stopwords(mensaje_prueba)

# Vectorizar el mensaje
mensaje_prueba_vectorizado = vectorizador.transform([mensaje_prueba_limpio])

# Predecir con el modelo cargado
prediccion = loaded_model.predict(mensaje_prueba_vectorizado)

# Convertir la predicción a etiqueta
prediccion_etiqueta = 'spam' if prediccion[0] == 1 else 'ham'

print(f"Mensaje: {mensaje_prueba}")
print(f"Predicción: {prediccion_etiqueta}")

Mensaje: URGENTE ponte en contacto conmigo
Predicción: ham


In [13]:
# Mensaje a probar
mensaje_prueba = 'Sexo gratis'

# Preprocesar el mensaje
mensaje_prueba_limpio = limpiar_texto_con_stopwords(mensaje_prueba)

# Vectorizar el mensaje
mensaje_prueba_vectorizado = vectorizador.transform([mensaje_prueba_limpio])

# Predecir con el modelo cargado
prediccion = loaded_model.predict(mensaje_prueba_vectorizado)

# Convertir la predicción a etiqueta
prediccion_etiqueta = 'spam' if prediccion[0] == 1 else 'ham'

print(f"Mensaje: {mensaje_prueba}")
print(f"Predicción: {prediccion_etiqueta}")

Mensaje: Sexo gratis
Predicción: spam


In [16]:
# Mensaje a probar
mensaje_prueba = 'Recoge tu premio'

# Preprocesar el mensaje
mensaje_prueba_limpio = limpiar_texto_con_stopwords(mensaje_prueba)

# Vectorizar el mensaje
mensaje_prueba_vectorizado = vectorizador.transform([mensaje_prueba_limpio])

# Predecir con el modelo cargado
prediccion = loaded_model.predict(mensaje_prueba_vectorizado)

# Convertir la predicción a etiqueta
prediccion_etiqueta = 'spam' if prediccion[0] == 1 else 'ham'

print(f"Mensaje: {mensaje_prueba}")
print(f"Predicción: {prediccion_etiqueta}")

Mensaje: Recoge tu premio
Predicción: spam


In [17]:
# Mensaje a probar
mensaje_prueba = 'Quiero contactar contigo'

# Preprocesar el mensaje
mensaje_prueba_limpio = limpiar_texto_con_stopwords(mensaje_prueba)

# Vectorizar el mensaje
mensaje_prueba_vectorizado = vectorizador.transform([mensaje_prueba_limpio])

# Predecir con el modelo cargado
prediccion = loaded_model.predict(mensaje_prueba_vectorizado)

# Convertir la predicción a etiqueta
prediccion_etiqueta = 'spam' if prediccion[0] == 1 else 'ham'

print(f"Mensaje: {mensaje_prueba}")
print(f"Predicción: {prediccion_etiqueta}")

Mensaje: Quiero contactar contigo
Predicción: spam


In [18]:
# Mensaje a probar
mensaje_prueba = 'Todos los lunes llueve'
# Preprocesar el mensaje
mensaje_prueba_limpio = limpiar_texto_con_stopwords(mensaje_prueba)

# Vectorizar el mensaje
mensaje_prueba_vectorizado = vectorizador.transform([mensaje_prueba_limpio])

# Predecir con el modelo cargado
prediccion = loaded_model.predict(mensaje_prueba_vectorizado)

# Convertir la predicción a etiqueta
prediccion_etiqueta = 'spam' if prediccion[0] == 1 else 'ham'

print(f"Mensaje: {mensaje_prueba}")
print(f"Predicción: {prediccion_etiqueta}")

Mensaje: Todos los lunes llueve
Predicción: ham
