
# Clasificación de mensajes usando Naive Bayes

Este notebook demuestra el proceso de clasificación de mensajes de texto como 'spam' o 'no spam' (ham) utilizando el algoritmo Naive Bayes. Se proporciona una explicación paso a paso, desde la preparación de los datos hasta la evaluación del modelo.
    

In [1]:

# Importar librerías necesarias
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
    


## Preparación de los Datos

Los datos consisten en mensajes de texto y sus etiquetas correspondientes ('spam' o 'ham'). Primero, crearemos un conjunto de datos más amplio para trabajar.
    

In [2]:

# Conjunto de datos ampliado
messages = [
    "¡Gana dinero fácilmente desde tu casa! - spam",
    "¡Última llamada antes de cerrar tu cuenta! - spam",
    "¿Quieres salir a cenar esta noche? - ham",
    "Recordatorio: Presentación a las 10 am. - ham",
    "Consigue tu préstamo sin garantía ahora - spam",
    "Buenos días, ¿cómo estás hoy? - ham",
    "Felicidades, has sido seleccionado para ganar un premio - spam",
    "Importante: actualización de la política de privacidad - ham",
    "¿Puedes enviar el informe antes del mediodía? - ham",
    "Descubre cómo estas celebridades perdieron peso - spam",
    "Reunión familiar este fin de semana - ham",
    "Gana un viaje a París - spam",
    "Recordatorio de la cita con el dentista - ham",
    "Ahorra en tus facturas de energía - spam"
]

# Separar los mensajes de sus etiquetas
X = [msg.split(" - ")[0] for msg in messages]
y = [msg.split(" - ")[1] for msg in messages]

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    


## Extracción de Características

Convertiremos los mensajes de texto en una matriz de conteo de tokens utilizando `CountVectorizer`. Esto es necesario para transformar los datos textuales en un formato que el modelo pueda entender.
    

In [3]:

# Convertir texto a una matriz de conteo de tokens
vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)
X_test_counts = vectorizer.transform(X_test)
    


## Entrenamiento del Modelo

Ahora entrenaremos un modelo Naive Bayes con los datos de entrenamiento. Utilizaremos el `MultinomialNB` que es adecuado para contar datos como los que tenemos aquí.
    

In [4]:

# Entrenar el modelo Naive Bayes
clf = MultinomialNB()
clf.fit(X_train_counts, y_train)
    

MultinomialNB()


## Predicción y Evaluación

Con el modelo entrenado, realizaremos predicciones sobre el conjunto de prueba y evaluaremos la precisión del modelo.
    

In [5]:

# Realizar predicciones y evaluar
y_pred = clf.predict(X_test_counts)
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy * 100:.2f}%")
    

Precisión del modelo: 75.00%



## Conclusión

Este notebook ha demostrado cómo implementar y evaluar un clasificador de Naive Bayes para la tarea de clasificación de mensajes de texto. A pesar de su simplicidad, Naive Bayes puede ser muy efectivo para este tipo de tareas.
    