# Clasificación de Mensajes como Spam o No Spam
Este notebook muestra un ejemplo pequeño y comentado de cómo clasificar mensajes usando técnicas básicas de Machine Learning en Python.

In [None]:
# Importamos las bibliotecas necesarias
import pandas as pd  # para manejar datos en formato tabular
from sklearn.feature_extraction.text import CountVectorizer  # para convertir texto en vectores numéricos
from sklearn.model_selection import train_test_split  # para dividir datos en entrenamiento y prueba
from sklearn.naive_bayes import MultinomialNB  # modelo de clasificación Naive Bayes
from sklearn.metrics import accuracy_score  # para evaluar la precisión del modelo

In [None]:
# Creamos un pequeño dataset de ejemplo
data = {
    'mensaje': [
        'Gana dinero fácil desde casa',  # spam
        'Oferta exclusiva solo hoy',     # spam
        'Nos vemos mañana en clase',     # no spam
        'Tu pedido ha sido enviado',     # no spam
        'Haz clic para ganar un iPhone', # spam
        'Reunión a las 3pm en la oficina' # no spam
    ],
    'etiqueta': ['spam', 'spam', 'ham', 'ham', 'spam', 'ham']  # 'ham' significa no spam
}
df = pd.DataFrame(data)  # convertimos el diccionario en un DataFrame de pandas
df

In [None]:
# Convertimos los mensajes de texto en una matriz de conteo (frecuencia de palabras)
vectorizador = CountVectorizer()
X = vectorizador.fit_transform(df['mensaje'])  # X contiene los vectores numéricos de los mensajes
y = df['etiqueta']  # y contiene las etiquetas spam o ham

In [None]:
# Dividimos los datos en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Creamos y entrenamos el modelo Naive Bayes
modelo = MultinomialNB()
modelo.fit(X_train, y_train)  # entrenamiento con los datos de entrenamiento

In [None]:
# Hacemos predicciones con los datos de prueba
y_pred = modelo.predict(X_test)

# Evaluamos el modelo comparando las etiquetas predichas con las reales
precision = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {precision * 100:.2f}%")