# Ejemplo de Clasificación: Detección de Spam

Este ejemplo muestra cómo usar un modelo de clasificación para identificar correos electrónicos como spam o no spam.

**Librerías utilizadas:**

- `pandas`: Para manejo y análisis de datos.

- `sklearn.feature_extraction.text.TfidfVectorizer`: Convierte texto a vectores numéricos.

- `sklearn.model_selection.train_test_split`: Divide datos en entrenamiento y prueba.

- `sklearn.naive_bayes.MultinomialNB`: Modelo de clasificación bayesiano.

- `sklearn.metrics.accuracy_score`: Mide la precisión del modelo.

- `sklearn.metrics.classification_report`: Genera un reporte de métricas de clasificación.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

Aqui estoy cargando nuestros archivos de datos

In [None]:
df = pd.read_csv('/content/emails.csv')

In [None]:
df.head()

Unnamed: 0,email,clase
0,¿Podemos reagendar la cita para el viernes?,normal
1,¿Podemos reagendar la cita para el viernes?,normal
2,El reporte está listo para revisión,normal
3,"Feliz cumpleaños, espero que tengas un día mar...",normal
4,¿Podemos reagendar la cita para el viernes?,normal


In [None]:
# Convertir texto a vectores numéricos
vectorizador = TfidfVectorizer(stop_words='spanish')
vectorizador = TfidfVectorizer()
X = vectorizador.fit_transform(df['email'])
y = df['clase']

In [None]:
# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Modelo
modelo = MultinomialNB()
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)

In [None]:
# Evaluación
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))
print(f"Precisión: {accuracy_score(y_test, y_pred):.2%}")

Reporte de clasificación:
              precision    recall  f1-score   support

      normal       1.00      1.00      1.00        31
        spam       1.00      1.00      1.00        29

    accuracy                           1.00        60
   macro avg       1.00      1.00      1.00        60
weighted avg       1.00      1.00      1.00        60

Precisión: 100.00%
