# Clasificación de Spam con Naive Bayes

En este proyecto tenemos un conjunto de correos electrónicos, la mitad de los cuales fueron escritos por una persona y la otra mitad por otra persona de la misma empresa. Nuestro objetivo es clasificar los correos electrónicos como escritos por una persona u otra basándose únicamente en el texto del correo electrónico.

La clasificación de los emails se hará usando Naive Bayes.

Comenzaremos dándole una lista de cadenas. Cada cadena es el texto de un correo electrónico, que ha pasado por un preprocesamiento básico. Luego proporcionaremos el código para dividir el conjunto de datos en conjuntos de entrenamiento y prueba.

Una característica particular de Naive Bayes es que es un buen algoritmo para trabajar con clasificación de texto. Cuando se trata de texto, es muy común tratar cada palabra única como una característica, y dado que el vocabulario de una persona típica es de muchos miles de palabras, esto genera una gran cantidad de características. La relativa simplicidad del algoritmo y la suposición de características independientes de Naive Bayes lo convierten en un excelente intérprete para clasificar textos.

La carpeta *tools* contiene código de preprocesamiento y los archivos necesarios para entrenar el modelo.

In [1]:
# Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

import sys
sys.path.append('/content/drive/MyDrive/Colab Notebooks/IA - Programa Posgrado/Lesson01/')

import os
os.chdir('/content/drive/MyDrive/Colab Notebooks/IA - Programa Posgrado/Lesson01/')

sys.path.append("./tools/")
from tools.email_preprocess import preprocess

from time import time

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


A continuación se presenta el código para preprocesar los emails y dividir el conjunto de datos en conjuntos de entrenamiento y prueba. Se crea el clasificador (clf), se entrena, se hace una predicción y se imprime la precisión del algoritmo.

In [3]:
### features_train y features_test son las características para los conjuntos
### de datos de entrenamiento y de prueba, respectivamente
### labels_train y labels_test son las etiquetas correspondientes a los ítems
features_train, features_test, labels_train, labels_test = preprocess()

#########################################################
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# clasificador
clf = GaussianNB()

# Entrenamiento
t0 = time()
clf.fit(features_train, labels_train)
print("\nTiempo de entrenamiento:", round(time()-t0, 3), "s")

# Predicción
t0 = time()
pred = clf.predict(features_test)
print("Tiempo de predicción:", round(time()-t0, 3), "s")

# Imprimir precisión
accuracy = accuracy_score(pred, labels_test)
print('\nPrecisión = {:.2f}'.format(accuracy))

No. of Chris training emails :  7936
No. of Sara training emails :  7884

Tiempo de entrenamiento: 0.997 s
Tiempo de predicción: 0.118 s

Precisión = 0.97
