## ALGORITMO NAIVE-BAYES BERNOULLI - DETECCIÓN DE SPAM

Importamos librerías necesarias.  
Cargamos dataset usando un URL y a través de un REQUESTS

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt
from wordcloud import WordCloud

## Preparación del dataset

In [2]:
# Cargamos dataset
sms_data = pd.read_csv("./datasets/spam_ham_dataset.csv") 
print(sms_data.shape)
print(sms_data.columns)
sms_data = sms_data.drop(['Unnamed: 0'],axis=1)

(5171, 4)
Index(['Unnamed: 0', 'label', 'text', 'label_num'], dtype='object')


## Generación del conjunto de características y de la clase

El **CountVectorizer** proporciona una manera simple de tokenizar una colección de documentos de texto y construir un vocabulario de palabras conocidas.

En el código que hay a continuación, dado que los datos de texto se utilizan para entrenar el clasificador, se convierte el texto en una matriz que comprende números utilizando **Count Vectorizer** para que el un buen funcionamiento del modelo.

Respecto al dataset, se utiliza sólo la columna "text" como característica, ya que contiene la información de mayor relevancia y, como dato de salida, se utiliza la columna "label_num", que se transforma en la y de nuestro modelo.

In [3]:
X =sms_data["text"].values
y = sms_data["label_num"].values
# creating count vectorizer object
cv = CountVectorizer()
#tranforming values
X = cv.fit_transform(X)


## Partición en conjuntos TRAIN y TEST

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

## Construcción del modelo y entrenamiento

In [5]:
bnb = BernoulliNB(binarize=0.0)
model = bnb.fit(X_train, y_train)
y_pred = bnb.predict(X_test)

## Evaluación del modelo

In [6]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.84      0.98      0.91       732
           1       0.92      0.56      0.70       303

    accuracy                           0.86      1035
   macro avg       0.88      0.77      0.80      1035
weighted avg       0.87      0.86      0.84      1035


## Conclusión
Del informe de clasificación se desprende que la accuracy, el recall y el F1 score de la clase 0 son de 0,84, 0,98 y 0,91 respectivamente, mientras que para la clase 1 la accuracy, el recall y el F1 score son de 0,92, 0,56 y 0,70 respectivamente.  
 Dado que el 13% del conjunto de datos está compuesto por la categoría spam, el valor de recall disminuye.   
 La accuracy global del modelo es del 86%, lo cúal indica que es un buen modelo.