<h1>Problema 3: Spam</h1>
<p>Autor: Erick García Ramírez<br /> 
erick_phy@ciencias.unam.mx<br /> 
Curso de Aprendizaje Automatizado, MCIC 2019-2</p>

Se nos pide clasificar emails en spam o no spam y se nos da el histograma de las palabras en los emails. Usaremos los clasificadores BernoulliNB y MultinomialNB de la librería scikit-learn para trabajar este problema. Cargamos las librerías que usaremos.

In [11]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import  BernoulliNB, MultinomialNB
from sklearn.metrics import confusion_matrix

En la siguiente celda cargamos los datos en <em>spam.csv</em>. En seguida particionamos aleatoriamente estos datos en un conjunto de entrenamiento (train_data) y otro de validación (test_data). La proporción entre estos subconjuntos es de 70% contra 30% de los datos totales. También imprimimos las longitudes de 

In [3]:
data = pd.read_csv("~/Desktop/mcc20192/mlearning/tareas/tarea2/nb_data/spam.csv", header=None, delimiter=" ")

#Partición aleatoria del conjunto de datos, 70% para entrenamiento y 30% para validación
train_data, test_data= train_test_split(data, test_size=0.30, random_state=0)
print(len(train_data),len(test_data))

3620 1552


En la celda debajo preparamos los conjuntos de entrenamiento y de validación para ser pasados a los clasificadores propuestos. Partimos cada uno de estos conjuntos en una matriz de atributos y un vector de etiquetas. 

In [4]:
# Preparación del conjunto de entrenamiento (conversión a matriz numpy)
train_matrix = train_data.values[:,:-1]
train_labels = train_data.values[:,-1]

# Preparación del conjunto de validación (conversión a matriz numpy)
test_matrix = test_data.values[:,:-1]
test_labels = test_data.values[:,-1]

<h1> Clasificadores y su entrenamiento </h1>
Ahora pasamos a entrenar a BernoulliNB y a MultinomialNB con el conjunto de datos de entrenamiento.

In [6]:
# Proponemos los siguientes clasificadores
bernoulli_classifier = BernoulliNB(binarize = 1.0)
multinomial_classifier = MultinomialNB()

# Entrenamiento
print(bernoulli_classifier.fit(train_matrix,train_labels))
print(multinomial_classifier.fit(train_matrix,train_labels))

BernoulliNB(alpha=1.0, binarize=1.0, class_prior=None, fit_prior=True)
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)


In [9]:
# FUNCIÓN AUXILIAR: tomada de  https://gist.github.com/zachguo/10296432
# Autor: zachguo
# Esta función sirve para imprimir la matriz de confusión
def print_cm(cm, labels, hide_zeroes=False, hide_diagonal=False, hide_threshold=None):
    columnwidth = max([len(x) for x in labels] + [5])  # 5 is value length
    empty_cell = " " * columnwidth
    # Print header
    print("    " + empty_cell, end=" ")
    for label in labels:
        print("%{0}s".format(columnwidth) % label, end=" ")
    print()
    # Print rows
    for i, label1 in enumerate(labels):
        print("    %{0}s".format(columnwidth) % label1, end=" ")
        for j in range(len(labels)):
            cell = "%{0}.1f".format(columnwidth) % cm[i, j]
            if hide_zeroes:
                cell = cell if float(cm[i, j]) != 0 else empty_cell
            if hide_diagonal:
                cell = cell if i != j else empty_cell
            if hide_threshold:
                cell = cell if cm[i, j] > hide_threshold else empty_cell
            print(cell, end=" ")
        print()
        
# FUNCIÓN AUXILIAR: Función para calcular el número de errores de clasificación
def classification_errors(predicted,real):
    s = 0
    for i in range(0,len(predicted)):
        if predicted[i] != real[i]:
            s += 1
    return s

<h1>Rendimiento</h1>
En las siguientes celdas estudiamos el rendimiento de cada uno de los clasificadores entrenados. Primeri hacemos esto para el conjunto de entrenamiento.

In [13]:
# Pruebas en el conjunto de entrenamiento
predict_train_bernoulli = bernoulli_classifier.predict(train_matrix)
predict_train_multinomial = multinomial_classifier.predict(train_matrix)

print('SOBRE EL CONJUNTO DE ENTRENAMIENTO.')
# Desempeño de BernoulliNB
e=classification_errors(predict_train_bernoulli,train_labels)
print('Matriz de confusión para BernoulliNB:')
print_cm(confusion_matrix(predict_train_bernoulli, train_labels),['spam','no spam'])
print('Número de errores para BernoulliNB:', e)
print('Porcentaje de aciertos:', round(100*(len(train_matrix)-e)/len(train_matrix),2))
print()
# Desempeño de MultinomialNB
print('Matriz de confusión para MutinomialNB:')
e=classification_errors(predict_train_multinomial,train_labels)
print_cm(confusion_matrix(predict_train_multinomial, train_labels),['spam','no spam'])
print('Número de errores para MultinomialNB:', classification_errors(predict_train_multinomial,train_labels))
print('Porcentaje de aciertos:', round(100*(len(train_matrix)-e)/len(train_matrix),2))

SOBRE EL CONJUNTO DE ENTRENAMIENTO.
Matriz de confusión para BernoulliNB:
               spam no spam 
       spam  2468.0   398.0 
    no spam    92.0   662.0 
Número de errores para BernoulliNB: 490
Porcentaje de aciertos: 86.46

Matriz de confusión para MutinomialNB:
               spam no spam 
       spam  2454.0    60.0 
    no spam   106.0  1000.0 
Número de errores para MultinomialNB: 166
Porcentaje de aciertos: 95.41


Ahora hacemos el análisis de rendimiento para el conjunto de validación.

In [15]:
# Pruebas en el conjunto de validación
predict_test_bernoulli = bernoulli_classifier.predict(test_matrix)
predict_test_multinomial = multinomial_classifier.predict(test_matrix)

print('SOBRE EL CONJUNTO DE VALIDACIÓN.')
# Desempeño de BernoulliNB
e=classification_errors(predict_test_bernoulli,test_labels)
print('Matriz de confusión para BernoulliNB:')
print_cm(confusion_matrix(predict_test_bernoulli, test_labels),['spam','no spam'])
print('Número de errores para BernoulliNB:', e)
print('Porcentaje de aciertos:', round(100*(len(test_matrix)-e)/len(test_matrix),2))
print()
# Desempeño de MultinomialNB
print('Matriz de confusión para MutinomialNB:')
e=classification_errors(predict_test_multinomial,test_labels)
print_cm(confusion_matrix(predict_test_multinomial, test_labels),['spam','no spam'])
print('Número de errores para MultinomialNB:', classification_errors(predict_test_multinomial,test_labels))
print('Porcentaje de aciertos:', round(100*(len(test_matrix)-e)/len(test_matrix),2))

SOBRE EL CONJUNTO DE VALIDACIÓN.
Matriz de confusión para BernoulliNB:
               spam no spam 
       spam  1046.0   169.0 
    no spam    66.0   271.0 
Número de errores para BernoulliNB: 235
Porcentaje de aciertos: 84.86

Matriz de confusión para MutinomialNB:
               spam no spam 
       spam  1050.0    19.0 
    no spam    62.0   421.0 
Número de errores para MultinomialNB: 81
Porcentaje de aciertos: 94.78


<h1> Conclusiones</h1>
Por la naturaleza del problema sabemos que uno de los modelos más adecuados para la clasificación de spam es el multinomial. Sobre ambos conjuntos de entrenamiento y validación MultinomialNB tuvo alrededor de un 10% de más predicciones correctas que BernoulliNB. Una de las razones por lo que esto pasa es que la binarización de los atributos que se debe hacer para aplicar BernoulliNB (la opción <em>binarize = 1.0</em>) implica la pérdida de información.