In [63]:
import pandas as pd
from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import BernoulliNB, MultinomialNB

from sklearn.metrics import accuracy_score, classification_report          



In [4]:

# URL del archivo de datos
url = "http://turing.iimas.unam.mx/~gibranfp/cursos/aprendizaje_automatizado/data/spam.csv"

# Cargar los datos en un DataFrame
df = pd.read_csv(url, header=None)  # No tiene encabezados, por eso usamos header=None


In [24]:

# Separar cada número en una columna
df_split = df[0].str.split(expand=True)

# Renombrar la última columna como 'target'
df_split.columns = [f'col_{i}' for i in range(df_split.shape[1]-1)] + ['target']

# Convertir a tipo numérico
df_split = df_split.apply(pd.to_numeric)


Reporta el porcentaje de correos que están etiquetados como spam y como no spam en el
conjunto de datos.

In [51]:
no_de_spam=df_split['target'].sum()
no_de_ham=df_split['target'].count()-no_de_spam


print('Porcentaje de correos marcados como spam:',round(no_de_spam/df_split['target'].count()*100,2))
print('Porcentaje de correos marcados como NO spam:',round(no_de_ham/df_split['target'].count()*100,2))

Porcentaje de correos marcados como spam: 29.0
Porcentaje de correos marcados como NO spam: 71.0


**Divide aleatoriamente el conjunto de datos en el 60 % para entrenamiento, el 20 % para validación y el 20 % restante para prueba usando 0 como semilla para tu generador de números aleatorios.**

In [44]:
X=df_split.drop(['target'],axis=1)
y=df_split['target']

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=0)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=0)

print('Datos de entrenamiento:',round(X_train.shape[0]/df_split.shape[0]*100,2),'%')
print('Datos de validación:',round(X_val.shape[0]/df_split.shape[0]*100,2),'%')
print('Datos de prueba:',round(X_test.shape[0]/df_split.shape[0]*100,2),'%')

Datos de entrenamiento: 60.0 %
Datos de validación: 19.99 %
Datos de prueba: 20.01 %


**Entrena 2 clasificadores bayesianos ingenuos con distintas distribuciones.**

In [65]:
#BernoulliNB

# Entrenamos el clasificador Bernoulli Naive Bayes
clf = BernoulliNB()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# Evaluamos el rendimiento del BernoulliNB
accuracy= accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print("\nBernoulliNB Accuracy:", accuracy)
print("BernoulliNB Report:\n", report)



BernoulliNB Accuracy: 0.9062801932367149
BernoulliNB Report:
               precision    recall  f1-score   support

           0       0.93      0.94      0.94       751
           1       0.85      0.81      0.83       284

    accuracy                           0.91      1035
   macro avg       0.89      0.88      0.88      1035
weighted avg       0.91      0.91      0.91      1035



In [69]:
#MultinomialNB

# Entrenamos el clasificador Bernoulli Naive Bayes
clf_m = MultinomialNB()
clf_m.fit(X_train, y_train)
y_pred = clf_m.predict(X_test)

# Evaluamos el rendimiento del BernoulliNB
accuracy= accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
print("\nMultinomialNB Accuracy:", accuracy)
print("MultinomialNB Report:\n", report)



MultinomialNB Accuracy: 0.9458937198067633
MultinomialNB Report:
               precision    recall  f1-score   support

           0       0.98      0.95      0.96       751
           1       0.87      0.94      0.91       284

    accuracy                           0.95      1035
   macro avg       0.92      0.95      0.93      1035
weighted avg       0.95      0.95      0.95      1035



**Discute el desempeño de los diferentes clasificadores**

Notamos un mejor desempeño en la exactitud del modelo multinomial con 94.59% vs el gasiano con  90.63% 

Algo interesante a notar es que en ambos modelos los falsos positvos, es decir, la presición fue muy parecida, lo cual nos dice que varios correos que no eran spam fueron marcados como tal, lo cual es lo más idoneo.

Una solucion a esto podria ser cambiar el punto de corte, sin embargo esto afectaria el recall.

**Reporta el porcentaje de predicciones correctas en el subconjunto de prueba para el clasificador
con mejor rendimiento en el subconjunto de validación.**

In [70]:
y_pred = clf_m.predict(X_val)

# Evaluamos el rendimiento del BernoulliNB
accuracy= accuracy_score(y_val, y_pred)
report = classification_report(y_val, y_pred)
print("\nMultinomialNB Accuracy:", accuracy)
print("MultinomialNB Report:\n", report)


MultinomialNB Accuracy: 0.9497098646034816
MultinomialNB Report:
               precision    recall  f1-score   support

           0       0.98      0.95      0.96       732
           1       0.89      0.95      0.92       302

    accuracy                           0.95      1034
   macro avg       0.93      0.95      0.94      1034
weighted avg       0.95      0.95      0.95      1034



Al replicar sobre el conjunto de validación volvemos a tener un desempeño sobresaliente en exactitud 94.97% lo que sugiere que el clasificador es robusto para el problema que tenemos.