# Curso de aprendizaje automatizado
PCIC, UNAM

Machine Learning

Rodrigo S. Cortez Madrigal

<img src="https://pcic.posgrado.unam.mx/wp-content/uploads/Ciencia-e-Ingenieria-de-la-Computacion_color.png" alt="Logo PCIC" width="128" />   

### Tarea 1: Clasificador bayesiano ingenuo

- Reporta el porcentaje de correos que están etiquetados como spam y como no spam en el
conjunto de datos.

- Divide aleatoriamente el conjunto de datos en el 60 % para entrenamiento, el 20 % para validación y el 20 % restante para prueba usando 0 como semilla para tu generador de números aleatorios.

- Entrena 2 clasificadores bayesianos ingenuos con distintas distribuciones.

- Emplea los clasificadores entrenados para predecir spam tanto en los datos de entrenamiento
como en los de validación y reporta el porcentaje de predicciones correctas de cada clasificador.

- Discute el desempeño de los diferentes clasificadores

- Reporta el porcentaje de predicciones correctas en el subconjunto de prueba para el clasificador
con mejor rendimiento en el subconjunto de validación.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score

import plotly.express as px

El archivo spam.csv contiene 2001 valores por cada renglón, de los cuales los primeros 2000
representan el histograma de palabras de un correo y el último corresponde a la clase, esto es, 1 si
es spam y 0 si no lo es.

In [2]:
# Descargar el conjunto de datos
url = "http://turing.iimas.unam.mx/~gibranfp/cursos/aprendizaje_automatizado/data/spam.csv"
data = pd.read_csv(url, header=None, index_col=False, sep=' ')
data.columns=[f'word{i}' for i in range(1, data.shape[1])] + ['class']

In [3]:
data

Unnamed: 0,word1,word2,word3,word4,word5,word6,word7,word8,word9,word10,...,word1992,word1993,word1994,word1995,word1996,word1997,word1998,word1999,word2000,class
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,1
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5167,0,0,0,0,0,0,0,0,4,0,...,0,0,0,0,0,0,0,0,0,0
5168,0,0,0,0,3,4,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5169,0,0,0,0,1,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
5170,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Reporta el porcentaje de correos que están etiquetados como spam y como no spam en el
conjunto de datos.

In [4]:
target = data['class'].value_counts()

fig = px.pie(values=target, title='Distribución de clases', names={0: 'No spam', 1: 'Spam'})
fig.show()

# Notamos que las clases están desbalanceadas


In [5]:
data.head()

Unnamed: 0,word1,word2,word3,word4,word5,word6,word7,word8,word9,word10,...,word1992,word1993,word1994,word1995,word1996,word1997,word1998,word1999,word2000,class
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
1,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,1
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
4,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


Divide aleatoriamente el conjunto de datos en el 60 % para entrenamiento, el 20 % para validación y el 20 % restante para prueba usando 0 como semilla para tu generador de números aleatorios.

In [6]:
# Separar características y etiquetas
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# Dividir el conjunto de datos en entrenamiento (60%) y temporal (40%)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=0)

# Dividir el conjunto temporal en validación (50% de 40% = 20%) y prueba (50% de 40% = 20%)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=0)

### Gaussian Naive Bayes

In [23]:
# Entrenar clasificadores bayesianos ingenuos
gnb = GaussianNB()

gnb.fit(X_train, y_train)

# Predecir y reportar el porcentaje de predicciones correctas en entrenamiento y validación
y_train_pred_gnb = gnb.predict(X_train)
y_val_pred_gnb = gnb.predict(X_val)
y_test_pred_gnb = gnb.predict(X_test)

train_accuracy_gnb = accuracy_score(y_train, y_train_pred_gnb) * 100
val_accuracy_gnb = accuracy_score(y_val, y_val_pred_gnb) * 100
test_accuracy_gnb = accuracy_score(y_test, y_test_pred_gnb) * 100

print(f"GaussianNB - Precisión en entrenamiento: {train_accuracy_gnb:.2f}%")
print(f"GaussianNB - Precisión en validación: {val_accuracy_gnb:.2f}%")
print(f"GaussianNB - Precisión en prueba: {test_accuracy_gnb:.2f}%")

GaussianNB - Precisión en entrenamiento: 93.84%
GaussianNB - Precisión en validación: 93.04%
GaussianNB - Precisión en prueba: 92.46%


### Multinomial Naive Bayes

In [24]:
mnb = MultinomialNB()

mnb.fit(X_train, y_train)

# Predecir y reportar el porcentaje de predicciones correctas en entrenamiento y validación
y_train_pred_mnb = mnb.predict(X_train)
y_val_pred_mnb = mnb.predict(X_val)
y_test_pred_mnb = mnb.predict(X_test)

train_accuracy_mnb = accuracy_score(y_train, y_train_pred_mnb) * 100
val_accuracy_mnb = accuracy_score(y_val, y_val_pred_mnb) * 100
test_accuracy_mnb = accuracy_score(y_test, y_test_pred_mnb) * 100

print(f"MultinomialNB - Precisión en entrenamiento: {train_accuracy_mnb:.2f}%")
print(f"MultinomialNB - Precisión en validación: {val_accuracy_mnb:.2f}%")
print(f"MultinomialNB - Precisión en prueba: {test_accuracy_mnb:.2f}%")

MultinomialNB - Precisión en entrenamiento: 95.49%
MultinomialNB - Precisión en validación: 94.97%
MultinomialNB - Precisión en prueba: 94.59%


### Bernoulli Naive Bayes

In [25]:
bnb = BernoulliNB()

bnb.fit(X_train, y_train)

# Predecir y reportar el porcentaje de predicciones correctas en entrenamiento y validación
y_train_pred_bnb = bnb.predict(X_train)
y_val_pred_bnb = bnb.predict(X_val)
y_test_pred_bnb = bnb.predict(X_test)

train_accuracy_bnb = accuracy_score(y_train, y_train_pred_bnb) * 100
val_accuracy_bnb = accuracy_score(y_val, y_val_pred_bnb) * 100
test_accuracy_bnb = accuracy_score(y_test, y_test_pred_bnb) * 100

print(f"BernoulliNB - Precisión en entrenamiento: {train_accuracy_bnb:.2f}%")
print(f"BernoulliNB - Precisión en validación: {val_accuracy_bnb:.2f}%")
print(f"BernoulliNB - Precisión en prueba: {test_accuracy_bnb:.2f}%")

BernoulliNB - Precisión en entrenamiento: 91.11%
BernoulliNB - Precisión en validación: 91.10%
BernoulliNB - Precisión en prueba: 90.63%


## Comparación de modelos y discusión

In [27]:
# Crear un DataFrame con las precisiones de los modelos
comparison_df = pd.DataFrame({
    'Modelo': ['GaussianNB', 'MultinomialNB', 'BernoulliNB'],
    'Precisión en entrenamiento (%)': [train_accuracy_gnb, train_accuracy_mnb, train_accuracy_bnb],
    'Precisión en validación (%)': [val_accuracy_gnb, val_accuracy_mnb, val_accuracy_bnb],
    'Precisión en prueba (%)': [test_accuracy_gnb, test_accuracy_mnb, test_accuracy_bnb]
})

# Mostrar la tabla de comparación
comparison_df

Unnamed: 0,Modelo,Precisión en entrenamiento (%),Precisión en validación (%),Precisión en prueba (%)
0,GaussianNB,93.844666,93.03675,92.463768
1,MultinomialNB,95.488237,94.970986,94.589372
2,BernoulliNB,91.105382,91.102515,90.628019


En la tabla anterior observamos que el mejor modelo es Multinomial NaiveBayes con un 94.58% de accuracy en el conjunto de prueba.

Dado que el conjunto de datos tiene conteos de palabras, es de esperarse que el modelo Multinomial NaiveBayes sea el mejor, ya que la distribución multinomial es adecuada para frecuencias de palabras.

Por otro lado el modelo Bernoulli NaiveBayes no es adecuado para este conjunto de datos, ya que no considera la frecuencia de las palabras, sino que solo considera si una palabra está presente o no.

In [19]:
from sklearn.metrics import confusion_matrix
import plotly.figure_factory as ff
#import plotly.graph_objects as go

cm_gnb = confusion_matrix(y_val, y_val_pred_gnb)
cm_mnb = confusion_matrix(y_val, y_val_pred_mnb)
cm_bnb = confusion_matrix(y_val, y_val_pred_bnb)

In [20]:
fig_gnb = ff.create_annotated_heatmap(cm_gnb, x=['No spam', 'Spam'], y=['No spam', 'Spam'], colorscale='Viridis')
fig_gnb.update_layout(title='Matriz de confusión - GaussianNB')

Este modelo casi no deja pasar correos SPAM, sin embargo también envía al buzon de SPAM muchos correos que no lo son. 

In [21]:
fig_mnb = ff.create_annotated_heatmap(cm_mnb, x=['No spam', 'Spam'], y=['No spam', 'Spam'], colorscale='Viridis')
fig_mnb.update_layout(title='Matriz de confusión - MultinomialNB')


Adicionalmente el modelo Multinomial es interesante ya que en la matriz de confusión podemos observar que es el que tiene más verdaderos positivos aunque por otro lado es más fácil que deje pasar correos spam, lo cual es peor. 

In [22]:
fig_bnb = ff.create_annotated_heatmap(cm_bnb, x=['No spam', 'Spam'], y=['No spam', 'Spam'], colorscale='Viridis')
fig_bnb.update_layout(title='Matriz de confusión - BernoulliNB')

Este modelo funciona mas o menos como el gaussiano, sin embargo este permite pasar mas correos SPAM e igual manda al buzon de SPAM muchos que no lo son. Por eso es el peor.