In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import classification_report


In [None]:
df = pd.read_csv('./datasets/spam_ham_dataset.csv')
df.head()

# Classificação

In [None]:
# 1. Retirar dados do dataframe
textos = list(df['text'])
labels = list(df['label'])

# 2. Vetorizar
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(textos)

In [None]:
# 3. Divisão entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, random_state=37)

In [None]:
# 4. Treinamento e teste do modelo
model = BernoulliNB()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

## Abrindo o modelo

In [None]:
# (a) Qual é o conteúdo de "vectorizer.vocabulary_"?
vocab = vectorizer.vocabulary_
#print(vocab)

In [None]:
# Probabilidades
palavras_ham = []
palavras_spam = []
for t in vocab.keys():
    prob_ham = model.feature_log_prob_[0, vocab[t]]
    palavras_ham.append( (prob_ham, t) )
    prob_spam = model.feature_log_prob_[1, vocab[t]]
    palavras_spam.append( (prob_spam, t) )


In [None]:
# Plot das probabilidades
# Mostrando num gráfico
tuplas_ordenadas = sorted(palavras_ham, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 15
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()

In [None]:
# Plot das probabilidades
# Mostrando num gráfico
tuplas_ordenadas = sorted(palavras_spam, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 15
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()