# Comparando classificadores 

In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import classification_report

In [None]:
df = pd.read_csv('./spam_ham_dataset.csv')
df.head()

In [None]:
textos = list(df['text'])
labels = list(df['label'])
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(textos)
X_train, X_test, y_train, y_test = train_test_split(X, labels)

In [None]:
model_nb = BernoulliNB()
model_nb.fit(X_train, y_train)
y_pred = model_nb.predict(X_test)
print(classification_report(y_test, y_pred))

In [None]:
model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
y_pred = model_lr.predict(X_test)
print(classification_report(y_test, y_pred))
print(model_lr.classes_)

In [None]:
vocab = vectorizer.vocabulary_
palavras_ham = []
palavras_spam = []
for t in vocab.keys():
    coef = model_lr.coef_[0, vocab[t]]
    if coef>=0:
        palavras_ham.append( (coef, t) )
    else:
        palavras_spam.append( (-coef, t) )


In [None]:
tuplas_ordenadas = sorted(palavras_ham, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 30
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()

In [None]:
tuplas_ordenadas = sorted(palavras_spam, reverse=True) # reverse=True pede uma ordenação em ordem decrescente
palavras = [ t[1] for t in tuplas_ordenadas ]
contagens = [ t[0] for t in tuplas_ordenadas ]

n_palavras = 30
eixo_x = np.arange(n_palavras)
plt.figure(figsize=(14,3))
plt.bar(eixo_x[0:n_palavras], contagens[0:n_palavras])
plt.xticks(eixo_x[0:n_palavras], palavras[0:n_palavras], rotation=90)
plt.show()