# NLP com Naive Bayes

Apesar de ter algumas formas mais automáticas de fazer o que implementaremos a seguir, o objetivo de fazer tudo na 'unha', é justamente aprender como as coisas funcionam na representação de texto. Em seguida, para classificar, usaremos os recursos do Scikit-Learn.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('spam.csv', encoding='latin-1')
df = df.rename(columns={"v2" : "text", "v1":"label"})

print(df.shape)

(5572, 5)


In [2]:
df

Unnamed: 0,label,text,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,
...,...,...,...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...,,,
5568,ham,Will Ì_ b going to esplanade fr home?,,,
5569,ham,"Pity, * was in mood for that. So...any other s...",,,
5570,ham,The guy did some bitching but I acted like i'd...,,,


In [3]:
# vamos pegar as primeiras linhas

textos = list(df['text'][:5])
for t in textos:
    print(t)

Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...
Ok lar... Joking wif u oni...
Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
U dun say so early hor... U c already then say...
Nah I don't think he goes to usf, he lives around here though


In [4]:
# vamos quebrar a primeira linha em palavras

print(textos[0].split())

['Go', 'until', 'jurong', 'point,', 'crazy..', 'Available', 'only', 'in', 'bugis', 'n', 'great', 'world', 'la', 'e', 'buffet...', 'Cine', 'there', 'got', 'amore', 'wat...']


## Bag-of-words

In [5]:
# agora, vamos pegar todas as palavras das cinco amostras e criar um vocabulário, evitando as repetições
vocabulario = []
for t in textos:
    palavras = t.lower().replace('.','').split()
    for p in palavras:
        if p not in vocabulario:
            vocabulario.append(p)
            
print(vocabulario)

['go', 'until', 'jurong', 'point,', 'crazy', 'available', 'only', 'in', 'bugis', 'n', 'great', 'world', 'la', 'e', 'buffet', 'cine', 'there', 'got', 'amore', 'wat', 'ok', 'lar', 'joking', 'wif', 'u', 'oni', 'free', 'entry', '2', 'a', 'wkly', 'comp', 'to', 'win', 'fa', 'cup', 'final', 'tkts', '21st', 'may', '2005', 'text', '87121', 'receive', 'question(std', 'txt', "rate)t&c's", 'apply', "08452810075over18's", 'dun', 'say', 'so', 'early', 'hor', 'c', 'already', 'then', 'nah', 'i', "don't", 'think', 'he', 'goes', 'usf,', 'lives', 'around', 'here', 'though']


In [6]:
# vamos verificar o tamanho do vocabulario

print(len(vocabulario))

68


In [7]:
# agora é necessário representar cada frase usando o vocabulário

textos = list(df['text'])
amostras = []
for t in textos:
    amostra = []
    for p in vocabulario:
        if p in t.lower().replace('.','').split():
            amostra.append(1)
        else:
            amostra.append(0)
            
    amostras.append(amostra)
    
amostras = np.array(amostras)

In [8]:
#amostras[0]
print(textos[0])
for p, a in zip(vocabulario, amostras[0]):
    print(p, a)

Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...
go 1
until 1
jurong 1
point, 1
crazy 1
available 1
only 1
in 1
bugis 1
n 1
great 1
world 1
la 1
e 1
buffet 1
cine 1
there 1
got 1
amore 1
wat 1
ok 0
lar 0
joking 0
wif 0
u 0
oni 0
free 0
entry 0
2 0
a 0
wkly 0
comp 0
to 0
win 0
fa 0
cup 0
final 0
tkts 0
21st 0
may 0
2005 0
text 0
87121 0
receive 0
question(std 0
txt 0
rate)t&c's 0
apply 0
08452810075over18's 0
dun 0
say 0
so 0
early 0
hor 0
c 0
already 0
then 0
nah 0
i 0
don't 0
think 0
he 0
goes 0
usf, 0
lives 0
around 0
here 0
though 0


## Separação de dados e treinamento

In [9]:
# vamos separar os dados em 33% pra teste e com semente aleatória fixa em 42

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(amostras, df['label'], test_size=0.33, random_state=42)

In [10]:
# temos 3 modelos, vamos avaliar diferentes cenários e observar os resultados

from sklearn.naive_bayes import BernoulliNB, ComplementNB, MultinomialNB
from sklearn.metrics import accuracy_score

model = BernoulliNB()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print(accuracy_score(y_test, y_pred))

0.9157150625339858


In [25]:
# vamos explorar o que o modelo armazenou de informação

print(model.classes_)
prob = model.feature_log_prob_

for idx, p in enumerate(vocabulario):
    print(p,'\t\t',prob[0][idx],prob[1][idx])

['ham' 'spam']
go 		 -3.039903491867129 -3.164067588373206
until 		 -5.5183792513248395 -5.109977737428519
jurong 		 -7.39018142822643 -6.208590026096629
point, 		 -7.39018142822643 -6.208590026096629
crazy 		 -6.00388706710654 -5.109977737428519
available 		 -6.00388706710654 -5.109977737428519
only 		 -3.6888794541139367 -2.296567020668483
in 		 -1.884849892294068 -2.4019275363263093
bugis 		 -6.137418459731062 -6.208590026096629
n 		 -3.8206487317450604 -3.906004933102583
great 		 -4.233181007076317 -4.01136544876041
world 		 -5.138889629619936 -5.5154428455366835
la 		 -6.697034247666485 -6.208590026096629
e 		 -4.299138974868114 -4.822295664976738
buffet 		 -6.984716320118266 -6.208590026096629
cine 		 -6.291569139558321 -6.208590026096629
there 		 -3.458355795502105 -4.129148484416794
got 		 -3.141686186177072 -4.2626798770413155
amore 		 -7.39018142822643 -6.208590026096629
wat 		 -4.212127597878485 -5.5154428455366835
ok 		 -3.0463760063727463 -4.599152113662528
lar 		 -4.71603

In [14]:
# como testar com uma amostra nova

amostra_nova = 'Ok lar... Joking wif u oni...'
amostra = []
for p in vocabulario:
    if p in amostra_nova.lower().replace('.','').split():
        amostra.append(1)
    else:
        amostra.append(0)
            
print(amostra)

print(model.predict([amostra]))
print(model.predict_proba([amostra]))

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
['ham']
[[0.99815635 0.00184365]]


## Exercício

Aumente a quantidade de amostras utilizadas para montar o vocabulário e avalie se o resultado melhora ou piora. Crie uma tabela comparativa com os 3 métodos (colunas) de Naive Bayes do Scikit-Learn e avalie diferentes tamanhos de vocabulário (linhas). Faça isso em um arquivo a parte, com seu nome no cabeçalho do documento, o código necessário do experimento e, ao final, a tabela contend os resultados, e sua conclusão.