In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import chi2, SelectKBest

In [2]:
# E este arquivo é um conjunto de dados com 155 atributos
# incluem informações como categoria do produto, o tipo de anúncio, seu anúncio de texto, anúncio,
# imagem, o tamanho do anúncio, a cor de fundo, a fonte, o local na página que o anúncio foi publicado, entre outras informações.
# Então são 155 características do anúncio e o objetivo é prever se o anúncio vai ser clicado ou não pelo usuário do site.
anuncio = pd.read_csv('ad.data', header=None)
anuncio.shape

(3279, 1559)

In [3]:
X = anuncio.iloc[:,:-1].values #todas as linhas menos a ultima coluna
y = anuncio.iloc[:,-1].values
print(X) # As colunas 0 1 são valores logicos/ booleans
print(y) # ad -> clica no anuncio, nonad -> não clica no anuncio

[[125.     125.       1.     ...   0.       0.       0.    ]
 [ 57.     468.       8.2105 ...   0.       0.       0.    ]
 [ 33.     230.       6.9696 ...   0.       0.       0.    ]
 ...
 [ 23.     120.       5.2173 ...   0.       0.       0.    ]
 [  0.       0.       0.     ...   0.       0.       0.    ]
 [ 40.      40.       1.     ...   0.       0.       0.    ]]
['ad.' 'ad.' 'ad.' ... 'nonad.' 'nonad.' 'nonad.']


In [4]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X,y, test_size = 0.3, random_state=0)

In [None]:
modelo1 = GaussianNB()
modelo1.fit(X_treinamento,y_treinamento)
previsoes1 = modelo1.predict(X_teste)
# comparando o que de fato aconteceu com o que eu previ para o mesmo conjunto de dados, para as mesmas linhas
# por isso que eu consigo medir a performance.
print(accuracy_score(y_teste,previsoes1))

0.7764227642276422


In [7]:
selecao = SelectKBest(chi2,k=7) # Vamos selecionar os mlehores atributos
X_novo = selecao.fit_transform(X,y)
print("> X_novo: ", X_novo)
print("> X_novo.shape: ", X_novo.shape)
print(selecao.get_support())

> X_novo:  [[125.     125.       1.     ...   1.       0.       1.    ]
 [ 57.     468.       8.2105 ...   1.       0.       0.    ]
 [ 33.     230.       6.9696 ...   0.       0.       0.    ]
 ...
 [ 23.     120.       5.2173 ...   0.       0.       0.    ]
 [  0.       0.       0.     ...   0.       0.       0.    ]
 [ 40.      40.       1.     ...   0.       0.       0.    ]]
> X_novo.shape:  (3279, 7)
[ True  True  True ... False False False]


In [8]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X_novo,y, test_size = 0.3, random_state=0)

In [9]:
modelo2 = GaussianNB()
modelo2.fit(X_treinamento,y_treinamento)
previsoes2 = modelo2.predict(X_teste)
print(accuracy_score(y_teste,previsoes2))

0.9451219512195121
