In [1]:
import pandas as pd 

uri = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(uri)

mapa = {
    "home":"principal",
    "how_it_works" : "como_funciona", 
    "contact": "contato",
    "bought" : "comprado"
}

dados = dados.rename(columns = mapa)

x = dados[["principal", "como_funciona", "contato"]]
y = dados["comprado"]

dados


Unnamed: 0,principal,como_funciona,contato,comprado
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0
...,...,...,...,...
94,0,0,1,0
95,1,1,1,1
96,0,0,1,0
97,0,1,0,0


In [4]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

SEED = 20
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)

print("Treinaremos com %d elementos e testaremos com %d elementos" %(len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100 
print ("A acurácia foi de %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi de 96.00%


# Vamos olhar agora quantas pessoas compraram e não compraram, tanto no treino quanto no teste. 

In [5]:
#No treino
#---------------------------------------------------
print (treino_y.value_counts()) #49 não compraram, #25 compraram. Relação: 47/27 = 1.74

#No teste
#---------------------------------------------------
print (teste_y.value_counts()) #17 não compararam, 8 compraram. Relação: 19/6 = 3.16

#Não há proporcionalidade entre os dados de treinamento e teste. Isso é algo perigoso para o modelo,
#pois ele ficará "acostumado" a identificar somente uma das classes. 



0    47
1    27
Name: comprado, dtype: int64
0    19
1     6
Name: comprado, dtype: int64


In [7]:
#Para sanar esse problema usaremos o parâmetro de estratificação na divisão treino/teste.

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25, stratify = y)

print("Treinaremos com %d elementos e testaremos com %d elementos" %(len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100 
print ("A acurácia foi de %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi de 96.00%


In [8]:
#Agora temos:

#No treino
#---------------------------------------------------
print (treino_y.value_counts()) #49 não compraram, #25 compraram. Relação: 49/25 = 1.96

#No teste
#---------------------------------------------------
print (teste_y.value_counts()) #17 não compararam, 8 compraram. Relação: 17/8 = 2.12

0    49
1    25
Name: comprado, dtype: int64
0    17
1     8
Name: comprado, dtype: int64
