In [1]:
import pandas as pd

url = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'

data = pd.read_csv(url)

In [2]:
data

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0
...,...,...,...,...
94,0,0,1,0
95,1,1,1,1
96,0,0,1,0
97,0,1,0,0


In [5]:
# Renomear o nome das colunas

mapa = {
    'home' : 'principal',
    'how_it_works' : 'como_funciona',
    'contact' : 'contato',
    'bought' : 'comprou'
}

data = data.rename(columns=mapa) 

In [6]:
# separando as feauth das repostas

x = data[['principal', 'como_funciona', 'contato']]
y = data['comprou']

In [7]:
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [8]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

In [9]:
# separar treinos e testes baseados em dados
data.shape

(99, 4)

In [11]:
# separando 75% para treino e 25% para testes

treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

In [20]:
# Treinando o modelo
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model = LinearSVC()
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100

print('A acurácia foi de %.2f%%' % (acuracia))

A acurácia foi de 95.83%


In [24]:
# Fazendo separação do treino e este com o sklearn
from sklearn.model_selection import train_test_split

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
print(treino_x.shape)
print(treino_y.shape)

(74, 3)
(74,)


In [32]:
# Fazendo separação do treino e este com o sklearn
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
print("Treino com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print('A acurácia é %2.f%%' % (acuracia))

Treino com 74 elementos e testaremos com 25 elementos.
A acurácia é 100%


# Fixando com um SEED o random do test_split

In [34]:
# Fazendo separação do treino e este com o sklearn
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state= SEED , test_size = 0.25)
print("Treino com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print('A acurácia é %2.f%%' % (acuracia))

Treino com 74 elementos e testaremos com 25 elementos.
A acurácia é 96%


In [46]:
# qual a proporção de quem compra para a tabela de teste e de treino?

print('A taxa de quem compra na tabela de treino é %f' %((treino_y.value_counts()[1]/treino_y.shape[0])))

print('A taxa de quem compra na tabela de teste é %f' %((teste_y.value_counts()[1]/teste_y.shape[0])))

A taxa de quem compra na tabela de treino é 0.364865
A taxa de quem compra na tabela de teste é 0.240000


In [47]:
# Fazendo separação do treino e este com o sklearn
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state= SEED, stratify = y, test_size = 0.25)
print("Treino com %d elementos e testaremos com %d elementos." % (len(treino_x), len(teste_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print('A acurácia é %2.f%%' % (acuracia))

Treino com 74 elementos e testaremos com 25 elementos.
A acurácia é 96%


In [49]:
# qual a proporção de quem compra para a tabela de teste e de treino?

print('A taxa de quem compra na tabela de treino é %f' %((treino_y.value_counts()[1]/treino_y.shape[0])))

print('A taxa de quem compra na tabela de teste é %f' %((teste_y.value_counts()[1]/teste_y.shape[0])))

# agora sim temos uma taxa respetiada

A taxa de quem compra na tabela de treino é 0.337838
A taxa de quem compra na tabela de teste é 0.320000
