In [1]:
import pandas as pd
dados = pd.read_csv('data/tracking.csv')

In [2]:
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [3]:
# Renomeando colunas do dataset
mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}
dados = dados.rename(columns = mapa)
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [4]:
# Separando as features para serem treinadas
x = dados[['principal', 'como_funciona', 'contato']]
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [5]:
# Separando os dados que devemos prever
y = dados[['comprou']]
y.head()

Unnamed: 0,comprou
0,0
1,0
2,0
3,0
4,0


In [6]:
# Tamanho da amostra
dados.shape

(99, 4)

In [7]:
# Vamos pegar os primeiro 75 % dos elementos pra treinar e 25% para testar
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print("Treinaremos com {} elementos e testaremos com {} elementos".format(len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


In [8]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acuracia foi: ", round(acuracia,2), '%')

A acuracia foi:  95.83 %


  y = column_or_1d(y, warn=True)


In [9]:
# Para simplificar treino/teste
from sklearn.model_selection import train_test_split

# O seed serve para termos sempre o mesmo resultado (tirar aleatoriedade)
seed = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x,y, test_size = 0.25, random_state = seed)

print("Treinaremos com {} elementos e testaremos com {} elementos".format(len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acuracia foi: ", round(acuracia,2), '%')

Treinaremos com 74 elementos e testaremos com 25 elementos
A acuracia foi:  96.0 %


  y = column_or_1d(y, warn=True)


In [10]:
# Proporção de treino é de 1.8 pessoas que não compram para 1 que compram
treino_y.value_counts()

comprou
0          47
1          27
dtype: int64

In [11]:
# Proporção de teste 3.1 pessoas que não compra para 1 que compram
teste_y.value_counts()

comprou
0          19
1           6
dtype: int64

In [12]:
# A proporção não está de acordo (Isso é um risco), proporção deve ser equivalente

from sklearn.model_selection import train_test_split

seed = 20

# O stratify mantém essa proporção equivalente (provado abaixo)
treino_x, teste_x, treino_y, teste_y = train_test_split(x,y, test_size = 0.25, random_state = seed, stratify = y)

print("Treinaremos com {} elementos e testaremos com {} elementos".format(len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acuracia foi: ", round(acuracia,2), '%')

Treinaremos com 74 elementos e testaremos com 25 elementos
A acuracia foi:  96.0 %


  y = column_or_1d(y, warn=True)


In [13]:
# Proporção 1.96 não compra para 1 que compra
treino_y.value_counts()

comprou
0          49
1          25
dtype: int64

In [14]:
# Proporção 2.125 não compram para 1 que compra
teste_y.value_counts()

comprou
0          17
1           8
dtype: int64