In [3]:
import pandas as pd

uri = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'

dado = pd.read_csv(uri)
dado

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0
...,...,...,...,...
94,0,0,1,0
95,1,1,1,1
96,0,0,1,0
97,0,1,0,0


In [8]:
# Separando as fetures do resultado
x = dado[['home', 'how_it_works', 'contact']]
y = dado['bought']

In [9]:
dado.shape

(99, 4)

In [16]:
# Separando o teste do treino é utilizada a maior quantidade de dados para treinar a inteligência 
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print('Utilizando %d para treino em x e y e %d para teste.' % (len(treino_x), len(teste_x)))

Utilizando 75 para treino em x e y e 24 para teste.


In [17]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model = LinearSVC()
model.fit(treino_x, treino_y)


LinearSVC()

In [18]:
previsoes = model.predict(teste_x)
resultado = accuracy_score(teste_y, previsoes) * 100
print('Acuracia = %.2f%%' % (resultado))

Acuracia = 95.83%


### Usando o train_test_split()

- A função faz a separação aleatoriamente do amostragem de treino e teste, o que resulta em um acuracia variável

In [22]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# A solução SEED determina será criado para restringir a aleatóriedade para tornar o experimento mais replicavel
SEED = 20

treino_x, test_x, treino_y, test_y = train_test_split(x, y, random_state=SEED, test_size=0.25)
print('Utilizando %d para treino em x e y e %d para teste.' % (len(treino_x), len(test_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(test_x)
resultado = accuracy_score(test_y, previsoes) * 100
print('Acuracia = %.2f%%' % (resultado))

Utilizando 74 para treino em x e y e 25 para teste.
Acuracia = 100.00%


### Problema: Proporcionalidade entre amostra de treino e amostra de teste

In [24]:
treino_y.value_counts()

0    48
1    26
Name: bought, dtype: int64

In [26]:
test_y.value_counts()

0    18
1     7
Name: bought, dtype: int64

### Conclusão

A proporção na amostragem de treino é 1,846.. entre 0 (Não compra) e 1 (Compra), de cada ~3 usuários apenas 1 comprou, enquanto a proporção no teste é de 2,571. 

    - Risco: A falta de proporcionalidade pode ensinar um resultado tendêncioso para a máquina que pode acabar aprendendo em seu treino que apenas um resultado é possível. Solucionamos esse problema com o stratify

In [34]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# A solução SEED determina será criado para restringir a aleatóriedade para tornar o experimento mais replicavel
SEED = 20

treino_x, test_x, treino_y, test_y = train_test_split(
    x, y, 
    random_state=SEED, 
    test_size=0.25,
    stratify=y) #
print('Utilizando %d para treino em x e y e %d para teste.' % (len(treino_x), len(test_x)))

model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(test_x)
resultado = accuracy_score(test_y, previsoes) * 100
print('Acuracia = %.2f%%' % (resultado))

Utilizando 74 para treino em x e y e 25 para teste.
Acuracia = 96.00%


In [35]:
# 49 / 25 = 1,96
treino_y.value_counts()

0    49
1    25
Name: bought, dtype: int64

In [36]:
# 17 / 8 = 2,125
test_y.value_counts()

0    17
1     8
Name: bought, dtype: int64