    Cada item da tabela representa um usuário que acessou um site. O site possui 4 páginas diferentes, a pagina inicial (home), a pagina de como ele funciona (how_it_works), a pagina de contato (contact) e a quarta coluna que indica se a pessoa comprou ou não um produto (bought).

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('data/tracking.csv')
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


    Vamos renomear as colunas para deixa-las em português.

In [3]:
mapa = {
    "home":'principal',
    "how_it_works" : "como_funciona",
    "contact":"contato",
    "bought":"comprou"
}
dados.rename(columns = mapa, inplace = True)

    Vamos separar as 3 primeiras colunas (que são o "x", as features), da coluna "comprou" que é o "y".

In [4]:
x = dados[['principal','como_funciona', 'contato']]
y = dados['comprou']

    Se eu treinar com todos os valores, não tenho com quem testar. É preciso então, separar os dados de treino e de teste para não enviesar os resultados.
    
    Vamos verificar quantas linhas temos, separar 25% para testar e treinar nos outros 75%.
    
        Dentro do sklearn existe um módulo para separar os valores de treino e de teste.

In [27]:
from sklearn.model_selection import train_test_split

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state = SEED,
                                                        stratify = y,
                                                        test_size = 0.25)

print(f'Treinaremos com {len(treino_x)} e testaremos com {len(teste_x)} elementos')

Treinaremos com 74 e testaremos com 25 elementos


    Se rodarmos várias vezes o teste, veremos que ele apresentará acurácias diferentes. Isso acontece por que o algoritmo faz a separação aleatória e cada vez que roda dá um resultado diferente, então, como fazer para que seja replicável e tenha sempre o mesmo resultado?
    
    Vamos definir um número inicial (SEED) para definir a ordem dos números aleatórios (que deixam de ser tão aleatórios). Garantimos assim que tiramos a aleatoriedade do treino e do teste.

In [31]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model = LinearSVC()
model.fit(treino_x, treino_y)

previsoes = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100

print('Acurácia de %.2f%%' % acuracia)

Acurácia de 96.00%


    Vamos verificar como está o treino_y e teste_y. Utilizando o ".value_counts()" é possível observar que: tivemos no treino 47 que não compraram e 27 que compararam. E no teste, tivemos 19 que não compraram e 6 que compraram.
    
    Não está proporcional essa separação, de acordo com as classes. E isso é bem arriscado, imagine treinar apenas com pessoas que não compraram? O algoritmo vai chutar sempre que as pessoas não compram.
    
    Por isso é importante seguir uma proporção equivalente. Para corrigir isso, precisamos colocar mais um argumento na separação, utilizando o "stratify = y", para que ele faça a separação proporcionalmente ao y.

In [32]:
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

In [33]:
teste_y.value_counts()

0    19
1     6
Name: comprou, dtype: int64