In [1]:
import warnings
warnings.filterwarnings('ignore')

#
# Importando os dados e imprimindo a 'head'

In [2]:
import pandas as pd

uri= 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados= pd.read_csv(uri)

In [3]:
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


#
# Traduzindo as features dos dados

In [4]:
mapa= {
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}
dados.rename(columns = mapa, inplace= True)

dados

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0
...,...,...,...,...
94,0,0,1,0
95,1,1,1,1
96,0,0,1,0
97,0,1,0,0


#
# Separando os dados entre x e y
#### x -> dados com as features
#### y -> dados com as classes (labels)

In [5]:
x= dados.iloc[:, :3]
display(x)

y= dados.iloc[:, 3:]
y

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0
...,...,...,...
94,0,0,1
95,1,1,1
96,0,0,1
97,0,1,0


Unnamed: 0,comprou
0,0
1,0
2,0
3,0
4,0
...,...
94,0
95,1
96,0
97,0


#
# Separando as features para teste e treino
#### Agora que temos x e y separados, devemos nos questionar: devemos treinar os algorítimos com todos os dados? Se fizermos isso, não teremos o que testar, pois dessa forma a máquina já terá as respostas corretas previamente, e ira apenas memorizar as respostas e sendo incapaz de prever dados fora desse conjunto. De alguma maneira, precisamos sempre separar os dados de treino e os de teste para não enviesarmos os resultados produzidos.

In [6]:
dados.shape

(99, 4)

In [7]:
# Veremos que em nosso arquivo há 99 linhas e 4 colunas. Separaremos em média 25% para testar o algorítimo, e o restante 
# (cerca de 75% dos dados) para o treinamento, para podermos treinar na maior parte dos dados.

train_x= x[:75]
test_x= x[75:]

train_y= y[:75]
test_y= y[75:]

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(train_x), len(test_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


In [8]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model= LinearSVC()
model.fit(train_x, train_y)

In [9]:
previsoes= model.predict(test_x)
taxa_acerto= accuracy_score(test_y, previsoes)

print("A acurácia foi de %.2f%%" % (taxa_acerto*100))

A acurácia foi de 95.83%


#### Usando a biblioteca do sklearn para separar treino e teste

In [10]:
from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y= train_test_split(x, y, test_size= 0.25)

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(train_x), len(test_x)))

Treinaremos com 74 elementos e testaremos com 25 elementos


In [11]:
train_x, test_x, train_y, test_y= train_test_split(x, y, test_size= 0.25)
model= LinearSVC()
model.fit(train_x, train_y)
previsoes= model.predict(test_x)
taxa_acerto= accuracy_score(test_y, previsoes)

print("A acurácia foi de %.2f%%" % (taxa_acerto*100))

A acurácia foi de 96.00%


#### Ao realizar uma verificao do codigo, nos deparamos com resultados variáveis, como 96%, 92%, 100%, etc. Isso ocorre porque o algorítimo train_test_split, por padrão, realiza aleatoriamente a separação de dados de treino e teste. Desse modo, todas as vezes que ele é executado podemos ter um resultado diferente. Precisaremos definir um número inicial para os algorítimos de geração de números aleatórios, conhecido como SEED e o utilizaremos atraves do parametro 'random_state'

In [12]:
seed= 20
train_x, test_x, train_y, test_y= train_test_split(x, y, test_size= 0.25, random_state= seed)
model= LinearSVC()
model.fit(train_x, train_y)
previsoes= model.predict(test_x)
taxa_acerto= accuracy_score(test_y, previsoes)

print("A acurácia foi de %.2f%%" % (taxa_acerto*100))

A acurácia foi de 96.00%


In [13]:
train_y.value_counts()

# Proporcao de quase 2 pessoas que nao compram para 1 que compra, ou seja, 2 para 1 no treino

comprou
0          47
1          27
Name: count, dtype: int64

In [14]:
test_y.value_counts()

# Proporcao de quase 3 pessoas que nao compram para 1 que compra, ou seja, 3 para 1 no teste

comprou
0          19
1           6
Name: count, dtype: int64

#### A proporcao entre treino e teste esta desproporcional, entao usaremos o parametro 'stratify' para estratificar, separar proporcionalmente, de acordo com o y

In [25]:
train_x, test_x, train_y, test_y= train_test_split(x, y, test_size= 0.25, random_state= 20, stratify= y)
model= LinearSVC()
model.fit(train_x, train_y)
previsoes= model.predict(test_x)
taxa_acerto= accuracy_score(test_y, previsoes)

print("A acurácia foi de %.2f%%" % (taxa_acerto*100))

A acurácia foi de 96.00%


In [22]:
train_y.value_counts()

comprou
0          49
1          25
Name: count, dtype: int64

In [17]:
test_y.value_counts()

comprou
0          17
1           8
Name: count, dtype: int64