# Lendo dados da internet e manipulando os mesmos

In [3]:
import pandas as pd

In [4]:
# Importando os dados
github = 'https://gist.githubusercontent.com/guilhermesilveira/'
recurso = '2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(f'{github}{recurso}')
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [13]:
# Mudando os nomes das colunas
mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}

dados.rename(columns=mapa, inplace=True)
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [14]:
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

In [16]:
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [17]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

In [18]:
# Separando dados de treino e dados de teste
dados.shape

(99, 4)

In [30]:
# Dados de treino
treino_x = x[0:75]
treino_y = y[0:75]

# Dados de teste
teste_x = x[75:]
teste_y = y[75:]

print(f'Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]} elementos')

Treinaremos com 75 elementos e testaremos com 24 elementos


In [34]:
# Treino
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

# Teste
previsoes = modelo.predict(teste_x)
taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100

print(f'Taxa de acerto: {taxa_de_acerto:.2f}%')

Taxa de acerto: 95.83%


# Estratificando splits

## Documentação
### https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [56]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Garante a mesma separação do treino e do teste todas as vezes que o código é executado
SEED = 20

# Dados de treino e dados de teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, test_size=0.25)

print(f'Treinaremos com {treino_x.shape[0]} elementos e testaremos com {teste_x.shape[0]} elementos')

Treinaremos com 74 elementos e testaremos com 25 elementos


In [57]:
# Treino
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

# Teste
previsoes = modelo.predict(teste_x)
taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100

print(f'Taxa de acerto: {taxa_de_acerto:.2f}%')

Taxa de acerto: 96.00%


In [58]:
# Comparação entre os valores do teste e do treino
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

In [59]:
teste_y.value_counts()

0    19
1     6
Name: comprou, dtype: int64

In [61]:
# Estratificando de acordo com y
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Garante a mesma separação do treino e do teste todas as vezes que o código é executado
SEED = 20

# Dados de treino e dados de teste
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=SEED, stratify=y, test_size=0.25)

# Treino
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

# Teste
previsoes = modelo.predict(teste_x)
taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100

print(f'Taxa de acerto: {taxa_de_acerto:.2f}%')

Taxa de acerto: 96.00%


In [62]:
# Proporção ajustada
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [63]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64