# Projeto 2 - Compra ou não compra?

### Obtendo os dados

In [1]:
# Abrindo fonte de dados
import pandas as pd

url = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(url)

dados.head(5)

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
# Renomeando colunas para PT-BR

# Criando dic para alteração dos nomes
mapa = {
    'home': 'inicio',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}
# Utilizando função Rename para alteração
dados.rename(columns = mapa, inplace=True)

# Visualizando 
dados.head(5)

Unnamed: 0,inicio,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


### Divindo dados em Treino/Teste

In [3]:
# Divindo o dataframe em X e y (labels)
X = dados[['inicio', 'como_funciona', 'contato']]
y = dados['comprou']

In [4]:
# Divindo em treino e teste

# Treino
treino_x = X[:75]
treino_y = y[:75]

# Teste
teste_x = X[75:]
teste_y = y[75:]

### Utilizando o SKLearn

In [5]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

In [6]:
# criando modelo
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC()

In [7]:
# criando as previsoes
previsoes = modelo.predict(teste_x)

In [8]:
# testando o modelo
accuracy = accuracy_score(teste_y, previsoes)*100

print(f'A acurácia foi {accuracy:.2f}%')

A acurácia foi 95.83%


### Separando Treino/Teste com SKLearn

In [27]:
from sklearn.model_selection import train_test_split

In [28]:
treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, test_size= 0.25, random_state= 20 )

In [29]:
# criando modelo
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC()

In [30]:
# criando as previsoes
previsoes = modelo.predict(teste_x)

In [31]:
# testando o modelo
accuracy = accuracy_score(teste_y, previsoes)*100

print(f'A acurácia foi {accuracy:.2f}%')

A acurácia foi 96.00%


In [32]:
# proporção de comprou para não comrpou no treino
treino_y.value_counts()[0]/treino_y.value_counts()[1]

1.7407407407407407

In [33]:
# proporção de comprou para não comrpou no teste
teste_y.value_counts()[0]/teste_y.value_counts()[1]

3.1666666666666665

A proporção de 0 e 1 no teste e treino estão diferentes, o que pode ser arriscado na criação de um modelo devido a possibilidade deste não identificar os compradores (1). Para evitar isso, utiliza-se a separação stratificada do SKLearn.

## Separação stratificada do SKLearn

In [39]:
from sklearn.model_selection import train_test_split

# adicionando o parametro "stratify"
treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, test_size= 0.25, random_state= 20, stratify= y)

# criando modelo
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

# criando as previsoes
previsoes = modelo.predict(teste_x)

# testando o modelo
accuracy = accuracy_score(teste_y, previsoes)*100

print(f'A acurácia foi {accuracy:.2f}%')

A acurácia foi 96.00%


In [35]:
# proporção de comprou para não comrpou no treino utilizando a separação stratificada
treino_y.value_counts()[0]/treino_y.value_counts()[1]

1.96

In [37]:
# proporção de comprou para não comrpou no teste utilizando a separação stratificada
teste_y.value_counts()[0]/teste_y.value_counts()[1]

2.125