In [1]:
import pandas as pd

uri = 'data/tracking.csv'
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}

dados.rename(columns=mapa, inplace=True)
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [3]:
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

### Separando dados de Teste e treino (Utilizando pandas)

In [4]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print(f'Treinaremos com {treino_x.shape[0]} elementos.')
print(f'Testaremos com {teste_x.shape[0]} elementos.')

Treinaremos com 75 elementos.
Testaremos com 24 elementos.


In [5]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)
print(f'A acuracia foi de {(acuracia*100):.2f}%')

A acuracia foi de 95.83%


### Separando dados de Teste e treino (Utilizando sklearn)

In [6]:
from sklearn.model_selection import train_test_split

# Seed de geração dos dados de teste e traino
# Caso não definida o algoritmo tera comportamento diferente a cada execução
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, random_state=SEED)

print(f'Treinaremos com {treino_x.shape[0]} elementos.')
print(f'Testaremos com {teste_x.shape[0]} elementos.')


Treinaremos com 74 elementos.
Testaremos com 25 elementos.


In [7]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)
print(f'A acuracia foi de {(acuracia*100):.2f}%')

A acuracia foi de 96.00%


In [8]:
treino_y.value_counts()
teste_y.value_counts()

comprados_treino, nao_comprados_treino =  treino_y.value_counts()
comprados_teste, nao_comprados_teste =  teste_y.value_counts()

proporcao_comprados_nao_comprados_treino = comprados_treino / nao_comprados_treino
proporcao_comprados_nao_comprados_teste = comprados_teste / nao_comprados_teste

print(f'Comprados treino: {comprados_treino}')
print(f'Não comprados treino: {nao_comprados_treino}')
print(f'Comprados teste: {comprados_teste}')
print(f'Não Comprados teste: {nao_comprados_teste}')
print(f'Proporção Comprados/Não Comprados treino: {proporcao_comprados_nao_comprados_treino:.2f}')
print(f'Proporção Comprados/Não Comprados teste: {proporcao_comprados_nao_comprados_teste:.2f}')

Comprados treino: 47
Não comprados treino: 27
Comprados teste: 19
Não Comprados teste: 6
Proporção Comprados/Não Comprados treino: 1.74
Proporção Comprados/Não Comprados teste: 3.17


### Estratificando os dados
É o processo de separar as informações em coleções menores e mais gerenciáveis ​​para análise.

In [9]:
from sklearn.model_selection import train_test_split

SEED = 20

# stratify = y siginifica que o algoritmo separara os dados de teste e treino proporcionalmete em relação a y
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, random_state=SEED, stratify=y)

print(f'Treinaremos com {treino_x.shape[0]} elementos.')
print(f'Testaremos com {teste_x.shape[0]} elementos.')

Treinaremos com 74 elementos.
Testaremos com 25 elementos.


In [10]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)
print(f'A acuracia foi de {(acuracia*100):.2f}%')

A acuracia foi de 96.00%


In [11]:
treino_y.value_counts()
teste_y.value_counts()

comprados_treino, nao_comprados_treino =  treino_y.value_counts()
comprados_teste, nao_comprados_teste =  teste_y.value_counts()

proporcao_comprados_nao_comprados_treino = comprados_treino / nao_comprados_treino
proporcao_comprados_nao_comprados_teste = comprados_teste / nao_comprados_teste

print(f'Comprados treino: {comprados_treino}')
print(f'Não comprados treino: {nao_comprados_treino}')
print(f'Comprados teste: {comprados_teste}')
print(f'Não Comprados teste: {nao_comprados_teste}')
print(f'Proporção Comprados/Não Comprados treino: {proporcao_comprados_nao_comprados_treino:.2f}')
print(f'Proporção Comprados/Não Comprados teste: {proporcao_comprados_nao_comprados_teste:.2f}')

Comprados treino: 49
Não comprados treino: 25
Comprados teste: 17
Não Comprados teste: 8
Proporção Comprados/Não Comprados treino: 1.96
Proporção Comprados/Não Comprados teste: 2.12
