In [3]:
import pandas as pd

In [4]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
mapa = {
    'home': 'principal',
    'how_it_works' : 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}
dados = dados.rename(columns = mapa)
x = dados[["principal", "como_funciona", "contato"]]
y = dados['comprou']

In [5]:
dados.shape

(99, 4)

In [6]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

In [7]:
teste_y.shape

(24,)

In [8]:
print('Treinaremos com %d elementos e testaremos com %d elementos' % (len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


In [9]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

# Recebe como primeiro parâmetro as saídas esperadas e compara com as previsões geradas pelo
# modelo para gerar a porcentagem 👍
acuracia = accuracy_score(teste_y, previsoes)
print(" A acurácia foi %.2f%%" % acuracia)

 A acurácia foi 0.96%


# Usando a biblioteca para separar treino e teste

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# Esse treino e teste pega dados aleatórios o que vai resultar em acurácias diferentes 
# a cada vez que rodamos o modelo por isso utilizamos o elemento `random_seed` 
# pra dizer a base desses nossos números aleatórios e assim sempre manter o padrão de treinamento
SEED = 20

# Assim separamos o treino do código ao invés de ficar fazendo aquelas maracutaia lá de cima ✅
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)
print('Treinaremos com %d elementos e testaremos com %d elementos' % (len(treino_x), len(teste_x)))

from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

# Recebe como primeiro parâmetro as saídas esperadas e compara com as previsões geradas
# pelo modelo para gerar a porcentagem.👍
acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi 96.00%


In [11]:
treino_y.value_counts()
# Aqui vemos quantas pessoas compraram e quantas pessoas não compraram e dividindo esses valores
# temos a proporção de que a cada 1 não pessoa que compra uma pessoa compra (47/27)

0    47
1    27
Name: comprou, dtype: int64

In [12]:
teste_y.value_counts()
# Já aqui essa proporção muda por conta dos valores que são utilizados nos teste, são basicamente 
# 3 pessoas que não compram pra 1 que compra (19/6)

0    19
1     6
Name: comprou, dtype: int64

 # Colocando argumento de proporção

In [17]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

# Aqui adicionamos o argumento stratify que garante a proporção entre os grupos que serão testados
# a partir do Y
treino_x, teste_x, treino_y, teste_y = train_test_split(
    x, y,
    stratify = y,
    random_state = SEED, test_size = 0.25)
print('Treinaremos com %d elementos e testaremos com %d elementos' % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi 96.00%


In [14]:
#Podemos visualizar isso nos próximos blocos, onde ambas proporções são iguais 2/1
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [15]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64