In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head()


Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
# Passando para português
mapa = {
    'home': 'pagina_inicial',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou',
}

dados = dados.rename(columns = mapa)

In [3]:
x = dados[['pagina_inicial', 'como_funciona', 'contato']]
y = dados['comprou']

In [4]:
# Separando o treino do teste. Primeiro vamos verificar quantos elementos possuímos nos dados

dados.shape

(99, 4)

In [5]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print(f"Treinaremos com {len(treino_x)} de elementos e testaremos com {len(teste_x)} de elementos ")

Treinaremos com 75 de elementos e testaremos com 24 de elementos 


In [6]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100 #Primeiro o verdadeiro e depois as minhas previsões

print(f"A acurácia foi: {taxa_de_acerto}%")

A acurácia foi: 95.83333333333334%




<h2>Usando a biblioteca para separar treino e teste</h2>

In [7]:
# Abaixo iremos fazer com a biblioteca train_test_split do sklearn - que é o método mais prático

from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 42

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, random_state = SEED)
print(f"Treinaremos com {len(treino_x)} de elementos e testaremos com {len(teste_x)} de elementos ")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100 #Primeiro o verdadeiro e depois as minhas previsões
print(f"A acurácia foi: {taxa_de_acerto}%")

Treinaremos com 74 de elementos e testaremos com 25 de elementos 
A acurácia foi: 96.0%




In [8]:
# Vamos adicionar um argumento na separação, além do random state, que vai ser o
# STRATIFY = y, para separar os dados de treino e teste de acordo com o Y.
# Por ex, queremos que ele pegue proporcionalmente os dados (vai que ele
#aleatoriamente pega apenas para treino os que não compraram ou somente os que
#compraram, nosso teste seria desregulado, com o Stratify ele pega os dados
#proporcionalmente

from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 42

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                        test_size = 0.25,
                                                        random_state = SEED,
                                                        stratify = y)
print(f"Treinaremos com {len(treino_x)} de elementos e testaremos com {len(teste_x)} de elementos ")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

taxa_de_acerto = accuracy_score(teste_y, previsoes) * 100 #Primeiro o verdadeiro e depois as minhas previsões
print(f"A acurácia foi: {taxa_de_acerto}%")

Treinaremos com 74 de elementos e testaremos com 25 de elementos 
A acurácia foi: 96.0%


