In [1]:
import pandas as pd

uri = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(uri)

dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
# renomeando as colunas
mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}

dados = dados.rename(columns = mapa)

In [3]:
# x = features, y = modelo
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

In [4]:
# verificando quantos elementos tem no dataset
registros, colunas = dados.shape
print(f'Registros => {registros} | Colunas => {colunas}')

Registros => 99 | Colunas => 4


In [5]:
# separando os dados para treinamento
treino_x = x[:75] # 0 até 74
teste_x = x[75:] # de 75 até o 99
treino_y = y[:75] # 0 até 74
teste_y = y[75:] # de 74 até 99

In [6]:
# printando o tamanho de treino_x e treino_y
print(f'Treinaremos com {len(treino_x)} elementos e testaremos {len(teste_x)} elementos.')

Treinaremos com 75 elementos e testaremos 24 elementos.


In [7]:
# treinando os dados
from sklearn.svm import LinearSVC

modelo = LinearSVC() # criando o modelo
modelo.fit(treino_x, treino_y) 

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

In [8]:
# fazendo as previsões
previsoes = modelo.predict(teste_x)

# comparando as previsoes com o teste_y
from sklearn.metrics import accuracy_score
acuracia = accuracy_score(teste_y, previsoes) # esse método retorna a taxa de acerto
(f'A acurácia foi de: {round((acuracia * 100), 2)}%')

'A acurácia foi de: 95.83%'

# Separação dos dados de treino e de teste(split)

In [9]:
# separando o treino e o teste usando a biblioteca sklearn.model_selection
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20 # evitar o algoritmo de gerar números aleatórios

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                       random_state = SEED, test_size = 0.25,
                                       stratify = y) # estratificar os dados proporcionalmente de acordo com y
print(f'Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos.')

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'A acurácia foi {acuracia}%')

Treinaremos com 74 elementos e testaremos com 25 elementos.
A acurácia foi 96.0%


In [10]:
treino_y.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [11]:
teste_y.value_counts()

0    17
1     8
Name: comprou, dtype: int64