# Leitura e Manipulação dos Dados da Internet

In [1]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [2]:
url = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(url)

In [3]:
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [4]:
dados.columns = ['principal', 'como_funciona', 'contato', 'comprou']

In [5]:
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

In [6]:
# O algorítmo não pode apenas memorizar, então é bom separar o treino do teste para não enviezar o programa
len(dados)

99

In [7]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]
print(f'Treinaremos com {len(treino_x)} elementos, testaremos com {len(teste_x)} elementos.')

Treinaremos com 75 elementos, testaremos com 24 elementos.


In [8]:
model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)

In [9]:
acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'O percentual de acerto deste teste foi de {acuracia:.2f} %.')

O percentual de acerto deste teste foi de 95.83 %.


## Melhor forma de se separar os dados

In [10]:
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
print(f'Treinaremos com {len(treino_x)} elementos, testaremos com {len(teste_x)} elementos.')

Treinaremos com 74 elementos, testaremos com 25 elementos.


In [11]:
model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'O percentual de acerto deste teste foi de {acuracia:.2f} %.')

O percentual de acerto deste teste foi de 96.00 %.


### Tem algo estranho ai... Se executarmos de novo, o percentual muda.

In [12]:
# Porque ele separa de forma aleatória!
# Para que isso não aconteça...
SEED = 20 # Utilizamos uma seed que padroniza a geração aleatória dos elementos, MUITO IMPORTANTE!!!
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, random_state = SEED)
print(f'Treinaremos com {len(treino_x)} elementos, testaremos com {len(teste_x)} elementos.')

Treinaremos com 74 elementos, testaremos com 25 elementos.


In [13]:
model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'O percentual de acerto deste teste foi de {acuracia:.2f} %.')

O percentual de acerto deste teste foi de 96.00 %.


In [14]:
print(teste_y.value_counts()) 
print(treino_y.value_counts())

0    19
1     6
Name: comprou, dtype: int64
0    47
1    27
Name: comprou, dtype: int64


### Proporção diferente de compradores em relação ao total!!! Precisamos corrigir isso para não viciar o algorítmo. Corrigindo...

In [15]:
SEED = 20
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25, random_state = 20, stratify = y)
print(f'Treinaremos com {len(treino_x)} elementos, testaremos com {len(teste_x)} elementos.')
model = LinearSVC()
model.fit(treino_x, treino_y)
previsoes = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsoes) * 100
print(f'O percentual de acerto deste teste foi de {acuracia:.2f} %.')

Treinaremos com 74 elementos, testaremos com 25 elementos.
O percentual de acerto deste teste foi de 96.00 %.


In [16]:
print(teste_y.value_counts()) 
print(treino_y.value_counts())
# Proporção muito próxima de 2/1 nos dois casos.

0    17
1     8
Name: comprou, dtype: int64
0    49
1    25
Name: comprou, dtype: int64
