In [1]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
df = pd.read_csv(uri)
df.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [2]:
X = df[['home', 'how_it_works', 'contact']]
y = df['bought']

##### Se quiser alterar nomes das variáveis

``` 
mapa = { 
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}

df = df.rename(columns = mapa)


In [3]:
display(X.head())
display(y.head())

Unnamed: 0,home,how_it_works,contact
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


0    0
1    0
2    0
3    0
4    0
Name: bought, dtype: int64

### Dados de treino e teste

In [4]:
df.shape[0]

99

In [5]:
# dados de treino
train_x = X[:75]
train_y = y[:75]

# dados de teste
test_x = X[75:]
test_y = y[75:]

print(f'Treinaremos com {len(train_x)} elementos, e testaremos com {len(test_x)} elementos')

Treinaremos com 75 elementos, e testaremos com 24 elementos


### Modelo

In [6]:
from sklearn.svm import LinearSVC

# instânciando modelo
model = LinearSVC(dual=True)

# treinando modelo
model.fit(X=train_x, y=train_y)

In [7]:
previsoes = model.predict(test_x)
previsoes

array([0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0,
       0, 0], dtype=int64)

In [8]:
from sklearn.metrics import accuracy_score

# accuracy score
accuracy = accuracy_score(y_true = test_y, y_pred = previsoes)
print(f'Acurácia: {accuracy * 100 :.2f}%')

Acurácia: 95.83%


# Estratificando splits

## Usando train_test_split para separar dados de treino e teste

In [9]:
from sklearn.model_selection import train_test_split

# train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.25, random_state=20)
print(f'Treinaremos com {len(X_train)} elementos, e testaremos com {len(X_test)} elementos')

# model
model = LinearSVC(dual=True)
model.fit(X_train, y_train)
previsoes = model.predict(X_test)
accuracy = accuracy_score(y_test, previsoes)
print(f'Acurácia: {accuracy * 100 :.2f}%')

Treinaremos com 74 elementos, e testaremos com 25 elementos
Acurácia: 96.00%


## Verificando se a proporção de 0's e 1's  treino e teste é igual

In [10]:
y_train.value_counts()

0    47
1    27
Name: bought, dtype: int64

In [11]:
y_test.value_counts()

0    19
1     6
Name: bought, dtype: int64

In [12]:
# proporções
proporcao_treino = y_train.value_counts()[0] / y_train.value_counts()[1]
proporcao_teste = y_test.value_counts()[0] / y_test.value_counts()[1]

print(f'Proporção treino: {proporcao_treino} \nProporção teste: {proporcao_teste}')

Proporção treino: 1.7407407407407407 
Proporção teste: 3.1666666666666665


### Vamos usar o stratify para corrigir isso

In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=.25, 
                                                    random_state=20,
                                                    stratify=y)
print(f'Treinaremos com {len(X_train)} elementos, e testaremos com {len(X_test)} elementos')

model = LinearSVC(dual=True)
model.fit(X_train, y_train)
previsoes = model.predict(X_test)
accuracy = accuracy_score(y_test, previsoes)
print(f'Acurácia: {accuracy * 100 :.2f}%')

proporcao_treino = (y_train.value_counts()[0] / y_train.value_counts()[1])
proporcao_teste = (y_test.value_counts()[0] / y_test.value_counts()[1])
print(f'Proporção treino: {proporcao_treino} \nProporção teste: {proporcao_teste}')

Treinaremos com 74 elementos, e testaremos com 25 elementos
Acurácia: 96.00%
Proporção treino: 1.96 
Proporção teste: 2.125
