In [79]:
import pandas as pd
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)

In [80]:
mapa = {
    "home": "principal",
    "how_it_works": "como_funciona",
    "contact": "contato",
    "bought": "comprou"
}
dados.rename(columns = mapa, inplace=True)
dados.head()

Unnamed: 0,principal,como_funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [81]:
x = dados[["principal","como_funciona","contato"]]
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [82]:
y = dados["comprou"]
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

In [83]:
dados.shape

(99, 4)

### Separando os dados de treino e de teste (75%/25%)

In [84]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

Treinaremos com 75 elementos e testaremos com 24 elementos


In [85]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acuracia foi {acuracia:.2f}%")

A acuracia foi 95.83%


### Usando a biblioteca para separar treino e teste

In [86]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=20, test_size=0.25)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acuracia foi {acuracia:.2f}%")

Treinaremos com 74 elementos e testaremos com 25 elementos
A acuracia foi 96.00%


In [87]:
treino_y.value_counts()

0    47
1    27
Name: comprou, dtype: int64

In [88]:
teste_y.value_counts()

0    19
1     6
Name: comprou, dtype: int64

### Cuidade na separação dos dados

A frequência de um resultado no treino deve ser próxima a frequencia de um resultado no teste, para evitar vícios de aprendizado.

No exemplo acima, a proporção de comprado para não comprados, no dados de treino é de:
**47/27 = 1.74**

Enquanto a proporção no teste é de:
**19/6 = 3,16**

Obviamente desbalanceado. Isso piora em casos extremos, como por exemplo, no caso de não ter nenhum "comprou" (1) no treino, isso faria com que o algoritmo nunca previsse que alguém iria comprar, pois ele nunca foi exposto a esse resultado.

Podemos evitar isso fazendo a estratificação, utilizando o argumento ```stratify=y``` na divisão do teste e treino.

In [89]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state=20, stratify = y ,test_size=0.25)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acuracia foi {acuracia:.2f}%")

Treinaremos com 74 elementos e testaremos com 25 elementos
A acuracia foi 96.00%


##### Agora podemos ver que a proporção é bem próxima nos dados de treino e teste:

(49/25 vs 17/8)

In [90]:
treino_count = treino_y.value_counts()
teste_count = teste_y.value_counts()
print(f" {treino_count[0]}/{treino_count[1]} = {(treino_count[0]/treino_count[1]):.2f}")
print(f" {teste_count[0]}/{teste_count[1]} = {(teste_count[0]/teste_count[1]):.2f}")

 49/25 = 1.96
 17/8 = 2.12
