In [None]:
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head()

In [None]:
mapa = {
    "home" : "principal",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprou"
}
dados = dados.rename(columns = mapa)

In [None]:
x = dados[["principal","como_funciona","contato"]]
x.head()

In [None]:
y = dados["comprou"]
y.head()

In [None]:
dados.shape

# Separando treino e teste manualmente

In [None]:
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

In [None]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

# Usando a biblioteca para separar treino e teste

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

# o algorítimo train_test_split, por padrão, realiza aleatoriamente a
# separação de dados de treino e teste.
# Para que o projeto seja replicável, usamos o comando abaixo
# que serve para definir a ordem dos números aleatórios
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi {acuracia:.2f}%")


In [None]:
# saber quantas pessoas compraram e quantas não compraram
treino_y.value_counts()

In [None]:
teste_y.value_counts()

Se dividirmos 47 por 27 teremos 1,74. Portanto, para cada pessoa que comprou o produto, temos duas que não compraram. Já no teste temos 19 dividido por 6, que totaliza 3,1 - três pessoas que não compraram para cada uma que comprou.

Isso significa que a separação entre os dados de treino e teste não está proporcional de acordo com as nossas categorias, o que é bastante arriscado. Por exemplo, se treinarmos apenas com pessoas que não compraram o produto, o algoritimo só saberá que pessoas não compram e esse será o seu palpite padrão pois ele nunca aprendeu que usuários de fato compram o produto.

Portanto, é importante que a proporção dos nossos dados seja similar. Para isso, inseriremos mais um argumento na separação de dados (**train_test_split**): o **stratify = y**, que irá estratificar os dados proporcionalmente de acordo com y.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED, test_size = 0.25,
                                                         stratify = y)
print(f"Treinaremos com {len(treino_x)} elementos e testaremos com {len(teste_x)} elementos")

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi {acuracia:.2f}%")

In [None]:
treino_y.value_counts()

In [None]:
teste_y.value_counts()

Essa é uma técnica que utilizamos para manter a proporção na divisão dos dados. Contudo, se uma das classes aparecesse de forma muito pontual, não seria interessante esse recurso.