In [14]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score


# Curso - Machine Learning: Introdução a classificação com SKLearn

## Aula 2 - Testes replicáveis, estratificação e lendo dados da internet

### Carregando o Modelo

In [2]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"

dados = pd.read_csv(uri)

dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


### Alterando Nome das Variáveis - Inglês para Português

In [5]:
mapa = {
    "home" : "principal",
    "how_it_works" : "como funciona",
    "contact" : "contato",
    "bought" : "comprou"
}

dados.rename(columns = mapa, inplace = True)
dados.head()

Unnamed: 0,principal,como funciona,contato,comprou
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


### Separando em Variáveis Explicativas (X) e Variável Dependente (y)

In [9]:
X = dados[["principal", "como funciona", "contato"]]
y = dados["comprou"]

In [10]:
dados.shape

(99, 4)

### Separando dados de treino e teste - Manual

In [11]:
treino_x = X[:75]
treino_y = y[:75]
teste_x = X[75:]
teste_y = y[75:]
teste_y.shape

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 75 elementos e testaremos com 24 elementos


### Treinando o Modelo

In [15]:
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)

LinearSVC()

### Previsões

In [16]:
previsoes = modelo.predict(teste_x)

### Acurácia do Modelo

In [17]:
acuracia = accuracy_score(teste_y, previsoes) * 100

print("A acurácia foi %.2f%%" % acuracia)

A acurácia foi 95.83%


### Separando dados de treino e teste - Com Sklearn

In [18]:
from sklearn.model_selection import train_test_split

 Como argumento as duas matrizes (arrays), que são x e y inteiros. Em seguida, declararemos o tamanho do teste (test_size) que será 0.25.

In [28]:
treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, test_size=0.25)

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))


Treinaremos com 74 elementos e testaremos com 25 elementos


In [31]:
modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

A acurácia foi 100.00%


Se executarmos novamente o código acima teremos resultados variáveis, como 96%, 92% e até 100% novamente.

Isso ocorre porque o algorítimo train_test_split, por padrão, realiza aleatoriamente a separação de dados de treino e teste. Desse modo, todas as vezes que ele é executado podemos ter um resultado diferente.

Então como podemos fazer com que o nosso experimento seja replicável?

Precisaremos definir um número inicial para os algorítimos de geração de números aleatórios. Esse número inicial é chamado SEED, e nesse caso usaremos o número 20. Em seguida, definiremos para o train_test_split o uso do random_state = SEED.

Esse é um processo muito importante, afinal faz com que o nosso teste seja replicável.

In [35]:
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(X, y, random_state = SEED, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi 96.00%


### Mantendo a Proporção nos Dados de Treino e Teste

In [42]:
count_treino = treino_y.value_counts()

In [43]:
count_treino[0]/ count_treino[1]

1.7407407407407407

Os dados de Treino - para cada pessoa que comprou o produto temos 2 que não compraram

In [44]:
count_teste = teste_y.value_counts()

In [45]:
count_teste[0]/ count_teste[1]

3.1666666666666665

Já nos dados de teste - para cada pessoa que comprou temos 3 pessoa que não compraram

Adicionando no train_test_split o atributo **stratify = y** manter a proporção de acordo com os dados de y

In [50]:
SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(X, y,
                                                         random_state = SEED, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 74 elementos e testaremos com 25 elementos
A acurácia foi 96.00%


In [54]:
count_treino = treino_y.value_counts()
count_treino[0]/ count_treino[1]

1.96

In [52]:
count_teste = teste_y.value_counts()
count_teste[0]/ count_teste[1]

2.125