# Machine Learning: Introdução a classificação com SKLearn

# Aula 2 - Testes replicáveis, estratificação e lendo dados da internet 

## Lendo e manipulando dados da internet

In [1]:
# Importando Pandas e os dados da uri para serem utilizados por meio da função read_csv. Visualizando o cabeçalho dos
# arquivos importados (head)
import pandas as pd

uri = "https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv"
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [3]:
# Renomeando as colunas de interesse por meio de um mapa em Python
mapa = {
    "home" : "pagina_inicial",
    "how_it_works" : "como_funciona",
    "contact" : "contato",
    "bought" : "comprado"
}
dados = dados.rename(columns = mapa)
dados.head()

Unnamed: 0,pagina_inicial,como_funciona,contato,comprado
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


In [4]:
# Selecionando as colunas de interesse: x são as colunas 'pagina_inicial', 'como_funciona' e 'contato'; já y corresponde à
# coluna 'comprado': queremos saber se com base no acesso à 'pagina_inicial', 'como_funciona' e 'contato' o produto é 
# comprado
# Várias colunas tem ser passadas para x como [[]], uma única coluna simplesmente []
x = dados[["pagina_inicial","como_funciona","contato"]]
y = dados["comprado"]

In [5]:
# Verificando x e y
x.head()

Unnamed: 0,pagina_inicial,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [6]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprado, dtype: int64

In [7]:
# Verificando o número total de dados existente no exemplo
dados.shape

(99, 4)

In [8]:
# Selecionando os primeiros 75 dados para treinamento e os 24 restantes para teste. A estrutura :75 pega os elementos de 0 a
# 74, já 75: pega de 75 até o último valor
treino_x = x[:75]
treino_y = y[:75]
teste_x = x[75:]
teste_y = y[75:]

In [9]:
# Verificando o tamanho dos elementos
print("Treinamento com {} elementos e teste com {} elementos".format(len(treino_x),len(teste_x)))

Treinamento com 75 elementos e teste com 24 elementos


In [15]:
# Importando SKLearn e utilizando um estimador linear (LinearCSV) para obter um modelo de aprendizagem e realizar as previsoes
# O accuracy_score é uma métrica que nos dá a acurácia do teste
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

modelo = LinearSVC()
modelo.fit(treino_x,treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes)*100
print("Acurácia: {:.2f}%".format(acuracia))

Acurácia: 95.83%


# Estratificando splits

In [18]:
# O Scikit Learn possui métodos para fazer a separação dos dados entre treinamento e teste. Utilizando o test_train_split, 
# a separação é feita de forma automática, indicando que o tamanho do teste (test_size) é 25% (0.25)
from sklearn.model_selection import train_test_split

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
x.head()

Unnamed: 0,pagina_inicial,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [19]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprado, dtype: int64

In [22]:
# Verificando o tamanho dos dados de teste e treinamento
print("Treinamento com {} elementos e teste com {} elementos".format(len(treino_x),len(teste_x)))

Treinamento com 74 elementos e teste com 25 elementos


In [29]:
# Algoritmo completo. Notar que toda vez que o algoritmo é executado, a acurácia apresenta resultados diferentes; o método
# train_test_split separa pseudo-aleatoriamente os dados de treino e teste, gerando resultados diferentes em cada iteração
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("Acurácia:{:.2f}%".format(acuracia))

Treinaremos com 74 elementos e testaremos com 25 elementos
Acurácia:96.00%


In [36]:
# Para fazer testes replicáveis, é possível atribuir um seed para a geração de números pseudoaleatórios, gerando sempre a 
# mesma sequência e a mesma acurácia nos testes
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, random_state = SEED, test_size = 0.25)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("Acurácia : {:.2f}%".format(acuracia))

Treinaremos com 74 elementos e testaremos com 25 elementos
Acurácia : 96.00%


In [37]:
# Verificando qual a proporção entre treino_y e teste_y
treino_y.value_counts()

0    47
1    27
Name: comprado, dtype: int64

In [38]:
teste_y.value_counts()

0    19
1     6
Name: comprado, dtype: int64

In [39]:
# Neste caso, a proporção não está parecida, o que não é algo desejado. É possível garantir que essa proporção seja mantida
# durante a separação dos dados de treino e teste, por um parâmetro chamado estratificação (stratify)
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 20

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, 
                                                        random_state = SEED, test_size = 0.25,
                                                        stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("Acurácia : {:.2f}%".format(acuracia))

Treinaremos com 74 elementos e testaremos com 25 elementos
Acurácia : 96.00%


In [40]:
# Verificando a estratificação
treino_y.value_counts()

0    49
1    25
Name: comprado, dtype: int64

In [41]:
teste_y.value_counts()

0    17
1     8
Name: comprado, dtype: int64