<a href="https://colab.research.google.com/github/brunatoloti/data-science-alura-cursos/blob/main/Machine%20Learning%3A%20Introdu%C3%A7%C3%A3o%20a%20classifica%C3%A7%C3%A3o%20com%20SKLearn/intro_machine_learning_classificacao_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Importando as bibliotecas

In [None]:
import pandas as pd
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

# Testes replicáveis, estratificação e lendo dados da internet

Importando a base de dados

In [None]:
uri = 'https://gist.githubusercontent.com/guilhermesilveira/2d2efa37d66b6c84a722ea627a897ced/raw/10968b997d885cbded1c92938c7a9912ba41c615/tracking.csv'
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0,home,how_it_works,contact,bought
0,1,1,0,0
1,1,1,0,0
2,1,1,0,0
3,1,1,0,0
4,1,1,0,0


Visualizando o tamanho da base

In [None]:
dados.shape

(99, 4)

Renomeando as colunas

In [None]:
mapa = {
    'home': 'principal',
    'how_it_works': 'como_funciona',
    'contact': 'contato',
    'bought': 'comprou'
}
dados.rename(columns=mapa, inplace=True)

Separando a coluna *bought* que representa as labels, das outras colunas que são as features.

In [None]:
x = dados[['principal', 'como_funciona', 'contato']]
y = dados['comprou']

In [None]:
x.head()

Unnamed: 0,principal,como_funciona,contato
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [None]:
y.head()

0    0
1    0
2    0
3    0
4    0
Name: comprou, dtype: int64

### Separando os dados de treino e teste de forma manual

Para treino, mais ou menos 75% dos dados. Para teste, mais ou menos 25% dos dados.

Como a base de dados possui 99 linhas, podemos pegar as 75 primeiras linhas para treino e 24 para teste.

In [None]:
x_treino = x[:75]
y_treino = y[:75]
x_teste = x[75:]
y_teste = y[75:]

print(f'Tamanho x_treino: {x_treino.shape}')
print(f'Tamanho y_treino: {y_treino.shape}')
print(f'Tamanho x_teste: {x_teste.shape}')
print(f'Tamanho y_teste: {y_teste.shape}')
print('\n')
print(f"Treinaremos com {len(x_treino)} elementos e testaremos com {len(x_teste)} elementos")

Tamanho x_treino: (75, 3)
Tamanho y_treino: (75,)
Tamanho x_teste: (24, 3)
Tamanho y_teste: (24,)


Treinaremos com 75 elementos e testaremos com 24 elementos


Instanciando o modelo e treinando com os dados de treino

In [None]:
modelo = LinearSVC()
modelo.fit(x_treino, y_treino)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Testando o modelo com os dados de teste

In [None]:
previsoes = modelo.predict(x_teste)

Obtendo a taxa de acerto, a acurácia

In [None]:
acuracia = accuracy_score(y_teste, previsoes)*100
print(f"A acurácia foi {round(acuracia, 2)}%")

A acurácia foi 95.83%


### Separando os dados de treino e teste usando o método *train_test_split* da *sklearn*, ao invés de fazer manualmente como fizemos acima

Declarando SEED para remover a aleatoriedade da separação do treino e do teste
Importante fazer isso para podermos replicar esse teste diversas vezes

In [None]:
SEED = 20

Separando os dados de treino e teste

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, random_state = SEED, test_size = 0.25)

print(f'Tamanho x_treino: {x_treino.shape}')
print(f'Tamanho y_treino: {y_treino.shape}')
print(f'Tamanho x_teste: {x_teste.shape}')
print(f'Tamanho y_teste: {y_teste.shape}')
print('\n')
print(f"Treinaremos com {len(x_treino)} elementos e testaremos com {len(x_teste)} elementos")

Tamanho x_treino: (74, 3)
Tamanho y_treino: (74,)
Tamanho x_teste: (25, 3)
Tamanho y_teste: (25,)


Treinaremos com 74 elementos e testaremos com 25 elementos


Instanciando o modelo e treinando com os dados de treino


In [None]:
modelo = LinearSVC()
modelo.fit(x_treino, y_treino)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Testando o modelo com os dados de teste

In [None]:
previsoes = modelo.predict(x_teste)

Obtendo a taxa de acerto, a acurácia

In [None]:
acuracia = accuracy_score(y_teste, previsoes)*100
print(f"A acurácia foi {round(acuracia, 2)}%")

A acurácia foi 96.0%


### As classes estão proporcionais entre os conjuntos de treino e teste?

In [None]:
y_treino.value_counts()

0    47
1    27
Name: comprou, dtype: int64

In [None]:
y_teste.value_counts()

0    19
1     6
Name: comprou, dtype: int64

Vemos que não! De fato, no treino 47/27 = 1.74, ou seja, são quase 2 pessoas que não compraram pra 1 que comprou; já no teste, 19/6 = 3.16, ou seja, são 3 pessoas que não compraram pra 1 que comprou. Porém, é importante termos essa proporcionalidade no treino e teste

### Separando os dados de treino e teste usando o método *train_test_split* da *sklearn* e garantindo a proporcionalidade

In [None]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, 
                                                        random_state = SEED,
                                                        test_size = 0.25,
                                                        stratify = y)

print(f'Tamanho x_treino: {x_treino.shape}')
print(f'Tamanho y_treino: {y_treino.shape}')
print(f'Tamanho x_teste: {x_teste.shape}')
print(f'Tamanho y_teste: {y_teste.shape}')
print('\n')
print(f"Treinaremos com {len(x_treino)} elementos e testaremos com {len(x_teste)} elementos")

Tamanho x_treino: (74, 3)
Tamanho y_treino: (74,)
Tamanho x_teste: (25, 3)
Tamanho y_teste: (25,)


Treinaremos com 74 elementos e testaremos com 25 elementos


Instanciando o modelo e treinando com os dados de treino


In [None]:
modelo = LinearSVC()
modelo.fit(x_treino, y_treino)

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
          intercept_scaling=1, loss='squared_hinge', max_iter=1000,
          multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
          verbose=0)

Testando o modelo com os dados de teste

In [None]:
previsoes = modelo.predict(x_teste)

Obtendo a taxa de acerto, a acurácia

In [None]:
acuracia = accuracy_score(y_teste, previsoes)*100
print(f"A acurácia foi {round(acuracia, 2)}%")

A acurácia foi 96.0%


Vejamos se, agora, a proporcionalidade, de fato, foi mantida

In [None]:
y_treino.value_counts()

0    49
1    25
Name: comprou, dtype: int64

In [None]:
y_teste.value_counts()

0    17
1     8
Name: comprou, dtype: int64

Aqui, de fato, a proporcionalidade foi mantida! Observe que, no treino 49/25 = 1.96, ou seja, são quase 2 pessoas que não compraram pra 1 que comprou; enquanto que no teste, 17/8 = 2.13, ou seja, são 2 pessoas que não compraram pra 1 que comprou. Logo, podemos notar que a proporcionalidade das classes foi mantida entre o conjunto de treino e teste (proporção 2 pra 1).