# Um guia completo para o pré-processamento de dados em machine learning

<p style='text-align: justify;'>
A utilização de técnicas de inteligência artificial para resolver diversos problemas é um processo que em si possui inúmeros etapas que podem ser aplicadas em um ciclo a fim de chegarmos em um resultado satisfatório.
</p>

<p style='text-align: justify;'>
Dentro deste ciclo a etapa pré-processamento talvez seja a mais importante a fim de se obter um bom resultado, o pré-processamento nada mais é do que o processo de preparação, organização e estruturação dos nossos dados além de ser o momento ideal para escolhermos quais dados fazem sentido fazerem parte do nosso dataset.<br/>
</p>
    <p style='text-align: justify;'>
A ideia deste artigo é ser um ponto de referência para técnicas de pré-processamento que possam ser aplicadas em qualquer tipo de dados que mais tarde serão utilizados em técnicas de classificação com machine learning.<br/>
</p>
        <p style='text-align: justify;'>
Antes de colocarmos a mão na massa é importante ressaltar a importância desta fase, pois a qualidade dos seus dados pode influenciar diretamente no resultado do seu modelo, muitas das vezes acabamos pensando que o problema da nossa solução é o algoritmo usado para gerar o modelo, porém o grande vilão é o seu próprio conjunto de dados que podem possuir muitos atributos com valores faltantes, outliers e escalas de valores contradizentes e por fim nenhum modelo será capaz de trabalhar com esses dados e gerar resultados de qualidade. Tenha em mente:
</p>
<blockquote>
A qualidade do resultado do seu modelo começa com a qualidade dos dados que você está “inputando” na etapa de treino!
</blockquote>

**Importando os dados**

In [24]:
import numpy as np
import pandas as pd

In [25]:
dataset = pd.read_csv('data/dados.csv')

In [26]:
dataset.head(5)

Unnamed: 0,cargo,idade,salario,bonus,sócio
0,Diretor,45,24000.0,10000.0,sim
1,Analista,22,8000.0,2000.0,não
2,Programador,30,,1000.0,não
3,Gerente,24,15100.0,,não
4,Gerente,30,35000.0,6000.0,sim


<p style='text-align: justify;'>
    Explicando um pouco melhor o nosso dataset, nós temos os dados de 13 funcionários de uma empresa e baseado no cargo, idade, salário e bônus o nosso modelo futuramente tentará nos dizer quem são os sócios desta empresa.
</p>

<p style='text-align: justify;'>
Agora que conhecemos melhor nossos dados a primeira coisa que devemos fazer é separar os dados em um conjunto de atributos que serão usados como variáveis de input: cargo, idade, salário e bônus e separar a variável resultante: sócio.
</p>

In [28]:
X = dataset.iloc[:, :-1].values # cargo, idade, salário e bônus
Y = dataset['sócio'].values # sócio

**Tratando dados faltantes**

* **1. Deletar as colunas com dados faltantes:**
<p style='text-align: justify;'>Essa solução ao meu ver é bem drástica e somente deverá ser utilizada quando a variável não exercer uma certa influência no resultado procurado. Talvez seja esta a solução menos recomendada! Mas caso queira utilizá-la basta usar a função dropna pandas, utilizando como parâmetros o axis = 1 para dizer que queremos deletar a coluna e inplace = True para aplicarmos no dataset e não criarmos uma cópia deste:</p>

In [29]:
#dataset.dropna(axis=1, inplace=True)

* **2. Deletar os exemplos com dados faltantes:**
<p style='text-align: justify;'>Uma solução bem melhor para o problema porém ainda não é a ideal para um dataset no qual você possui poucos exemplos, para aplicar basta utilizarmos a função dropna do pandas com o axis = 0:</p>

In [30]:
#dataset.dropna(axis=0, inplace=True)

* **3. Preencher os dados faltantes com a média dos valores do atributo:**
<p style='text-align: justify;'>Essa é a minha solução favorita e que iremos utilizar nesse guia. Em nosso problema iremos fazer isso da forma mais simples, aplicando o valor da média das colunas salário e bônus nos exemplos que não possuem esse valor. Notem que se quiséssemos poderíamos ir um pouco mais afundo e calcular essas médias de acordo com o cargo para depois aplicarmos a média que mais faz sentido. Primeiro vamos voltar ao cabeçalho e importar a classe Imputer que irá nos auxiliar nessa tarefa:</p>

In [31]:
dataset.head(14)

Unnamed: 0,cargo,idade,salario,bonus,sócio
0,Diretor,45,24000.0,10000.0,sim
1,Analista,22,8000.0,2000.0,não
2,Programador,30,,1000.0,não
3,Gerente,24,15100.0,,não
4,Gerente,30,35000.0,6000.0,sim
5,Programador,22,5300.0,2000.0,não
6,Analista,20,,1200.0,não
7,Diretor,50,18000.0,8000.0,sim
8,Fundador,65,38000.0,28000.0,sim
9,Analista,32,7300.0,4000.0,não


In [32]:
dataset['salario'].fillna(dataset.groupby('cargo')['salario'].transform('median'), inplace=True)
dataset['bonus'].fillna(dataset.groupby('cargo')['bonus'].transform('median'), inplace=True)

X = dataset.iloc[:, :-1].values # cargo, idade, salário e bônus
Y = dataset['sócio'].values # sócio

* **4. Preencher os dados faltantes com o valor que você quiser:**
<p style='text-align: justify;'>
Com essa alternativa o céu é o limite e você poderá preencher os seus dados faltantes com o valor que melhor convier para o seu problema, para isto basta utilizar a função fillna do padas, alguns exemplos para o nosso problema seriam:
</p>

In [33]:
#dataset.fillna(0) #Preencher todos os valores faltantes por zero
#Preencher cada coluna com o valor que melhor satisfazer:
#values = {'salario': valor, 'bonus': valor}
#dataset.fillna(value=values)

**Variáveis categóricas**

<p style='text-align: justify;'>
Outro problema do nosso dataset são as variáveis categóricas que nesse caso se restringem apenas a coluna cargo, ou seja, uma variável categórica é uma variável nominal, sem escala, não numérica.
</p>

<p style='text-align: justify;'>
Uma ideia para tratar esse problema é utilizar a classe LabelEncoder do sklearn para transformar os nomes em números (diretor: 0, analista: 1, gerente: 2, programador: 3 e fundador: 4) e por conseguinte transformar esse números em novas colunas do dataset com OneHotEncoder do sklearn, com objetivo de eliminar a hierarquia dos valores que não possuem muito significado para os cargos neste problema. Ou seja os cargos diretor, analista, gerente, programador e fundador seriam colunas do nossa dataset e cada funcionário receberá o valor 1 para o seu cargo na coluna e o valor 0 para os cargos que não ocupam.
</p>
<p style='text-align: justify;'>
Vamos começar importando o LabelEncoder e o OneHotEncoder no cabeçalho:
    </p>

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

In [None]:
valores_cargos = list(dataset['cargo'].sort_values().unique())
colunas = []
for i in valores_cargos:
    colunas.append('cargo_' + i)
colunas = colunas + ['idade', 'salario', 'bonus', 'sócio']

Agora vamos criar um objeto do LabelEncoder e fazer fit_tranform apenas para a nossa coluna com valores categóricos:

In [None]:
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

In [None]:
onehotencoder = OneHotEncoder(handle_unknown='ignore')
enc_df = onehotencoder.fit_transform(dataset[['cargo']]).toarray()
enc_df = pd.DataFrame(enc_df)

Continuando podemos deixar nossa variável X como um array ou transformar novamente em um dataFrame:

In [None]:
dataset = enc_df.join(dataset)
dataset.drop('cargo', axis=1, inplace=True)
dataset.columns = colunas

In [None]:
dataset

**Outra forma de fazermos essa transformação é com o próprio pandas com o método, get_dummies:**
<br/>
Primeiro vamos criar um dataFrame apenas com a coluna cargos:

In [34]:
X_cargo = pd.DataFrame({'cargo':X[:,0]})

Agora vamos transformar o nosso dataFrame com uma coluna de variáveis categóricas em colunas que representam cada cargo:

In [35]:
X_cargo = pd.get_dummies(X_cargo)
dataset = X_cargo.join(dataset)
dataset.drop('cargo', axis=1, inplace=True)

In [41]:
X = dataset.iloc[:, :-1] # cargo, idade, salário e bônus
Y = dataset['sócio'].values # sócio

Por conseguinte também vamos transformar a nossa variável Y (é sócio) em valores numéricos, onde sim será 1 e não será zero:

In [39]:
Y = pd.get_dummies(Y)
Y = Y['sim'].values

In [40]:
Y

array([1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1], dtype=uint8)

**Reescala dos dados**
<p style='text-align: justify;'>
Agora temos um novo problema, você pode observar que os valores das colunas idade, salário e bônus estão em uma escala bem distinta, onde a idade varia entre 20 a 65, salário varia entre 2344 a 38000 e bônus varia entre 1200 a 28000, e isto pode causar um grande problema no treino do nosso modelo uma vez o salário por possuir uma escala muito maior que a idade terá uma influência consequentemente muito maior no resultado e isto não é que nós queremos! Além disso podemos notar que as bordas representam alguns possíveis outliers os quais queremos minimizar o impacto em nossa solução. Para solucionar esses problemas poderíamos usar diversas técnicas de estatística e algumas métricas como quartis, desvio padrão e variância ou podemos ser muito mais espertos e já usar inúmeras ferramentas do sklearn que já aplicam todas essas técnicas a fim de obter uma melhor solução para o nosso problema através da reescala dos dados.
    </p>

**Normalizer**

<p style='text-align: justify;'>
Vamos começar com o Normalizer que talvez seja a solução mais diferente, uma vez que o Normalize age reescalando os dados por exemplos/linhas e não por colunas, ou seja, o Normalizer levará em contas os atributos idade, salário e bonus e reescalar os valores com base nesses três valores. O Normalizer é uma boa escolha quando você sabe que a distribuição dos seus dados não é normal/gaussiana ou quando você não sabe qual é o tipo de distribuição dos seus dados.
   </p>

In [44]:
from sklearn.preprocessing import Normalizer

In [45]:
X_normalize = X.copy()
X_normalize[['idade', 'salario', 'bonus']] = Normalizer().fit_transform(X[['idade', 'salario', 'bonus']])

In [52]:
X_normalize.head(5)

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,0.001731,0.923076,0.384615
1,1,0,0,0,0,0.002668,0.970139,0.242535
2,0,0,0,0,1,0.005999,0.979786,0.199956
3,0,0,0,1,0,0.001477,0.929322,0.369267
4,0,0,0,1,0,0.000845,0.985622,0.168964


**MinMaxScaler**
<p style='text-align: justify;'>
    O MinMaxScaler é uma outra alternativa a reescala de dados, seu diferencial se dá uma vez que este age sobre sobre a coluna, ou seja, o cálculo da reescala é feito de forma independente entre cada coluna, de tal forma que a nova escala se dará entre 0 e 1 (ou -1 e 1 se houver valores negativos no dataset). Importante ressaltar que essa técnica funciona melhor se a distribuição dos dados não for normal e se o desvio padrão for pequeno, além disso o MinMaxScaler não reduz de forma eficaz o impacto de outliers e também preserva a distribuição original. De forma simples o MinMaxScaler subtrai o valor em questão pelo menor valor da coluna e então divide pela diferença entre o valor máximo e mínimo:
    </p>
    
> *valor = ( valor — Coluna.min) / (Coluna.max — Coluna.min)*

In [47]:
from sklearn.preprocessing import MinMaxScaler
X_minMax = X.copy()
X_minMax[['idade', 'salario', 'bonus']] = MinMaxScaler().fit_transform(X[['idade', 'salario', 'bonus']])

In [51]:
X_minMax.head(5)

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,0.555556,0.607359,0.333333
1,1,0,0,0,0,0.044444,0.158627,0.037037
2,0,0,0,0,1,0.222222,0.071685,0.0
3,0,0,0,1,0,0.088889,0.357752,0.185185
4,0,0,0,1,0,0.222222,0.915863,0.185185


**StandardScaler**
<p style='text-align: justify;'>
Assim como o MinMaxScaler o StandardScaler age sobre as colunas, porém seu método é diferente uma vez que este subtrai do valor em questão a média da coluna e divide o resultado pelo desvio padrão. No final temos uma distribuição de dados com desvio padrão igual a 1 e variância de 1 também. Esse método trabalha melhor em dados com distribuição normal porém vale a tentativa para outros tipos de distribuições, além disso podemos deixar como dica que esse método resulta em ótimos frutos quando usado em conjunto com algoritmos como Linear Regression e Logistic Regression.
</p>

> valor = (valor — média) / desvioPadão

In [49]:
from sklearn.preprocessing import StandardScaler
X_standard = X.copy()
X_standard[['idade', 'salario', 'bonus']] = StandardScaler().fit_transform(X[['idade', 'salario', 'bonus']])

In [50]:
X_standard.head(5)

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,1.002248,0.752892,0.472693
1,1,0,0,0,0,-0.907361,-0.630533,-0.690859
2,0,0,0,0,1,-0.243149,-0.898572,-0.836303
3,0,0,0,1,0,-0.741308,-0.016638,-0.109083
4,0,0,0,1,0,-0.243149,1.703997,-0.109083


**RobustScaler**
<p style='text-align: justify;'>
Também atua sobre as colunas e o diferencial deste método é a combinação com o uso de quartis o que nos garante um bom tratamento dos outliers. Em seu método o RobustScaler subtrai a média do valor em questão e então divide o resultado pelo segundo quartil. Importante notar que os outliers ainda estão presentes porém estão representados dentro de uma escala em que o seu impacto negativo é reduzido.
</p>

In [53]:
from sklearn.preprocessing import RobustScaler
X_robust = X.copy()
X_robust[['idade', 'salario', 'bonus']] = RobustScaler().fit_transform(X[['idade', 'salario', 'bonus']])

In [59]:
X_robust.head(5)

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,1.621622,0.778443,0.668896
1,1,0,0,0,0,-0.864865,-0.179641,-0.401338
2,0,0,0,0,1,0.0,-0.365269,-0.535117
3,0,0,0,1,0,-0.648649,0.245509,0.133779
4,0,0,0,1,0,0.0,1.437126,0.133779


**QuantileTransformer**
<p style='text-align: justify;'>
Assim como o RobustScaler atua sobre as colunas e também trata os outliers com uso de quartis. Este método transforma os valores de tal forma que a distribuição tende a se aproximar de uma distribuição normal. Uma observação importante é que essa tranformação pode distorcer as correlações lineares entre as colunas. Neste método todos os valores serão reescalados em um intervalo de 0 a 1 de tal forma que os outliers não poderão mais ser distinguidos logo ao contrário do RobustScaler o impacto da ação em cima dos outilers será grande.
</p>

In [56]:
from sklearn.preprocessing import QuantileTransformer
X_quantile = X.copy()
X_quantile[['idade', 'salario', 'bonus']] = QuantileTransformer().fit_transform(X[['idade', 'salario', 'bonus']])



In [58]:
X_quantile.head(5)

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,0.846154,0.769231,0.769231
1,1,0,0,0,0,0.115385,0.461538,0.192308
2,0,0,0,0,1,0.538462,0.153846,0.0
3,0,0,0,1,0,0.230769,0.615385,0.576923
4,0,0,0,1,0,0.538462,0.923077,0.576923


**PowerTransformer**
<p style='text-align: justify;'>
Atua sobre as colunas e assim como o Quantile procura transformar os valores em uma distribuição mais normal, sendo indicado em situações onde uma distribuição normal é desejada para os dados, além disso esse método ainda suporta os métodos de transformação

</p>

<p>
Box-Cox (dataset com dados positivos) e Yeo-Johnson (dataset com dados positivos e negativos).
</p>

In [60]:
from sklearn.preprocessing import PowerTransformer
X_power = X.copy()
X_power[['idade', 'salario', 'bonus']] = PowerTransformer().fit_transform(X[['idade', 'salario', 'bonus']])

In [61]:
X_power.head()

Unnamed: 0,cargo_Analista,cargo_Diretor,cargo_Fundador,cargo_Gerente,cargo_Programador,idade,salario,bonus
0,0,1,0,0,0,1.187872,0.92268,0.896997
1,1,0,0,0,0,-1.236273,-0.419139,-0.810813
2,0,0,0,0,1,0.053928,-0.989067,-1.634519
3,0,0,0,1,0,-0.82865,0.345613,0.384224
4,0,0,0,1,0,0.053928,1.404922,0.384224


| *_Método_*         | *_Quando usar_*                                                                                                                 | *_Observações_*                                                                                |   |
|----------------|-----------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------|---|
| **Normalizer**     | Quando a distribuição dos seus dados não é normal ou quando você não sabe qual é o tipo distriuição dos seus dados          | Atua sobre as linhas/exemplos e não sobre as colunas/atributos                             |   |
| **MinMaxScaler**   | Quando a distribuição dos dados não for normal e se o devio padrão for pequeno                                              | Não reduz de forma eficaz o impacto de outliers e também preserva a distribuição original. |   |
| **StandardScaler** | Quando os dados estão com distribuição normal ou quando é necessário transformar os valores em uma distribuição mais normal | É uma boa combinação com algoritmos de regressão linear ou logística.                      |   |
| **RobustScaler** | Quando queremos reduzir o impacto de outliers | |
| **QuantileTransformer** | Quando queremos reduzir o impacto de outliers | Trata os outliers de uma forma mais agressiva do que o RobustScaler |
| **PowerTransformer** | Quando é necessário transformar os valores em uma distribuição mais normal | |

**Selecionando os melhores atributos**
<p style='text-align: justify;'>
Agora que temos nossos dados reescalados em alguns datasets podemos contar com muitas colunas/atributos para nos auxiliar na tarefa de predição, porém nem sempre todos esses atributos possuem informações relevantes e muita das vezes podem levar o modelo a ter um resultado inferior do que se tivéssemos usados apenas poucos atributos. Portanto um trabalho importante é selecionar os atributos que mais fazem sentido e agregam valor em nossa solução. Para isso podemos contar com o SelectKBest do sklearn, onde o K representa o número máximo de atributos que desejamos ter em nosso dataset a ser “inputado” em nossa etapa de treino, dado o K o SelectKBest trata de encontrar os K melhores atributos a serem usados. 
    </p>
    <p style='text-align: justify;'>
    Importante ressaltar que aqui não existe uma melhor maneira de se escolher o valor para K a solução é tentar com diferentes valores e compararmos os resultados. Uma observação importante é que o SelectKBest não suporta dados valores negativos, portanto todos os métodos de reescala que transformam os valores em um intervalo que possui negativos devem ser descartados caso você queira aplica-lo. Em nosso exemplo irei experimentar K = 6 pois possuímos 8 atributos e irei utilizar o método de reescala MinMaxScaler, sinta-se à vontade para experimentar qualquer valor de K e qualquer método de reescala! O método fit_transform já nos retorna os valores dos atributos mais importantes por tanto podemos passar a usar o retorno como o nosso novo X.
    </p>

In [62]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

In [63]:
X_new = SelectKBest(chi2, k=6).fit_transform(X_minMax, Y)

In [67]:
X_new

array([[0.        , 1.        , 0.        , 0.55555556, 0.60735921,
        0.33333333],
       [1.        , 0.        , 0.        , 0.04444444, 0.15862688,
        0.03703704],
       [0.        , 0.        , 0.        , 0.22222222, 0.07168499,
        0.        ],
       [0.        , 0.        , 0.        , 0.08888889, 0.35775185,
        0.18518519],
       [0.        , 0.        , 0.        , 0.22222222, 0.91586269,
        0.18518519],
       [0.        , 0.        , 0.        , 0.04444444, 0.0829033 ,
        0.03703704],
       [1.        , 0.        , 0.        , 0.        , 0.14881086,
        0.00740741],
       [0.        , 1.        , 0.        , 0.66666667, 0.43908459,
        0.25925926],
       [0.        , 0.        , 1.        , 1.        , 1.        ,
        1.        ],
       [1.        , 0.        , 0.        , 0.26666667, 0.13899484,
        0.11111111],
       [0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.04074074],
       [0.        , 0

<p style='text-align: justify;'>
Outra forma de escolhermos os melhores atributos é utilizando o SelectFromModel também do sklearn, o diferencial do SelectFromModel se dá na forma como ele escolhe os melhores atributos, uma vez que esta escolha está atrelada a importância de um atributo para um dado modelo, além disso podemos definir um valor limite(threshold) a partir do qual passamos a considerar um atributo como importante. Em nosso exemplo irei atrelar SelectFromModel com o classificador ExtraTreesClassifier. Ainda sobre o valor limite(threshold), podemos passar alguns valores no SelectFromModel ou não(None), caso não seja passado nada o limite utilizado por padrão será 1e-5, também podemos passar uma string “median” onde a média da importância dos atributos será o limite ou ainda podemos passar qualquer valor que desejamos. Aqui irei optar por passar “median”.
</p>

In [70]:
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel

clf = ExtraTreesClassifier()
clf = clf.fit(X, Y)
clf.feature_importances_ #Mostra a importância de cada atributo

model = SelectFromModel(clf, prefit=True, threshold='median')
X_new = model.transform(X_minMax)

In [71]:
X_new

array([[1.        , 0.55555556, 0.60735921, 0.33333333],
       [0.        , 0.04444444, 0.15862688, 0.03703704],
       [0.        , 0.22222222, 0.07168499, 0.        ],
       [0.        , 0.08888889, 0.35775185, 0.18518519],
       [0.        , 0.22222222, 0.91586269, 0.18518519],
       [0.        , 0.04444444, 0.0829033 , 0.03703704],
       [0.        , 0.        , 0.14881086, 0.00740741],
       [1.        , 0.66666667, 0.43908459, 0.25925926],
       [0.        , 1.        , 1.        , 1.        ],
       [0.        , 0.26666667, 0.13899484, 0.11111111],
       [0.        , 0.33333333, 0.        , 0.04074074],
       [0.        , 0.17777778, 0.06046668, 0.04444444],
       [0.        , 0.17777778, 0.77563383, 0.40740741],
       [0.        , 0.22222222, 0.3269015 , 0.33333333]])

**PCA**
<p style='text-align: justify;'>
Por fim podemos aplicar a técnica PCA nos atributos escolhidos, de forma grossa o PCA nada mais é que uma técnica a qual transforma atributos com uma certa correlação em um único atributo. O PCA deve ser aplicado apenas em casos em que o seu dataset possui muitas colunas, realmente um número muito grande e o treino do seu modelo acaba por ser muito demorado ou inviável devido ao alto número de colunas, uma vez que o PCA é uma técnica na qual sempre haverá perda de informações. Em nosso exemplo o PCA será aplicado de forma meramente ilustrativa uma vez que não possuímos muitas colunas. O atributo n_components representa quantos atributos queremos deixar, outra ideia é utilizar o parâmetro n_components=’mle’ dado isto Minka’s MLE será utilizado para escolher a melhor dimensão a ser mantida no seu caso.
</p>

In [73]:
from sklearn.decomposition import PCA
pca = PCA(n_components='mle')
X_new = pca.fit_transform(X_minMax)

In [76]:
X_new

array([[ 0.56594686, -0.11140966, -0.27806026,  0.81866815,  0.07221809,
        -0.09098694,  0.03647628],
       [-0.16862395,  0.91937388, -0.20169256, -0.14814111,  0.00713517,
        -0.03682199,  0.01289656],
       [-0.70761706, -0.38187914, -0.02832426, -0.02946212,  0.00517101,
         0.03358353, -0.07462793],
       [ 0.20458287,  0.18537138,  0.91965691,  0.08186643,  0.0076858 ,
         0.21922472,  0.11109336],
       [ 0.50815261,  0.07596283,  0.968441  ,  0.05702959, -0.08774663,
        -0.18631897, -0.10929465],
       [-0.73945234, -0.35105186,  0.01425354, -0.06016358,  0.11180716,
        -0.03420121,  0.03680472],
       [-0.19533823,  0.93651964, -0.18787321, -0.14864879,  0.04873745,
        -0.0412833 ,  0.01264536],
       [ 0.49214945, -0.09766509, -0.32205774,  0.85833945,  0.02638038,
         0.08389488, -0.02924807],
       [ 1.27329357, -0.54896748, -0.3685824 , -0.57129498, -0.3076907 ,
         0.04750057,  0.01108667],
       [-0.09211543,  0.8579

**Separando os seus dados em um conjunto de treino e de teste**
<p style='text-align: justify;'></p>
Uma das boas práticas no desenvolvimento de modelos é separar o seu dataset um conjunto de treino para treinar o seu modelo e outro de teste para validar os resultados do seu modelo. Essa separação é crucial a fim de identificar se o seu modelo não está “decorando” os resultados ao invés de aprender, o famoso overfitting.
</p>

Vamos começar com o método **Train Test Split** do sklearn

<p style='text-align: justify;'>
Neste exemplo irei continuar utilizando os atributos da variável X reescalados com o MinMaxScaler. Aqui iremos separar em 4 subconjuntos, X_train com as variáveis de input para treino do modelo e Y_train com os resultados de predição para treino, ambos serão utilizados mais tarde no método fit do seu modelo, X_test com as variáveis de input para test e Y_test com os resultados da predição para testes, o X_test será utilizado no método predict do seu modelo e o Y_test será utilizado para comparar com resultado retornado do seu método predict. O parâmetro test_size serve para indicar que o nosso conjunto de teste terá um tamanho de 20% em relação ao tamanho do dataset e o parâmetro random_state nos permite garantir que a separação dos conjuntos de teste e treino será sempre o mesmo, com a “semente” de aleatoriedade “semeada” sempre no valor indicado.
    </p>

In [77]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_minMax, Y, test_size = 0.2, random_state = 0)

Outra forma de fazemos essa separação é com o **KFold** do sklearn<br/>
<p style='text-align: justify;'>
Esta é a minha forma favorita de separar o dataset, pois o KFold facilita que possamos separar o nosso conjunto de dadas em conjunto de treinos e teste K vezes (indicado no parâmetro n_splits) e portanto fazer o treino e validar os resultados para 3 conjuntos diferentes de treino e teste. Antes precisamos colocar a nossa variável X em um formato de array.
    </p>

In [84]:
X_new = X_minMax.values
from sklearn.model_selection import KFold
kf = KFold(n_splits=3)

time = 1
for train_index, test_index in kf.split(X_new):
    print("K = " + str(time) +  " - TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X_new[train_index], X_new[test_index]
    y_train, y_test = Y[train_index], Y[test_index]
    time += 1

K = 1 - TRAIN: [ 5  6  7  8  9 10 11 12 13] TEST: [0 1 2 3 4]
K = 2 - TRAIN: [ 0  1  2  3  4 10 11 12 13] TEST: [5 6 7 8 9]
K = 3 - TRAIN: [0 1 2 3 4 5 6 7 8 9] TEST: [10 11 12 13]


<p style='text-align: justify;'>
Para finalizarmos é importante termos em mente que é de extrema importância que saibamos explorar os parâmetros disponíveis de cada método e classe utilizados no processo de pré-processamento utilizando a documentação do Sklearn que é incrível! Alguns ajustes de parâmetros podem trazer grandes ganhos para a sua solução, porém apenas com testes será possível encontrar os melhores parâmetros pois cada dataset tem suas peculiaridades, assim como cada problema e sua solução!
    </p>