[<- Anterior](missing_values.ipynb) | [Próximo ->](encoding.ipynb)

# Escalonamento

Alguns modelos de IA são baseados em distancia ou gradiente, isso é, ajustam os pesos baseados em distancias entre pontos de dados (K-Nearest Neighbors (KNN), K-Means Clustering, DBSCAN) ou ajustam pesos baseados em funções matemáticas (Regressão Logística, Regressão Linear, Redes Neurais, SVM (em alguns modos)), nesses casos é necessário normalizar as colunas de entrada, principalmente se o conjunto de dados possui elementos em diferentes escalas. Por esse motivo é necessário escalonar os dados quando se trabalha com esses modelos.

**O que será abordado**
- Imports
- Dataset de teste
- Padronização
- Escalonamento

# Imports

In [6]:
# Import da biblioteca Pandas -> Utilizada na visualização dos dados e criação do Dataframe
import pandas as pd

# Importação da Classe StandardScaler -> Utilizada para realizar a padronização dos valores
from sklearn.preprocessing import StandardScaler

# Importação da Classe MinMaxScaler -> Utilizada para normalização
from sklearn.preprocessing import MinMaxScaler

# Dataset de teste

Para o estudo do processo de escalonaento dos dados será utilizado um dataset que possui diferentes tipos de dados e valores nulos. Dessa forma o dataframe de teste pode se aproximar de um caso real.

O dataset utilizado está disponível na pasta Data desse diretório ([aperte aqui para acessar](../Data/PreProcessing_Test.csv)) e possui 100 linhas, apresentando valores nulos nas colunas 'Genero' e 'Salario'. O dataset apresenta uma coluna binaria 'Comprou' que indica se uma pessoa comprou um certo produto

In [2]:
# Inicia o Dataframe
df = pd.read_csv('../Data/pre_processing_test.csv')

df.head()

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
0,56,9392.0,Masculino,Marketing,0
1,46,4104.0,Feminino,TI,1
2,32,8215.0,Masculino,TI,0
3,25,3454.0,Feminino,Marketing,1
4,38,9996.0,Masculino,Marketing,1


# Padronização

A padronização (Standard Scaler) altera os valores da coluna de forma que a média dos elementos seja 0 e o desvio padrão seja 1 reduzindo a dispersão dos dados das colunas.

Para implementar a Padronização é necessário criar um escalonador. Isso é feito com a expressão:   

```py
nome_do_escalonador = StandardScaler()
```

Após a criação do escalonador é possível usa-lo para escalonar conjuntos de dados numéricos. Para isso é usado o método `.fit_transform()`, que recebe como parâmetro o conjunto de dados que se deseja escalonar.

Veja a aplicação no exemplo abaixo:

In [3]:
#Cria o escalonador
scaler = StandardScaler()

#Padroniza as colunas 'Idade' e 'Salario'
df[['Idade', 'Salario']] = scaler.fit_transform(df[['Idade', 'Salario']])
df

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
0,1.487884,1.438170,Masculino,Marketing,0
1,0.665394,-0.665378,Feminino,TI,1
2,-0.486092,0.969963,Masculino,TI,0
3,-1.061835,-0.923946,Feminino,Marketing,1
4,0.007402,1.678439,Masculino,Marketing,1
...,...,...,...,...,...
95,1.734631,0.600808,Masculino,Marketing,0
96,1.487884,1.600471,Masculino,RH,0
97,1.652382,-0.196774,Masculino,Marketing,1
98,0.583145,-0.901272,Masculino,TI,1


Após a aplicação do escalonamento é possivel verificar que os valores da coluna Salario e Idade agora são mais proximos, o que os torna melhores para certos modelos como ja foi explicado acima.

# Escalonamento

A normalização (Min Max Scaler) transforma os dados da coluna para uma escala entre 0 e 1, reduzindo a dispersão dos dados.

A normalização é sensível a outliers, isso é, quando o conjunto possui um único dado com valor elevado isso pode achatar os demais, além disso, ela pode perder a precisão entre valores muito próximos, sendo mais util para a criação de redes neurais.

Para implementar a Normalização é necessário criar um escalonador. Isso é feito com a expressão: 

```py
nome_do_escalonador = MinMaxScaler()
```

Após a criação do escalonador é possível usa-lo para escalonar conjuntos de dados numéricos. Para isso é usado o método `.fit_transform()`, que recebe como parâmetro o conjunto de dados que se deseja escalonar.

Veja a aplicação no exemplo abaixo:

In [7]:
#Criação do Escalonador
scaler = MinMaxScaler()

#Normalização das colunas 'Idade' e 'Salario'
df[['Idade', 'Salario']] = scaler.fit_transform(df[['Idade', 'Salario']])
df

Unnamed: 0,Idade,Salario,Genero,Setor,Comprou
0,0.926829,0.931356,Masculino,Marketing,0
1,0.682927,0.330378,Feminino,TI,1
2,0.341463,0.797591,Masculino,TI,0
3,0.170732,0.256506,Feminino,Marketing,1
4,0.487805,1.000000,Masculino,Marketing,1
...,...,...,...,...,...
95,1.000000,0.692124,Masculino,Marketing,0
96,0.926829,0.977725,Masculino,RH,0
97,0.975610,0.464257,Masculino,Marketing,1
98,0.658537,0.262984,Masculino,TI,1


Após a aplicação do escalonamento é possivel verificar que os valores da coluna Salario e Idade agora são mais proximos, o que os torna melhores para certos modelos como ja foi explicado acima.

[<- Anterior](missing_values.ipynb) | [Próximo ->](encoding.ipynb)