# Transformação: padronização e normalização

Um dos objetivos principais da transformação de dados é converter um conjunto bruto em uma forma padrao de uso.

Existem várias técnicas de transformação de dados

- Normalização Min-Max

Transformação onde os dados de um atributo são normalizados gerando valores entre 0,0 a 1,0


$$
valor\  transformado = \frac{(valor\ original - valor\ mínimo)}{(valor\ máximo - valor\ mínimo)}
$$

- Padronização

Transforma os valoes em números de desvios padrões a partir da média.

$$
Z = \frac{(X - \bar{X})}{(std)}
$$


Obs.: 
- A escala das variáveis pode afetar muito a qualidade das predições (principalmente aquelas que usam distância como medida)
- Alguns algoritmos darão preferência para utilizar variáveis com valores muito alto
- Padronizar as variáveis contínuas para todas terem média de 0 e desvio padrão 1 ou normalizar valores entre 0 a 1

https://scikit-learn.org/stable/modules/preprocessing.html

In [1]:
import pandas as pd
df = pd.DataFrame([
    4763.75, 7391.72, 729.33, 2376.28, 1887.72, 1207.36, 4745.39, 3635.80,
    8119.15, 2356.41, 13502.54, 2655.92, 3920.45, 853.32, 12819.59, 10088.13,
    4414.62, 7293.00, 11445.93, 8339.63, 4858.72, 1616.16, 1339.24, 7108.82,
    2054.73, 1441.01, 8981.38, 8753.71, 3426.82, 3873.20, 1165.56, 5431.64,
    12541.13, 5889.54, 2585.15, 5146.24, 718.91, 1049.08, 9072.00, 3273.02
], columns=['salário'])

df = df.reset_index()

df['index'] = df['index']+1

df.columns = ['id', 'salário']

In [2]:
df

Unnamed: 0,id,salário
0,1,4763.75
1,2,7391.72
2,3,729.33
3,4,2376.28
4,5,1887.72
5,6,1207.36
6,7,4745.39
7,8,3635.8
8,9,8119.15
9,10,2356.41


In [8]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

## Normalização MinMax

In [11]:
scaler = MinMaxScaler()

scaler.fit(df)

scaler.transform(df)

array([[0.00000000e+00, 3.16407781e-01],
       [2.56410256e-02, 5.21980846e-01],
       [5.12820513e-02, 8.15104943e-04],
       [7.69230769e-02, 1.29647839e-01],
       [1.02564103e-01, 9.14302119e-02],
       [1.28205128e-01, 3.82090220e-02],
       [1.53846154e-01, 3.14971569e-01],
       [1.79487179e-01, 2.28173844e-01],
       [2.05128205e-01, 5.78884088e-01],
       [2.30769231e-01, 1.28093507e-01],
       [2.56410256e-01, 1.00000000e+00],
       [2.82051282e-01, 1.51522690e-01],
       [3.07692308e-01, 2.50440603e-01],
       [3.33333333e-01, 1.05142280e-02],
       [3.58974359e-01, 9.46576207e-01],
       [3.84615385e-01, 7.32907633e-01],
       [4.10256410e-01, 2.89097072e-01],
       [4.35897436e-01, 5.14258470e-01],
       [4.61538462e-01, 8.39121595e-01],
       [4.87179487e-01, 5.96131146e-01],
       [5.12820513e-01, 3.23836813e-01],
       [5.38461538e-01, 7.01874194e-02],
       [5.64102564e-01, 4.85253406e-02],
       [5.89743590e-01, 4.99850981e-01],
       [6.153846

## Padroniação

In [12]:
scaler = StandardScaler()

In [13]:
scaler.fit(df)

StandardScaler()

In [14]:
scaler.transform(df)

array([[-1.68927752, -0.08453746],
       [-1.6026479 ,  0.63664452],
       [-1.51601829, -1.19168518],
       [-1.42938867, -0.73972011],
       [-1.34275905, -0.87379343],
       [-1.25612944, -1.06050156],
       [-1.16949982, -0.08957591],
       [-1.0828702 , -0.3940757 ],
       [-0.99624059,  0.83626986],
       [-0.90961097, -0.74517294],
       [-0.82298136,  2.31360934],
       [-0.73635174, -0.66297976],
       [-0.64972212, -0.31596048],
       [-0.56309251, -1.15765916],
       [-0.47646289,  2.12619045],
       [-0.38983327,  1.37660817],
       [-0.30320366, -0.18034764],
       [-0.21657404,  0.60955323],
       [-0.12994442,  1.74922312],
       [-0.04331481,  0.89677519],
       [ 0.04331481, -0.05847527],
       [ 0.12994442, -0.94831642],
       [ 0.21657404, -1.02431032],
       [ 0.30320366,  0.55900954],
       [ 0.38983327, -0.82796162],
       [ 0.47646289, -0.99638204],
       [ 0.56309251,  1.07288775],
       [ 0.64972212,  1.0104093 ],
       [ 0.73635174,

Aí usamos os dados normalizados/padronizados para a entrada do modelo

- Cuidado em normalizar/padronizar os dados COM outlier pq o Mim Max vai ser afetado  


Comparando técnicas de transformação e outliers


https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py

- Quando é importante transformar os dados:
    - Quando quiser comparar matematicamente dados em escalas diferentes
    - Alguns modelos só performam com dados na mesma escala
    - Outros modelos, como regressão logística,  regressão linear, árvores, entre outros NÃO precisam PORÉM se a gente transformar, o resultado não será afetado! Esses modelos trabalham igualmente com os dados padronizados/normalizados na mesma escala ou não