# Normalização e Padronização

Na aula anterior, você teve uma visão geral das técnicas de preparação de dados para análise. Nesta aula, você vai:

- Aplicar métodos de normalização e padronização em conjuntos de dados utilizando a biblioteca Sklearn;

- Comparar diferentes métodos de normalização e padronização, identificando suas aplicações e diferenças nos resultados obtidos;

- Avaliar a adequação dos métodos de normalização e padronização para diferentes conjuntos de dados e situações analíticas, justificando a escolha do método utilizado.

In [None]:
#Importando bibliotecas

import pandas as pd
from sklearn.preprocessing import StandardScaler, RobustScaler, MinMaxScaler

In [9]:
# Configurando display do pandas

pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

In [5]:
# Lendo o arquvo CSV

df = pd.read_csv(r'C:\Users\rodri\dev\ciencia_de_dados_v2\assets\clientes-v2-tratado.csv')

# Exibindo as primeiras linhas do DataFrame
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria


In [6]:
# Criar um datafram apenas com as colunas idade e salário para análise
df = df[['idade', 'salario']]

In [10]:
# Normalização dos dados - MinMaxScaler valores padrões
scaler = MinMaxScaler() # intervalo padrão é de [0, 1]
df['idadeMinMaxScaler'] = scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler'] = scaler.fit_transform(df[['salario']])
print(f"Valores padrões do MinMaxScaler: \n {df.head()} ")

Valores padrões do MinMaxScaler: 
    idade   salario  idadeMinMaxScaler  salarioMinMaxScaler  \
0     56  13550.54           0.520548             0.429638   
1     49   3124.72           0.424658             0.062257   
2     54   7534.60           0.493151             0.217650   
3     61   4067.73           0.589041             0.095486   
4     30   6809.94           0.164384             0.192115   

   idadeMinMaxScaler_mm  salarioMinMaxScaler_mm  
0              0.041096               -0.140724  
1             -0.150685               -0.875487  
2             -0.013699               -0.564699  
3              0.178082               -0.809028  
4             -0.671233               -0.615770   


In [11]:
# Normalização dos dados - MinMaxScaler valores ajustados
min_max_scaler = MinMaxScaler(feature_range=(-1, 1)) # intervalo customizado de [-1, 1]
df['idadeMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['salario']])
print(f"Valores ajustados do MinMaxScaler: \n {df.head()} ")

Valores ajustados do MinMaxScaler: 
    idade   salario  idadeMinMaxScaler  salarioMinMaxScaler  \
0     56  13550.54           0.520548             0.429638   
1     49   3124.72           0.424658             0.062257   
2     54   7534.60           0.493151             0.217650   
3     61   4067.73           0.589041             0.095486   
4     30   6809.94           0.164384             0.192115   

   idadeMinMaxScaler_mm  salarioMinMaxScaler_mm  
0              0.041096               -0.140724  
1             -0.150685               -0.875487  
2             -0.013699               -0.564699  
3              0.178082               -0.809028  
4             -0.671233               -0.615770   


In [12]:
# Padronização - StandardScaler
scaler = StandardScaler() # média será 0 (zero) e o desvio padrão será 1
df['idadeStandardScaler'] = scaler.fit_transform(df[['idade']])
df['salarioStandardScaler'] = scaler.fit_transform(df[['salario']])
print(f"Valores padrões do StandardScaler: \n {df.head()} ")

Valores padrões do StandardScaler: 
    idade   salario  idadeMinMaxScaler  salarioMinMaxScaler  \
0     56  13550.54           0.520548             0.429638   
1     49   3124.72           0.424658             0.062257   
2     54   7534.60           0.493151             0.217650   
3     61   4067.73           0.589041             0.095486   
4     30   6809.94           0.164384             0.192115   

   idadeMinMaxScaler_mm  salarioMinMaxScaler_mm  idadeStandardScaler  \
0              0.041096               -0.140724             1.038112   
1             -0.150685               -0.875487             0.583582   
2             -0.013699               -0.564699             0.908246   
3              0.178082               -0.809028             1.362775   
4             -0.671233               -0.615770            -0.650140   

   salarioStandardScaler  
0               1.949011  
1              -1.048690  
2               0.219268  
3              -0.777549  
4               0.0109

In [13]:
# Padronização - RobustScaler
scaler = RobustScaler()
df['idadeRobustScaler'] = scaler.fit_transform(df[['idade']])
df['salarioRobustScaler'] = scaler.fit_transform(df[['salario']])
print(f"Valores padrões do RobustScaler: \n {df.head()} ")

Valores padrões do RobustScaler: 
    idade   salario  idadeMinMaxScaler  salarioMinMaxScaler  \
0     56  13550.54           0.520548             0.429638   
1     49   3124.72           0.424658             0.062257   
2     54   7534.60           0.493151             0.217650   
3     61   4067.73           0.589041             0.095486   
4     30   6809.94           0.164384             0.192115   

   idadeMinMaxScaler_mm  salarioMinMaxScaler_mm  idadeStandardScaler  \
0              0.041096               -0.140724             1.038112   
1             -0.150685               -0.875487             0.583582   
2             -0.013699               -0.564699             0.908246   
3              0.178082               -0.809028             1.362775   
4             -0.671233               -0.615770            -0.650140   

   salarioStandardScaler  idadeRobustScaler  salarioRobustScaler  
0               1.949011           0.782609             1.775780  
1              -1.048690 

In [15]:
print("MinMaxScaler (de 0 a 1):")
print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['idadeMinMaxScaler'].min(),
    df['idadeMinMaxScaler'].max(),
    df['idadeMinMaxScaler'].mean(),
    df['idadeMinMaxScaler'].std()
))

print("Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['salarioMinMaxScaler'].min(),
    df['salarioMinMaxScaler'].max(),
    df['salarioMinMaxScaler'].mean(),
    df['salarioMinMaxScaler'].std()
))

print("\n MinMaxScaler (de -1 a 1):")
print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['idadeMinMaxScaler_mm'].min(),
    df['idadeMinMaxScaler_mm'].max(),
    df['idadeMinMaxScaler_mm'].mean(),
    df['idadeMinMaxScaler_mm'].std(),
))

print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['salarioMinMaxScaler_mm'].min(),
    df['salarioMinMaxScaler_mm'].max(),
    df['salarioMinMaxScaler_mm'].mean(),
    df['salarioMinMaxScaler_mm'].std(),
))

print("\n StandardScaler (Ajuste a médio a 0 e devio padrão a 1):")
print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}".format(
    df['idadeStandardScaler'].min(),
    df['idadeStandardScaler'].max(),
    df['idadeStandardScaler'].mean(),
    df['idadeStandardScaler'].std(),
))

print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}".format(
    df['salarioStandardScaler'].min(),
    df['salarioStandardScaler'].max(),
    df['salarioStandardScaler'].mean(),
    df['salarioStandardScaler'].std(),
))

print("\n RobustScaler (Ajuste a mediana e IQR):")
print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['idadeRobustScaler'].min(),
    df['idadeRobustScaler'].max(),
    df['idadeRobustScaler'].mean(),
    df['idadeRobustScaler'].std(),
))

print("Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}".format(
    df['salarioRobustScaler'].min(),
    df['salarioRobustScaler'].max(),
    df['salarioRobustScaler'].mean(),
    df['salarioRobustScaler'].std(),
))

MinMaxScaler (de 0 a 1):
Idade - Min: 0.0000 Max: 1.0000 Mean: 0.3015 Std: 0.2110
Salário - Min: 0.0000 Max: 1.0000 Mean: 0.1908 Std: 0.1226

 MinMaxScaler (de -1 a 1):
Idade - Min: -1.0000 Max: 1.0000 Mean: -0.3969 Std: 0.4220
Idade - Min: -1.0000 Max: 1.0000 Mean: -0.6184 Std: 0.2451

 StandardScaler (Ajuste a médio a 0 e devio padrão a 1):
Idade - Min: -1.4293 Max: 3.3108 Mean: 0.000000000000000177 Std: 1.0001
Idade - Min: -1.5567 Max: 6.6030 Mean: 0.000000000000000182 Std: 1.0001

 RobustScaler (Ajuste a mediana e IQR):
Idade - Min: -0.8696 Max: 2.3043 Mean: 0.0875 Std: 0.6696
Idade - Min: -1.1153 Max: 5.6139 Mean: 0.1684 Std: 0.8247
