# Normalização de dados (Scalers)

Normalização do conjunto de dados (dataset) é um pré-requisito para um série de modelos de aprendizado de máquina. Algoritmos podem dar pesos diferentes a atributos com diferentes escalas e isso pode afetar negativamente o aprendizado de alguns modelos.

## Normalização e padronização

Para evitar que os modelos deem maior valor para atributos com maior ordem de grandeza, utiliza-se técnicas chamads de normalização e padronização dos atributos. Tem por objetivo deixar todos os atributos na mesma ordem de grandeza ou escala.

## Normalizador - MinMaxScaler

Dá a possibilidade de normalizar os dados utilizando valores máximos e mínimos encontrados nas colunas. Porém, caso haja um valor maior que o máximo, ou menor que o mínimo, a escala deve ser alterada.

In [1]:
# Importando bibliotecas

import pandas as pd

In [2]:
# Criando uma conjunto de dados com o pandas.DataFrame com vendas fictícias de laranja e suco de laranja

df = pd.DataFrame({
    'laranja': [100,180,90,120,150,110],
    'suco': [15,20,10,30,25,30]
})

df

Unnamed: 0,laranja,suco
0,100,15
1,180,20
2,90,10
3,120,30
4,150,25
5,110,30


In [3]:
# Importando o método MinMaxScaler da biblioteca sklearn para fazer a padronização

from sklearn.preprocessing import MinMaxScaler

In [4]:
# Atribuindo o método MinMaxScale a uma variável
normalizador = MinMaxScaler()
normalizador

In [5]:
df.laranja.shape

(6,)

In [6]:
df.laranja.to_frame().shape

(6, 1)

In [7]:
# O método MinMaxScale só aceita shape bidimensional, por isso transformaremos a Series abaixo
# em um DataFrame

vetor_laranja = df.laranja.to_frame()
vetor_laranja

Unnamed: 0,laranja
0,100
1,180
2,90
3,120
4,150
5,110


In [8]:
# Treinando o modelo com os atributos de vendas de laranja

normalizador.fit(vetor_laranja)

In [9]:
# Verificando alguns atributos do objeto normalizador

normalizador.clip, normalizador.data_min_, normalizador.data_max_, normalizador.feature_range

(False, array([90.]), array([180.]), (0, 1))

In [10]:
# Transformando os atributos da coluna laranja em valores normalizados (0 a 1)

normalizador.transform(vetor_laranja)

array([[0.11111111],
       [1.        ],
       [0.        ],
       [0.33333333],
       [0.66666667],
       [0.22222222]])

In [11]:
# Adicionando a coluna laranja_normalizada no df

df['laranja_normalizada'] = normalizador.transform(vetor_laranja)
df

Unnamed: 0,laranja,suco,laranja_normalizada
0,100,15,0.111111
1,180,20,1.0
2,90,10,0.0
3,120,30,0.333333
4,150,25,0.666667
5,110,30,0.222222


In [12]:
# Agora realizarei o mesmo procedimento feito nos scripts acima
# porém com os atributos da coluna suco

vetor_suco = df['suco'].to_frame()
normalizador.fit(vetor_suco)

In [13]:
normalizador.clip, normalizador.data_min_, normalizador.data_max_, normalizador.data_range_

(False, array([10.]), array([30.]), array([20.]))

In [14]:
normalizador.transform(vetor_suco)

array([[0.25],
       [0.5 ],
       [0.  ],
       [1.  ],
       [0.75],
       [1.  ]])

In [15]:
df['suco_normalizado'] = normalizador.transform(vetor_suco)
df

Unnamed: 0,laranja,suco,laranja_normalizada,suco_normalizado
0,100,15,0.111111,0.25
1,180,20,1.0,0.5
2,90,10,0.0,0.0
3,120,30,0.333333,1.0
4,150,25,0.666667,0.75
5,110,30,0.222222,1.0


## Padronizador - StandardScaler

A normalização dos dados é feita baseada em média e desvio padrão. Isso soluciona o problema de aparecerem valores maiores que o máximo ou menores que o mínimo já pré-estabelecido no conjunto de dados de treinamento.
Porém é bem sensível a valors muito distantes da média (outliers).

Geralmente é utilizado quando o desvio padrão é significativo e quando não há outliers.

In [17]:
# Importando o método StandardScaler da biblioteca Sklearn
from sklearn.preprocessing import StandardScaler

In [18]:
# Atribuindo o método StandardScaler em uma variável
padronizador = StandardScaler()
padronizador

In [19]:
df

Unnamed: 0,laranja,suco,laranja_normalizada,suco_normalizado
0,100,15,0.111111,0.25
1,180,20,1.0,0.5
2,90,10,0.0,0.0
3,120,30,0.333333,1.0
4,150,25,0.666667,0.75
5,110,30,0.222222,1.0


In [20]:
# Verificando a média e o desvio padrão dos atributos da laranja
df['laranja'].mean(), df['laranja'].std()

(125.0, 33.91164991562634)

In [21]:
# Trazendo mais dados estatísticos
df['laranja'].describe()

count      6.00000
mean     125.00000
std       33.91165
min       90.00000
25%      102.50000
50%      115.00000
75%      142.50000
max      180.00000
Name: laranja, dtype: float64

In [23]:
# Treinando o método StandardScaler com os dados da coluna laranja
padronizador.fit(df['laranja'].to_frame())

In [24]:
# Transformando os dados
padronizador.transform(df['laranja'].to_frame())

array([[-0.80757285],
       [ 1.77666028],
       [-1.13060199],
       [-0.16151457],
       [ 0.80757285],
       [-0.48454371]])

In [25]:
# Criando uma nova coluna no df com os resultados acima
df['laranja_padronizada'] = padronizador.transform(df['laranja'].to_frame())
df

Unnamed: 0,laranja,suco,laranja_normalizada,suco_normalizado,laranja_padronizada
0,100,15,0.111111,0.25,-0.807573
1,180,20,1.0,0.5,1.77666
2,90,10,0.0,0.0,-1.130602
3,120,30,0.333333,1.0,-0.161515
4,150,25,0.666667,0.75,0.807573
5,110,30,0.222222,1.0,-0.484544


In [26]:
# Fazendo os mesmos procedimentos dos dados acima com os dados da coluna
# suco
df['suco'].describe()

count     6.000000
mean     21.666667
std       8.164966
min      10.000000
25%      16.250000
50%      22.500000
75%      28.750000
max      30.000000
Name: suco, dtype: float64

In [27]:
padronizador.fit(df['suco'].to_frame())

In [28]:
df['suco_padronizado'] = padronizador.transform(df['suco'].to_frame())
df

Unnamed: 0,laranja,suco,laranja_normalizada,suco_normalizado,laranja_padronizada,suco_padronizado
0,100,15,0.111111,0.25,-0.807573,-0.894427
1,180,20,1.0,0.5,1.77666,-0.223607
2,90,10,0.0,0.0,-1.130602,-1.565248
3,120,30,0.333333,1.0,-0.161515,1.118034
4,150,25,0.666667,0.75,0.807573,0.447214
5,110,30,0.222222,1.0,-0.484544,1.118034
