# Normalização de dados quantitativos

A normalização de dados é um processo comum em análise de dados que visa colocar variáveis em uma escala comum. O objetivo principal é evitar que variáveis com diferentes unidades ou escalas dominem os resultados, especialmente em algoritmos de aprendizado de máquina que são sensíveis à escala das variáveis.

Existem várias técnicas de normalização de dados, sendo as mais comuns a normalização min-max e a padronização (z-score).

## Configurando dados

In [1]:
# Importando biblioteca pandas
import pandas as pd

# Importando dados
df = pd.read_csv('dados/diabetes.csv')

for coluna in df.columns:
    
    # Calculando mediana
    mediana_coluna = df[coluna].median()
    
    # Substitui os valores nulos pela mediana da coluna usando loc
    df.loc[df[coluna].isnull(), coluna] = mediana_coluna

# Visualizando dados
df.head(5)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age
0,6,148,72.0,35.0,0.0,33.6,627.0,50.0
1,1,85,66.0,29.0,0.0,26.6,351.0,31.0
2,8,183,64.0,23.0,0.0,23.3,672.0,32.0
3,1,89,66.0,23.0,94.0,28.1,167.0,21.0
4,0,137,40.0,35.0,168.0,43.1,2288.0,29.0


## Min-Max

A fórmula do Min-Max pode ser descrita como **Xnorm = (Xmax − Xmin) / (X − Xmin)**. A escala os dados para um intervalo específico (geralmente [0, 1]), mantendo a distribuição relativa dos dados. É importante saber que o Min-Max é sensível aos outliers, pois a presença de valores extremos pode distorcer a escala dos dados. Sua utilização é especialmente útil quando os dados têm distribuição uniforme ou quando a distribuição não é gaussiana.

In [2]:
# Importando a classe KMeans do módulo cluster da biblioteca scikit-learn
from sklearn.preprocessing import MinMaxScaler

# Normalização por Min-Max
scaler_minmax = MinMaxScaler()

# Aplicando normalização no DataFrame
df_minmax = pd.DataFrame(scaler_minmax.fit_transform(df), columns=df.columns)

# Visualizando dados
df_minmax.head(5)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age
0,0.352941,0.743719,0.590164,0.353535,0.0,0.500745,0.269183,0.483333
1,0.058824,0.427136,0.540984,0.292929,0.0,0.396423,0.150672,0.166667
2,0.470588,0.919598,0.52459,0.232323,0.0,0.347243,0.288505,0.183333
3,0.058824,0.447236,0.540984,0.232323,0.111111,0.418778,0.071665,0.0
4,0.0,0.688442,0.327869,0.353535,0.198582,0.642325,0.982395,0.133333


## Z-score

A fórmula do Z-Score pode ser descrita como Z = (X - μ) / σ, onde μ é a média dos dados e σ é o desvio padrão. O Z-Score normaliza os dados para que tenham média zero e desvio padrão um, o que significa que os dados estão centrados em torno de zero e têm uma dispersão padrão. O Z-Score é útil para identificar valores extremos, pois valores muito altos ou baixos terão um Z-Score significativamente diferente de zero. Ele é adequado para dados que seguem uma distribuição normal ou aproximadamente normal.

In [3]:
# Importando a classe KMeans do módulo cluster da biblioteca scikit-learn
from sklearn.preprocessing import StandardScaler

# Normalização por Min-Max
scaler_zscore = StandardScaler()

# Aplicando normalização no DataFrame
df_zscore = pd.DataFrame(scaler_zscore.fit_transform(df), columns=df.columns)

# Visualizando dados
df_zscore.head(5)

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age
0,0.639947,0.848324,0.142335,0.90545,-0.693391,0.204013,0.584149,1.426218
1,-0.844885,-1.123396,-0.173144,0.528274,-0.693391,-0.684422,-0.226986,-0.191582
2,1.23388,1.943724,-0.278304,0.151099,-0.693391,-1.103255,0.7164,-0.106434
3,-0.844885,-0.998208,-0.173144,0.151099,0.122965,-0.494043,-0.767743,-1.043055
4,-1.141852,0.504055,-1.540222,0.90545,0.765628,1.409746,5.465654,-0.361876
