# Normalização e Padronização de Variáveis

#### Neste notebook, aplicamos diferentes técnicas de transformação nas variáveis `idade` e `salario` para ajustar suas escalas e distribuições.

#### Essas transformações são importantes para algoritmos de machine learning que são sensíveis à magnitude dos dados.


## 1. Leitura dos Dados
Importamos bibliotecas essenciais e carregamos o dataset.

-  sklearn.preprocessing para normalizar/padronizar valores
- d.set_option('display.width' - define a largura máxima que o Pandas
pode usar para exibir uma linha de dados, None - não há limite de largura)
-  pd.set_option('display.max_colwidth' - define a largura máxima que o Pandas
vai mostrar para o conteúdo das colunas, especialmente se tiver textos longos
(como endereços, descrições, etc)
 - None permite que todo o conteúdo da célula seja exibido
- Em resumo está dizendo "sem limites para exibição, quero ver tudo completinho".

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from pathlib import Path

pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

data_path = Path('../data/clientes-v2-tratados.csv')
df = pd.read_csv(data_path)

print(df.head())

## 2. Seleção das Variáveis

Selecionamos apenas as colunas relevantes para escalonamento: `idade` e `salario`.

In [None]:
df = df[['idade', 'salario']]

## 3. Normalização com MinMaxScaler

- MinMaxScaler transforma os valores para um intervalo fixo
-  Primeiro para o padrão 0 á 1, depois para -1 á 1(_mm)
- Quer dizer que se a menor idade é 18 e a maior é 100, 18 vira 0 e 100 vira 1
- Com valores intermediários escalados proporcionalmente

#### Escala padrão (0 a 1)

In [None]:
scaler = MinMaxScaler()
df['idadeMinMaxScaler'] = scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler'] = scaler.fit_transform(df[['salario']])

#### Escala customizada (-1 a 1)

In [None]:
min_max_scaler = MinMaxScaler(feature_range=(-1, 1))
df['idadeMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['salario']])

## 4. Padronização com StandardScaler

- Ele padroniza os dados para que a média fique 0 e o desvio padrão fique 1
- Isso é útil quando os algoritmos esperam dados com distribuição normal.
- Distribuição normal ou distribuição gaussiana: é aquela curva em formato de sino ^ (bell curve)
em que a maioria dos dados está concentrada em torno da média e quanto mais distante da média, menor a frequência.
- Exemplos de bell curve: alturas humanas, notas em provas, temperaturas médias.
- Os dados que esperam a distribuição normal, são principalmente os lineares e estatísticos,
pois funcionam melhor quando os dados têm essa forma

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
df['idadeStandardScaler'] = scaler.fit_transform(df[['idade']])
df['salarioStandardScaler'] = scaler.fit_transform(df[['salario']])

## 5. Padronização com RobustScaler

- Com RobustScaler dá para obter uma distribuição mais equilibrada dos dados quando há outliers
ele é usado para análises onde valores extremos não devem dominar o comportamento dos algoritmos.
- O RobustScaler usa a mediana e o intervalo interquartil (IQR)
que é o intervalo entre os quartis 25% (Q1) e 75% (Q3), assim os dados
são centrados na mediana, e os valores normais têm espaço proporcional.

In [None]:
from sklearn.preprocessing import RobustScaler

In [None]:
scaler = RobustScaler()
df['idadeRobustScaler'] = scaler.fit_transform(df[['idade']])
df['salarioRobustScaler'] = scaler.fit_transform(df[['salario']])

## 6. Visualização dos Resultados

Exibe os primeiros 15 registros para comparar visualmente os efeitos de cada transformação.
Isso ajuda a entender como cada técnica altera os valores originais.

In [None]:
print(df.head(15))

## 7. Estatísticas das Transformações

- Calculamos estatísticas básicas (mínimo, máximo, média, desvio padrão) para cada técnica
-  Isso permite avaliar se os objetivos de cada transformação foram atingidos
- Por exemplo, StandardScaler deve ter média próxima de 0 e desvio padrão próximo de 1

In [None]:
print('MinMaxScaler (De 0 a 1):')

In [None]:
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['idadeMinMaxScaler'].min(),
    df['idadeMinMaxScaler'].max(),
    df['idadeMinMaxScaler'].mean(),
    df['idadeMinMaxScaler'].std()
))

In [None]:
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['salarioMinMaxScaler'].min(),
    df['salarioMinMaxScaler'].max(),
    df['salarioMinMaxScaler'].mean(),
    df['salarioMinMaxScaler'].std()
))


In [None]:
print('\n MinMaxScaler (De -1 a 1):')

In [None]:
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['idadeMinMaxScaler_mm'].min(),
    df['idadeMinMaxScaler_mm'].max(),
    df['idadeMinMaxScaler_mm'].mean(),
    df['idadeMinMaxScaler_mm'].std()
))

In [None]:
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['salarioMinMaxScaler'].min(),
    df['salarioMinMaxScaler_mm'].max(),
    df['salarioMinMaxScaler_mm'].mean(),
    df['salarioMinMaxScaler_mm'].std()
))

In [None]:
print('\n StandardScaler (Ajuste a média a 0 e desvio padrão a 1):')

In [None]:
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(
    df['idadeStandardScaler'].min(),
    df['idadeStandardScaler'].max(),
    df['idadeStandardScaler'].mean(),
    df['idadeStandardScaler'].std()
))

In [None]:
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(
    df['salarioStandardScaler'].min(),
    df['salarioStandardScaler'].max(),
    df['salarioStandardScaler'].mean(),
    df['salarioStandardScaler'].std()
))

In [None]:
print('\nRobustScaler (Ajuste a mediana e IQR):')

In [None]:
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['idadeRobustScaler'].min(),
    df['idadeRobustScaler'].max(),
    df['idadeRobustScaler'].mean(),
    df['idadeRobustScaler'].std()
))

In [None]:
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(
    df['salarioRobustScaler'].min(),
    df['salarioRobustScaler'].max(),
    df['salarioRobustScaler'].mean(),
    df['salarioRobustScaler'].std()
))

### Considerações Técnicas

- A escolha da técnica de escalonamento depende do algoritmo de machine learning que será utilizado.
- Algoritmos baseados em distância (como KNN e SVM) são sensíveis à escala dos dados.
- Sempre é recomendável aplicar escalonamento **após** a separação entre treino e teste, para evitar vazamento de dados.
- Em pipelines reais, essas transformações são aplicadas com `fit` no conjunto de treino e `transform` no conjunto de teste.

#### Algoritmos que preferem dados normalizados
- Regressão Linear: Assumem que os erros são normalmente distribuídos
- KNN (K-Nearest Neighbors): Sensível à escala e dispersão dos dados
- PCA (Análise de Componentes Principais): Calcula variâncias; assume simetria nos dados
- SVM (Support Vector Machines): Usa distância e margem — distribuição ajuda na definição
- Redes Neurais (em alguns casos): Melhor desempenho quando entradas são centradas e padronizadas