<a href="https://colab.research.google.com/github/JaCaRego/JaCaRego/blob/main/Normalizacao_Padroniza%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NORMALIZAÇÃO E PADRONIZAÇÃO

Este código realiza o *escalonamento de dados* (data scaling) em um DataFrame do pandas, aplicando três métodos diferentes às colunas 'idade' e 'salário':

1.  **Normalização (MinMaxScaler)**: Transforma os dados para uma escala entre 0 e 1, ou -1 e 1. Isso garante que todos os valores das colunas sejam proporcionais dentro desse intervalo, sendo útil para algoritmos que dependem de distâncias ou são sensíveis à magnitude dos valores.
2.  **Padronização (StandardScaler)**: Transforma os dados para que tenham uma média de 0 e um desvio padrão de 1. É útil quando a distribuição dos dados se aproxima de uma distribuição normal e para algoritmos que assumem dados centralizados.
3.  **RobustScaler**: Similar ao StandardScaler, mas é mais robusto a *outliers* (valores atípicos) por usar a mediana e o Intervalo Interquartil (IQR) para escalar os dados.

### Função Principal:

*   **Preparação de Dados**: Carrega dados de um arquivo CSV (`clientes-v2-tratados.csv`).
*   **Seleção de Features**: Foca nas colunas 'idade' e 'salário'.
*   **Aplicação de Escalonamento**: Cria novas colunas para cada método de escalonamento aplicado.
*   **Análise Pós-Escalonamento**: Imprime estatísticas (mínimo, máximo, média, desvio padrão) para cada coluna escalonada, permitindo comparar o efeito de cada técnica. A normalização é fundamental para tornar variáveis com escalas muito diferentes comparáveis e evitar que uma domine a análise ou o modelo de machine learning, como no exemplo de um sistema de crédito.

## Detalhamento das Fórmulas de Escalonamento e Definição de Termos

Cada um dos escaladores possui uma fórmula matemática específica para transformar os dados, garantindo que o escalonamento seja aplicado de forma consistente. Além disso, incluímos as definições dos termos técnicos utilizados.

### 1. MinMaxScaler (Normalização)

O MinMaxScaler transforma as *features* (características ou atributos, as colunas ou variáveis independentes em um conjunto de dados) escalando cada *feature* individualmente para um determinado intervalo, geralmente entre 0 e 1, ou -1 e 1. Ele faz isso removendo o mínimo e dividindo pelo máximo menos o mínimo.

**Fórmula:**
$$ X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}} $$
Onde:
*   $X$ é o valor original do dado.
*   $X_{min}$ é o valor mínimo da *feature*.
*   $X_{max}$ é o valor máximo da *feature*.
*   $X_{norm}$ é o valor normalizado.

**Explicação:**
Esta normalização é útil para algoritmos que não assumem uma distribuição específica para os dados, como redes neurais e algoritmos baseados em distância (**KNN** - *k-Nearest Neighbors*, um algoritmo que classifica um ponto de dados com base na maioria das classes de seus 'k' vizinhos mais próximos, e **SVM** - *Support Vector Machine*, um algoritmo que busca um hiperplano ótimo para separar classes), onde a escala dos dados pode influenciar diretamente a computação das distâncias. Ela comprime todos os dados para dentro de um intervalo fixo, mantendo a forma original da distribuição dos dados.

### 2. StandardScaler (Padronização)

O StandardScaler padroniza as *features* (características ou atributos) removendo a média e escalando para a variância da unidade. O resultado é que a distribuição dos dados terá uma média igual a 0 e um desvio padrão igual a 1. Isso é útil para *features* que seguem uma distribuição normal (gaussiana) ou que precisam ser centralizadas.

**Fórmula:**
$$ X_{pad} = \frac{X - \mu}{\sigma} $$
Onde:
*   $X$ é o valor original do dado.
*   $\mu$ é a média da *feature*.
*   $\sigma$ é o desvio padrão da *feature*.
*   $X_{pad}$ é o valor padronizado.

**Explicação:**
Essa padronização é particularmente importante para algoritmos que assumem que os dados são centralizados em 0 e têm uma variância semelhante, como **Regressão Linear** (um algoritmo de aprendizado supervisionado que modela a relação linear entre variáveis), **Regressão Logística** (um algoritmo de classificação usado para prever a probabilidade de um evento), **SVMs** (Máquinas de Vetores de Suporte, um algoritmo que busca um hiperplano ótimo para separar classes) com certos *kernels* (funções que transformam dados de baixa dimensão em um espaço de alta dimensão, facilitando a separação ou detecção de padrões não-lineares) e Redes Neurais. Ela lida bem com *outliers*, pois o cálculo da média e do desvio padrão é sensível a eles, mas o objetivo é trazer a distribuição para um formato padrão.

### 3. RobustScaler

O RobustScaler escala os *features* (características ou atributos) usando estatísticas que são robustas a *outliers* (valores atípicos ou discrepantes, que se desviam significativamente de outras observações). Ele remove a mediana e escala os dados usando o intervalo interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1).

**Fórmula:**
$$ X_{rob} = \frac{X - Mediana}{IQR} $$
Onde:
*   $X$ é o valor original do dado.
*   $Mediana$ é a mediana da *feature*.
*   $IQR$ é o intervalo interquartil da *feature* ($Q_3 - Q_1$).
*   $X_{rob}$ é o valor escalonado pelo RobustScaler.

**Explicação:**
Ao contrário do StandardScaler, o RobustScaler utiliza a mediana e o IQR, que são estatísticas menos afetadas por valores extremos (*outliers*). Isso o torna a escolha ideal quando o seu conjunto de dados contém muitos *outliers* e você não quer que eles influenciem a transformação de forma significativa. É especialmente útil em cenários onde a distribuição dos dados é assimétrica ou possui uma cauda longa devido a *outliers*.

In [None]:
import pandas as pd
from sklearn.preprocessing import RobustScaler, MinMaxScaler, StandardScaler


pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

df = pd.read_csv('dados/clientes-v2-tratados.csv')

print(df.head())

#Pode usar qualquer um do dois
#df = df.drop(['data', 'estado', 'nivel_educacao', 'numero_filhos', 'estado_civil', 'area_atuacao'], axis=1)
df = df[['idade', 'salario']]

# Normalização - MinMax/scaler.
scaler = MinMaxScaler()
df['idadeMinMaxScaler'] = scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler'] = scaler.fit_transform(df[['salario']])

min_max_scaler = MinMaxScaler(feature_range=(-1, 1))
df['idadeMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['salario']])

# Padronização - StandardScaler
scaler = StandardScaler()
df['idadeStandardScaler'] = scaler.fit_transform(df[['idade']])
df['salarioStandardScaler'] = scaler.fit_transform(df[['salario']])

# Padronização RobustScaler
scaler = RobustScaler()
df['idadeRobustScaler'] = scaler.fit_transform(df[['idade']])
df['salarioRobustScaler'] = scaler.fit_transform(df[['salario']])

print(df.head(15))

print('MinMaxScaler (De 0 a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler'].min(), df['idadeMinMaxScaler'].max(), df['idadeMinMaxScaler'].mean(), df['idadeMinMaxScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler'].min(), df['salarioMinMaxScaler'].max(), df['salarioMinMaxScaler'].mean(), df['salarioMinMaxScaler'].std()))

print('\nMinMaxScaler (De -1 a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler_mm'].min(), df['idadeMinMaxScaler_mm'].max(), df['idadeMinMaxScaler'].mean(), df['idadeMinMaxScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler_mm'].min(), df['salarioMinMaxScaler_mm'].max(), df['salarioMinMaxScaler_mm'].mean(), df['salarioMinMaxScaler_mm'].std()))

print('\nStandardScaler (Ajuste a média a 0 e desvio padrão a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['idadeStandardScaler'].min(), df['idadeStandardScaler'].max(), df['idadeStandardScaler'].mean(), df['idadeStandardScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['salarioStandardScaler'].min(), df['salarioStandardScaler'].max(), df['salarioStandardScaler'].mean(), df['salarioStandardScaler'].std()))

print('\nRobustScaler (Ajuste a média e IQR):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeRobustScaler'].min(), df['idadeRobustScaler'].max(), df['idadeRobustScaler'].mean(), df['idadeRobustScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioRobustScaler'].min(), df['salarioRobustScaler'].max(), df['salarioRobustScaler'].mean(), df['salarioRobustScaler'].std()))
