<a href="https://colab.research.google.com/github/JaCaRego/JaCaRego/blob/main/Normalizacao_Padroniza%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NORMALIZAÇÃO E PADRONIZAÇÃO

Este código realiza o *escalonamento de dados* (data scaling) em um DataFrame do pandas, aplicando três métodos diferentes às colunas 'idade' e 'salário':

1.  **Normalização (MinMaxScaler)**: Transforma os dados para uma escala entre 0 e 1, ou -1 e 1. Isso garante que todos os valores das colunas sejam proporcionais dentro desse intervalo, sendo útil para algoritmos que dependem de distâncias ou são sensíveis à magnitude dos valores.
2.  **Padronização (StandardScaler)**: Transforma os dados para que tenham uma média de 0 e um desvio padrão de 1. É útil quando a distribuição dos dados se aproxima de uma distribuição normal e para algoritmos que assumem dados centralizados.
3.  **RobustScaler**: Similar ao StandardScaler, mas é mais robusto a *outliers* (valores atípicos) por usar a mediana e o Intervalo Interquartil (IQR) para escalar os dados.

### Função Principal:

*   **Preparação de Dados**: Carrega dados de um arquivo CSV (`clientes-v2-tratados.csv`).
*   **Seleção de Features**: Foca nas colunas 'idade' e 'salário'.
*   **Aplicação de Escalonamento**: Cria novas colunas para cada método de escalonamento aplicado.
*   **Análise Pós-Escalonamento**: Imprime estatísticas (mínimo, máximo, média, desvio padrão) para cada coluna escalonada, permitindo comparar o efeito de cada técnica. A normalização é fundamental para tornar variáveis com escalas muito diferentes comparáveis e evitar que uma domine a análise ou o modelo de machine learning, como no exemplo de um sistema de crédito.

## Detalhamento das Fórmulas de Escalonamento e Definição de Termos

Cada um dos escaladores possui uma fórmula matemática específica para transformar os dados, garantindo que o escalonamento seja aplicado de forma consistente. Além disso, incluímos as definições dos termos técnicos utilizados.

### 1. MinMaxScaler (Normalização)

O MinMaxScaler transforma as *features* (características ou atributos, as colunas ou variáveis independentes em um conjunto de dados) escalando cada *feature* individualmente para um determinado intervalo, geralmente entre 0 e 1, ou -1 e 1. Ele faz isso removendo o mínimo e dividindo pelo máximo menos o mínimo.

**Fórmula:**
$$ X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}} $$
Onde:
*   $X$ é o valor original do dado.
*   $X_{min}$ é o valor mínimo da *feature*.
*   $X_{max}$ é o valor máximo da *feature*.
*   $X_{norm}$ é o valor normalizado.

**Explicação:**
Esta normalização é útil para algoritmos que não assumem uma distribuição específica para os dados, como redes neurais e algoritmos baseados em distância (**KNN** - *k-Nearest Neighbors*, um algoritmo que classifica um ponto de dados com base na maioria das classes de seus 'k' vizinhos mais próximos, e **SVM** - *Support Vector Machine*, um algoritmo que busca um hiperplano ótimo para separar classes), onde a escala dos dados pode influenciar diretamente a computação das distâncias. Ela comprime todos os dados para dentro de um intervalo fixo, mantendo a forma original da distribuição dos dados.

### 2. StandardScaler (Padronização)

O StandardScaler padroniza as *features* (características ou atributos) removendo a média e escalando para a variância da unidade. O resultado é que a distribuição dos dados terá uma média igual a 0 e um desvio padrão igual a 1. Isso é útil para *features* que seguem uma distribuição normal (gaussiana) ou que precisam ser centralizadas.

**Fórmula:**
$$ X_{pad} = \frac{X - \mu}{\sigma} $$
Onde:
*   $X$ é o valor original do dado.
*   $\mu$ é a média da *feature*.
*   $\sigma$ é o desvio padrão da *feature*.
*   $X_{pad}$ é o valor padronizado.

**Explicação:**
Essa padronização é particularmente importante para algoritmos que assumem que os dados são centralizados em 0 e têm uma variância semelhante, como **Regressão Linear** (um algoritmo de aprendizado supervisionado que modela a relação linear entre variáveis), **Regressão Logística** (um algoritmo de classificação usado para prever a probabilidade de um evento), **SVMs** (Máquinas de Vetores de Suporte, um algoritmo que busca um hiperplano ótimo para separar classes) com certos *kernels* (funções que transformam dados de baixa dimensão em um espaço de alta dimensão, facilitando a separação ou detecção de padrões não-lineares) e Redes Neurais. Ela lida bem com *outliers*, pois o cálculo da média e do desvio padrão é sensível a eles, mas o objetivo é trazer a distribuição para um formato padrão.

### 3. RobustScaler

O RobustScaler escala os *features* (características ou atributos) usando estatísticas que são robustas a *outliers* (valores atípicos ou discrepantes, que se desviam significativamente de outras observações). Ele remove a mediana e escala os dados usando o intervalo interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1).

**Fórmula:**
$$ X_{rob} = \frac{X - Mediana}{IQR} $$
Onde:
*   $X$ é o valor original do dado.
*   $Mediana$ é a mediana da *feature*.
*   $IQR$ é o intervalo interquartil da *feature* ($Q_3 - Q_1$).
*   $X_{rob}$ é o valor escalonado pelo RobustScaler.

**Explicação:**
Ao contrário do StandardScaler, o RobustScaler utiliza a mediana e o IQR, que são estatísticas menos afetadas por valores extremos (*outliers*). Isso o torna a escolha ideal quando o seu conjunto de dados contém muitos *outliers* e você não quer que eles influenciem a transformação de forma significativa. É especialmente útil em cenários onde a distribuição dos dados é assimétrica ou possui uma cauda longa devido a *outliers*.

In [None]:
import pandas as pd
from sklearn.preprocessing import RobustScaler, MinMaxScaler, StandardScaler


pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

df = pd.read_csv('dados/clientes-v2-tratados.csv')

print(df.head())

#Pode usar qualquer um do dois
#df = df.drop(['data', 'estado', 'nivel_educacao', 'numero_filhos', 'estado_civil', 'area_atuacao'], axis=1)
df = df[['idade', 'salario']]

# Normalização - MinMax/scaler.
scaler = MinMaxScaler()
df['idadeMinMaxScaler'] = scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler'] = scaler.fit_transform(df[['salario']])

min_max_scaler = MinMaxScaler(feature_range=(-1, 1))
df['idadeMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['idade']])
df['salarioMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['salario']])

# Padronização - StandardScaler
scaler = StandardScaler()
df['idadeStandardScaler'] = scaler.fit_transform(df[['idade']])
df['salarioStandardScaler'] = scaler.fit_transform(df[['salario']])

# Padronização RobustScaler
scaler = RobustScaler()
df['idadeRobustScaler'] = scaler.fit_transform(df[['idade']])
df['salarioRobustScaler'] = scaler.fit_transform(df[['salario']])

print(df.head(15))

print('MinMaxScaler (De 0 a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler'].min(), df['idadeMinMaxScaler'].max(), df['idadeMinMaxScaler'].mean(), df['idadeMinMaxScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler'].min(), df['salarioMinMaxScaler'].max(), df['salarioMinMaxScaler'].mean(), df['salarioMinMaxScaler'].std()))

print('\nMinMaxScaler (De -1 a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler_mm'].min(), df['idadeMinMaxScaler_mm'].max(), df['idadeMinMaxScaler'].mean(), df['idadeMinMaxScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler_mm'].min(), df['salarioMinMaxScaler_mm'].max(), df['salarioMinMaxScaler_mm'].mean(), df['salarioMinMaxScaler_mm'].std()))

print('\nStandardScaler (Ajuste a média a 0 e desvio padrão a 1):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['idadeStandardScaler'].min(), df['idadeStandardScaler'].max(), df['idadeStandardScaler'].mean(), df['idadeStandardScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['salarioStandardScaler'].min(), df['salarioStandardScaler'].max(), df['salarioStandardScaler'].mean(), df['salarioStandardScaler'].std()))

print('\nRobustScaler (Ajuste a média e IQR):')
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeRobustScaler'].min(), df['idadeRobustScaler'].max(), df['idadeRobustScaler'].mean(), df['idadeRobustScaler'].std()))
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioRobustScaler'].min(), df['salarioRobustScaler'].max(), df['salarioRobustScaler'].mean(), df['salarioRobustScaler'].std()))


### **Importação de Bibliotecas e Configuração Inicial**

Esta seção importa as bibliotecas necessárias para manipulação de dados (`pandas`) e para o escalonamento (`sklearn.preprocessing`).

*   `pandas as pd`: Essencial para trabalhar com DataFrames, que são estruturas de dados tabulares.
*   `RobustScaler`, `MinMaxScaler`, `StandardScaler` (de `sklearn.preprocessing`): Classes que implementam os diferentes métodos de escalonamento de dados.

As configurações `pd.set_option` ajustam a forma como o pandas exibe os DataFrames, garantindo que colunas e largura não sejam truncadas.

### **Carregamento e Seleção de Dados**

Primeiro, o código carrega o arquivo `clientes-v2-tratados.csv` em um DataFrame chamado `df`.

Em seguida, são selecionadas apenas as colunas `'idade'` e `'salario'` para a aplicação dos métodos de escalonamento, descartando as outras features para simplificar a demonstração. A visualização inicial (`df.head()`) mostra as primeiras linhas do DataFrame antes do processamento.

### **Normalização com MinMaxScaler (Intervalo [0, 1])**

Aqui, o `MinMaxScaler` é aplicado para normalizar as colunas `'idade'` e `'salario'` para um intervalo entre 0 e 1. Isso significa que o valor mínimo de cada coluna se tornará 0 e o valor máximo se tornará 1, com os demais valores escalados proporcionalmente.

*   `scaler = MinMaxScaler()`: Cria uma instância do MinMaxScaler.
*   `scaler.fit_transform(df[['coluna']])`: Calcula os parâmetros de escalonamento (mínimo e máximo da coluna) e aplica a transformação.

### **Normalização com MinMaxScaler (Intervalo [-1, 1])**

Similar ao passo anterior, mas desta vez o `MinMaxScaler` é configurado para escalar os dados para o intervalo de -1 a 1. Isso é feito ao especificar `feature_range=(-1, 1)` durante a instanciação do scaler.

*   `min_max_scaler = MinMaxScaler(feature_range=(-1, 1))`: Cria uma instância com o intervalo desejado.

### **Padronização com StandardScaler**

O `StandardScaler` transforma os dados para que tenham uma média de 0 e um desvio padrão de 1. Este método é útil quando os dados seguem uma distribuição normal ou quando o algoritmo de Machine Learning assume esta característica.

*   `scaler = StandardScaler()`: Cria uma instância do StandardScaler.
*   `scaler.fit_transform(df[['coluna']])`: Calcula a média ($\mu$) e o desvio padrão ($\sigma$) da coluna e aplica a fórmula $X_{pad} = \frac{X - \mu}{\sigma}$.

### **Padronização com RobustScaler**

O `RobustScaler` é uma alternativa ao `StandardScaler` que é menos sensível a *outliers*. Ele escala os dados usando a mediana e o Intervalo Interquartil (IQR), em vez da média e do desvio padrão.

*   `scaler = RobustScaler()`: Cria uma instância do RobustScaler.
*   `scaler.fit_transform(df[['coluna']])`: Calcula a mediana e o IQR da coluna e aplica a fórmula $X_{rob} = \frac{X - Mediana}{IQR}$.

### **Visualização dos Dados Escalonados e Padronizados**

Após a aplicação de todos os escalonadores, `print(df.head(15))` exibe as primeiras 15 linhas do DataFrame. Agora, o DataFrame inclui as colunas originais e todas as novas colunas com os dados transformados por cada método, permitindo uma comparação visual inicial.

### **Análise Estatística dos Dados Transformados**

Por fim, o código calcula e imprime estatísticas descritivas (mínimo, máximo, média e desvio padrão) para cada uma das colunas que foram escalonadas. Isso ajuda a verificar se os escalonadores funcionaram como esperado:

*   **MinMaxScaler (0 a 1):** Mínimo próximo de 0, máximo próximo de 1.
*   **MinMaxScaler (-1 a 1):** Mínimo próximo de -1, máximo próximo de 1.
*   **StandardScaler:** Média próxima de 0, desvio padrão próximo de 1.
*   **RobustScaler:** Média próxima de 0 (mediana zero), e desvio padrão que reflete a escala do IQR.

```python
import pandas as pd # Importa a biblioteca pandas, fundamental para manipulação e análise de dados tabulares (DataFrames) em Python.
from sklearn.preprocessing import RobustScaler, MinMaxScaler, StandardScaler # Importa classes específicas do módulo `preprocessing` da biblioteca `scikit-learn` (sklearn).
                                                                           # - `RobustScaler`: Usado para escalar dados de forma robusta a *outliers*, usando mediana e IQR.
                                                                           # - `MinMaxScaler`: Usado para normalizar dados para um intervalo fixo (ex: [0, 1] ou [-1, 1]).
                                                                           # - `StandardScaler`: Usado para padronizar dados, transformando-os para ter média 0 e desvio padrão 1.


pd.set_option('display.width', None) # Configura uma opção de exibição do pandas para que as saídas de DataFrames não sejam truncadas horizontalmente no console ou em ambientes interativos.
pd.set_option('display.max_colwidth', None) # Configura uma opção de exibição do pandas para que o conteúdo das colunas em DataFrames não seja truncado verticalmente.

df = pd.read_csv('dados/clientes-v2-tratados.csv') # Carrega dados de um arquivo CSV ('clientes-v2-tratados.csv') para um objeto DataFrame do pandas, chamado 'df'.

print(df.head()) # Exibe as cinco primeiras linhas do DataFrame 'df', permitindo uma visualização rápida da estrutura e dos dados iniciais.

#Pode usar qualquer um do dois
#df = df.drop(['data', 'estado', 'nivel_educacao', 'numero_filhos', 'estado_civil', 'area_atuacao'], axis=1) # Esta linha (comentada) mostra como remover múltiplas colunas de um DataFrame, caso não sejam necessárias para a análise atual.
df = df[['idade', 'salario']] # Seleciona apenas as colunas 'idade' e 'salario' do DataFrame e reatribui o resultado a 'df', efetivamente descartando as outras colunas para a análise de escalonamento.

# Normalização - MinMax/scaler. (Escalonamento para um intervalo)
scaler = MinMaxScaler() # Cria uma instância do MinMaxScaler. Por padrão, ele escala os dados para o intervalo [0, 1].
df['idadeMinMaxScaler'] = scaler.fit_transform(df[['idade']]) # Aplica o MinMaxScaler à coluna 'idade'. `fit_transform` primeiro calcula os valores mínimos e máximos da coluna ('fit') e depois usa esses valores para escalar os dados ('transform'), armazenando o resultado em uma nova coluna.
df['salarioMinMaxScaler'] = scaler.fit_transform(df[['salario']]) # Aplica o MinMaxScaler à coluna 'salario', seguindo o mesmo processo da coluna 'idade'.

min_max_scaler = MinMaxScaler(feature_range=(-1, 1)) # Cria uma nova instância do MinMaxScaler, mas desta vez configurando o intervalo de destino para [-1, 1].
df['idadeMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['idade']]) # Aplica este MinMaxScaler configurado para o intervalo [-1, 1] à coluna 'idade', criando uma nova coluna.
df['salarioMinMaxScaler_mm'] = min_max_scaler.fit_transform(df[['salario']]) # Aplica este MinMaxScaler configurado para o intervalo [-1, 1] à coluna 'salario', criando uma nova coluna.

# Padronização - StandardScaler (Escalonamento para média 0 e desvio padrão 1)
scaler = StandardScaler() # Cria uma instância do StandardScaler.
df['idadeStandardScaler'] = scaler.fit_transform(df[['idade']]) # Aplica o StandardScaler à coluna 'idade'. `fit_transform` calcula a média e o desvio padrão da coluna e os usa para padronizar os dados.
df['salarioStandardScaler'] = scaler.fit_transform(df[['salario']]) # Aplica o StandardScaler à coluna 'salario', padronizando-a.

# Padronização RobustScaler (Escalonamento robusto a outliers)
scaler = RobustScaler() # Cria uma instância do RobustScaler.
df['idadeRobustScaler'] = scaler.fit_transform(df[['idade']]) # Aplica o RobustScaler à coluna 'idade'. `fit_transform` calcula a mediana e o Intervalo Interquartil (IQR) da coluna e os usa para escalar os dados, tornando-o menos sensível a *outliers*.
df['salarioRobustScaler'] = scaler.fit_transform(df[['salario']]) # Aplica o RobustScaler à coluna 'salario', escalonando-a de forma robusta.

print(df.head(15)) # Exibe as quinze primeiras linhas do DataFrame atualizado, que agora inclui todas as novas colunas com os dados escalonados e padronizados.

print('MinMaxScaler (De 0 a 1):') # Imprime um título indicando as estatísticas para o MinMaxScaler no intervalo [0, 1].
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler'].min(), df['idadeMinMaxScaler'].max(), df['idadeMinMaxScaler'].mean(), df['idadeMinMaxScaler'].std())) # Imprime as estatísticas (mínimo, máximo, média, desvio padrão) da coluna 'idade' após a normalização MinMax [0, 1].
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler'].min(), df['salarioMinMaxScaler'].max(), df['salarioMinMaxScaler'].mean(), df['salarioMinMaxScaler'].std())) # Imprime as estatísticas da coluna 'salario' após a normalização MinMax [0, 1].

print('\nMinMaxScaler (De -1 a 1):') # Imprime um título para as estatísticas do MinMaxScaler no intervalo [-1, 1].
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeMinMaxScaler_mm'].min(), df['idadeMinMaxScaler_mm'].max(), df['idadeMinMaxScaler_mm'].mean(), df['idadeMinMaxScaler_mm'].std())) # Imprime as estatísticas da coluna 'idade' após a normalização MinMax [-1, 1].
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioMinMaxScaler_mm'].min(), df['salarioMinMaxScaler_mm'].max(), df['salarioMinMaxScaler_mm'].mean(), df['salarioMinMaxScaler_mm'].std())) # Imprime as estatísticas da coluna 'salario' após a normalização MinMax [-1, 1].

print('\nStandardScaler (Ajuste a média a 0 e desvio padrão a 1):') # Imprime um título para as estatísticas do StandardScaler.
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['idadeStandardScaler'].min(), df['idadeStandardScaler'].max(), df['idadeStandardScaler'].mean(), df['idadeStandardScaler'].std())) # Imprime as estatísticas da coluna 'idade' após a padronização StandardScaler. A média é exibida com alta precisão para mostrar que se aproxima de zero.
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.18f} Std: {:.4f}'.format(df['salarioStandardScaler'].min(), df['salarioStandardScaler'].max(), df['salarioStandardScaler'].mean(), df['salarioStandardScaler'].std())) # Imprime as estatísticas da coluna 'salario' após a padronização StandardScaler.

print('\nRobustScaler (Ajuste a média e IQR):') # Imprime um título para as estatísticas do RobustScaler.
print('Idade - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['idadeRobustScaler'].min(), df['idadeRobustScaler'].max(), df['idadeRobustScaler'].mean(), df['idadeRobustScaler'].std())) # Imprime as estatísticas da coluna 'idade' após o escalonamento RobustScaler.
print('Salário - Min: {:.4f} Max: {:.4f} Mean: {:.4f} Std: {:.4f}'.format(df['salarioRobustScaler'].min(), df['salarioRobustScaler'].max(), df['salarioRobustScaler'].mean(), df['salarioRobustScaler'].std())) # Imprime as estatísticas da coluna 'salario' após o escalonamento RobustScaler.
```