# Aula 4.11 – Normalizando e Transformando Dados

## 🧠 1. Normalização vs Padronização


### 📏 Normalização
Transforma os valores para uma **escala entre 0 e 1**.  
Fórmula:  
```x_normalizado = (x - x_min) / (x_max - x_min)```

### 🧮 Padronização (Z-score)
Transforma os dados para uma **distribuição com média 0 e desvio padrão 1**.  
Fórmula:  
```z = (x - média) / desvio_padrão```

Essas técnicas são úteis para:
- Comparar variáveis com escalas diferentes
- Ajudar algoritmos de machine learning


## 🔧 2. Criando dados de exemplo

In [1]:

import pandas as pd
import numpy as np

np.random.seed(42)

df = pd.DataFrame({
    'idade': np.random.randint(18, 65, size=10),
    'salario': np.random.randint(2000, 15000, size=10)
})

df


Unnamed: 0,idade,salario
0,56,7578
1,46,13636
2,32,13363
3,60,13111
4,25,10322
5,38,3685
6,56,2769
7,36,12583
8,40,8949
9,28,4433


In [2]:
df.corr()

Unnamed: 0,idade,salario
idade,1.0,-0.035582
salario,-0.035582,1.0


## 📉 3. Aplicando Normalização

> Normalização é indicada quando você precisa colocar os dados numa mesma escala, geralmente de 0 a 1.


**✅ Use normalização quando:**

*  Variáveis estão em escalas muito diferentes	Ex: uma variável vai de 0 a 1000 e outra de 0 a 1. Sem normalizar, a maior “domina” a análise

* Vai usar algoritmos de machine learning sensíveis à escala	Ex: k-NN, SVM, regressão logística, redes neurais

* Quer comparar variáveis em uma mesma régua	Ajuda em visualizações, dashboards e análises quantitativas
* Quer facilitar a convergência em modelos numéricos	Otimizadores numéricos trabalham melhor com variáveis em mesma escala


**⚠️ Evite normalização quando:**

* A variável já está em escala adequada e faz sentido manter (ex: porcentagem, proporção)	Não precisa normalizar

* Vai usar algoritmos que não ligam para a escala	Ex: árvore de decisão, random forest, XGBoost

* Precisa manter a interpretação do valor original	Ex: mostrar salário em reais em um relatório

> 🧠 Dica bônus: Se você tem outliers fortes, use padronização (Z-score) que é mais resistente a distorções.


In [11]:
idade_min = 25
idade_max = 60

idade_x = 60

novo_valor = (idade_x - idade_min) / (idade_max - idade_min)
novo_valor


1.0

In [3]:

df['idade_normalizada'] = (df['idade'] - df['idade'].min()) / (df['idade'].max() - df['idade'].min())
df['salario_normalizado'] = (df['salario'] - df['salario'].min()) / (df['salario'].max() - df['salario'].min())
df


Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado
0,56,7578,0.885714,0.442532
1,46,13636,0.6,1.0
2,32,13363,0.2,0.974878
3,60,13111,1.0,0.951689
4,25,10322,0.0,0.69504
5,38,3685,0.371429,0.084292
6,56,2769,0.885714,0.0
7,36,12583,0.314286,0.903101
8,40,8949,0.428571,0.568694
9,28,4433,0.085714,0.153124


In [12]:
df.corr()

Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado
idade,1.0,-0.035582,1.0,-0.035582
salario,-0.035582,1.0,-0.035582,1.0
idade_normalizada,1.0,-0.035582,1.0,-0.035582
salario_normalizado,-0.035582,1.0,-0.035582,1.0


## 📊 4. Aplicando Padronização (Z-score)

**Padronização transforma os dados para que:**

* A média seja 0
* O desvio padrão seja 1

> Ou seja: ela centraliza e redimensiona os dados.


**✅ Quando aplicar padronização?**
1. 🧠 Quando os dados têm distribuições normais ou quase normais
    * Padronização preserva a forma da distribuição, mas ajusta a escala.

    * Ideal para variáveis com média e desvio padrão importantes (ex: notas padronizadas, altura, peso).

2. 🤖 Quando você vai usar algoritmos sensíveis à escala E com base em distância
    * Algoritmos que assumem que os dados são centrados e simétricos, como:
        * k-NN (K-Nearest Neighbors)
        * SVM (Support Vector Machines)
        * PCA (Análise de Componentes Principais)
        * Regressão linear/logística
3. 📉 Quando as variáveis têm unidades diferentes mas sem limites fixos

    * Exemplo: idade (18 a 80), renda (mil a dezenas de mil), número de filhos (0 a 5)
    * Padronizar ajuda a equilibrar a influência de cada variável

**⚠️ Quando evitar padronização?**

* Dados com outliers extremos	= Use RobustScaler (baseado em mediana e IQR)
* Variáveis com escala natural e interpretável (ex: temperatura, preço)	= Não padronize se for mostrar para negócios
* Quando o modelo não depende da escala (árvores, florestas, XGBoost)	= Não é necessário

In [14]:
df['idade'].mean()

np.float64(41.7)

In [13]:

df['idade_padronizada'] = (df['idade'] - df['idade'].mean()) / df['idade'].std()
df['salario_padronizado'] = (df['salario'] - df['salario'].mean()) / df['salario'].std()
df


Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado,idade_padronizada,salario_padronizado
0,56,7578,0.885714,0.442532,1.158149,-0.345331
1,46,13636,0.6,1.0,0.348255,1.082763
2,32,13363,0.2,0.974878,-0.785598,1.018407
3,60,13111,1.0,0.951689,1.482107,0.959001
4,25,10322,0.0,0.69504,-1.352524,0.301531
5,38,3685,0.371429,0.084292,-0.299661,-1.263054
6,56,2769,0.885714,0.0,1.158149,-1.478989
7,36,12583,0.314286,0.903101,-0.46164,0.834532
8,40,8949,0.428571,0.568694,-0.137682,-0.022136
9,28,4433,0.085714,0.153124,-1.109555,-1.086723


In [15]:
df.corr()

Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado,idade_padronizada,salario_padronizado
idade,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0
idade_normalizada,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario_normalizado,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0
idade_padronizada,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario_padronizado,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0


## Checklist rápido antes de transformar colunas:

* A coluna é numérica?	✅	Pode normalizar/padronizar
* Tem valores faltantes (NaN)?	✅	Trate antes de transformar
* Já está entre 0 e 1 / porcentagem?	✅	Normalizar pode ser desnecessário
* A variável tem outliers extremos?	✅	Considere usar IQR e mediana
* Vai usar os dados em modelo preditivo depois?	✅	Guarde média, desvio, min e max

## ✅ Conclusão


- A **normalização** e a **padronização** ajudam a ajustar variáveis para análise ou modelos
- `.str` e `.dt` são ótimos para limpar texto e extrair partes de datas

**Na próxima aula: Lidando com variáveis categóricas**
