# Aula 4.11 ‚Äì Normalizando e Transformando Dados

## üß† 1. Normaliza√ß√£o vs Padroniza√ß√£o


### üìè Normaliza√ß√£o
Transforma os valores para uma **escala entre 0 e 1**.  
F√≥rmula:  
```x_normalizado = (x - x_min) / (x_max - x_min)```

### üßÆ Padroniza√ß√£o (Z-score)
Transforma os dados para uma **distribui√ß√£o com m√©dia 0 e desvio padr√£o 1**.  
F√≥rmula:  
```z = (x - m√©dia) / desvio_padr√£o```

Essas t√©cnicas s√£o √∫teis para:
- Comparar vari√°veis com escalas diferentes
- Ajudar algoritmos de machine learning


## üîß 2. Criando dados de exemplo

In [1]:

import pandas as pd
import numpy as np

np.random.seed(42)

df = pd.DataFrame({
    'idade': np.random.randint(18, 65, size=10),
    'salario': np.random.randint(2000, 15000, size=10)
})

df


Unnamed: 0,idade,salario
0,56,7578
1,46,13636
2,32,13363
3,60,13111
4,25,10322
5,38,3685
6,56,2769
7,36,12583
8,40,8949
9,28,4433


In [2]:
df.corr()

Unnamed: 0,idade,salario
idade,1.0,-0.035582
salario,-0.035582,1.0


## üìâ 3. Aplicando Normaliza√ß√£o

> Normaliza√ß√£o √© indicada quando voc√™ precisa colocar os dados numa mesma escala, geralmente de 0 a 1.


**‚úÖ Use normaliza√ß√£o quando:**

*  Vari√°veis est√£o em escalas muito diferentes	Ex: uma vari√°vel vai de 0 a 1000 e outra de 0 a 1. Sem normalizar, a maior ‚Äúdomina‚Äù a an√°lise

* Vai usar algoritmos de machine learning sens√≠veis √† escala	Ex: k-NN, SVM, regress√£o log√≠stica, redes neurais

* Quer comparar vari√°veis em uma mesma r√©gua	Ajuda em visualiza√ß√µes, dashboards e an√°lises quantitativas
* Quer facilitar a converg√™ncia em modelos num√©ricos	Otimizadores num√©ricos trabalham melhor com vari√°veis em mesma escala


**‚ö†Ô∏è Evite normaliza√ß√£o quando:**

* A vari√°vel j√° est√° em escala adequada e faz sentido manter (ex: porcentagem, propor√ß√£o)	N√£o precisa normalizar

* Vai usar algoritmos que n√£o ligam para a escala	Ex: √°rvore de decis√£o, random forest, XGBoost

* Precisa manter a interpreta√ß√£o do valor original	Ex: mostrar sal√°rio em reais em um relat√≥rio

> üß† Dica b√¥nus: Se voc√™ tem outliers fortes, use padroniza√ß√£o (Z-score) que √© mais resistente a distor√ß√µes.


In [11]:
idade_min = 25
idade_max = 60

idade_x = 60

novo_valor = (idade_x - idade_min) / (idade_max - idade_min)
novo_valor


1.0

In [3]:

df['idade_normalizada'] = (df['idade'] - df['idade'].min()) / (df['idade'].max() - df['idade'].min())
df['salario_normalizado'] = (df['salario'] - df['salario'].min()) / (df['salario'].max() - df['salario'].min())
df


Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado
0,56,7578,0.885714,0.442532
1,46,13636,0.6,1.0
2,32,13363,0.2,0.974878
3,60,13111,1.0,0.951689
4,25,10322,0.0,0.69504
5,38,3685,0.371429,0.084292
6,56,2769,0.885714,0.0
7,36,12583,0.314286,0.903101
8,40,8949,0.428571,0.568694
9,28,4433,0.085714,0.153124


In [12]:
df.corr()

Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado
idade,1.0,-0.035582,1.0,-0.035582
salario,-0.035582,1.0,-0.035582,1.0
idade_normalizada,1.0,-0.035582,1.0,-0.035582
salario_normalizado,-0.035582,1.0,-0.035582,1.0


## üìä 4. Aplicando Padroniza√ß√£o (Z-score)

**Padroniza√ß√£o transforma os dados para que:**

* A m√©dia seja 0
* O desvio padr√£o seja 1

> Ou seja: ela centraliza e redimensiona os dados.


**‚úÖ Quando aplicar padroniza√ß√£o?**
1. üß† Quando os dados t√™m distribui√ß√µes normais ou quase normais
    * Padroniza√ß√£o preserva a forma da distribui√ß√£o, mas ajusta a escala.

    * Ideal para vari√°veis com m√©dia e desvio padr√£o importantes (ex: notas padronizadas, altura, peso).

2. ü§ñ Quando voc√™ vai usar algoritmos sens√≠veis √† escala E com base em dist√¢ncia
    * Algoritmos que assumem que os dados s√£o centrados e sim√©tricos, como:
        * k-NN (K-Nearest Neighbors)
        * SVM (Support Vector Machines)
        * PCA (An√°lise de Componentes Principais)
        * Regress√£o linear/log√≠stica
3. üìâ Quando as vari√°veis t√™m unidades diferentes mas sem limites fixos

    * Exemplo: idade (18 a 80), renda (mil a dezenas de mil), n√∫mero de filhos (0 a 5)
    * Padronizar ajuda a equilibrar a influ√™ncia de cada vari√°vel

**‚ö†Ô∏è Quando evitar padroniza√ß√£o?**

* Dados com outliers extremos	= Use RobustScaler (baseado em mediana e IQR)
* Vari√°veis com escala natural e interpret√°vel (ex: temperatura, pre√ßo)	= N√£o padronize se for mostrar para neg√≥cios
* Quando o modelo n√£o depende da escala (√°rvores, florestas, XGBoost)	= N√£o √© necess√°rio

In [14]:
df['idade'].mean()

np.float64(41.7)

In [13]:

df['idade_padronizada'] = (df['idade'] - df['idade'].mean()) / df['idade'].std()
df['salario_padronizado'] = (df['salario'] - df['salario'].mean()) / df['salario'].std()
df


Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado,idade_padronizada,salario_padronizado
0,56,7578,0.885714,0.442532,1.158149,-0.345331
1,46,13636,0.6,1.0,0.348255,1.082763
2,32,13363,0.2,0.974878,-0.785598,1.018407
3,60,13111,1.0,0.951689,1.482107,0.959001
4,25,10322,0.0,0.69504,-1.352524,0.301531
5,38,3685,0.371429,0.084292,-0.299661,-1.263054
6,56,2769,0.885714,0.0,1.158149,-1.478989
7,36,12583,0.314286,0.903101,-0.46164,0.834532
8,40,8949,0.428571,0.568694,-0.137682,-0.022136
9,28,4433,0.085714,0.153124,-1.109555,-1.086723


In [15]:
df.corr()

Unnamed: 0,idade,salario,idade_normalizada,salario_normalizado,idade_padronizada,salario_padronizado
idade,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0
idade_normalizada,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario_normalizado,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0
idade_padronizada,1.0,-0.035582,1.0,-0.035582,1.0,-0.035582
salario_padronizado,-0.035582,1.0,-0.035582,1.0,-0.035582,1.0


## Checklist r√°pido antes de transformar colunas:

* A coluna √© num√©rica?	‚úÖ	Pode normalizar/padronizar
* Tem valores faltantes (NaN)?	‚úÖ	Trate antes de transformar
* J√° est√° entre 0 e 1 / porcentagem?	‚úÖ	Normalizar pode ser desnecess√°rio
* A vari√°vel tem outliers extremos?	‚úÖ	Considere usar IQR e mediana
* Vai usar os dados em modelo preditivo depois?	‚úÖ	Guarde m√©dia, desvio, min e max

## ‚úÖ Conclus√£o


- A **normaliza√ß√£o** e a **padroniza√ß√£o** ajudam a ajustar vari√°veis para an√°lise ou modelos
- `.str` e `.dt` s√£o √≥timos para limpar texto e extrair partes de datas

**Na pr√≥xima aula: Lidando com vari√°veis categ√≥ricas**
