# Como padronizar os dados?

A padronização dos dados é uma técnica de pré-processamento que envolve reescalar as características (features) dos dados de modo que elas tenham uma média (ou valor esperado) de 0 e um desvio padrão de 1. A padronização é um caso especial de escalonamento ou normalização dos dados.

A fórmula matemática para a padronização é:

$$
z = \frac{x - \mu}{\sigma}
$$

Onde:

- $z$ representa o valor padronizado
- $x$ é o valor original
- $\mu$ é a média dos valores
- $\sigma$ é o desvio padrão dos valores

## Na prática

### Criando um dataset de exemplo

Vamos criar um conjunto de dados com idades e salários. As idades variam de 20 a 60 anos, enquanto os salários variam de $30.000 a $100.000.

In [1]:
import numpy as np
import pandas as pd

# Seed para reprodutibilidade
np.random.seed(42)

# Criando dados de exemplo
idades = np.random.randint(20, 60, 100)
salarios = np.random.randint(30000, 100000, 100)

# Criando um DataFrame
df = pd.DataFrame({'Idade': idades, 'Salário': salarios})

print(df.head())

   Idade  Salário
0     58    65222
1     48    93335
2     34    40965
3     27    54538
4     40    38110


### Usando o `StandardScaler` para padronizar os dados`

In [2]:
from sklearn.preprocessing import StandardScaler

# Criando o objeto StandardScaler
scaler = StandardScaler()

# Ajustando e transformando os dados
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

print(df_scaled.head())


      Idade   Salário
0  1.670713 -0.057025
1  0.801003  1.290892
2 -0.416591 -1.220060
3 -1.025388 -0.569284
4  0.105235 -1.356947
