# <center>Normalização x Padronização</center>

### O que é Normalização e quando aplicar ?

- A **normalização** é uma técnica frequentemente aplicada à preparação dos dados em aprendizado de máquina. O **objetivo** da normalização é alterar os valores das colunas numéricas no conjunto de dados para uma **escala comum**, sem distorcer as diferenças nos intervalos de valores. Não precisamos aplicar normalização a todo conjunto de dados. É necessário apenas quando os recursos (variáveis) tiverem **intervalos diferentes**.
- Por exemplo, considere o conjunto de dados contendo dois recursos, idade (x1) e receita (x2). Onde a faixa etária varia de 0 a 100 anos, enquanto a renda varia de 0 a 20.000 ou mais. A renda é cerca de 1.000 vezes maior do que a idade e com uma variação de valores muito maior. Então,  esses  dois  recursos  estão  em  intervalos  muito  **diferentes**.  Quando  fazemos  análises adicionais, como regressão linear multivariada, por exemplo, a renda atribuída influenciará muito mais o resultado devido ao seu valor maior. E isso causa problemas durante o treinamento do algoritmo.
- A **normalização** também é chamada simplesmente de **Scaler Min-Max** e basicamente reduz o intervalo dos dados de forma que o intervalo seja fixo entre **0 e 1** (ou -1 a 1, se houver valores negativos). Funciona melhor para casos em que a padronização (que veremos no próximo item de aprendizagem) pode não funcionar tão bem. Se a distribuição não for gaussiana ou o desvio padrão for muito pequeno, o Scaler Min-Max funciona melhor.

<br>

#### Quando a Normalização é Importante?
- A normalização é principalmente **necessária** no caso de algoritmos que usam medidas de distância como clustering, sistemas de recomendação que usam semelhança de cosseno, etc. Isto é feito de forma que uma variável que está em uma escala maior não afeta o resultado apenas porque está em uma escala maior.

<br>

#### Abaixo listamos alguns algoritmos de Machine Learning que requerem a normalização dos dados:

- KNN com medida de distância euclidiana se quiser que todos os recursos contribuam igualmente no modelo.
- Regressão Logística, SVM, Perceptrons, Redes Neurais.
- K-Means
- Análise  discriminante  linear,  análise  de  componentes  principais,  análise  de componentes principais do kernel.Classificadores baseados em modelo gráfico, como Fisher LDA ou Naive Bayes, bem como Árvores de Decisão e métodos baseados em árvore, como RandomForest, são invariantes ao dimensionamento de recursos, mas ainda assim pode ser uma boa ideia redimensionar os dados.

A  normalização  eliminará  a  capacidade  de  interpretação  do  modelo  e,  portanto, dependerá, em última instância, da necessidade do negócio.

<br><br>

### O Que é Padronização e quando aplicar?

- A **Padronização** (ou **normalização do escore Z** ou em inglês **Standardization** ou ainda **Standard Scaler**) é o processo de redimensionamento dos recursos (variáveis) para que eles tenham as propriedades de uma **distribuição normal** com μ = 0 e σ = 1, onde μ é a média e σ é o desvio padrão da média.
- É **amplamente utilizado** em SVMs, regressão logística e redes neurais.

<br><br>

## Normalização x Padronização

- Conforme vimos  nas  aulas anteriores, a **Normalização** transforma os dados em um **intervalo**, digamos entre 0 e 1 ou 1 e 10, de forma que os números estejam na **mesma escala**. Por exemplo, podemos converter os dados de centímetros para metros para que tenhamos todos na mesma escala.

<br>

- A **Padronização** significa transformar os dados de tal forma que eles tenham **média zero e desvio padrão igual a 1**. Portanto, aqui temos os dados em escala de forma padronizada, de modo que a distribuição seja aproximadamente uma **distribuição normal**.

<br>

#### Quando usar ?

- Ambas as técnicas têm suas desvantagens. Se você tiver valores **outliers** em seu conjunto de  dados, a **Normalização** dos  dados  certamente  aumentará  os dados "normais" para um intervalo muito pequeno. E, geralmente, a maioria dos conjuntos de dados tem outliers.
- Ao usar a **Padronização**, seus novos dados não são limitados (ao contrário da Normalização).
- Portanto, a **Normalização** é geralmente **evitada** quando o conjunto de dados tem **outliers** (desde que inclua o valor máximo). Nesses casos, preferimos a **Padronização**.

<br><br>

### Algumas considerações importantes:
- A **Normalização** torna o treinamento menos sensível à escala de recursos, para que possamos resolver melhor os coeficientes.
- O uso de um método de **Normalização** melhorará a análise de múltiplos modelos.
- A **Normalização** assegurará que um problema de convergência não tenha uma variância massiva, tornando a otimização viável.
- A **Padronização** tende a tornar o processo de treinamento bem melhor, porque a condição numérica dos problemas de otimização é melhorada.

<br><br>

## Conclusão

A **padronização** e a **normalização** são técnicas de **escalonamento de dados** usadas para preparar dados para modelos de aprendizado de máquina, ajustando as escalas das variáveis para melhorar a eficácia dos algoritmos. Não faz sentido aplicar as duas técnicas.

<br>

Aqui estão as principais diferenças e orientações sobre quando usar cada técnica:

#### Padronização
- **Objetivo**: Redimensionar os recursos para que tenham média zero e desvio padrão de um.
- **Quando usar**: Dados aproximadamente normalmente distribuídos.
- **Algoritmos** que assumem uma distribuição normal dos dados, como SVM e regressão logística.
- Dados com escalas diferentes, mas centralizados.
- Útil para minimizar a influência de outliers.

<br>

#### Normalização
- **Objetivo**: Ajustar os dados para que seus valores estejam dentro de um intervalo fixo, geralmente 0 a 1.
- **Quando usar**: Dados com escalas muito diferentes.
- **Algoritmos** que dependem de medidas de distância, como KNN e clustering.
- Dados que não seguem uma distribuição normal ou quando a variância é pequena.

<br><br>

#### Resumo
- **Padronização** é melhor para dados que já são centralizados e precisam de ajuste de escala sem vinculação a um intervalo específico.
- **Normalização** é ideal para dados com grandes variações de escala e para algoritmos sensíveis à magnitude dos dados.