# **Normalizando Dados**
Este notebook é dedicado ao estudo de técnicas de pré-processamento de dados, com foco na normalização utilizando as seguintes funções da biblioteca scikit-learn:

- **Normalizer**: Normaliza os dados para que cada amostra tenha norma unitária.
- **MinMaxScaler**: Escala os dados para um intervalo definido (por padrão, entre 0 e 1).
- **StandardScaler**: Padroniza os dados para que tenham média 0 e desvio padrão 1.
- **MaxAbsScaler**: Escala os dados para o intervalo [-1, 1] com base no valor absoluto máximo.

O objetivo é compreender como essas técnicas podem ser aplicadas para preparar os dados antes de treinar modelos de machine learning, garantindo melhor desempenho e estabilidade nos resultados.



In [11]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer, MaxAbsScaler

## MinMaxScaler

O **MinMaxScaler** é uma técnica de normalização que transforma os dados para que fiquem dentro de um intervalo definido, geralmente entre 0 e 1. Essa técnica é útil quando queremos garantir que todas as variáveis tenham a mesma escala, especialmente em algoritmos sensíveis à magnitude dos dados, como redes neurais e métodos baseados em distância.

### Como funciona?

A transformação é realizada utilizando a seguinte equação:

$$
X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}} \cdot (max - min) + min
$$

Onde:
- \( X \) é o valor original.
- \( X_{\text{min}} \) e \( X_{\text{max}} \) são os valores mínimo e máximo da variável.
- \( min \) e \( max \) são os limites inferior e superior do intervalo desejado (por padrão, 0 e 1).

### Exemplo de aplicação

Ao aplicar o MinMaxScaler, os valores originais são escalados proporcionalmente para o intervalo definido, preservando a relação entre eles. Isso é especialmente útil para evitar que variáveis com valores maiores dominem o treinamento de modelos de machine learning.


In [None]:
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

normalizer = MinMaxScaler(feature_range=(0, 1))
print(normalizer.fit_transform(X))

[[0.75       0.         0.         0.5       ]
 [0.         0.33333333 1.         1.        ]
 [1.         1.         0.42857143 0.        ]]


## StandardScaler

O **StandardScaler** é uma técnica de padronização que transforma os dados para que tenham média 0 e desvio padrão 1. Essa técnica é especialmente útil em algoritmos de machine learning que assumem que os dados estão centrados na origem e com variância igual, como regressão logística, SVM e PCA.

### Como funciona?

A padronização é feita com base na seguinte fórmula:

$$
X_{\text{scaled}} = \frac{X - \mu}{\sigma}
$$

Onde:
- \( X \) é o valor original.
- \( \mu \) é a média dos valores da variável.
- \( \sigma \) é o desvio padrão da variável.

Essa transformação resulta em uma distribuição com média zero e variância unitária.

### Exemplo de aplicação

Ao aplicar o StandardScaler, todos os atributos passam a ter a mesma escala em termos de dispersão (desvio padrão), o que pode melhorar o desempenho de modelos que utilizam operações baseadas em distância ou que são sensíveis à distribuição dos dados. Ao contrário do MinMaxScaler, o StandardScaler não restringe os dados a um intervalo fixo, mas sim à dispersão estatística da distribuição.


In [4]:
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

standardizer = StandardScaler()
print(standardizer.fit_transform(X))

[[ 0.39223227 -1.06904497 -1.16247639  0.        ]
 [-1.37281295 -0.26726124  1.27872403  1.22474487]
 [ 0.98058068  1.33630621 -0.11624764 -1.22474487]]


## MaxAbsScaler

O **MaxAbsScaler** é uma técnica de normalização que escala os dados com base no valor absoluto máximo de cada variável, transformando os dados para o intervalo \([-1, 1]\). Essa técnica é particularmente útil para dados que já estão centrados em zero ou que possuem muitos valores esparsos, como em tarefas com dados de texto vetorizados (ex.: TF-IDF).

### Como funciona?

A transformação é feita com a seguinte equação:

$$
X_{\text{scaled}} = \frac{X}{|X_{\text{max}}|}
$$

Onde:
- \( X \) é o valor original.
- \( |X_{\text{max}}| \) é o valor absoluto máximo da variável.

Essa transformação preserva a sparcidade (zeros nos dados) e não centraliza os dados na média.

### Exemplo de aplicação

Ao aplicar o MaxAbsScaler, cada valor é dividido pelo maior valor absoluto da sua respectiva variável, garantindo que todos os dados fiquem no intervalo \([-1, 1]\). É ideal para algoritmos que se beneficiam de dados escalados, mas que não precisam que os dados sejam centrados em zero, como classificadores lineares aplicados a grandes conjuntos de dados esparsos.


In [5]:
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

normalizer = MaxAbsScaler()
print(normalizer.fit_transform(X))  

[[0.8        0.14285714 0.22222222 0.66666667]
 [0.2        0.42857143 1.         1.        ]
 [1.         1.         0.55555556 0.33333333]]


## **Normalizer**

O `Normalizer` do `scikit-learn` oferece três modos de normalização: **L1**, **L2** e **Max**. Cada um define uma maneira diferente de escalar os vetores (linhas) para controlar sua magnitude.

### L1 Normalization

Na normalização **L1**, cada vetor é escalado para que a **soma dos valores absolutos** seja igual a 1.

$$
X_{\text{normalized}} = \frac{X}{\|X\|_1} = \frac{X}{\sum_i |x_i|}
$$

### L2 Normalization

Na normalização **L2**, o vetor é escalado para que sua **norma euclidiana (comprimento)** seja 1.

$$
X_{\text{normalized}} = \frac{X}{\|X\|_2} = \frac{X}{\sqrt{\sum_i x_i^2}}
$$

### Max Normalization

Na normalização **Max**, os valores de cada vetor são divididos pelo **valor absoluto máximo** da linha:

$$
X_{\text{normalized}} = \frac{X}{\max(|x_i|)}
$$



In [15]:
# Normalize com l1
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

normalizer = Normalizer(norm='l1')
X_normalized = normalizer.transform(X)
print(X_normalized)

[[0.44444444 0.11111111 0.22222222 0.22222222]
 [0.0625     0.1875     0.5625     0.1875    ]
 [0.27777778 0.38888889 0.27777778 0.05555556]]


In [16]:
# Normalize com l2
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

normalizer = Normalizer(norm='l2')
X_normalized = normalizer.transform(X)
print(X_normalized)

[[0.8 0.2 0.4 0.4]
 [0.1 0.3 0.9 0.3]
 [0.5 0.7 0.5 0.1]]


In [None]:
# Normalize com max
X = [[4, 1, 2, 2], [1, 3, 9, 3], [5, 7, 5, 1]]

normalizer = Normalizer(norm='max')
X_normalized = normalizer.transform(X)
print(X_normalized)

[[1.         0.25       0.5        0.5       ]
 [0.11111111 0.33333333 1.         0.33333333]
 [0.71428571 1.         0.71428571 0.14285714]]
