# Normalizer
- Já falamos de normalização ao usar o redimensionamento dos dados (a mudança de escala)
    - Utilizar o termo "normalizar" é muito comum só que o termo em si é muito genérico
    - Como cientistas, é importante sempre que esse termo for utilizado, que a gente entenda o que ele realmente quer dizer
- É importante que a gente consiga diferenciar cada um dos termos que vimos até agora:
    - **Redimensionar (Scaler)** é mudar a escala dos dados, mantendo a mesma distribuição
    - **Padronizar (ou escala padrão)** é quando trazemos a média para zero e o desvio padrão para 1
    - **Normalizar** é adequar nossos dados a alguma norma. Por ser algo muito genérico pode ser usado em vários contextos, inclusive no redimensionamento
- **Normalizer**
    - **O Normalizer vai funcionar nas linhas, não nas colunas**
    - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html
    - "Cada linha da matriz de dados com pelo menos um componente diferente de zero é redimensionada independentemente de outras amostras para que sua norma seja igual a um"
    - Segundo a própria documentação, é mais usado em **classificação de texto ou agrupamento**

In [1]:
# Importando o Normalizer
from sklearn.preprocessing import Normalizer

In [2]:
# Sendo X dado pelos valores abaixo
X = [[4, 1, 2, 2],
[1, 3, 9, 3],
[5, 7, 5, 1]]

In [3]:
# Vamos criar o nosso "normalizador"
norm = Normalizer()

In [4]:
# E fazer o fit com os dados
norm = norm.fit(X)

In [5]:
# E o tranform
array_norm = norm.transform(X)
array_norm

array([[0.8, 0.2, 0.4, 0.4],
       [0.1, 0.3, 0.9, 0.3],
       [0.5, 0.7, 0.5, 0.1]])

In [11]:
# Elevando ao quadrado
array_norm**2

array([[0.19753086, 0.01234568, 0.04938272, 0.04938272],
       [0.00390625, 0.03515625, 0.31640625, 0.03515625],
       [0.07716049, 0.15123457, 0.07716049, 0.00308642]])

In [6]:
# Elevando esse array ao quadrado e somando as linhas
(array_norm**2).sum(axis=1)

array([1., 1., 1.])

<a id='normas'></a>
- Podemos escolher qual será a norma dos dados utilizado na normalização

In [12]:
# Utilizando o l1 como parâmetro da norma
norm = Normalizer(norm='max')

In [13]:
# E fazer o fit com os dados
norm = norm.fit(X)

In [14]:
# E o tranform
array_norm = norm.transform(X)
array_norm

array([[1.        , 0.25      , 0.5       , 0.5       ],
       [0.11111111, 0.33333333, 1.        , 0.33333333],
       [0.71428571, 1.        , 0.71428571, 0.14285714]])

In [15]:
# Somando as linhas desse array
array_norm.sum(axis=1)

array([2.25      , 1.77777778, 2.57142857])

- Podemos [voltar](#normas) e utilizar o "max" como norma

In [16]:
# Verificando o máximo das linhas do array
array_norm.max(axis=1)

array([1., 1., 1.])