## Normalização

A função de normalização de dados pode ser descrita pela equação:
<br>

$z_i = \frac{x_i - min(x)}{max(x) - min(x)}$

Convertendo para python


In [2]:
def normalizar(x: int or float, lst: list) -> float:
    return (x - min(lst))/(max(lst) - min(lst))

def normalizar_lista(lst: list) -> list:
    return [normalizar(x, lst) for x in lst]

Os exemplos a seguir ilustram os resultados:

[1, 2, 3] => [0.0, 0.5, 1.0]
[0, 5, 13] => [0.0, 0.38461538461538464, 1.0]

In [3]:
teste_1 = [1, 2, 3]
teste_2 = [0, 5, 13]

resultado_1 = normalizar_lista(teste_1)
resultado_2 = normalizar_lista(teste_2)

resultado_1, resultado_2

([0.0, 0.5, 1.0], [0.0, 0.38461538461538464, 1.0])

## Padronização

Para padronizar os dados usamos a formula do z-score:
<br>
$z = \frac{x - \mu}{\sigma}$

Convertendo para python

In [4]:
def media(lst: list) -> float:
    return sum(lst)/len(lst)

def desvio_padrao(lst: list) -> float:
    media_lst = media(lst)
    variancia = sum([abs(x - media_lst)**2 for x in lst])/(len(lst) - 1)
    return variancia ** 0.5

def padronizar(x: int or float, lst: list) -> float:
    return (x - media(lst))/desvio_padrao(lst)

def padronizar_lista(lst: list) -> list:
    return [padronizar(x, lst) for x in lst]

Os exemplos a seguir ilustram os resultados:
[1, 2, 3] => [-1.0, 0.0, 1.0]
[0, 5, 13] => [-0.914991421995628, -0.15249857033260467, 1.0674899923282326]

In [5]:
resultado_1 = padronizar_lista(teste_1)
resultado_2 = padronizar_lista(teste_2)

resultado_1, resultado_2

([-1.0, 0.0, 1.0],
 [-0.914991421995628, -0.15249857033260467, 1.0674899923282326])

## RESCALING

para trocar a escala de um conjunto de dados, usamos a formula:
<br>

$z_i = \frac{(max_{novo} - min_{novo}) \cdot (x_i - min(x))}{max(x) - min(x)}$

convertendo para python

In [6]:
def reescalar(x: int or float, lst: list, novo_min: int or float, novo_max: int or float) -> float:
    return ((novo_max - novo_min) * (x - min(lst)))/(max(lst) - min(lst))

def reescalar_lista(lst: list, novo_min: int or float, novo_max: int or float) -> list:
    return [reescalar(x, lst, novo_min, novo_max) for x in lst]

Todos os valores da distribuição devem ser obedecer à nova escala, dado um novo mínimo e máximo. Por exemplo, para um novo min = 0 e um novo máx = 100.

[1, 2, 3] =>[0.0, 50.00, 100.00]
[0, 5, 13] =>[0.0, 38.46153846153846, 100.0]

In [7]:
resultado_1 = reescalar_lista(teste_1, 0, 100)
resultado_2 = reescalar_lista(teste_2, 0, 100)

resultado_1, resultado_2

([0.0, 50.0, 100.0], [0.0, 38.46153846153846, 100.0])