# Normalizacao de dados

A normalizacao de dados serve para colocarmos todos os dados de um conjunto no mesmo "nivel", para que tenham o mesmo impacto estatisticamente.

Digamos por exemplo que tenhamos o dataset a seguir, como podemos ver, os atributos "Idade" e "Patrimonio" e muito diferente em escala, na casa dos 1k, para solucionarmos isto iremos normalizar os dados para que eles tenham o mesmo impacto e estejam em mesma escala. Exitem 3 metodos para tal.

## Autor

Victor Bona

In [9]:
import pandas as pd
import numpy as np

idade = [20, 30, 40, 50, 55]
patrimonio = [100000, 300000, 350000, 50000, 800000]

att = {'idade': idade, 
       'patrimonio': patrimonio}

ds = pd.DataFrame(att, columns=['idade', 'patrimonio'])
ds

Unnamed: 0,idade,patrimonio
0,20,100000
1,30,300000
2,40,350000
3,50,50000
4,55,800000


# Escalamento simples

Consiste basicamente em dividir cada valor do registro pelo maximo possivel daquela caracteristica

$Xnew = \frac{Xold}{Xmax}$


In [10]:
se = ds/ds.max()
se

Unnamed: 0,idade,patrimonio
0,0.363636,0.125
1,0.545455,0.375
2,0.727273,0.4375
3,0.909091,0.0625
4,1.0,1.0


# Min-Max

Consiste basicamente cada registro subtraido pelo seu minimo possivel dividio pelo subtracao do maximo possivel pelo minimpo possivel.

$Xnew = \frac{Xold - Xmin}{Xmax - Xmin}$

In [15]:
mm = (ds - ds.min())/(ds.max() - ds.min())
mm

Unnamed: 0,idade,patrimonio
0,0.0,0.066667
1,0.285714,0.333333
2,0.571429,0.4
3,0.857143,0.0
4,1.0,1.0


# Z-Score

Consiste em cada registro subtraido pela media dos registros divididos pelo desvio padrao(sigma), este metodo pode gerar valores menores que 0.

$Xnew = \frac{Xold - \mu }{\sigma}$

In [16]:
zs = (ds - ds.mean())/ds.std()
zs

Unnamed: 0,idade,patrimonio
0,-1.327018,-0.740569
1,-0.628587,-0.067324
2,0.069843,0.100987
3,0.768273,-0.90888
4,1.117488,1.615786
