<a href="https://colab.research.google.com/github/vicotrbb/machine_learning/blob/master/data_manipulation/data_manipulation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Normalizacao de dados

A normalizacao de dados serve para colocarmos todos os dados de um conjunto no mesmo "nivel", para que tenham o mesmo impacto estatisticamente.

Digamos por exemplo que tenhamos o dataset a seguir, como podemos ver, os atributos "Idade" e "Patrimonio" e muito diferente em escala, na casa dos 1k, para solucionarmos isto iremos normalizar os dados para que eles tenham o mesmo impacto e estejam em mesma escala. Exitem 3 metodos para tal.

### Autor

Victor Bona

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

idade = [20, 30, 40, 50, 55]
patrimonio = [100000, 300000, 350000, 50000, 800000]

att = {'idade': idade, 
       'patrimonio': patrimonio}

ds = pd.DataFrame(att, columns=['idade', 'patrimonio'])
ds

Unnamed: 0,idade,patrimonio
0,20,100000
1,30,300000
2,40,350000
3,50,50000
4,55,800000


### Escalamento simples

Consiste basicamente em dividir cada valor do registro pelo maximo possivel daquela caracteristica

$Xnew = \frac{Xold}{Xmax}$


In [0]:
se = ds/ds.max()
se

Unnamed: 0,idade,patrimonio
0,0.363636,0.125
1,0.545455,0.375
2,0.727273,0.4375
3,0.909091,0.0625
4,1.0,1.0


### Min-Max

Consiste basicamente cada registro subtraido pelo seu minimo possivel dividio pelo subtracao do maximo possivel pelo minimpo possivel.

$Xnew = \frac{Xold - Xmin}{Xmax - Xmin}$

In [0]:
mm = (ds - ds.min())/(ds.max() - ds.min())
mm

Unnamed: 0,idade,patrimonio
0,0.0,0.066667
1,0.285714,0.333333
2,0.571429,0.4
3,0.857143,0.0
4,1.0,1.0


### Z-Score

Consiste em cada registro subtraido pela media dos registros divididos pelo desvio padrao(sigma), este metodo pode gerar valores menores que 0.

$Xnew = \frac{Xold - \mu }{\sigma}$

In [0]:
zs = (ds - ds.mean())/ds.std()
zs

Unnamed: 0,idade,patrimonio
0,-1.327018,-0.740569
1,-0.628587,-0.067324
2,0.069843,0.100987
3,0.768273,-0.90888
4,1.117488,1.615786


### Standard Scaler - Sklearn

Outro metodo de normalizar dados simultaneamente, e utilizando o Standard Scaler do sklearn.

In [6]:
scale = StandardScaler()
scale.fit(ds)

x_scale = scale.transform(ds)
ds_scale = pd.DataFrame(x_scale, columns=['idade', 'patrimonio'])
ds_scale

Unnamed: 0,idade,patrimonio
0,-1.483651,-0.827981
1,-0.702782,-0.075271
2,0.078087,0.112906
3,0.858956,-1.016158
4,1.24939,1.806504


# Dados caterogiros para quantitativos

Este método é utilziado para converter dados categoricos(e.g: "flor", "carro", "pessoa") em dados quantitativos(numericos), dado a nova colun adicionada ao dataset, utilizamos o metodo get_dummies do pandas para criarmos colunas quantitativas dessas classes





In [0]:
ds['classe'] = ['pobre', 'pobre', 'media', 'pobre', 'rico']
ds

Unnamed: 0,idade,patrimonio,classe
0,20,100000,pobre
1,30,300000,pobre
2,40,350000,media
3,50,50000,pobre
4,55,800000,rico


In [0]:
ap = pd.get_dummies(ds['classe'])
ap

Unnamed: 0,media,pobre,rico
0,0,1,0
1,0,1,0
2,1,0,0
3,0,1,0
4,0,0,1
