# Redimensionamento dos dados
Redimensionamento são técnicas de pré-processamento para redimensionar nossos dados e deixa-los numa escala padrão para todas as variáveis deixando=os com valores bem menores porém em escala para facilitar a matemática e evitar que nossos dados fiquem enviesados.

O viés no dado ou no experimento causa com que os resultados das análises sejam discrepantes das propriedades reais do fenômeno que você de fato quer estudar, estatísticas calculadas usando dados enviesados podem levar a conclusões fatalmente erradas, experimentos enviesados igualmente.

Alguns algoritimos se baseiam na distancia entre os dados, como KNN,K-means e SVM etendem a sofrer muito mais com dados não escalados.

Imagine uma tabela onde temos peso x altura, uma pessoa adulta pode variar entre 0,10 a 0,40 cm de altura com relação a outra, note que é uma variação mínima na ordem de unidades, agora imagine o peso, um pessoa pode variar em relação a outra de 40 a 100kg, ou seja uma variação na ordem de dezenas ou centenas, quando comparamos 2 grandezas como peso e altura, o peso vai ter uma influência maior nos dados quando usamos algorítimos de aproximação, por este motivo normalizamos ou padronizamos pra trabalharmos com mesmas grandezas e uma não exercer um peso maior na tomada de decisão do que a outra, ou seja um viés maior. 

Vamos abordar neste estudo 2 técnicas de redimensionamento dos dados, a normalização e a padronização.

Veja os gráficos de dados não normalizados:

<img src='orig_data.jpg'>

# Normalização (min max scaler)
A normalização dimensionam os dados para que eles fiquem numa escala entre 0 e 1, essa técnica também é conhecida como Min-Max scaler. e facilita a análise gráfica pois os dados irão ficar dentro dessa faixa.<br>
Na normalização até os outliers ficarão entre 0 e 1.

<img src='norm_data.jpg'>

Formula:
<img src="norma.jpg">

X' = Valor escalonado
X  = Valor normal.

# Padronização (standard scaler)
Também é uma técnica de dimensionamento porém os valores ficam em torno da média. onde a média e o desvio padrão serão iguais a zero (0).

<img src='padro_data.jpg'>

Formula:
<img src="padro.jpg">

U = Média O = Desvio padrão

## Vamos primeiro calcular dados dos valores em escala normal

In [264]:
import pandas as pd
import numpy as np

df = pd.read_csv('salarios.csv')
df.head(4)

Unnamed: 0,salario
0,9222
1,7515
2,3299
3,5412


In [265]:

# ddof = 0 pq estamos pegando todos valores da população
variancia = np.var(df['salario'], ddof=0)
# S = raiz da variancia
S = np.sqrt(variancia)  



media = df.salario.mean()
mediana = df.salario.median()
minim = df.salario.min()
maxim = df.salario.max()
print(f'Média: {media}')
print(f'Médiana: {mediana}')
print(f'Minimo: {minim}')
print(f'Maximo: {maxim}')
print(f'Variância: {variancia}')
print(f'Desvio Padrão: {S}')


Média: 5932.515151515152
Médiana: 6050.0
Minimo: 1068
Maximo: 9951
Variância: 6646577.98714417
Desvio Padrão: 2578.0958064323695


# Exemplo Normalização

In [266]:
for idx in df['salario'].index:
    df['normalizado'] = ((df['salario'] - minim)/(maxim - minim))

In [267]:
df.head(4)

Unnamed: 0,salario,normalizado
0,9222,0.917933
1,7515,0.725768
2,3299,0.251154
3,5412,0.489024


In [268]:
print(f'Media: {df.normalizado.mean()}')
print(f'Mediana: {df.normalizado.median()}')
print(f'Min: {df.normalizado.min()}') 
print(f'Max: {df.normalizado.max()}')

Media: 0.5476207532945122
Mediana: 0.5608465608465608
Min: 0.0
Max: 1.0


# Exemplo Padronização

In [269]:
for idx in df['salario'].index:
    df['padronizado'] = ((df['salario'] - media)/(S))

In [270]:
df.head(4)

Unnamed: 0,salario,normalizado,padronizado
0,9222,0.917933,1.275936
1,7515,0.725768,0.613819
2,3299,0.251154,-1.021496
3,5412,0.489024,-0.201899


In [271]:
# ddof = 0 pq estamos pegando todos valores da população
var_p = np.var(df['padronizado'], ddof=0)
# S = raiz da variancia
S_p = np.sqrt(var_p) 

med_p = df.padronizado.mean()

print(f'Media: {med_p:.2f}')
print(f'Mediana: {df.padronizado.median()}')
print(f'Min: {df.padronizado.min()}') 
print(f'Max: {df.padronizado.max()}')
print(f'Variância: {var_p}')
print(f'Desvio Padrão: {S_p}')


Media: -0.00
Mediana: 0.04557039664380293
Min: -1.8868636066115727
Max: 1.5587026822116914
Variância: 1.0000000000000002
Desvio Padrão: 1.0


# Quando usar Normalização ou Padronização?

O indice de resultado RMSE indica qual melhor resultado.-
<img src='rmse.jpg'>

Tudo depende dos seus dados e do seu algorítimo!


# Hands ON

## Importanto base de dados
Base de diabetes

In [272]:
arquivo = 'pima-indians-diabetes.csv'
colunas=['smn_gvdz', 'glicose', 'pressao', 'esp_pele', 'insulina', 'BMI', 'heredit', 'idade', 'class']
df = pd.read_csv(arquivo, names=colunas)

## Normalizando os dados com minmaxscaler()

In [273]:
from sklearn.preprocessing import MinMaxScaler

# Separando X e y
X = df.drop('class', axis=1)
y = df['class']

# instanciando a classe
scaler = MinMaxScaler(feature_range=(0, 1))

# normalizando
df_normaliz = scaler.fit_transform(X)

In [274]:
# veja a tabela em array antes da normalizacao
array = df.values
array

array([[  6.   , 148.   ,  72.   , ...,   0.627,  50.   ,   1.   ],
       [  1.   ,  85.   ,  66.   , ...,   0.351,  31.   ,   0.   ],
       [  8.   , 183.   ,  64.   , ...,   0.672,  32.   ,   1.   ],
       ...,
       [  5.   , 121.   ,  72.   , ...,   0.245,  30.   ,   0.   ],
       [  1.   , 126.   ,  60.   , ...,   0.349,  47.   ,   1.   ],
       [  1.   ,  93.   ,  70.   , ...,   0.315,  23.   ,   0.   ]])

In [275]:
# veja a tabela em array depois da normalização
df_normaliz

array([[0.35294118, 0.74371859, 0.59016393, ..., 0.50074516, 0.23441503,
        0.48333333],
       [0.05882353, 0.42713568, 0.54098361, ..., 0.39642325, 0.11656704,
        0.16666667],
       [0.47058824, 0.91959799, 0.52459016, ..., 0.34724292, 0.25362938,
        0.18333333],
       ...,
       [0.29411765, 0.6080402 , 0.59016393, ..., 0.390462  , 0.07130658,
        0.15      ],
       [0.05882353, 0.63316583, 0.49180328, ..., 0.4485842 , 0.11571307,
        0.43333333],
       [0.05882353, 0.46733668, 0.57377049, ..., 0.45305514, 0.10119556,
        0.03333333]])

# Padronizando dados (standardscaler)

In [276]:
from sklearn.preprocessing import StandardScaler

# Separando X e y
X = df.drop('class', axis=1)
y = df['class']

# instanciando a classe
scaler = StandardScaler().fit(X)

# normalizando
df_padro = scaler.transform(X)

In [277]:
# veja a tabela em array depois da padronização
df_padro

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.20401277,
         0.46849198,  1.4259954 ],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.68442195,
        -0.36506078, -0.19067191],
       [ 1.23388019,  1.94372388, -0.26394125, ..., -1.10325546,
         0.60439732, -0.10558415],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.73518964,
        -0.68519336, -0.27575966],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.24020459,
        -0.37110101,  1.17073215],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.20212881,
        -0.47378505, -0.87137393]])

# Vamos prever sem redimensionamento

In [278]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier

# separando dados em folds
kfold  = KFold(n_splits=5, shuffle=False)

# criando modelo
modelo = KNeighborsClassifier()

# CV
res = cross_val_score(modelo, X, y, cv = kfold)
acc = res.mean() * 100
print(f'Acuracia de {acc}')

Acuracia de 72.3979288685171


# Prever com dados normalizados

In [279]:
res = cross_val_score(modelo, df_normaliz, y, cv = kfold)
acc = res.mean() * 100
print(f'Acuracia de {acc}')

Acuracia de 73.96316102198455


# Prever com dados padronizados

In [280]:
res = cross_val_score(modelo, df_padro, y, cv = kfold)
acc = res.mean() * 100
print(f'Acuracia de {acc}')

Acuracia de 72.9191070367541
