# Feature Scaling 

각각다른 features(columns)들을 동일한 scale로 놓는 것이 machine learning이 제대로 작동하는데 매우 중요한 요소입니다.<br>
예를 들어서 어떤 feature는 0~1사이의 scale을 갖고, 다른 feature는 1~100000의 scale을 갖는다면.. <br>
KNN에서 euclidean distance를 사용하거나 , Adaline의 squared error function을 사용할때 잘못된 방향으로 학습이 될 수 있습니다.

In [6]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

## Data

In [84]:
data = pd.DataFrame(data={'a': [0., 1., 2. , 3. , 4. , 5.], 
                          'b': [10, 13, 14, 8, 2, -29], 
                          'c': [0, 0, 0, 0, 0, 1], 
                          'd': [0, 0, 0, 0, 0, 0]}, dtype='float32')
print('[Mean]')
print(data.mean())

print('\n[STD]')
print(data.std())
data

[Mean]
a    2.500000
b    3.000000
c    0.166667
d    0.000000
dtype: float32

[STD]
a     1.870829
b    16.248077
c     0.408248
d     0.000000
dtype: float32


Unnamed: 0,a,b,c,d
0,0.0,10.0,0.0,0.0
1,1.0,13.0,0.0,0.0
2,2.0,14.0,0.0,0.0
3,3.0,8.0,0.0,0.0
4,4.0,2.0,0.0,0.0
5,5.0,-29.0,1.0,0.0


## [Normalization] Min-Max Scaling

일반적으로 normalization이라함은 0~1사이의 값을 갖도록 rescaling하는것을 의미합니다.<br>
min-max scaling을 통해서 normalization을 할 수 있습니다.

$$ x^{(i)}_{norm} = \frac{ x^{(i)} - x_{min}}{ x_{max} - x_{min}} $$

In [88]:
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
mms_data = mms.fit_transform(data) 
mms_data

array([[ 0.        ,  0.90697674,  0.        ,  0.        ],
       [ 0.2       ,  0.97674419,  0.        ,  0.        ],
       [ 0.4       ,  1.        ,  0.        ,  0.        ],
       [ 0.6       ,  0.86046512,  0.        ,  0.        ],
       [ 0.8       ,  0.72093023,  0.        ,  0.        ],
       [ 1.        ,  0.        ,  1.        ,  0.        ]])

## Standardization

Standardization이 min-max scaling보다 더 실제로 더 많이 사용되는 방법입니다.

* 일반적으로 wegits값을 0에 가까운 random값으로 initilization하는데, standardization은 feature columns들을 평균 0값에, standard deviation 1값으로 center하기 때문에, 학습하는데 더 쉽습니다.
* min-max scaling처럼 outlier에 영향을 덜 받게 합니다.

$$ x^{(i)}_{std} = \frac{x^{(i)} - \mu_x}{\sigma_x} $$

In [97]:
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
stdsc_data = stdsc.fit_transform(data)
print('mean:', stdsc_data.mean(axis=0))
print('std :', stdsc_data.std(axis=0))
stdsc_data

mean: [ -3.70074342e-17  -7.40148683e-17   0.00000000e+00   0.00000000e+00]
std : [ 1.  1.  1.  0.]


array([[-1.46385011,  0.4719399 , -0.4472136 ,  0.        ],
       [-0.87831007,  0.67419986, -0.4472136 ,  0.        ],
       [-0.29277002,  0.74161985, -0.4472136 ,  0.        ],
       [ 0.29277002,  0.33709993, -0.4472136 ,  0.        ],
       [ 0.87831007, -0.06741999, -0.4472136 ,  0.        ],
       [ 1.46385011, -2.15743956,  2.23606798,  0.        ]])

## Mean Removal

기본적으로 Standardization과 매우 유사합니다.

In [98]:
from sklearn.preprocessing import scale

scaled_data = scale(data.values)
print('mean:', scaled_data.mean(axis=0))
print('std :', scaled_data.std(axis=0))
scaled_data

mean: [ 0.  0.  0.  0.]
std : [ 0.99999994  1.          1.          0.        ]


array([[-1.46385002,  0.47193992, -0.44721362,  0.        ],
       [-0.87831002,  0.67419988, -0.44721362,  0.        ],
       [-0.29277   ,  0.74161988, -0.44721362,  0.        ],
       [ 0.29277   ,  0.33709994, -0.44721362,  0.        ],
       [ 0.87831002, -0.06741999, -0.44721362,  0.        ],
       [ 1.46385002, -2.15743971,  2.23606801,  0.        ]], dtype=float32)