# Feature Scaling 

각각다른 features(columns)들을 동일한 scale로 놓는 것이 machine learning이 제대로 작동하는데 매우 중요한 요소입니다.<br>
예를 들어서 어떤 feature는 0~1사이의 scale을 갖고, 다른 feature는 1~100000의 scale을 갖는다면.. <br>
KNN에서 euclidean distance를 사용하거나 , Adaline의 squared error function을 사용할때 잘못된 방향으로 학습이 될 수 있습니다.

In [1]:
import pandas as pd
import numpy as np

from sklearn.cross_validation import train_test_split



### Data

In [2]:
data = pd.DataFrame(data=[0., 1., 2. , 3. , 4. , 5.], columns=['input'])
data

Unnamed: 0,input
0,0.0
1,1.0
2,2.0
3,3.0
4,4.0
5,5.0


### [Normalization] Min-Max Scaling

일반적으로 normalization이라함은 0~1사이의 값을 갖도록 rescaling하는것을 의미합니다.<br>
min-max scaling을 통해서 normalization을 할 수 있습니다.

$$ x^{(i)}_{norm} = \frac{ x^{(i)} - x_{min}}{ x_{max} - x_{min}} $$

In [3]:
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
data['min-max'] = mms.fit_transform(data) 
data

Unnamed: 0,input,min-max
0,0.0,0.0
1,1.0,0.2
2,2.0,0.4
3,3.0,0.6
4,4.0,0.8
5,5.0,1.0


### Standardization

Standardization이 min-max scaling보다 더 실제로 더 많이 사용되는 방법입니다.

* 일반적으로 wegits값을 0에 가까운 random값으로 initilization하는데, standardization은 feature columns들을 평균 0값에, standard deviation 1값으로 center하기 때문에, 학습하는데 더 쉽습니다.
* min-max scaling처럼 outlier에 영향을 덜 받게 합니다.

$$ x^{(i)}_{std} = \frac{x^{(i)} - \mu_x}{\sigma_x} $$

In [4]:
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
data['stdsc'] = stdsc.fit_transform(data['input'].values.reshape(-1, 1))
data

Unnamed: 0,input,min-max,stdsc
0,0.0,0.0,-1.46385
1,1.0,0.2,-0.87831
2,2.0,0.4,-0.29277
3,3.0,0.6,0.29277
4,4.0,0.8,0.87831
5,5.0,1.0,1.46385
