# Feature Scaling
- 두 변수 중 하나의 값의 크기가 너무 클 때 feature 간의 최대-최소값의 차이를 맞추는 것.

## Feature Scaling 전략
- Min-Max Normalization
    - 기존 변수의 범위를 새로운 최대-최소로 변경
    - 일반적으로 0과 1 사이의 값으로 변경함
- Standardization (Z-score Normalization)
    - 기존 변수의 범위를 정규 분포로 변환
    - 실제 Min-Max의 값을 모를 때 활용 가능
- 주의사항
    - 실제 사용할 때는 반드시 정규화 Parameter(최대, 최소, 평균, 표준편차) 등을 기억하여 새로운 값에 적용해야 함.

In [1]:
# code from - https://stackoverflow.com/questions/24645153/pandas-dataframe-columns-scaling-with-sklearn
import pandas as pd
import numpy as np

df = pd.DataFrame(
    {'A':[14.00,90.20,90.95,96.27,91.21],
     'B':[103.02,107.26,110.35,114.23,114.68],
     'C':['big','small','big','small','small']})
df

Unnamed: 0,A,B,C
0,14.0,103.02,big
1,90.2,107.26,small
2,90.95,110.35,big
3,96.27,114.23,small
4,91.21,114.68,small


* Min-Max Normalization

In [2]:
df["A"] - df["A"].min()

0     0.00
1    76.20
2    76.95
3    82.27
4    77.21
Name: A, dtype: float64

In [3]:
(df["A"] - df["A"].min()) / (df["A"].max() - df["A"].min())

0    0.000000
1    0.926219
2    0.935335
3    1.000000
4    0.938495
Name: A, dtype: float64

In [4]:
# 1에서 5 사이의 값으로 normalization
df["A"] = (df["A"] - df["A"].min()) / (df["A"].max() - df["A"].min()) * (5 - 1) + 1
df

Unnamed: 0,A,B,C
0,1.0,103.02,big
1,4.704874,107.26,small
2,4.741339,110.35,big
3,5.0,114.23,small
4,4.753981,114.68,small


- Standardization

In [5]:
df["B"].mean(), df["B"].std()

(109.90799999999999, 4.901619120249964)

In [6]:
df["B"] = (df["B"] - df["B"].mean()) / df["B"].std()
df

Unnamed: 0,A,B,C
0,1.0,-1.40525,big
1,4.704874,-0.54023,small
2,4.741339,0.090174,big
3,5.0,0.881749,small
4,4.753981,0.973556,small


## Feature Scaling with `sklearn`
- 사실 Scaling은 수작업으로 하는 것보다 `sklearn`을 사용하는 것이 대부분임
- Label encoder와 마찬가지로 sklearn도 feature scale 지원
- MinMaxScaler와 StandardScaler 사용
- Preprocessing은 모두 **fit -> trnasform**의 과정임
- 이유는 label encoder와 동일
- 단, scaler는 한 번에 여러 column을 처리 가능

In [7]:
df = pd.io.parsers.read_csv(
    'https://raw.githubusercontent.com/rasbt/pattern_classification/master/data/wine_data.csv',
    header = None,
    usecols = [0, 1, 2]
)
df.columns = ['Class label', 'Alcohol', 'Malic acid']
df.head()

Unnamed: 0,Class label,Alcohol,Malic acid
0,1,14.23,1.71
1,1,13.2,1.78
2,1,13.16,2.36
3,1,14.37,1.95
4,1,13.24,2.59


- StandardScaler()

In [9]:
from sklearn import preprocessing
std_scaler = preprocessing.StandardScaler().fit(df[['Alcohol', 'Malic acid']])
std_scaler

StandardScaler()

In [18]:
df_std = std_scaler.transform(df[["Alcohol", "Malic acid"]])
pd.DataFrame(df_std).head()

Unnamed: 0,0,1
0,1.518613,-0.56225
1,0.24629,-0.499413
2,0.196879,0.021231
3,1.69155,-0.346811
4,0.2957,0.227694


- MinMaxScaler()

In [14]:
minmax_scaler = preprocessing.MinMaxScaler().fit(df[['Alcohol', 'Malic acid']])
minmax_scaler

MinMaxScaler()

In [19]:
df_minmax = minmax_scaler.transform(df[["Alcohol", "Malic acid"]])
pd.DataFrame(df_minmax).head()

Unnamed: 0,0,1
0,0.842105,0.1917
1,0.571053,0.205534
2,0.560526,0.320158
3,0.878947,0.23913
4,0.581579,0.365613


- 시각화를 해 보면, 데이터를 scaling한다고 하더라도 데이터의 분포는 거의 변하지 않음.