<a href="https://colab.research.google.com/github/hws2002/MachineLearning_PytorchNScikitLearn/blob/master/chapter4/chapter4_4_data_scailing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 4.4 특성 스케일 맞추기
결정 트리와 랜덤 포레스트는 특성 스케일 조정에 대해 걱정할 필요가 없지만, 대부분의 머신 러닝과 최적화 알고리즘은 특성의 스케일이 같을 때 훨씬 성능이 좋음  

예를 들어 두 개의 특성에서 첫 번째 특성이 1에서 10사이 값이고, 두 번째 특성은 1에서 10만 사이의 값이라고 치면, 2장의 아달린같은 알고리즘은 대부분 두 번째 특성에 대한 큰 오차에 맞추어 가중치를 최적화할 것.  

스케일이 다른 특성을 맞추는 대표적인 방법 두 가지인 ** 정규화 ** 와 **표준화**에 대해 알아보자.

## **최소-최대 스케일 변환(정규화)**

대부분의 정규화는 특성의 스케일을 [0,1] 범위에 맞추는 것을 의미함.  
$x_{norm}^{(i)} = { x^{(i)} - x_{min} \over x_{max} - x_{min}}$  
이중 $x^{(i)}$ 는 특성 샘플, $x_{min}$은 특성 중에서 가장 작은 값, $x_{max}$는 가장 큰 값.

In [None]:
# 사이킷런에 구현된 최소-최대 스케일 변환 기능은 다음과 같이 사용함
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)

# **표준화**
* 표준화는 많은 머신 러닝 알고리즘, 특히 경사 하강법 같은 최적화 알고리즘에서 널리 사용됨.  
* 표준화가 분포 모양을 바꾸는 것도 아니고, 정규 분포가 아닌 데이터를 정규 분포로 바꾸는 것도 아님  
* 또한 평균이 0이고 단위 분산을 갖는 것 외에도 표준화는 이상치 정보가 유지되기 때문에 제한된 범위로 데이터를 조정하는 최소-최대 스케일 변환에 비해 알고리즘이 이상치에 덜 민감함.  
(최소-최대 스케일 변환은 데이터셋에 비정상적으로 아주 큰 값이나 아주 작은 값이 들어 있을 때 다른 샘플들을 좁은 구간에 촘촘하게 모으게 만듬)

## **표준화 공식**
$x_{std}^{(i)} = { x^{(i)} - μ_{x} \over σ_{x}}$  
이중 $μ_x$는 어떤 특성의 샘플 평균이고, $σ_x$는 그에 해당하는 표준 편차임.  


In [2]:
import numpy as np
# 표준화와 정규화 코드를 다음과 같이 적을 수 있음
ex = np.array([0,1,2,3,4,5])
print('표준화 : ', (ex - ex.mean()) / ex.std())
print('정규화 : ', (ex - ex.min()) / (ex.max() - ex.min()))

표준화 :  [-1.46385011 -0.87831007 -0.29277002  0.29277002  0.87831007  1.46385011]
정규화 :  [0.  0.2 0.4 0.6 0.8 1. ]


In [None]:
# MinMaxScaler 클래스와 비슷하게 사이킷런은 표준화를 위한 클래스도 제공함
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

# `RobustScaler`
특성 스케일을 조정하는 다른 좋은 방법은 `RobustScaler` 임.  
* RobustScaler는 이상치가 많이 포함된 작은 데이터셋을 다룰 떄 특히 도움이 됨.  
예를 들어 어떠한 데이터셋에 적용된 머신 러닝 알고리즘이 과대적합되기 쉽다면 `RobustScaler`가 좋은 선택임.
* 특성 열마다 독립적으로 작용하며 중간 값을 뺸 다음 데이터셋의 1사분위수와 3사분위수(즉, 25백분위수와 75백분위수)를 사용해서 데이터셋의 스케일을 조정함.(이로써 극단적인 값과 이상치에 영향을 덜 받음)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html


In [None]:
# RobustScaler 사용법은 StandardScaler와 동일함
from sklearn.preprocessing import RobustScaler
rbs = RobustScaler()
X_train_robust = rbs.fit_transform(X_train)
X_test_robust = rbs.transform(X_test)

In [3]:
(ex - np.percentile(ex,50)) / (np.percentile(ex,75) - np.percentile(ex,25))

array([-1. , -0.6, -0.2,  0.2,  0.6,  1. ])

# **MaxAbsScaler**
`MaxAbsScaler`는 각 특성별로 데이터를 최대 절대값으로 나눔.  
따라서 각 특성의 최댓값은 1이 되고, 전체 특성은 [-1,1] 범위로 변경됨.


In [None]:
from sklearn.preprocessing import MaxAbsScaler
mas = MaxAbsScaler()
X_train_maxabs = mas.fit_transform(X_train)
X_test_maxabs = mas.transform(X_test)

In [5]:
# 넘파이를 사용해서 계산하면
ex / np.max(np.abs(ex))

array([0. , 0.2, 0.4, 0.6, 0.8, 1. ])

# `scale()`, `minmax_scale()`, `robust_scale()`, `maxabs_scale()` 함수
이 함수들은 1차원 배열도 입력받을 수 있음.  


In [6]:
from sklearn.preprocessing import scale, minmax_scale, robust_scale, maxabs_scale
print('StandardScaler:', scale(ex))
print('MinMaxScaler:', minmax_scale(ex))
print('RobustScaler:', robust_scale(ex))
print('MaxAbsScaler:', maxabs_scale(ex))


StandardScaler: [-1.46385011 -0.87831007 -0.29277002  0.29277002  0.87831007  1.46385011]
MinMaxScaler: [0.  0.2 0.4 0.6 0.8 1. ]
RobustScaler: [-1.  -0.6 -0.2  0.2  0.6  1. ]
MaxAbsScaler: [0.  0.2 0.4 0.6 0.8 1. ]


In [None]:
# MaxAbsScaler, maxabs_scale()은 데이터를 중앙에 맞추지 않기 때문에 희소 행렬을 사용할 수 있음.
from scipy import sparse
X_train_sparse = sparse.csr_matrix(X_train)
X_train_maxabs = mas.fit_transform(X_train_sparse)

In [None]:
# RobustScaler는 fit() 메서드에 희소 행렬을 사용할 수 없지만 transform() 메서드에서 변환은 가능함
X_train_robust = rbs.transform(X_train_sparse)

In [9]:
# StandardScaler는 with_mean=False로 지정하면 희소 행렬을 사용할 수 있음.
# Normalizer 클래스와 normalize()함수는 특성이 아니라 '샘플'별로 정규화를 수행함.
# 또한 희소 행렬도 처리할 수 있음. 기본적으로 각 샘플의 L2노름이 1이 되도록 정규화함.
from sklearn.preprocessing import Normalizer
nrm = Normalizer()
X_train_l2 = nrm.fit_transform(X_train)

In [10]:
# Normalizer 클래스의 norm 매개변수에 사용할 norm을 지정할 수 있음. 'l1', 'l2'. 'max'가 가능함
# 기본값은 'l2'임
ex_2f = np.vstack((ex[1:],ex[1:]**2))
ex_2f

array([[ 1,  2,  3,  4,  5],
       [ 1,  4,  9, 16, 25]])

In [12]:
l2_norm = np.sqrt( np.sum(ex_2f**2, axis = 1))
print(l2_norm)
ex_2f / l2_norm.reshape(-1,1)

[ 7.41619849 31.28897569]


array([[0.13483997, 0.26967994, 0.40451992, 0.53935989, 0.67419986],
       [0.03196014, 0.12784055, 0.28764125, 0.51136222, 0.79900347]])

In [14]:
l1_norm = np.sum(np.abs(ex_2f),axis = 1)
print(l1_norm)
ex_2f / l1_norm.reshape(-1,1)

[15 55]


array([[0.06666667, 0.13333333, 0.2       , 0.26666667, 0.33333333],
       [0.01818182, 0.07272727, 0.16363636, 0.29090909, 0.45454545]])

In [15]:
# Normalizer(norm = 'max')는 각 샘플의 최대 절대값을 사용하여 나눔
max_norm = np.max(np.abs(ex_2f),axis = 1)
print(max_norm)
ex_2f/ max_norm.reshape(-1,1)

[ 5 25]


array([[0.2 , 0.4 , 0.6 , 0.8 , 1.  ],
       [0.04, 0.16, 0.36, 0.64, 1.  ]])