# 4.1 특성 스케일 바꾸기

In [4]:
# MinMaxScaler 사용

In [3]:
import numpy as np
from sklearn import preprocessing

In [5]:
feature = np.array([[-500.5],
                   [-100.1],
                   [0],
                   [100.1],
                   [900.9]])

In [6]:
# 스케일러 객체 만들기
minmax_scale = preprocessing.MinMaxScaler(feature_range = (0, 1))

In [7]:
# 특성의 스케일을 변환하기
scaled_feature = minmax_scale.fit_transform(feature)

In [8]:
# 특성을 출력하기
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

스케일 조정은 머신러닝에서 흔한 전처리 작업이다.\
최솟값과 최댓값을 사용하여 일정 범위 안으로 값을 조정한다.\
xi' = xi-min(x) / max(x)-min(x)\
\
xi는 특성 x의 개별 원소이고, xi는 특성 백터이다.

######
훈련 세트와 테스트 세트의 스케일을 따로 조정하면 안된다. 예를 들면 훈련 세트의 스케일을 조정하고자 구한 최솟값과 최댓값을 사용하여 테스트 세트를 반환해야 한다. 아래는 간단한 예 이다.\\

\
다음 샘플 중 처음 세개를 훈련 세트, 나머지 두 개를 테스트 세트라고 가정해본다.\
먼저 두 세트를 독립적으로 각각 변환한다.

In [9]:
# 훈련 세트를 변환한다.
preprocessing.MinMaxScaler().fit_transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [10]:
# 테스트 세트를 변환한다.
preprocessing.MinMaxScaler().fit_transform(feature[3:])

array([[0.],
       [1.]])

훈련 세트와 테스트 세트를 각각 변환하면 서로 다른 비율로 데이터를 변환한다. 이러면 안됨.

In [14]:
# 훈련 세트로 변환기를 학습한다.
scaler = preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [15]:
# 훈련 세트에서 학습한 변환기로 테스트 세트를 변환한다.
scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

훈련 세트를 학습한 변환기 객체를 사용하여 원본 데이터셋과 동일한 비률로 테스트를 변환했다.

# 4.2 특성을 표준화하기

In [16]:
x = np.array([[-1000.1],
             [-200.2],
             [500.5],
             [600.6],
             [9000.9]])

In [17]:
# 변환기 객체 만들기.
scaler = preprocessing.StandardScaler()

In [18]:
# 특성을 변환한다.
standardized = scaler.fit_transform(x)

In [19]:
# 특성을 출력한다.
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

4.1에서 설명한 최소-최대 스케일링과 함께 특성을 표준 정규분포로 근사하는 스케일링 방식이 자주 쓰인다.\
이 방식은 표준화를 사용하여 데이터의 평균이 0이고 표준편차가 1이 되도록 변환한다.

이 방식은 머신러닝에서 상당히 많이 쓰인다. 하지만 학습 알고리즘에 의존적이다.\
예를 들어 주성분 분석은 표준화가 잘 맞지만 신경망에는 최소-최대 스케일링을 종종 권장한다.

In [23]:
# 평균과 표준편차를 출력한다,
print('평균:', round(standardized.mean()))
print('표준편차:', standardized.std())

평균: 0
표준편차: 1.0


이상치가 많을 경우엔 중간값과 사분위 범위를 사용하여 특성의 스케일을 조정하는 것이 좋다. RobusScaler

In [24]:
# 변환기 객체를 만든다.
robust_scaler = preprocessing.RobustScaler()

In [25]:
# 특성을 변환한다.
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

RobusScaler는 데이터에서 중간값을 빼고 IQR로 나눈다.

In [26]:
interquatile_range = x[3] - x[1]

(x - np.median(x)) / interquatile_range

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

QuantileTransformer는 훈련 데이터를 1,000개의 분위로 나누어 0~1 사이에 고르게 분포시킴으로써 이상치로 인한 영향을 줄인다.\
예를 들어 해결에 나온 특성 x는 다섯 개의 샘플을 가지고 있으므로 0%, 25%, 50%, 75%, 100%의 위치에 할당한다.

In [27]:
preprocessing.QuantileTransformer().fit_transform(x)



array([[0.  ],
       [0.25],
       [0.5 ],
       [0.75],
       [1.  ]])

# 4.3 정규화하기