# 4.0 소개

---

# 4.1 특성 스케일 바꾸기
- 수치형 특성이 두 값의 범위 안에 놓이도록 스케일(scale)을 바꿔야 합니다

In [1]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn import preprocessing

In [6]:
# 특성을 만듭니다
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])

In [7]:
# 스케일러의 객체를 만듭니다
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))

In [8]:
# 특성의 스케일을 변환합니다
scaled_feature = minmax_scale.fit_transform(feature)

In [9]:
# 특성을 출력합니다
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 다른 방식 코딩 (1)

In [11]:
from sklearn.preprocessing import MinMaxScaler
minmax_scale = MinMaxScaler(feature_range=(0,1))
scaled_feature = minmax_scale.fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 다른 방식 코딩 (2)

In [12]:
from sklearn.preprocessing import MinMaxScaler
scaled_feature = MinMaxScaler(feature_range=(0,1)).fit_transform(feature)
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

- 훈련 세트와 테스트 세트의 스케일을 따로 조정하면 안됨

In [14]:
# 훈련 세트를 변환합니다
preprocessing.MinMaxScaler().fit_transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [15]:
# 테스트 세트를 변환합니다
preprocessing.MinMaxScaler().fit_transform(feature[3:])

array([[0.],
       [1.]])

- 같이 스케일링 하는 케이스

In [17]:
# 훈련 세트로 변환기를 학습합니다
scaler = preprocessing.MinMaxScaler().fit(feature[:3])
scaler.transform(feature[:3])

array([[0. ],
       [0.8],
       [1. ]])

In [18]:
# 훈련 세트에서 학습한 변환기로 테스트 세트를 변환합니다
scaler.transform(feature[3:])

array([[1.2],
       [2.8]])

# 4.2 특성을 표준화하기
- 특성을 평균이 0이고 표준편차가 1이 되도록 변환해야 합니다

In [19]:
# 라이브러리를 임포트합니다
import numpy as np
from sklearn import preprocessing

In [20]:
# 특성을 만듭니다
x = np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])

In [21]:
# 변환기 객체를 만듭니다
scaler = preprocessing.StandardScaler()

In [22]:
# 특성을 변환합니다.
standardized = scaler.fit_transform(x)

In [23]:
# 특성을 출력합니다
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

- 표준화 효과 확인

In [25]:
# 평균과 표준편차를 출력
print('평균     : ', round(standardized.mean()))
print('표준편차 : ', round(standardized.std()))

평균     :  0
표준편차 :  1
