In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
cancer = load_breast_cancer()
x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=1234)

### Standard Scaler
- 각 feature들의 평균을 0, 분산은 1로 변경
- 모든 특성들이 같은 스케일을 갖게 된다.

In [3]:
from sklearn.preprocessing import StandardScaler

In [5]:
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train)

In [7]:
print('스케일 조정 전 min value: ', x_train.min(axis=0))
print('스케일 조정 전 max value: ', x_train.max(axis=0))
print('스케일 조정 후 min value: ', x_train_ss.max(axis=0))
print('스케일 조정 후 max value: ', x_train_ss.max(axis=0))

스케일 조정 전 min value:  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value:  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value:  [ 3.983046    3.35284486  3.99659366  5.2755639   3.42419492  3.94256298
  4.20261238  3.91312864  4.51510874  4.92100768  9.00399628  4.83781834
  9.51423902 11.3763671   7.75293988  5.98025485 11.36998328  6.44619355
  5.1657793   9.67511962  3.51968449  3.81326034  3.64761068  4.21809238
  3.87029285  4.90322123  4.50512

### Robust Scaler
- 모든 특성들이 같은 크기를 갖는다는 점에서 standard scaler와 비슷하지만, 평균과 분산 대신 median과 quartile을 사용.
- robust scaler는 이상치에 영향을 받지 않는다.

In [8]:
from sklearn.preprocessing import RobustScaler

In [9]:
rs = RobustScaler()
x_train_scale = rs.fit_transform(x_train)

In [10]:
print('스케일 조정 전 min value: ', x_train.min(axis=0))
print('스케일 조정 전 max value: ', x_train.max(axis=0))
print('스케일 조정 후 min value: ', x_train_scale.min(axis=0))
print('스케일 조정 후 max value: ', x_train_scale.max(axis=0))

스케일 조정 전 min value:  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value:  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value:  [-1.52323232 -1.45791972 -1.5151781  -1.1130184  -2.28221021 -1.11380456
 -0.58652639 -0.63066754 -2.19880419 -1.36804093 -0.83926429 -1.16877816
 -0.89078985 -0.61672241 -1.24414368 -0.92590898 -0.93494541 -1.54861731
 -1.38189958 -0.96715574 -1.23415493 -1.45464726 -1.14370424 -0.88014453
 -1.74412533 -0.94163238 -0.85437

### MinMaxScaler
- 모든 feature가 0과 1 사이에 위치하게 만듬
- 데이터가 2차원 셋일 경우, 모든 데이터는 x축의 0과 1 사이에, y축의 0과1 사이에 위치하게 된다. 

In [16]:
from sklearn.preprocessing import MinMaxScaler

In [17]:
mms = MinMaxScaler()
x_train_scale = mms.fit_transform(x_train)

In [19]:
print('스케일 조정 전 min value: ', x_train.min(axis=0))
print('스케일 조정 전 max value: ', x_train.max(axis=0))
print('스케일 조정 후 min value: ', x_train_scale.min(axis=0))
print('스케일 조정 후 max value: ', x_train_scale.max(axis=0))
# 조정 후 0과 1사이의 값으로 변환

스케일 조정 전 min value:  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value:  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value:  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]
스케일 조정 후 max value:  [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


### Normalizer
- standardscaler, robustscaler, minmaxscaler가 각 컬럼의 통계치를 이용한 방법이었다면 nomalizer는 각 row 마다 각각 정규화
- normalizer는 유클리디안 거리가 1이 되도록 데이터를 조정
- normalizer를 하면 조금 더 빠르게 학습할 수 있고 과대적합된 확률을 낮출 수 있다.

In [20]:
from sklearn.preprocessing import Normalizer

In [23]:
normal = Normalizer()
x_train_scale = normal.fit_transform(x_train)
x_test_scale = normal.transform(x_test)

In [25]:
from sklearn.svm import SVC

In [26]:
svc = SVC()
svc.fit(x_train_scale, y_train) 
# y_train 는 정답값이니까 스케링링 할 필요가 없다.

SVC()

In [27]:
print('test 정확도: ', svc.score(x_test_scale, y_test))

test 정확도:  0.8811188811188811


In [28]:
svc = SVC()
svc.fit(x_train, y_train) 

SVC()

In [30]:
print('test 정확도: ', svc.score(x_train, y_train))

test 정확도:  0.9154929577464789


In [29]:
print('test 정확도: ', svc.score(x_test, y_test))

test 정확도:  0.916083916083916


In [24]:
print('스케일 조정 전 min value: ', x_train.min(axis=0))
print('스케일 조정 전 max value: ', x_train.max(axis=0))
print('스케일 조정 후 min value: ', x_train_scale.min(axis=0))
print('스케일 조정 후 max value: ', x_train_scale.max(axis=0))

스케일 조정 전 min value:  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value:  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value:  [6.16997567e-03 4.56825580e-03 4.00437389e-02 3.76233264e-01
 2.66693006e-05 2.37805701e-05 0.00000000e+00 0.00000000e+00
 4.57096286e-05 1.43634533e-05 1.38230416e-04 2.22630519e-04
 8.95949678e-04 1.14342671e-02 1.17600717e-06 2.76335624e-06
 0.00000000e+00 0.00000000e+00 3.33747542e-06 5.12412074e-07
 7.84471206e-03 5.15