In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
cancer = load_breast_cancer()
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
x_train, x_test, y_train, y_test = train_test_split(cancer.data, cancer.target,
                                                    random_state=1234)

### 1. StandardScaler

- 각 데이터와 feature들의 평균을 0, 분산을 1로 변경
- 모든 feature들이 같은 스케일을 갖게됨

In [4]:
from sklearn.preprocessing import StandardScaler

scaler1 = StandardScaler()
scaler1.fit(x_train)

StandardScaler()

In [5]:
x_train

array([[1.617e+01, 1.607e+01, 1.063e+02, ..., 1.251e-01, 3.153e-01,
        8.960e-02],
       [1.317e+01, 1.866e+01, 8.598e+01, ..., 2.088e-01, 3.900e-01,
        1.179e-01],
       [1.247e+01, 1.731e+01, 8.045e+01, ..., 1.053e-01, 3.035e-01,
        7.661e-02],
       ...,
       [1.247e+01, 1.860e+01, 8.109e+01, ..., 1.015e-01, 3.014e-01,
        8.750e-02],
       [1.822e+01, 1.870e+01, 1.203e+02, ..., 1.325e-01, 3.021e-01,
        7.987e-02],
       [1.272e+01, 1.378e+01, 8.178e+01, ..., 6.343e-02, 2.369e-01,
        6.922e-02]])

In [7]:
x_scaled1 = scaler1.transform(x_train)
x_scaled1

array([[ 0.56834943, -0.7455382 ,  0.58009089, ...,  0.14461744,
         0.39847515,  0.28446451],
       [-0.28961453, -0.14718352, -0.26447524, ...,  1.41557963,
         1.61872573,  1.78132724],
       [-0.48980612, -0.45906723, -0.49432026, ..., -0.15604028,
         0.20571803, -0.40261135],
       ...,
       [-0.48980612, -0.16104502, -0.46771975, ..., -0.21374227,
         0.1714138 ,  0.17338989],
       [ 1.15462481, -0.13794252,  1.16197701, ...,  0.25698447,
         0.18284854, -0.23018123],
       [-0.41830912, -1.2745854 , -0.43904107, ..., -0.79182507,
        -0.88221622, -0.79348823]])

In [8]:
print('스케일 조정 전 min value : ', x_train.min(axis=0))
print('스케일 조정 전 max value : ', x_train.max(axis=0))
print('스케일 조정 후 min value : ', x_scaled1.min(axis=0))
print('스케일 조정 후 max value : ', x_scaled1.max(axis=0))

스케일 조정 전 min value :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value :  [-2.05959418 -2.06007032 -2.01803061 -1.47906849 -3.11840193 -1.61914251
 -1.12209848 -1.26938777 -2.78192834 -1.81018812 -1.07589572 -1.56507334
 -1.05735035 -0.77526135 -1.37519266 -1.27269316 -1.00981927 -1.8540401
 -1.58069217 -1.08204572 -1.75802372 -2.12998626 -1.72206377 -1.25531716
 -2.2407888  -1.36335806 -1.289

### 2.RovustScaler
- 모든 feature가 같은 크기를 갖는다는 점에서 StandardScaler 와 비슷하지만, 평균이랑 분산 대신에 median과 quartile을 사용
- 이상치의 영향을 받지 않는다

In [9]:
from sklearn.preprocessing import RobustScaler

In [11]:
scaler2 = RobustScaler()
x_scaled2 = scaler2.fit_transform(x_train)

In [12]:
print('스케일 조정 전 min value : ', x_train.min(axis=0))
print('스케일 조정 전 max value : ', x_train.max(axis=0))
print('스케일 조정 후 min value : ', x_scaled2.min(axis=0))
print('스케일 조정 후 max value : ', x_scaled2.max(axis=0))

스케일 조정 전 min value :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value :  [-1.52323232 -1.45791972 -1.5151781  -1.1130184  -2.28221021 -1.11380456
 -0.58652639 -0.63066754 -2.19880419 -1.36804093 -0.83926429 -1.16877816
 -0.89078985 -0.61672241 -1.24414368 -0.92590898 -0.93494541 -1.54861731
 -1.38189958 -0.96715574 -1.23415493 -1.45464726 -1.14370424 -0.88014453
 -1.74412533 -0.94163238 -0.85

### 3.MinMaxScaler
- 모든 feature가 0과 1사이에 위치하게 만듦
- 데이터가 2차원 셋일 경우, 모든 데이터는 x축의 0과 1사이의 y축의 0과 1사이의 위치하게 됨

In [13]:
from sklearn.preprocessing import MinMaxScaler

In [14]:
scaler3 = MinMaxScaler()
x_scaled3 = scaler3.fit_transform(x_train)

In [17]:
print('스케일 조정 전 min value : ', x_train.min(axis=0))
print('스케일 조정 전 max value : ', x_train.max(axis=0))
print('스케일 조정 후 min value : ', x_scaled3.min(axis=0))
print('스케일 조정 후 max value : ', x_scaled3.max(axis=0))

스케일 조정 전 min value :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value :  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]
스케일 조정 후 max value :  [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


### 4. Normalizer

- standardscaler, RobustScaler, MinMaScaler 각 컬럼(feature)별로 스케일을 조절을 하는게 아니라 행(row)별로 정규화
- 빠르게 학습을 할 수 있고, 과대적합될 확률을 낮출 수 있음

In [20]:
from sklearn.preprocessing import Normalizer

scaler4 = Normalizer()
scaler4.fit(x_train)
x_scaled4 = scaler4.transform(x_train)

In [21]:
print('스케일 조정 후 min value : ', x_scaled4.min(axis=0))
print('스케일 조정 후 max value : ', x_scaled4.max(axis=0))

스케일 조정 후 min value :  [6.16997567e-03 4.56825580e-03 4.00437389e-02 3.76233264e-01
 2.66693006e-05 2.37805701e-05 0.00000000e+00 0.00000000e+00
 4.57096286e-05 1.43634533e-05 1.38230416e-04 2.22630519e-04
 8.95949678e-04 1.14342671e-02 1.17600717e-06 2.76335624e-06
 0.00000000e+00 0.00000000e+00 3.33747542e-06 5.12412074e-07
 7.84471206e-03 5.15445862e-03 5.26050595e-02 6.96047105e-01
 3.18700148e-05 4.21129601e-05 0.00000000e+00 0.00000000e+00
 4.59910547e-05 1.54187243e-05]
스케일 조정 후 max value :  [2.84700680e-02 8.01402547e-02 1.78585343e-01 6.97400762e-01
 4.77151978e-04 5.03168358e-04 8.25977854e-04 1.60675994e-04
 7.87096852e-04 3.18835398e-04 1.65778661e-03 8.22310094e-03
 9.48021244e-03 1.46680208e-01 6.14437683e-05 2.04414230e-04
 7.96220132e-04 1.06142578e-04 1.81992000e-04 5.99980019e-05
 3.23403007e-02 9.72121097e-02 2.05583173e-01 9.21243290e-01
 6.45990370e-04 1.47441480e-03 2.97381613e-03 4.15669188e-04
 1.19573470e-03 4.44506641e-04]


### 모델에 스케일링된 데이터 적용

In [22]:
from sklearn.svm import SVC

In [23]:
svc = SVC()
svc.fit(x_train, y_train)

SVC()

In [24]:
print('학습 데이터 정확도: ' , svc.score(x_train, y_train))
print('테스트 데이터 정확도 : ',svc.score(x_test, y_test))

학습 데이터 정확도:  0.9154929577464789
테스트 데이터 정확도 :  0.916083916083916


In [25]:
scaler = StandardScaler()
scaler.fit(x_train)

StandardScaler()

In [28]:
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

In [29]:
svc1 = SVC()
svc1.fit(x_train_scaled, y_train)

SVC()

In [30]:
print('학습 데이터 정확도: ' , svc.score(x_train_scaled, y_train))
print('테스트 데이터 정확도 : ',svc.score(x_test_scaled, y_test))

학습 데이터 정확도:  0.6314553990610329
테스트 데이터 정확도 :  0.6153846153846154


In [31]:
scaler = RobustScaler()
scaler.fit(x_train)

RobustScaler()