In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

In [2]:
cancer = load_breast_cancer()
x_train,x_test,y_train,y_test = train_test_split(cancer.data,
                                                cancer.target,
                                                random_state=1234)

### Strandard Scaler
- 각 feature들의 평균을 0, 분산은 1로 변경
- 모든 특성들이 같은 스케일을 갖게 됨

In [3]:
from sklearn.preprocessing import StandardScaler

In [4]:
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train)
#학습과 변환을 동시에 가능
# model.fit_transform()

In [5]:
#value 비교
print('스케일 조정 전 min value:',x_train.min(axis=0))
print('스케일 조정 전 max value:',x_train.max(axis=0))
print('스케일 조정 후 min value:',x_train_ss.min(axis=0))
print('스케일 조정 후 max value:',x_train_ss.max(axis=0))

스케일 조정 전 min value: [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value: [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value: [-2.05959418 -2.06007032 -2.01803061 -1.47906849 -3.11840193 -1.61914251
 -1.12209848 -1.26938777 -2.78192834 -1.81018812 -1.07589572 -1.56507334
 -1.05735035 -0.77526135 -1.37519266 -1.27269316 -1.00981927 -1.8540401
 -1.58069217 -1.08204572 -1.75802372 -2.12998626 -1.72206377 -1.25531716
 -2.2407888  -1.36335806 -1.2896095  

### Robust Scaler
- 모든 특성들이 같은 크기를 갖는다는 점에서 Standard Scaler와 비슷하지만,평균과 분산 대신 중앙값과 사분위수(quartile)를 사용
- robust scaler는 이상치에 영향을 받지 않음

In [6]:
from sklearn.preprocessing import RobustScaler

In [7]:
rs = RobustScaler()
x_train_scale = rs.fit_transform(x_train)
#모델선정, 모델학습,스케일링

In [8]:
#value 비교
print('스케일 조정 전 min value:',x_train.min(axis=0))
print('스케일 조정 전 max value:',x_train.max(axis=0))
print('스케일 조정 후 min value:',x_train_scale.min(axis=0))
print('스케일 조정 후 max value:',x_train_scale.max(axis=0))

스케일 조정 전 min value: [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value: [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value: [-1.52323232 -1.45791972 -1.5151781  -1.1130184  -2.28221021 -1.11380456
 -0.58652639 -0.63066754 -2.19880419 -1.36804093 -0.83926429 -1.16877816
 -0.89078985 -0.61672241 -1.24414368 -0.92590898 -0.93494541 -1.54861731
 -1.38189958 -0.96715574 -1.23415493 -1.45464726 -1.14370424 -0.88014453
 -1.74412533 -0.94163238 -0.8543761 

### MinMax Scaler
- 모든 feature가 0과 1 사이에 위치하게 만듦
- 데이터가 2차원 셋일 경우, 모든 데이터는 x축의 0과 1 사이에, y축의 0과 1 사이에 위치하게 됨

In [9]:
from sklearn.preprocessing import MinMaxScaler

In [10]:
mm = MinMaxScaler()
x_train_mm = mm.fit_transform(x_train)
#학습과 변환을 동시에 가능
# model.fit_transform()

In [11]:
#value 비교
print('스케일 조정 전 min value:',x_train.min(axis=0))
print('스케일 조정 전 max value:',x_train.max(axis=0))
print('스케일 조정 후 min value:',x_train_mm.min(axis=0))
print('스케일 조정 후 max value:',x_train_mm.max(axis=0))

스케일 조정 전 min value: [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value: [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]
스케일 조정 후 max value: [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


### Normalizer
- standardscaler, robustscaler, minmaxscaler가 각 컬럼의 통계치를 이용한 방법이었다면 normalizer는 각 row마다 각각 정규화
- normalizer는ㄴ 유클리디안 거리(피타고라스 정리)가 1이 되도록 데이터를 조정
- normalizer를 하면 좀 더 빠르게 학습되고 과대적합될 확률을 낮출 수 있음

In [12]:
from sklearn.preprocessing import Normalizer

In [13]:
normal = Normalizer()
x_train_scale = normal.fit_transform(x_train)
x_test_scale = normal.transform(x_test)

#train데이터는 학습과 변환을 둘 다 하기 때문에 model.fit_transform() 사용
#test데이터는 변환만 해주기 위해 model.transform만 사용

In [14]:
from sklearn.svm import SVC

In [15]:
svc = SVC()
svc.fit(x_train_scale,y_train)
# 일반 데이터가 아닌 스케일링된 데이터를 학습시킴

SVC()

In [16]:
print('test 정확도:',svc.score(x_test_scale,y_test))
#스케일링된 데이터를 평가

test 정확도: 0.8811188811188811


In [17]:
svc = SVC()
svc.fit(x_train,y_train)
# 일반 데이터를 학습시킴

SVC()

In [18]:
print('test 정확도:',svc.score(x_test,y_test))
#스케일링되지 않은 데이터를 평가
#이 데이터는 Normalizer로 Scaling하기보다 다른 Scaler로 하는게 낫다

test 정확도: 0.916083916083916


In [19]:
#value 비교
print('스케일 조정 전 min value:',x_train.min(axis=0))
print('스케일 조정 전 max value:',x_train.max(axis=0))
print('스케일 조정 후 min value:',x_train_scale.min(axis=0))
print('스케일 조정 후 max value:',x_train_scale.max(axis=0))

스케일 조정 전 min value: [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
스케일 조정 전 max value: [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]
스케일 조정 후 min value: [6.16997567e-03 4.56825580e-03 4.00437389e-02 3.76233264e-01
 2.66693006e-05 2.37805701e-05 0.00000000e+00 0.00000000e+00
 4.57096286e-05 1.43634533e-05 1.38230416e-04 2.22630519e-04
 8.95949678e-04 1.14342671e-02 1.17600717e-06 2.76335624e-06
 0.00000000e+00 0.00000000e+00 3.33747542e-06 5.12412074e-07
 7.84471206e-03 5.15445