In [2]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [3]:
cancer = load_breast_cancer()
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
X_train, X_test, y_train, y_test = train_test_split(cancer['data'], cancer['target'],
                                                    random_state = 1234)

### 1.StandardScaler
- 각데이터의 feature들의 평균을 0, 분산을 1로 변경
- 모든 feature들이 같은 스케일을 같게 만든다.

In [5]:
from sklearn.preprocessing import StandardScaler

In [6]:
STscaler = StandardScaler()
print("스케일 조정 전")
print("Min : ", X_train.min(axis=0))
print("Max : ", X_train.max(axis=0))

print("")
STscaler.fit(X_train)
X_train_scaled1 = STscaler.transform(X_train)
print("스케일 조정 후")
print("Min : ", X_train_scaled1.min(axis=0))
print("Max : ", X_train_scaled1.max(axis=0))


스케일 조정 전
Min :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
Max :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]

스케일 조정 후
Min :  [-2.05959418 -2.06007032 -2.01803061 -1.47906849 -3.11840193 -1.61914251
 -1.12209848 -1.26938777 -2.78192834 -1.81018812 -1.07589572 -1.56507334
 -1.05735035 -0.77526135 -1.37519266 -1.27269316 -1.00981927 -1.8540401
 -1.58069217 -1.08204572 -1.75802372 -2.12998626 -1.72206377 -1.25531716
 -2.2407888  -1.36335806 -1.2896095  -1.75499271 -2.19557

### 2.RobustScaler
- 모든 feature가 같은 크기를 같는 점에서 StandardScaler와 비슷하다
- 하지만, 평균이라 분산 대신에 median과 queartile을 사용한다.
- 또한. 이상치에 크게 영향을 받지 않는다는 장점이 있다.

In [7]:
from sklearn.preprocessing import RobustScaler
RBscaler = RobustScaler()

In [8]:
print("스케일 조정 전")
print("Min : ", X_train.min(axis=0))
print("Max : ", X_train.max(axis=0))

print("")
RBscaler.fit(X_train)
X_train_scaled2 = RBscaler.transform(X_train)
print("스케일 조정 후")
print("Min : ", X_train_scaled2.min(axis=0))
print("Max : ", X_train_scaled2.max(axis=0))

스케일 조정 전
Min :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
Max :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]

스케일 조정 후
Min :  [-1.52323232 -1.45791972 -1.5151781  -1.1130184  -2.28221021 -1.11380456
 -0.58652639 -0.63066754 -2.19880419 -1.36804093 -0.83926429 -1.16877816
 -0.89078985 -0.61672241 -1.24414368 -0.92590898 -0.93494541 -1.54861731
 -1.38189958 -0.96715574 -1.23415493 -1.45464726 -1.14370424 -0.88014453
 -1.74412533 -0.94163238 -0.8543761  -1.03141523 -1.9347

### 3.Min-Max Scaler
- 모든 feature가 0과 1사이에 위치하게 만든다
- 데이터가 2차원 셋일 경우, 모든 데이터는 x축의 0과 1 사이에 y축의 0과 1 사이에 위치하게 됨

In [9]:
from sklearn.preprocessing import MinMaxScaler
MMscaler = MinMaxScaler()

In [10]:
print("스케일 조정 전")
print("Min : ", X_train.min(axis=0))
print("Max : ", X_train.max(axis=0))

print("")
MMscaler.fit(X_train)
X_train_scaled3 = MMscaler.transform(X_train)
print("스케일 조정 후")
print("Min : ", X_train_scaled3.min(axis=0))
print("Max : ", X_train_scaled3.max(axis=0))

스케일 조정 전
Min :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]
Max :  [2.811e+01 3.381e+01 1.885e+02 2.499e+03 1.447e-01 3.114e-01 4.268e-01
 2.012e-01 3.040e-01 9.744e-02 2.873e+00 3.896e+00 2.198e+01 5.256e+02
 3.113e-02 1.354e-01 3.960e-01 5.279e-02 6.146e-02 2.984e-02 3.313e+01
 4.954e+01 2.293e+02 3.234e+03 2.226e-01 1.058e+00 1.252e+00 2.910e-01
 6.638e-01 2.075e-01]

스케일 조정 후
Min :  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]
Max :  [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


### 4.Normalizer
- 다른 것보다 컬럼별로 스케일을 조절하는 것이 아니라 행별로 정규화한다.
- 빠르게 학습할 수 있다.

In [11]:
from sklearn.preprocessing import Normalizer
Normscaler = Normalizer()

print("스케일 조정 전")
print("Min : ", X_train.min(axis=0))

print("")
Normscaler.fit(X_train)
X_train_scaled4 = Normscaler.transform(X_train)
print("스케일 조정 후")
print("Min : ", X_train_scaled4.min(axis=0))

스케일 조정 전
Min :  [6.981e+00 1.038e+01 4.379e+01 1.435e+02 5.263e-02 1.938e-02 0.000e+00
 0.000e+00 1.060e-01 4.996e-02 1.115e-01 3.602e-01 7.570e-01 7.228e+00
 2.838e-03 2.252e-03 0.000e+00 0.000e+00 7.882e-03 8.948e-04 7.930e+00
 1.249e+01 5.041e+01 1.852e+02 8.125e-02 3.432e-02 0.000e+00 0.000e+00
 1.565e-01 5.504e-02]

스케일 조정 후
Min :  [6.16997567e-03 4.56825580e-03 4.00437389e-02 3.76233264e-01
 2.66693006e-05 2.37805701e-05 0.00000000e+00 0.00000000e+00
 4.57096286e-05 1.43634533e-05 1.38230416e-04 2.22630519e-04
 8.95949678e-04 1.14342671e-02 1.17600717e-06 2.76335624e-06
 0.00000000e+00 0.00000000e+00 3.33747542e-06 5.12412074e-07
 7.84471206e-03 5.15445862e-03 5.26050595e-02 6.96047105e-01
 3.18700148e-05 4.21129601e-05 0.00000000e+00 0.00000000e+00
 4.59910547e-05 1.54187243e-05]


### 4.머신러닝 모델

In [12]:
from sklearn.svm import SVC

In [13]:
svc = SVC()
svc.fit(X_train, y_train)

print("========== 스케일러 적용 전 ==========")
print("학습데이터 정확도 :", svc.score(X_train, y_train))
print("테스트데이터 정확도 :", svc.score(X_test, y_test))

print("")

print("========== 스케일러 적용 후 ==========")
print("======== Standard 스케일러 =========")
print("학습데이터 정확도 :", svc.score(STscaler.transform(X_train), y_train))
print("테스트데이터 정확도 :", svc.score(STscaler.transform(X_test), y_test), "\n")

print("======== Robust 스케일러 =========")
print("학습데이터 정확도 :", svc.score(RBscaler.transform(X_train), y_train))
print("테스트데이터 정확도 :", svc.score(RBscaler.transform(X_test), y_test), "\n")

print("======== MinMax 스케일러 =========")
print("학습데이터 정확도 :", svc.score(MMscaler.transform(X_train), y_train))
print("테스트데이터 정확도 :", svc.score(MMscaler.transform(X_test), y_test), "\n")

print("======== Normalization 스케일러 =========")
print("학습데이터 정확도 :", svc.score(Normscaler.transform(X_train), y_train))
print("테스트데이터 정확도 :", svc.score(Normscaler.transform(X_test), y_test), "\n")



    

학습데이터 정확도 : 0.9154929577464789
테스트데이터 정확도 : 0.916083916083916

학습데이터 정확도 : 0.6314553990610329
테스트데이터 정확도 : 0.6153846153846154 

학습데이터 정확도 : 0.6314553990610329
테스트데이터 정확도 : 0.6153846153846154 

학습데이터 정확도 : 0.6314553990610329
테스트데이터 정확도 : 0.6153846153846154 

학습데이터 정확도 : 0.6314553990610329
테스트데이터 정확도 : 0.6153846153846154 



In [15]:
import module_Score as sc

sc.Score(X_train, y_train, X_test, y_test)

학습데이터 정확도 : 0.8873239436619719
테스트데이터 정확도 : 0.8811188811188811

학습데이터 정확도 : 0.9929577464788732
테스트데이터 정확도 : 0.951048951048951

학습데이터 정확도 : 0.9882629107981221
테스트데이터 정확도 : 0.951048951048951

학습데이터 정확도 : 0.8873239436619719
테스트데이터 정확도 : 0.8811188811188811

