In [37]:
""" 유방암 데이터 정리 """
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

df = pd.read_csv('../dataset/wdbc.data', header = None)
X = df.loc[:, 2:].values
y = df.loc[:, 1].values

# 클래스 레이블 문자열을 정수로 변환
le = LabelEncoder()
y = le.fit_transform(y)
print(le.classes_)
print(le.transform(['M', 'B']))

# 데이터 쪼개기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, stratify = y, random_state = 1)

['B' 'M']
[1 0]


In [38]:
""" 파이프라인으로 변환기와 추정기 연결하기 """
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

pipe_lr = make_pipeline(StandardScaler(), PCA(n_components = 2),
                       LogisticRegression(solver = 'liblinear', random_state = 1))
# make_pipeline arg에 표준화를 위한 StandardScaler, 차원 축소를 위한 PCA
# 그리고 훈련 모델인 LogisticRegression이 들어갔다.
print('')




In [39]:
""" k-겹 교차 검증 만들어보기 """
import numpy as np
from sklearn.model_selection import StratifiedKFold

kfold = StratifiedKFold(n_splits = 10).split(X_train, y_train)
# kfold = StratifiedKFold(n_splits = 10, random_state = 1).split(X_train, y_train)
# FutureWarning에 의해 Shuffle을 True로 설정하면 정확도가 내려가게 되고,
# 예제대로 하면 shuffle을 False로 둬야한다.
# 단, 그러면 random_state를 줄 필요가 없다.

scores = []

for k, (train, test) in enumerate(kfold) :
    pipe_lr.fit(X_train[train], y_train[train])
    score = pipe_lr.score(X_train[test], y_train[test])
    scores.append(score)
    print('폴드 : %2d, 클래스 분포 : %s, 정확도 : %.3f' % (k+1, np.bincount(y_train[train]), score))

폴드 :  1, 클래스 분포 : [256 153], 정확도 : 0.935
폴드 :  2, 클래스 분포 : [256 153], 정확도 : 0.935
폴드 :  3, 클래스 분포 : [256 153], 정확도 : 0.957
폴드 :  4, 클래스 분포 : [256 153], 정확도 : 0.957
폴드 :  5, 클래스 분포 : [256 153], 정확도 : 0.935
폴드 :  6, 클래스 분포 : [257 153], 정확도 : 0.956
폴드 :  7, 클래스 분포 : [257 153], 정확도 : 0.978
폴드 :  8, 클래스 분포 : [257 153], 정확도 : 0.933
폴드 :  9, 클래스 분포 : [257 153], 정확도 : 0.956
폴드 : 10, 클래스 분포 : [257 153], 정확도 : 0.956


In [40]:
""" 사이킷런의 k-겹 교차 검증 """
from sklearn.model_selection import cross_val_score

scores = cross_val_score(estimator = pipe_lr, X = X_train, y = y_train,
                        cv = 10, n_jobs = 1)
#n_jobs는 멀티코어

print('CV 정확도 점수 : %s' % scores)
print('CV 정확도 : %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))

CV 정확도 점수 : [0.93478261 0.93478261 0.95652174 0.95652174 0.93478261 0.95555556
 0.97777778 0.93333333 0.95555556 0.95555556]
CV 정확도 : 0.950 +/- 0.014


In [41]:
""" 여러 측정 지표를 사용하는 cross_validate """
from sklearn.model_selection import cross_validate

scores2 = cross_validate(estimator = pipe_lr, X = X_train, y = y_train,
                        scoring = ['accuracy'], cv = 10, n_jobs = 1,
                        return_train_score = False)
print('CV 정확도 점수 : %s' % scores2['test_accuracy'])
print('CV 정확도 : %.3f +/- %.3f' % (np.mean(scores2['test_accuracy']), np.std(scores2['test_accuracy'])))

# 교차 검증에서 일반화 성능의 분산을 추정하는 자세한 방법은 책의 범위를 넘어섬.

CV 정확도 점수 : [0.93478261 0.93478261 0.95652174 0.95652174 0.93478261 0.95555556
 0.97777778 0.93333333 0.95555556 0.95555556]
CV 정확도 : 0.950 +/- 0.014
