In [1]:
%config Completer.use_jedi = False
import warnings

warnings.filterwarnings(action='ignore')

# 크로스 밸리데이션
앞선 지도 학습 알고리즘에서는 전체 데이터를 트레이닝 데이터와 테스트 데이터로 나누어 모형을 학습시켰다. 이번에는 하이퍼파라미터 튜닝을 위해 크로스 밸리데이션 기법을 활용해본다.

In [2]:
# 데이터 불러오기
from sklearn import datasets  # 와인 데이터를 사용하기 위해 import 한다.

raw_wine = datasets.load_wine()  # 와인 데이터를 불러온다.

In [3]:
# 피쳐/타겟 데이터 지정
X = raw_wine.data  # 와인 피쳐 데이터를 저장한다.
y = raw_wine.target  # 와인 타겟 데이터를 저장한다.

In [4]:
# 트레이닝/테스트 데이터 분할
from sklearn.model_selection import train_test_split  # 트레이닝/테스트 데이터 분할을 위해 import 한다.

X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state=0)  # 트레이닝 데이터와 테스트 데이터로 분할한다.
X_tn.shape, X_te.shape

((133, 13), (45, 13))

In [5]:
# 데이터 표준화
from sklearn.preprocessing import StandardScaler  # 데이터 표준화를 위해 import 한다.

std_scale = StandardScaler()  # 표준화 스케일러 객체를 만든다.
# 표준화는 트레이닝 데이터를 기반으로 실행하므로 트레이닝 피쳐 데이터 X_tn을 표준화 스케일러에 적합시킨다.
std_scale.fit(X_tn)
X_tn_std = std_scale.transform(X_tn)  # 트레이닝 피쳐 데이터 X_tn을 표준화 한다.
X_te_std = std_scale.transform(X_te)  # 테스트 피쳐 데이터 X_te를 표준화 한다.

In [6]:
from sklearn import svm  # 서포트 벡터 머신 알고리즘을 사용하기 위해 import 한다.
# stratified K-Fold cross validation은 일반적인 K-Fold cross validation과는 달리 라벨링 비율을 유지하면서 데이터를
# 추출한다.
# stratified K-Fold cross validation 알고리즘을 사용하기 위해 import 한다.
from sklearn.model_selection import StratifiedKFold

clf_svm = svm.SVC(random_state=0)  # 서포트 벡터 머신 모델 객체를 만든다.

# GridSearch
# GridSearch는 우리가 지정해준 몇 가지 잠재적인 파라미터들의 후보군들의 조합 중에서 가장 beat 조합을 찾아준다.
# 사이킷런 패키지가 제공하므로 하나하나 대입해 가면서 loss를 확인하는 작업을 GridSearch가 대신 해주므로 손쉽게
# 사용할 수 있다.
# 가장 큰 단점은 하이퍼파라미터 후보군의 갯수만큼 비례해서 시간이 늘어나 최적의 조합을 찾는 시간이 매우 오래
# 걸린다는 단점이 있다.
from sklearn.model_selection import GridSearchCV  # 그리드 서치 알고리즘을 사용하기 위해 import 한다.

# 그리드 서치에 적용할 하이퍼파라미터 후보군을 설정한다.
param_grid = {
    'kernel': ('linear', 'rbf'),  # 서포트 벡터 머신에서 커널은 정확도가 높은 linear 또는 rbf로 설정한다.
    'C': [0.5, 1, 10, 100]
}

# n_splits 옵션은 트레이닝 데이터를 나룰 개수를 지정하고 shuffle=True 옵션을 지정하면 데이터를 섞는다.
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)  # 크로스 벨리데이션 객체를 만든다.
# estimator 옵션으로 학습할 모형을 지정하고 param_grid 옵션으로 하이퍼파라미터 후보군을 지정하고 cv 옵션으로
# 크로스 밸리데이션 방법을 지정하고 scoring 옵션으로 모형 평가 방법을 지정해서 그리드 서치 객체를 만든다.
grid_cv = GridSearchCV(estimator=clf_svm, param_grid=param_grid, cv=kfold, scoring='accuracy')
# 표준화된 피쳐 데이터 X_tn_std와 트레이닝 타겟 데이터 y_tn을 넣어서 그리드 서이 알고리즘을 학습시킨다.
grid_cv.fit(X_tn_std, y_tn)

In [7]:
# 그리드 서치 결과 확인
# 그리드 서치 객체에서 cv_results_ 속성으로 그리드 서치 결과(설정한 파라미터, 모형 평가 등)를 확인할 수 있다.
grid_cv.cv_results_

{'mean_fit_time': array([0.00067377, 0.00041661, 0.00029855, 0.00037708, 0.00028605,
        0.00035567, 0.00027633, 0.00034437]),
 'std_fit_time': array([6.66234550e-04, 8.77769011e-06, 1.15256582e-05, 1.32648178e-05,
        1.10800786e-05, 1.18351713e-05, 9.47815062e-06, 9.84712027e-06]),
 'mean_score_time': array([1.25408173e-04, 1.46627426e-04, 8.79764557e-05, 1.25169754e-04,
        8.38756561e-05, 1.15489960e-04, 8.17775726e-05, 1.12724304e-04]),
 'std_score_time': array([4.69177233e-05, 7.41017831e-06, 2.88476629e-06, 1.55977509e-06,
        2.32332758e-06, 1.66278799e-06, 1.16800773e-06, 1.64076333e-06]),
 'param_C': masked_array(data=[0.5, 0.5, 1, 1, 10, 10, 100, 100],
              mask=[False, False, False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_kernel': masked_array(data=['linear', 'rbf', 'linear', 'rbf', 'linear', 'rbf',
                    'linear', 'rbf'],
              mask=[False, False, False, False, False, Fal

In [8]:
# 그리드 서치 결과 확인 - 데이터프레임
import numpy as np
import pandas as pd

pd.DataFrame(grid_cv.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_C,param_kernel,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.000674,0.000666,0.000125,4.7e-05,0.5,linear,"{'C': 0.5, 'kernel': 'linear'}",0.888889,0.962963,0.925926,1.0,0.846154,0.924786,0.054014,5
1,0.000417,9e-06,0.000147,7e-06,0.5,rbf,"{'C': 0.5, 'kernel': 'rbf'}",0.962963,1.0,0.962963,0.961538,1.0,0.977493,0.018384,1
2,0.000299,1.2e-05,8.8e-05,3e-06,1.0,linear,"{'C': 1, 'kernel': 'linear'}",0.888889,0.962963,0.925926,1.0,0.846154,0.924786,0.054014,5
3,0.000377,1.3e-05,0.000125,2e-06,1.0,rbf,"{'C': 1, 'kernel': 'rbf'}",0.925926,0.962963,0.962963,0.961538,1.0,0.962678,0.023431,2
4,0.000286,1.1e-05,8.4e-05,2e-06,10.0,linear,"{'C': 10, 'kernel': 'linear'}",0.888889,0.962963,0.925926,1.0,0.846154,0.924786,0.054014,5
5,0.000356,1.2e-05,0.000115,2e-06,10.0,rbf,"{'C': 10, 'kernel': 'rbf'}",0.925926,0.962963,0.962963,0.961538,1.0,0.962678,0.023431,2
6,0.000276,9e-06,8.2e-05,1e-06,100.0,linear,"{'C': 100, 'kernel': 'linear'}",0.888889,0.962963,0.925926,1.0,0.846154,0.924786,0.054014,5
7,0.000344,1e-05,0.000113,2e-06,100.0,rbf,"{'C': 100, 'kernel': 'rbf'}",0.925926,0.962963,0.962963,0.961538,1.0,0.962678,0.023431,2


In [9]:
np.transpose(pd.DataFrame(grid_cv.cv_results_))

Unnamed: 0,0,1,2,3,4,5,6,7
mean_fit_time,0.000674,0.000417,0.000299,0.000377,0.000286,0.000356,0.000276,0.000344
std_fit_time,0.000666,0.000009,0.000012,0.000013,0.000011,0.000012,0.000009,0.00001
mean_score_time,0.000125,0.000147,0.000088,0.000125,0.000084,0.000115,0.000082,0.000113
std_score_time,0.000047,0.000007,0.000003,0.000002,0.000002,0.000002,0.000001,0.000002
param_C,0.5,0.5,1,1,10,10,100,100
param_kernel,linear,rbf,linear,rbf,linear,rbf,linear,rbf
params,"{'C': 0.5, 'kernel': 'linear'}","{'C': 0.5, 'kernel': 'rbf'}","{'C': 1, 'kernel': 'linear'}","{'C': 1, 'kernel': 'rbf'}","{'C': 10, 'kernel': 'linear'}","{'C': 10, 'kernel': 'rbf'}","{'C': 100, 'kernel': 'linear'}","{'C': 100, 'kernel': 'rbf'}"
split0_test_score,0.888889,0.962963,0.888889,0.925926,0.888889,0.925926,0.888889,0.925926
split1_test_score,0.962963,1.0,0.962963,0.962963,0.962963,0.962963,0.962963,0.962963
split2_test_score,0.925926,0.962963,0.925926,0.962963,0.925926,0.962963,0.925926,0.962963


In [10]:
# 베스트 스코어와 베스트 스코어를 얻어낸 하이퍼파라미터를 확인한다.
print(grid_cv.best_score_)  # 그리드 서치 결과 중 베스트 스코어를 얻어온다.
print(grid_cv.best_params_)  # 그리드 서치 결과 중 베스트 스코어를 얻어낸 하이퍼파라미터를 얻어온다.

0.9774928774928775
{'C': 0.5, 'kernel': 'rbf'}


In [11]:
# 최종 모형
clf_grid = grid_cv.best_estimator_  # 그리드 서치를 통해 구한 베스트 모델을 최종 모델로 설정한다.
clf_grid

In [12]:
# 크로스 밸리데이션 스코어 확인 - 1
from sklearn.model_selection import cross_validate  # cross_validate 확인에 사용하기 위해 import 한다.

metrics = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro']  # 모델 평가 방법을 설정한다.
cv_score = cross_validate(clf_grid, X_tn_std, y_tn, cv=kfold, scoring=metrics)
for key in cv_score:
    print(key, cv_score[key])

fit_time [0.00056696 0.00037718 0.00036812 0.00037289 0.00034118]
score_time [0.0009222  0.00056911 0.0005672  0.00056124 0.00056076]
test_accuracy [0.96296296 1.         0.96296296 0.96153846 1.        ]
test_precision_macro [0.96296296 1.         0.96969697 0.96969697 1.        ]
test_recall_macro [0.96666667 1.         0.96296296 0.95833333 1.        ]
test_f1_macro [0.9628483  1.         0.96451914 0.96190476 1.        ]


In [13]:
# 크로스 밸리데이션 스코어 확인 - 2
# cross_validate 함수가 여러 개의 지표를 동시에 확인하는데 사용되었다면 cross_val_score 함수는 한 가지 지표를
# 확인하는데 사용된다.
from sklearn.model_selection import cross_val_score  # cross_validate 확인에 사용하기 위해 import 한다.

cv_score = cross_val_score(clf_grid, X_tn_std, y_tn, cv=kfold, scoring='accuracy')
print(cv_score)  # 각 split별 정확도 확인
print(cv_score.mean())  # 각 split별 정확도의 평균 확인
print(cv_score.std())  # 각 split별 정확도의 표준편차 확인

[0.96296296 1.         0.96296296 0.96153846 1.        ]
0.9774928774928775
0.01838434849561446


In [14]:
# 데이터 예측
pred_svm = clf_grid.predict(X_te_std)  # 표준화된 테스트 데이터 X_te_std로 예측한다.
pred_svm

array([0, 2, 1, 0, 1, 1, 0, 2, 1, 1, 2, 2, 0, 1, 2, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 2, 0, 0, 1, 0, 0, 0, 2, 1, 1, 2, 0, 0, 1, 1,
       1])

In [15]:
# 정확도 평가
from sklearn.metrics import accuracy_score  # 정확도를 평가하기 위해 import 한다.

# accuracy_score 함수의 인수로 실제 타겟 데이터와 예측된 데이터를 넘겨 정확도를 평가한다.
accuracy = accuracy_score(y_te, pred_svm)
accuracy

1.0

In [16]:
# 혼돈 행렬 확인
from sklearn.metrics import confusion_matrix  # 혼돈 행렬을 만들기 위해 import 한다.

# confusion_matrix() 함수에 실제 타겟 데이터와 예측된 데이터를 넘겨 혼돈 행렬을 만든다.
conf_matrix = confusion_matrix(y_te, pred_svm)
conf_matrix

array([[16,  0,  0],
       [ 0, 21,  0],
       [ 0,  0,  8]])

In [17]:
# 분류 리포트 확인
from sklearn.metrics import classification_report  # 분류 리포트를 출력하기 위해 import 한다.

# classification_report() 함수에 실제 타겟 데이터와 예측된 데이터를 넘겨 분류 리포트를 만든다.
class_report = classification_report(y_te, pred_svm)
print(class_report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       1.00      1.00      1.00        21
           2       1.00      1.00      1.00         8

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

