# k-겹 교차 검증을 사용한 모델 성능 평가


훈련데이터의 일부를 Validation용을 분리하고 모형을 평가하는데 사용한다.

* **K-Fold Cross Validata** 은 데이터를 K개의 부분으로 나눈다
* K-1개의 폴드를 하나의 훈련셋으로 하여 훈련하고 남은 1개의 폴드를 테스트셋처럼 사용한다.
* K번 반복하여 얻은 모형의 성능을 평균하여 최종 성능을 산출한다.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

유방암데이터를 사용한다. 

In [2]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X = cancer.data
y = cancer.target

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=1, stratify=y)

In [4]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

pipe_lr = make_pipeline(StandardScaler(),  # 표준화
                        LogisticRegression(solver='liblinear', random_state=1))

pipe_lr.fit(X_train, y_train)
y_pred = pipe_lr.predict(X_test)
print('테스트 정확도: %.3f' % pipe_lr.score(X_test, y_test))

테스트 정확도: 0.965


### K-fold cross validation

* KFold 
    * n_splits : fold의 갯수를 지정한다.
    * shuffle : fold를 나누기전에 데이터를 섞는다.
    * random_state : random seed  
    
* StratifiedKFold : 계층별 KFold. 분류 모형을 평가할 때 타겟 클래스의 샘플이 거의 같은 비율로 폴드에 담기는 것이 좋다. 예를 들어 성별이 남:여=8:2라는 Fold에도 8:2의 비율을 이루도록 하는 것이다.

In [5]:
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold

kf = KFold(n_splits=10, shuffle=True, random_state=1)

stratifiedkf = StratifiedKFold(n_splits=10, shuffle=True, random_state=1)

* cross_val_score   
    * estimator : 검증하고자 하는 모형, 파이프라인
    * cv : 교차검증 기법을 결정한다. cv 옵션을 지정하지 않으면 회귀일때는 KFold, 분류일때는 StratifiedKFold가 사용된다. 정수를 입력하면 기본 분할기의 폴드 수를 지정한다.
    * n_jobs : 사용 가능한 CPU 코어의 갯수 (-1이면 모두 사용)
    * scoring : "accuracy"가 기본, "recall","precision"등을 사용할 수 있다.

In [6]:
scores = cross_val_score(estimator=pipe_lr,  # 파이프라인
                         X=X,  # 특성값
                         y=y,  # 타겟값
                         cv=kf,   # 10-Fold Cross validation
                         n_jobs=1)
print('CV 정확도 점수: %s' % scores)
print('CV 정확도: %.3f' % np.mean(scores)) # 평균을 계산한다.

CV 정확도 점수: [1.         0.94736842 0.94736842 0.98245614 0.92982456 0.98245614
 1.         1.         0.96491228 0.98214286]
CV 정확도: 0.974


In [7]:
?cross_val_score

# 실습하기

* 다음과 같이 digit를 분류하기 위한 데이터셋을 읽어들이고 로지스틱 분류 모형을 생성하시오.
* 파이프라인을 생성하고 모형을 훈련한 다음 10 Fold 교차검증으로 평가하시오.


In [8]:
from sklearn import datasets
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import cross_val_score, KFold

digits = datasets.load_digits()
features = digits.data
target = digits.target

In [9]:
# 실습코드를 작성하시오.