### 교차검증
* 훈련 세트와 테스트 세트로 한 번 나누는 것보다 더 안정적이고 뛰어난 통계적 평가방법
* 데이터를 여러번 반복해서 나누고 여러 모델을 학습
* 가장 널리 쓰이는 교차검증방법은 k-겹 교차 검증(k-fold cross-validation)
* 보통 5 또는 10을 사용

In [17]:
import mglearn

FileNotFoundError: [WinError 2] 지정된 파일을 찾을 수 없습니다: 'cache'

In [None]:
mglearn.plots.plot_cross_validation()

### 교차 검증 실습

* 기본값은 3겹 교차 검증

In [3]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier

In [5]:
iris = load_iris()
model = KNeighborsClassifier()

In [9]:
# cross_val_score(모델, x, y)
scores = cross_val_score(model, iris.data, iris.target, cv=5)
print('교차 검증 점수 : {}' .format(scores))

교차 검증 점수 : [0.96666667 1.         0.93333333 0.96666667 1.        ]


### 교차 검증의 장단점
* 데이터를 무작위로 나눌 때, 운좋게 훈련세트에는 분류하기 어려운 샘플이 담길 수 있음. 이 경우 테스트 세트에 분류에 좋은 샘플이 담기면 좋은 정확도가 얻어질 것
* 데이터를 무작위로 나눌 때, 운좋게 훈련세트에 분류가 쉽고 테스트 세트에 분류가 어려운 샘플이 담기면 테스트 세트의 정확도는 낮은 결과가 나올 것

* 장점1 : 일반화된 모델을 생성할 수 있다.
* 장점2 : 분할을 한 번 했을 때보다 데이터를 더 효과적으로 사용이 가능하다.

* 단점1 : 연산비용이 늘어난다. (모델을 k개 만들어야 하므로 데이터를 한 번 나눴을 때보다 k배가 더 느림)

In [10]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [11]:
mglearn.plots.plot_stratified_cross_validation()

NameError: name 'mglearn' is not defined

### 계층별 교차검증 stratified k-fold cross-validation

단순한 k-겹 교차검증은 문제가 발생. scikit-learn에서 계층별 교차검증을 사용
* 폴더 안에 클래스의 비율이 같도록 데이터를 나눈다.
* 대부분의 경우 회귀에서는 k-겹 교차 검증, 분류에서는 계층별 k-겹 교차검증의 기본값이 잘 동작
* model_selection 모듈에서 KFold 분할기를 불러오고 원하는 폴더 수를 넣어 객체 생성

### 폴더 안의 클래스 비율

In [13]:
from sklearn.model_selection import KFold

In [15]:
kfold = KFold(n_splits=3, shuffle=False, random_state=0)   # 셔플 안하면 0 나올 수 있음
result = cross_val_score(model, iris.data, iris.target, cv=kfold)
result

array([0., 0., 0.])

In [14]:
# 계층별 폴더를 만드는 대신에 샘플의 순서를 뒤죽박죽으로 섞기 (shuffle=True)
kfold = KFold(n_splits=3, shuffle=True, random_state=0)   
result = cross_val_score(model, iris.data, iris.target, cv=kfold)
result

array([0.98, 0.96, 0.96])