# 교차 검증

In [1]:
import pandas as pd
wine = pd.read_csv('https://bit.ly/wine_csv_data')
wine.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [2]:
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [3]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(
data, target, test_size=0.2, random_state=42)

In [4]:
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(train_input, train_target)
print(dt.score(train_input, train_target))
print(dt.score(test_input, test_target))

0.996921300750433
0.8584615384615385


### K-Fold cross validation

In [5]:
from sklearn.model_selection import cross_validate
scores = cross_validate(dt, train_input, train_target)
scores

{'fit_time': array([0.01299238, 0.00799489, 0.00699592, 0.00699568, 0.0069952 ]),
 'score_time': array([0.00099993, 0.        , 0.00099921, 0.00099969, 0.00099969]),
 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}

##### fit_time과 score_time은 각각 모델을 훈련하는 시간과 검증하는 시간을 의미합니다. 딕셔너리 타입으로 반환되며 각 키마다 5개의 결과가 있습니다.  cross_validate() 함수는 기본적으로 5-폴드 교차 검증을 수행합니다.

##### 교차 검증의 최종 점수는 test_score 키에 담긴 5개의 점수를 평균하여 얻을 수 있습니다.

In [6]:
import numpy as np
np.mean(scores['test_score'])

0.855300214703487

##### cross_validate()는 훈련 세트를 섞어 폴드를 나누지 않습니다. 여기서는 train_test_split() 함수로 전체 데이터를 섞었기 때문에 따로 섞을 필요가 없었지만 교차 검증을 할 때 훈련 세트를 섞어주려면 분할기(splitter)를 지정해야 합니다.

##### 회귀 모델일 경우 KFold 분할기를 사용하고 분류 모델일 경우 타깃 클래스를 골고루 나누기 위해 StratifiedKFold를 사용합니다.

In [7]:
from sklearn.model_selection import StratifiedKFold
scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold())
np.mean(scores['test_score'])

0.855300214703487

In [8]:
# n_splits method를 통해 10-폴드 교차 검증 수행
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, cv=splitter)
np.mean(scores['test_score'])

0.8574181117533719