검정 표본(holdout set)과 교차 검증(cross-Validation)에 대하여 알아 보자

In [7]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

In [8]:
# n_neighbors = 1 인 k-이웃분류기를 사용
# 알려지지 않은 점의 레이블은 훈련 데이터 중 그와 가장 가까운 점의 레이블과 같다

from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=1)

In [9]:
model.fit(X, y)
y_model = model.predict(X)

In [10]:
from sklearn.metrics import accuracy_score
accuracy_score(y, y_model)

1.0

(문제점) 같은 데이터로 모델을 훈련하고 검증한 사례로 근본적인 오류를 내포하고 있다

따라서 훈련 데이터와 검정 데이터를 나누어서 진행하여야 한다. 

In [12]:
from sklearn.cross_validation import train_test_split
# 각각 50%로 나눔
X1, X2, y1, y2 = train_test_split(X, y, random_state=0, train_size=0.5)

# 모델을 하나의 데이터 세트에 적용
model.fit(X1, y1)

# 모델을 두번째 데이터로 검증함
y2_model = model.predict(X2)

accuracy_score(y2, y2_model)

0.90666666666666662

교차 검증을 통한 모델 검증

검정 표본을 사용하면 훈련 시 하나의 데이터 세트를 사용 못하게 되는데...
따라서 교차 검증을 하면 모든 데이터를 다 사용 할 수 있다

In [13]:
y2_model = model.fit(X1, y1).predict(X2)
y1_model = model.fit(X2, y2).predict(X1)

accuracy_score(y1, y1_model), accuracy_score(y2, y2_model)

(0.95999999999999996, 0.90666666666666662)

5겹 교차 검증 사례

Sklearn의 cross_val_score를 활용

In [14]:
from sklearn.cross_validation import cross_val_score
cross_val_score(model, X, y, cv=5)

array([ 0.96666667,  0.96666667,  0.93333333,  0.93333333,  1.        ])

데이터 점의 갯수 만큼 반복하는 교차 검증을 극단적으로 원한다면
단일 관측치 제거 방식(leave-one-out) 교차 검정을 사용한다

In [15]:
from sklearn.cross_validation import LeaveOneOut
scores = cross_val_score(model, X, y, cv=LeaveOneOut(len(X)))
scores

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  0.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  0.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [16]:
scores.mean()

0.95999999999999996

최적의 모델 선택하기