### 필수과제 1
- 위에 언급한 추가교차검증 사이킷런에서 제공하는 다양한 교차검증 내용을 리서치하고
- 개념 정리와 코드 정리 함께 공유해 주세요.
- 최소 3개 이상 정리해 주세요.

### LOO
- 독립적이고 동일한 분포의 데이터일 경우 사용
- 데이터 중 하나를 제외하고 모두 train data로 활용
- train data에서 하나의 샘플만 제거하기 때문에 나머지가 모두 학습에 활용되어 데이터 낭비가 줄어듦

In [1]:
from sklearn.model_selection import LeaveOneOut

X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
loo = LeaveOneOut()
for train, test in loo.split(X):
    print("%s %s" % (train, test))

[1 2 3 4 5 6 7 8 9] [0]
[0 2 3 4 5 6 7 8 9] [1]
[0 1 3 4 5 6 7 8 9] [2]
[0 1 2 4 5 6 7 8 9] [3]
[0 1 2 3 5 6 7 8 9] [4]
[0 1 2 3 4 6 7 8 9] [5]
[0 1 2 3 4 5 7 8 9] [6]
[0 1 2 3 4 5 6 8 9] [7]
[0 1 2 3 4 5 6 7 9] [8]
[0 1 2 3 4 5 6 7 8] [9]


### Group k-fold
- train, test data에서 동일한 그룹이 표시되지 않도록 하는 KFold의 변형 방식
- 이때 fold들은 데이터의 불균형 때문에 모두 정확히 같은 크기로 나누어지지 않는다는 점을 주의

In [3]:
import numpy as np
from sklearn.model_selection import GroupKFold

X = np.array([0.1, 0.2, 2.2, 2.4, 2.3, 4.55, 5.8, 8.8, 9, 10])
y = np.array(["a", "b", "b", "b", "c", "c", "c", "d", "d", "d"])
groups = np.array([1, 1, 1, 2, 2, 2, 3, 3, 3, 3])

gkf = GroupKFold(n_splits=3)
gkf.get_n_splits(X, y, groups)
for train_index, test_index in gkf.split(X, y, groups=groups):
    print("%s %s" % (train, test))
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print(X_train, X_test, y_train, y_test)

[0 1 2 3 4 5 6 7 8] [9]
[0.1  0.2  2.2  2.4  2.3  4.55] [ 5.8  8.8  9.  10. ] ['a' 'b' 'b' 'b' 'c' 'c'] ['c' 'd' 'd' 'd']
[0 1 2 3 4 5 6 7 8] [9]
[ 0.1  0.2  2.2  5.8  8.8  9.  10. ] [2.4  2.3  4.55] ['a' 'b' 'b' 'c' 'd' 'd' 'd'] ['b' 'c' 'c']
[0 1 2 3 4 5 6 7 8] [9]
[ 2.4   2.3   4.55  5.8   8.8   9.   10.  ] [0.1 0.2 2.2] ['b' 'c' 'c' 'c' 'd' 'd' 'd'] ['a' 'b' 'b']


### Time Series Split
- k번째 fold까지 train fold로 사용하고 k+1번째 fold는 test fold로 사용하는 KFold의 변형
- 앞선 교차검증과 다르게 여기에서의 연속적인 훈련 세트는 그 앞에 있는 것들의 상위 집합
- 항상 첫번째 train set에 모든 잉여 데이터를 추가
- 고정된 시간 간격의 시계열 데이터 교차검증에 활용

In [4]:
from sklearn.model_selection import TimeSeriesSplit

X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
tscv = TimeSeriesSplit(n_splits=3)
tscv.get_n_splits(X)
print(tscv)
TimeSeriesSplit(gap=0, max_train_size=None, n_splits=3, test_size=None)
for train, test in tscv.split(X):
    print("%s %s" % (train, test))
    X_train, X_test, y_train, y_test = X[train], X[test], y[train], y[test]
    print(X_train, X_test, y_train, y_test)

TimeSeriesSplit(gap=0, max_train_size=None, n_splits=3, test_size=None)
[0 1 2] [3]
[[1 2]
 [3 4]
 [1 2]] [[3 4]] [1 2 3] [4]
[0 1 2 3] [4]
[[1 2]
 [3 4]
 [1 2]
 [3 4]] [[1 2]] [1 2 3 4] [5]
[0 1 2 3 4] [5]
[[1 2]
 [3 4]
 [1 2]
 [3 4]
 [1 2]] [[3 4]] [1 2 3 4 5] [6]
