In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

from sklearn.datasets import load_iris
import numpy as np

In [2]:
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=111)

data = iris_data.data
label = iris_data.target

### 필수과제1
- 데이터와 분석 목적에 따라서 교차검증을 선택할 수 있다.
- shuffleSplit - 반복 횟수를 훈련 세트, 테스트 세트를 독립적으로 조절해야 하는 경우
- GroupKFold - 데이터 안에 연관된 그룹들이 있을 때
- RepeatedStratifiedKFold, RepeatedKFold - 데이터가 적을 때 안정된 점수를 얻기 위해서 교차검증을 여러번 반복
- Lvo 등 사이킷런에서 찾아보기!


- 위에 언급한 추가교차검증 사이킷런에서 제공하는 다양한 교차검증 내용을 리서치하고
- 개념 정리와 코드 정리를 함께 공유해 주세요!
- 최소 3개 이상 정리해 주세요!

### ShuffleSplit
- test셋과 train셋을 주어진 비율에 따라 랜덤으로 여러번 나눠야할 경우 사용되는 교차검증 방법
- test셋과 train셋의 크기를 지정할 수 있다는 장점이 있다.
> #### 파라미터
> - n_splits : 폴드 개수 (2 이상)
> - test_size : 전체 데이터 중 test셋의 비율, 0~1 사이의 값
> - train_size : 전체 데이터 중 train셋의 비율, 0~1 사이의 값
> - random_state : 시드 번호 지정

In [3]:
# ShuffleSplit 코드 정리
from sklearn.model_selection import ShuffleSplit

In [4]:
# 교차검증 진행 (accuracy)
ss = ShuffleSplit(n_splits=7, test_size=0.2, random_state=111)

scores = cross_val_score(dt_clf, data, label, scoring="accuracy", cv=ss)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.9    0.9    0.9    1.     0.9667 0.9    0.9667]
mean score: 0.9333


In [5]:
# 교차검증 진행 (precision)
scores = cross_val_score(dt_clf, data, label, scoring="precision_macro", cv=ss)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.8968 0.9    0.9167 1.     0.9524 0.8968 0.9583]
mean score: 0.9316


In [6]:
# 교차검증 진행 (recall)
scores = cross_val_score(dt_clf, data, label, scoring="recall_macro", cv=ss)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.8791 0.9    0.8889 1.     0.9524 0.8864 0.9722]
mean score: 0.9256


In [7]:
# 교차검증 진행 (f1 score)
scores = cross_val_score(dt_clf, data, label, scoring="f1_macro", cv=ss)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.886  0.8824 0.8857 1.     0.9487 0.8899 0.9633]
mean score: 0.9223


### GroupKFold
- 동일한 그룹이 test셋과 train셋에 동시에 포함되지 않도록 하는 교차검증 방법
- 각 그룹은 폴드에 정확히 한 번씩만 들어간다.
> #### 파라미터
> - n_splits : 폴드 개수 (2 이상)

In [8]:
# GroupKFold 코드 정리
from sklearn.model_selection import GroupKFold

In [28]:
# 교차검증 진행 (accuracy)
gk = GroupKFold(n_splits=3)
grp = [0]*25 + [1]*25 + [2]*25 + [0]*25 + [1]*25 + [2]*25

scores = cross_val_score(dt_clf, data, label, scoring="accuracy", groups=grp, cv=gk)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.84 0.94 0.96]
mean score: 0.9133


In [29]:
# 교차검증 진행 (precision)
scores = cross_val_score(dt_clf, data, label, scoring="precision_macro", groups=grp, cv=gk)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.8422 0.6667 0.6667]
mean score: 0.7252


In [30]:
# 교차검증 진행 (recall)
scores = cross_val_score(dt_clf, data, label, scoring="recall_macro", groups=grp, cv=gk)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.84   0.6267 0.64  ]
mean score: 0.7022


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [31]:
# 교차검증 진행 (f1 score)
scores = cross_val_score(dt_clf, data, label, scoring="f1_macro", groups=grp, cv=gk)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.8397 0.6454 0.6528]
mean score: 0.7126


### RepeatedStratifiedKFold / RepeatedKFold
- 교차검증을 반복해서 안정적인 학습을 수행하는 교차검증 방법
- 데이터 수가 적을 때 사용한다.
> #### 파라미터
> - n_splits : 폴드 개수 (2 이상)
> - n_repeats : 반복 횟수
> - random_state : 시드 번호 지정

In [32]:
# RepeatedStratifiedKFold 코드 정리
from sklearn.model_selection import RepeatedStratifiedKFold

In [34]:
# 교차검증 진행 (accuracy)
rkf = RepeatedStratifiedKFold(n_splits=7, n_repeats=3, random_state=111)

scores = cross_val_score(dt_clf, data, label, scoring="accuracy", cv=rkf)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.9545 0.9091 1.     1.     0.9048 1.     0.9048 0.9545 0.9545 0.9545
 0.9048 0.9524 0.9524 1.     0.9545 0.8182 0.9091 0.9524 1.     0.9524
 0.9524]
mean score: 0.9469


In [35]:
# 교차검증 진행 (precision)
scores = cross_val_score(dt_clf, data, label, scoring="precision_macro", cv=rkf)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.9583 0.9107 1.     1.     0.9259 1.     0.9259 0.9583 0.963  0.963
 0.9259 0.9583 0.9583 1.     0.9583 0.8333 0.9107 0.9583 1.     0.9583
 0.9583]
mean score: 0.9536


In [36]:
# 교차검증 진행 (recall)
scores = cross_val_score(dt_clf, data, label, scoring="recall_macro", cv=rkf)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.9524 0.9107 1.     1.     0.9048 1.     0.9048 0.9524 0.9524 0.9524
 0.9048 0.9524 0.9524 1.     0.9524 0.8155 0.9107 0.9524 1.     0.9524
 0.9524]
mean score: 0.9464


In [37]:
# 교차검증 진행 (f1 score)
scores = cross_val_score(dt_clf, data, label, scoring="f1_macro", cv=rkf)
print("test score:", np.round(scores, 4))
print("mean score:", np.round(np.mean(scores), 4))

test score: [0.9521 0.9107 1.     1.     0.9028 1.     0.9028 0.9521 0.9548 0.9548
 0.9028 0.9521 0.9521 1.     0.9521 0.8148 0.9107 0.9521 1.     0.9521
 0.9521]
mean score: 0.9462


*+) Lvo에 대해서 정확히 찾을 수 없었음.*