### 2021_10_19_4

### LOOCV(Leave-One-Out cross-Validation)
* 폴드 하나에 샘플 하나만 들어있는 k-겹 교차 검증
* 각 반복에 하나의 데이터 포인트를 선택해 테스트 데이터 세트로 사용한다.
* 데이터 셋이 클 경우 시간이 매우 오래 걸리지만, 작은 데이터 셋에서 이따금 좋은 결과를 만든다.

In [2]:
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

In [3]:
loo = LeaveOneOut()
iris = load_iris()
tree = DecisionTreeClassifier()
scores = cross_val_score(tree, iris.data, iris.target, cv = loo)

print("교차 검증 분할 횟수 : ", len(scores))
print("평균 정확도 : {:.2f}".format(scores.mean()))

교차 검증 분할 횟수 :  150
평균 정확도 : 0.94


* iris의 경우 150개의 데이터이므로 150번의 교차 검증을 한다.

### 임의 분할 교차 검증
* Shuffle-split cross-validation
    * train_size만큼 샘플로 학습용 세트를 만들고,
    * test_size만큼(중복되지 않음) 테스트 세트를 만든다.
    * n_splits 횟수만큼 반복한다.

In [4]:
from sklearn.model_selection import ShuffleSplit

In [6]:
shuffle_split = ShuffleSplit(train_size = 10, test_size = 5,  n_splits = 10)

scores = cross_val_score(tree, iris.data, iris.target, cv = shuffle_split)

print("교차 검증 점수 : \n{}".format(scores))
avg = scores.mean()
print("평균 : {:.2f}".format( avg ))

교차 검증 점수 : 
[1.  1.  0.4 0.8 0.6 0.4 0.8 1.  1.  1. ]
평균 : 0.80


### 샘플 150개의 50%를 훈련 셋으로 50%를 테스트 셋으로 하여 10번 반복 분할

In [7]:
shuffle_split = ShuffleSplit(train_size = 0.5, test_size = 0.5,  n_splits = 10)

scores = cross_val_score(tree, iris.data, iris.target, cv = shuffle_split)

print("교차 검증 점수 : \n{}".format(scores))
avg = scores.mean()
print("평균 : {:.2f}".format( avg ))

교차 검증 점수 : 
[0.97333333 0.97333333 0.93333333 0.92       0.97333333 0.97333333
 0.93333333 0.94666667 0.93333333 0.92      ]
평균 : 0.95


* 임의 분할 교차 검증은 반복 횟수를 훈련 세트나 테스트 세트의 크기와 독립적으로 조절해야 할 때 유용.
* 또한 train_size와 test_size의 합을 전체와 다르게 함으로써 전체 데이터의 일부만 사용할 수 있습니다.

### 반복 교차 검증
* 교차 검증을 반복하여 여러번 수행하는 경우가 많다.
    * 이를 위해 scikit-learn 0.19버전에서 RepeatedKFold와 RepeatedStratifiedKFold 분할기가 추가.
    * 회귀 문제 : RepeatedKFold의 KFold 클래스 사용
    * 분류 문제 : RepeatedStratifiedKFold의 StratifiedKFlod 클래스 사용
        * 분할 폴드 수는 n_splits 매개변수로 설정하며 기본값은 5이다.
        * 반복 횟수는 n_repeats 매개변수로 설정. 기본값은 10이다.

In [8]:
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RepeatedStratifiedKFold

In [9]:
iris = load_iris()
logreg = LogisticRegression()

In [10]:
# n_split : 5    분할 폴드 수(기본값 : 5)
# n_repeat = 10  반복횟수(기본값 : 10)
# 반복할때마다 데이터를 다시 섞습니다.
rskfold = RepeatedStratifiedKFold(random_state = 42, n_splits = 5, n_repeats = 10)
scores = cross_val_score(logreg, iris.data, iris.target, cv = rskfold)

print("횟수 : ", len(scores))
print("교차 검증 점수 : \n",  scores)
print("교차 검증 평균 점수 : {:.3f}".format(scores.mean() ) )

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

횟수 :  50
교차 검증 점수 : 
 [1.         0.96666667 0.93333333 1.         0.93333333 0.96666667
 0.96666667 0.93333333 1.         0.96666667 0.93333333 1.
 1.         0.96666667 0.96666667 0.9        1.         1.
 0.93333333 0.96666667 0.93333333 0.96666667 0.96666667 1.
 0.96666667 1.         0.96666667 0.96666667 0.9        1.
 0.96666667 0.96666667 0.96666667 0.96666667 0.93333333 0.96666667
 0.96666667 1.         1.         0.9        0.96666667 1.
 0.9        0.96666667 0.96666667 0.9        0.96666667 0.96666667
 1.         0.96666667]
교차 검증 평균 점수 : 0.965


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


* 전체 검증 점수는 n_splits X n_repeats개수만큼 만들어진다. 기본값을 사용하여 만들경우 5 x 10 = 50개의 모델이 만들어진다.