## 머신러닝
# 교차검증 (Cross Validation)

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

In [3]:
from sklearn.model_selection import cross_val_score

In [4]:
from sklearn.tree import DecisionTreeClassifier

In [5]:
model = DecisionTreeClassifier(max_leaf_nodes=10)
scores = cross_val_score(model, cancer.data, cancer.target, cv=5)
    # no suffle, stratified
scores

array([0.90350877, 0.93859649, 0.92982456, 0.95614035, 0.91150442])

In [6]:
scores.mean()

0.9279149200434714

In [7]:
from sklearn.model_selection import KFold, StratifiedKFold, LeaveOneOut

In [8]:
scores = cross_val_score(model, cancer.data, cancer.target, cv=KFold(5))
    # no suffle, no stratified
scores

array([0.86842105, 0.92982456, 0.93859649, 0.93859649, 0.89380531])

In [9]:
scores = cross_val_score(model, cancer.data, cancer.target,
                cv=StratifiedKFold(5)) # no suffle, stratified
scores

array([0.90350877, 0.90350877, 0.92105263, 0.94736842, 0.90265487])

In [10]:
scores = cross_val_score(model, cancer.data, cancer.target,
                cv=StratifiedKFold(5, shuffle=True)) # no suffle, stratified
scores

array([0.92105263, 0.92105263, 0.90350877, 0.93859649, 0.95575221])

In [11]:
scores = cross_val_score(model, cancer.data, cancer.target,
                cv=LeaveOneOut()) # 샘플 하나씩만 테스트데이터로 놓음
scores

array([1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1.,
       1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [12]:
scores.mean()

0.9384885764499121