# 評価プロトコルの理解と実装

## 【課題J1】交差検証

### 交差検証とは？

HoldOut：元データをTrainingDataとTestDataに分割して学習を行う手法．デメリットとして，テストデータのセットが1種類であるため，そのテストデータにフィッティングし過ぎる可能性がある  

交差検証(Cross Validation)：K-分割交差検証ともいい，元データをK分割し，テストデータを入れ替えてK回の検証を行う手法．  
- メリット：過学習を防止しつつ，比較的少ないデータ数でも精度を向上させることができる．
- デメリット：データ数が大きくなると，負荷が上昇しマシンパワーを要する．さらに多い場合は，分割数を少なくするか，HoldOutを使用する必要がある．

### breast_cancerのデータを使ってK-Fold CrossValidation

In [4]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

warnings.filterwarnings('ignore')

%matplotlib inline

In [19]:
# データ準備
from sklearn.datasets import load_breast_cancer
bcan = load_breast_cancer()
X = bcan.data
y = bcan.target

In [40]:
# 数値モデル，予測モデルの構築
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

lreg = LogisticRegression()
ss = KFold(n_splits=5, random_state=0, shuffle=True)

for train_index, test_index in ss.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    lreg.fit(X_train, y_train)
    # モデル評価
    print(lreg.score(X_test, y_test))

0.956140350877193
0.9912280701754386
0.9122807017543859
0.9385964912280702
0.9734513274336283


## 【課題J2】交差検証のバリエーション

### StratifiedKFoldとは

Stratifiedは層状という意味があり，これを用いるとクラスの比率を維持したままデータ分割を行うことができる．  
分布の偏りが大きいデータを用いるときに有用なKFoldである

### J1で用意したデータを用いてStratifiedKFold

In [43]:
# 数値モデル，予測モデルの構築
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression

lreg = LogisticRegression()
ss = StratifiedKFold(n_splits=5, random_state=0, shuffle=True)

for train_index, test_index in ss.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    lreg.fit(X_train, y_train)
    # モデル評価
    print(lreg.score(X_test, y_test))

0.9739130434782609
0.9478260869565217
0.9469026548672567
0.9380530973451328
0.9380530973451328
