# 評価プロトコルの理解と実装
## 交差検証

交差検証のアルゴリズムはどうなっているか？
ホールドアウトとの違いは何か？
メリットやデメリットはあるのか？


### K-分割交差検証(Cross Validation)の手順
1. データ全体をK個に分割する
2. K個のうち1つをテストデータとし、残る K-1 個を訓練用データとして使う。
3. テストデータと学習用データを入れ替えて繰り返し、全てのケースがテスト事例となるよう検証を繰り返す。
4. K回の検証を繰り返し、得られた結果を平均した値でモデルの精度を確認する。


### ホールドアウトとの違い
- ホールドアウトはデータ全体を適当な比率で訓練用とテスト用に分割する
- 交差検証法はデータ全体をK個に等分割し、そのひとつずつをテスト用に割り当てていく

![交差検証](./交差検証2.png) 

### メリット、デメリット
#### メリット
- データ量が十分でない場合でも、全てのデータを有効に活用できる
- 学習の偏りを防げる

#### デメリット
- 訓練とテストを K 回行うため、K が大きくなればなるほど計算時間がかかる
- Kが大きすぎると使えない

## 実装

In [2]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

warnings.filterwarnings('ignore')

%matplotlib inline

### データの準備
breast cancerのデータを使用

In [5]:
from sklearn.datasets import load_breast_cancer

bc = load_breast_cancer()

In [11]:
X = bc.data
y = bc.target

print(X.shape)

(569, 30)


In [12]:
df = pd.DataFrame(X, columns=bc.feature_names)
df['result'] = y

df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,result
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


### 交差検証します！
- sklearn.model_selectionのKfoldを使用
- データを5つに分割
- 訓練データとテストデータの正答率の平均を比較する

In [35]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold

# kfoldをするための設定
kf = KFold(n_splits=5, shuffle=False, random_state=None)
n=kf.get_n_splits(X)

# ロジスティック回帰
logistic_regression = LogisticRegression()

# 分割する回数分のfor文
# .splitで1回分割して、分割したインデックスを返す
amount_train=0
amount_test=0

for train_index, test_index in kf.split(X):
    # 参考 Xのインデックスすべてを4：1のところで分けたリスト的なものが返される
    # print("TRAIN:", train_index, "TEST:", test_index)
    
    X_train, y_train, X_test, y_test = X[train_index], y[train_index], X[test_index], y[test_index]

    logistic_regression.fit(X_train, y_train)
    
    amount_train+=logistic_regression.score(X_train,y_train)
    amount_test+=logistic_regression.score(X_test,y_test)

acc_train=amount_train/n
acc_test=amount_test/n

print(f'Train Acc:{acc_train :.4}')
print(f'Test Acc:{acc_test :.4}')

Train Acc:0.9596
Test Acc:0.9526
