# モデルの検証方法とチューニング方法

### モデルの評価方法と精度を上げる方法
- 機械学習の課題とアプローチ

### モデルの評価とパフォーマンスチューニング
- ホールドアウト法と交差検証法
- パフォーマンスチューニング：　ハイパーパラメータチューニング
- パフォーマンスチューニング：　特徴量の扱い
- モデルの種類

### モデルの評価指標
- 分類モデルの評価：　混同行列と関連指標
- 分類モデルの評価：　ROC曲線とAUC
- 回帰モデルの評価指標

### アンサンブル学習
- バギング
- ブースティング
- ランダムフォレスト、勾配ブースティング

## 機械学習の課題とアプローチ
1. 新しいデータに適合できない場合（過学習/オーバーフィッティング）：ホールドアウト法（テストデータ用にデータを抜き出しておく）や交差検証法
2. モデルの良さを判定する指標や方法：混同行列やROC曲線
3. 精度が高いモデルを作成する：アンサンブル学習

In [1]:
# データ加工・処理・分析ライブラリ
import numpy as np
import numpy.random as random
import scipy as sp
from pandas import Series,DataFrame
import pandas as pd

# 可視化ライブラリ
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline
sns.set()

# 機械学習ライブラリ
import sklearn

### 交差検証法
データ数が限られるときは、2つの問題が生じます。ひとつは、ランダムに分割された特定のテストデータによっては、たまたま高く評価されてしまう問題です。もうひとつは、限られたデータを学習用とテスト用に分割するため、学習データ数が削られ、肝心の学習が十分に進まないという問題です。

そこで、限られたデータを最大限に活用しようと考案されたのが交差検証法（cross validation）です。これはデータの役割を学習用と検証用に交差させる検証法です。交差検証法の代表的な手法にk分割交差検証（k-fold cross validation）があります。この手法では、データをk個のブロックにランダムに分割します。そして、k個のうち1つのブロックを検証用、残りの 𝑘−1 個を学習用として活用します。

In [2]:
from sklearn.datasets import load_breast_cancer
from sklearn.tree import  DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

cancer = load_breast_cancer()

tree = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)

scores = cross_val_score(tree, cancer.data, cancer.target, cv=5)

print('Cross validation scores: {}'.format(scores))
print('Cross validation scores: {:.3f}+-{:.3f}'.format(scores.mean(), scores.std()))

Cross validation scores: [0.90350877 0.9122807  0.95614035 0.93859649 0.95575221]
Cross validation scores: 0.933+-0.022


### パフォーマンスチューニング：ハイパーパラメータチューニング
そもそものモデルの汎化性能を向上させるための手法、具合的には、アルゴリズムが固有に持つハイパーパラメータのチューニング手法である、グリッドサーチ（grid search）について学びます。

既に学んだように、各アルゴリズムは固有のパラメータを持っています。これは、係数のような値を推定するパラメータではなく、あらかじめ人が決めることが多く、ハイパーパラメータといって区別します。

グリッドサーチは、注目するいくつかのハイパーパラメータのすべての組み合わせについて交差検証を行い、最も性能の高いパラメータの組み合わせを探索してベストモデルの学習をするものです。