# グリッドサーチ

機械学習には、2種類のパラメータがある。ロジスティック回帰の重みのように、トレーニングデータから学習されるパラメータと、トレーニングデータを使用するのではなく個別に最適化される学習アルゴリズムのパラメータである。

後者はモデルのチューニングパラメータであり、`ハイパーパラメータ`と呼ばれる。例えば、ロジスティック回帰の`正則化パラメータ`や決定木の`深さパラメータ`はハイパーパラメータである。

グリッドサーチはハイパーパラメータの最適化手法の一つである。グリッドサーチは、ハイパーパラメータの値の「最適な」組み合わせを見つけ出すことにより、モデルの性能をさらに改善するのに役立つ。

In [4]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
# ジュピターノートブック上でグラフを表示させるための処理
%matplotlib inline

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import learning_curve
from sklearn.model_selection import validation_curve
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

## Breast Cancer Wisconsinデータセットの読み込み

このデータセットには、悪性腫瘍細胞と良性腫瘍細胞の569のサンプルが含まれている。

このデータセットの最初の2つの列には、サンプルの一意なIDとそれに対応する診断結果が含まれている。診断結果の`M`は悪性(malignant)を示し、`B`は良性(benign)を示す。

3列目から32列目には、細胞核のデジタル画像から算出された30個の実数値の特徴量が含まれている。

これらは腫瘍が良性か悪性かを予測するモデルの構築に利用できる。

In [2]:
# データセットの読み込み
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data', header=None)
# 30個の特徴量をnumpy配列のオブジェクトXに割り当てる。
# LabelEncoderを使って、元のクラスラベルの文字列表現(MおよびB)を整数に変換する。
from sklearn.preprocessing import LabelEncoder
X = df.loc[:, 2:].values
y = df.loc[:, 1].values
le = LabelEncoder()
# 配列yに格納されたクラスラベル（診断結果）エンコードした後は、悪性腫瘍はクラス1、良性腫瘍はクラス2で表される。
y = le.fit_transform(y)
print(y[:5])
print(le.fit_transform(['M', 'B']))

# エンコード後のデータセットをトレーニングデータセット（データの80%）とテストデータセット（データの20%）に分割する。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

[1 1 1 1 1]
[1 0]


## グリッドサーチを使ってハイパーパラメータをチューニングする

グリッドサーチはしらみつぶしの網羅的探索手法であり、さまざまなハイパーパラメータの値からなるリストを指定すると、それらの組み合わせごとにモデルの性能を評価し、最適なハイパーパラメータの組み合わせを突き止める。

In [6]:
pipe_svc = Pipeline([('scl', StandardScaler()), ('clf', SVC(random_state=1))])
param_range = [0.0001, 0.001, 0.01,0.1, 1.0, 10.0, 100.0, 1000.0]

param_grid = [{'clf__C' : param_range, 'clf__kernel' : ['linear']},
                          {'clf__C' : param_range, 'clf__gamma' : param_range, 'clf__kernel' : ['rbf']}]

# ハイパーパラメータ値のリストparam_gridを指定し、グリッドサーチを行うGridSearchCVクラスのインスタンス化
gs = GridSearchCV(estimator=pipe_svc, param_grid=param_grid, scoring='accuracy', cv=10, n_jobs=-1)

gs.fit(X_train, y_train)

# モデルの最良スコアを出力
print(gs.best_score_)

# 最良スコアとなるパラメータ値を出力
print(gs.best_params_)

0.978021978021978
{'clf__C': 0.1, 'clf__kernel': 'linear'}




⬆︎

このコードでは、GridSearchCVオブジェクトを初期化し、サポートベクトルマシン(SVM)のトレーニングとチューニングを行なっている。

チューニングしたいパラメータを指定するには、GridSearchCVのparam_grid引数にディクショナリのリストを設定する。

トレーニングデータを使ってグリッドサーチを実行した後、
- best_score_属性を使って最も性能がよいモデルのスコアを取得する
- best_params_属性を使って性能がよい時のモデルで使用したパラメータを取得する

In [8]:
# estimator(訳: 推定者)
clf = gs.best_estimator_
clf.fit(X_train, y_train)
print('Test accuracy: %.3f' % clf.score(X_test, y_test))

Test accuracy: 0.965


⬆︎
トレーニングデータセットからは独立したテストデータセットを使って、選択されたモデルの性能を評価する。

GridSearchCVオブジェクトのbest_estimator_属性を使用する。

## 入れ子式の交差検証によるアルゴリズムの選択

入れ子式の交差検証において、外側のループでは、k分割交差検証を使って、トレーニングサブセットとテストサブセットにデータを分割する。

内側のループでは、トレーニングサブセットに対してk分割交差検証を行うことで、モデルを選択する。

モデルを選択した後、テストサブセットを使ってモデルの性能を比較する。

In [9]:
gs2 = GridSearchCV(estimator=pipe_svc, param_grid=param_grid, scoring='accuracy', cv=2, n_jobs=-1)
scores = cross_val_score(gs2, X_train, y_train, scoring='accuracy', cv=5)

print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))



CV accuracy: 0.971 +/- 0.018


