# グリッドサーチ

update: 2019/02/05

グリッドサーチで最適なパラメータを見つける。

In [8]:
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import KFold
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC


%matplotlib inline
plt.style.use('seaborn-whitegrid')
plt.style.use('seaborn-colorblind')

データを準備する。有名なアヤメデータセットを使うが、seasbornをimportしておけば簡単にデータセットをロードできる。csvファイルも世の中に存在しているので、それをDLしてきてpandasで読み込んで使ってもよい。iris.csvファイルを読み込む場合はpd.read_csvを使って読み込めばよい。scikit-learnのload_irisをimportしてもよい。

ここでは、seabornについてくるデータセットを使っている。

In [3]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()

  return f(*args, **kwds)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


データを目的変数と説明変数に分離

In [4]:
y = iris["species"]
x = iris.drop("species", axis=1)

学習用データとテストデータに分ける。

In [5]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8, shuffle=True)

グリッドサーチで利用するパラメータを指定する。

In [6]:
parameters = [
    {"C": [1,10,100,1000], "kernel":["linear"]},
    {"C": [1,10,100,1000], "kernel":["rbf"], "gamma":[0.001,0.0001]},
    {"C": [1,10,100,1000], "kernel":["sigmoid"], "gamma":[0.001,0.0001]}
]

GridSearchCVを使ってグリッドサーチを行う。

In [10]:
kfold_cv = KFold(n_splits=5, shuffle=True)
clf = GridSearchCV( SVC(), parameters, cv=kfold_cv)
clf.fit(x_train, y_train)
print("Optimal parameters is: ", clf.best_estimator_)

Optimal parameters is:  SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)


最適なパラメータで評価。

In [11]:
y_pred = clf.predict(x_test)
print("Accuracy rate is:", accuracy_score(y_test,y_pred))

Accuracy rate is: 0.9666666666666667


この後、Optunaでもハイパーパラメータのチューニングを行ってみる予定。(2019/02/05)

Optunaは`pip install optuna`で簡単にインストールできる。

# Reference

すぐに使える! 業務で実践できる! Pythonによる AI・機械学習・深層学習アプリのつくり方