In [1]:
import pandas as pd  # データの加工用のパッケージ
from sklearn.model_selection import train_test_split  # データを分割するための関数
from sklearn.svm import SVC  # サポートベクトルマシンを用いるためのクラス
from sklearn import datasets  # サンプルデータセットをインポートするためのモジュール
# (1)グリッドサーチを行うためのクラスをインポートしてください
from sklearn.model_selection import GridSearchCV 

iris = datasets.load_iris()  # アヤメデータの読込

dat = pd.DataFrame(data=iris.data, columns=iris.feature_names)  # アヤメデータを表形式に変換
dat["species"] = iris.target  # ターゲットを表に追加

# 特徴量とターゲットの設定
X = dat[["sepal length (cm)", "sepal width (cm)"]].values  # 特徴量の設定
y = dat['species']  # ターゲットの設定

# 訓練データとテストデータの分割
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3, random_state=2)

# 学習
svm = SVC(kernel='rbf', random_state=1)  # RBFカーネルを用いたSVM：rbf（RBFカーネル）を指定
svm.fit(X_train, y_train)  # SVMの学習

# 予測の実行
y_pred_rbf = svm.predict(X_test)  # RBFカーネルを用いたSVMによる分類の結果

# 分類結果の確認
print('チューニングなしの正解率：', svm.score(X_test, y_test))
print()

# (2)グリッドサーチのインスタンスを作成してください
# アルゴリズム ⇒ svm を指定
# パラメータ(C)の探索範囲 ⇒　10**-3~10**9まで、指数スケールで10**3刻み
# パラメータ(gamma)の探索範囲 ⇒　10**-9~10**3まで、指数スケールで10**3刻み
# 評価基準 ⇒ 正解率(accuracy)を指定
# 交差検証の分割数 ⇒ 3 を指定
gs = GridSearchCV(estimator=svm,
                  param_grid={'C': [10**i for i in [-3, 0, 3, 6, 9]],
                  'gamma': [10**i for i in [-9, -6, -3, 0, 3]]},
                  scoring='accuracy',
                  cv=3)

# (3)グリッドサーチを実行してください
gs = gs.fit(X_train, y_train)

# グリッドサーチの結果の保存
gs_result = pd.DataFrame(gs.cv_results_)

# グリッドサーチの結果求まったベストパラメータを表示
print('ベストパラメータ：', gs.best_params_)

# (4)グリッドサーチの結果に合わせ、最適なパラメータの学習器(svm_best)を作成してください
svm_best = gs.best_estimator_

# ベストモデルの作成
svm_best.fit(X_train, y_train)

# チューニング結果の確認
print('チューニング後の正解率：', svm_best.score(X_test, y_test))

チューニングなしの正解率： 0.8222222222222222

ベストパラメータ： {'C': 1000, 'gamma': 0.001}
チューニング後の正解率： 0.8444444444444444
