## グリッドサーチによる回帰におけるパラメータ探索

評価値 scoring を変更することで、グリッドサーチは回帰におけるパラメータ探索も可能。

GridSearchCV() の scoring に指定できる評価値は以下を参照：<br>
https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter

In [1]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeRegressor

hitters = pd.read_csv('data/Hitters.csv')

# 欠損値 NaN を含む行の除去
hitters = hitters.dropna()

# 'Years', 'Hits', 対数変換した Salary からなる DataFrame を作成
df = hitters[['Years', 'Hits']]
df = df.assign(Salary=np.log(hitters.Salary))

# 説明変数、目的変数の作成
# - 説明変数：Years, Hits
# - 目的変数：Salary
X = df.drop(['Salary'], axis=1)
Y = df.Salary

In [2]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV

# 回帰木を作成
# - max_depth: 最大深さ
#model = DecisionTreeRegressor(max_depth=2, min_samples_split=100)
model = DecisionTreeRegressor()

# 探索パラメータ
# - 決定木の深さ
param_depth = list(range(2, 11, 1))

# グリッドの設定
# - 引数：max_depth, パラメータのグリッド：param_depth
grid = [{'max_depth': param_depth}]

# グリッドサーチの作成、実行
gs = GridSearchCV(model, param_grid=grid, scoring='r2', cv=5, n_jobs=-1)
gs.fit(X, Y)

# 結果の表示
print('best R^2={:.3f}'.format(gs.best_score_))
print('parameter:', gs.best_params_)

best R^2=0.538
parameter: {'max_depth': 4}


In [3]:
df = pd.DataFrame(gs.cv_results_).sort_values('mean_test_score', ascending=False)
df[['mean_test_score', 'params']].head(5)

Unnamed: 0,mean_test_score,params
2,0.537654,{'max_depth': 4}
3,0.527065,{'max_depth': 5}
0,0.509376,{'max_depth': 2}
5,0.504786,{'max_depth': 7}
4,0.50036,{'max_depth': 6}
