## ハイバーパラメータの最適化

In [3]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# Irisデータセットをロード
iris = load_iris()
X, y = iris.data, iris.target
# 学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
# 決定木をインスタンス化
clf = DecisionTreeClassifier()
param_grid = {'max_depth': [3, 4, 5]}
# 10分割の交差検証を実行
cv = GridSearchCV(clf, param_grid=param_grid, cv=10)
cv.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [3, 4, 5]})

In [4]:
# 最適な深さを確認する
cv.best_params_

{'max_depth': 4}

In [6]:
# 最適なモデルを確認する
cv.best_estimator_

DecisionTreeClassifier(max_depth=4)

In [7]:
# テストデータのクラスラベルを予測
y_pred = cv.predict(X_test)
y_pred

array([1, 2, 2, 1, 0, 2, 1, 0, 0, 1, 2, 0, 1, 2, 2, 2, 0, 0, 1, 0, 0, 1,
       0, 2, 0, 0, 0, 2, 2, 0, 2, 1, 0, 0, 1, 1, 2, 0, 0, 1, 1, 0, 2, 2,
       2])