<img src="files/logo.jpg"/>

## はじめに

このOptunaの発展的な使い方に関するハンズオンは、Google Colaboratry で書かれたノートブックに沿って進めます。まずは、Optunaの基本的な使い方に関するハンズオンを行ってから、こちらのノートブックを進めるようにしてください。

まずは、このノートブックで使うモジュールをインポートしておきましょう。

In [None]:
!pip install optuna

import optuna
import plotly
import sklearn
import sklearn.datasets
import sklearn.ensemble
import sklearn.linear_model
import sklearn.model_selection

## ハイパーパラメータ最適化を分散して並列に実行する

Optunaを用いると、分散並列ハイパーパラメータ最適化を簡単に行う事ができます。
このノートブックだけでは分散並列最適化を行う事ができないので、ぜひ手元の環境でコードをコピペして実行してみてください。

Optunaの分散並列最適化の仕組みは非常にシンプルです。

全ての最適化履歴は、共有のストレージに保存されます。
例えば、このストレージはMySQLやPostgreSQLなどのRDBです。
そして、実際に最適化を実行する複数のワーカーは、それぞれが独立にこのストレージにアクセスします。
ワーカー同士のデータの競合は、Optunaが管理をしてくれるのでユーザは気を遣う必要がありません。


さて、まずは共有のストレージを準備しましょう。皆さんの手元の環境でdockerが利用可能ならば、以下のコマンドをシェルで実行する事でMySQLのサーバーが立ち上がるはずです。 (dockerのインストールについては、[公式ページ](https://docs.docker.com/get-docker/)を参照してください。) (2つ目のコマンド実行の際に、パスワード "test" の入力が求められるので注意しましょう。）

```bash
$ docker run --name some-mysql -e MYSQL_ROOT_PASSWORD=test -p 3306:3306 -p 33060:33060 -d mysql:5.7
$ docker run --network host -it --rm mysql:5.7  mysql -h 127.0.0.1 -uroot -p -e "create database optunatest;"
```

以上を実行することで、 `mysql+pymysql://root:test@localhost/optunatest`というURLでPythonスクリプトから共有ストレージにアクセスできるようになります。

次に、Optunaの分散並列最適化を実行するために必要な環境を整備しましょう。
今回はMySQLで共有ストレージを準備したので、Optunaの他に`pymysql`をインストールした環境を用意します。
```bash
$ python3 -m venv venv
$ source venv/bin/activate
$ pip install optuna
$ pip install sklearn
$ pip install pymysql
```

さあ、並列に最適化を実行してみましょう！
やり方は非常にシンプルです。
以下のスクリプトを `worker.py`として手元に保存してください。
手元で複数の（例えば5個の）シェルを立ち上げ、それぞれで作成したvenvをactivateしておきます。
そこで`python woker.py`と実行してみましょう。
1つのワーカーあたり100回のトライアルを実行するので、5個のシェルで実行すれば500回のトライアルを実行することになります。

```python
import optuna
import sklearn
import sklearn.datasets
import sklearn.linear_model


N_TRIALS_PER_WORKER = 100


def objective(trial):
    #  データのロードと分割
    wine = sklearn.datasets.load_wine()
    classes = list(set(wine.target))
    train_x, valid_x, train_y, valid_y = \
        sklearn.model_selection.train_test_split(wine.data, wine.target, test_size=0.25, random_state=0)

    #  ハイパーパラメータの決定とモデルオブジェクトの初期化
    alpha = trial.suggest_float('alpha', 1e-5, 1e-1, log=True)
    clf = sklearn.linear_model.SGDClassifier(alpha=alpha)
        
    # モデルの学習と評価
    clf.fit(train_x, train_y, classes=classes)
    
    return 1.0 - clf.score(valid_x, valid_y)

study = optuna.create_study(
    study_name="example-study", 
    storage="mysql+pymysql://root:test@localhost/optunatest",
    load_if_exists=True,
)
study.optimize(objective, n_trials=N_TRIALS_PER_WORKER)

print("このワーカーが終了した時点で最良の誤差: " + str(study.best_value))
print("このワーカーが終了した時点で最良のハイパーパラメータ: " + str(study.best_params))
```

各ワーカーは、それぞれが１００回のトライアルを終了した時点で共有ストレージを確認し、最良の結果を出力します。
全てのワーカーが終了した時点で最良の結果が欲しければ、いずれかのワーカーで以下を実行すれば良いでしょう。

```python
study = optuna.create_study(
    study_name="example-study", 
    storage="mysql+pymysql://root:test@localhost/optunatest",
    load_if_exists=True,
)
print("全体で最良の誤差: " + str(study.best_value))
print("全体で最良のハイパーパラメータ: " + str(study.best_params))
```

## 高度なサンプリングアルゴリズム・枝刈りアルゴリズムを利用する

Optunaでは最先端のサンプリングアルゴリズム・枝刈りアルゴリズムを数多く利用して、最適化を行う事ができます。
そのやり方は非常にシンプルです。まずは、それぞれ**sampler**, **pruner**というオブジェクトを指定して、**study**を作成しましょう。

In [None]:
sampler = optuna.samplers.TPESampler()
pruner = optuna.pruners.HyperbandPruner()

study = optuna.create_study(sampler=sampler, pruner=pruner)

**sampler**は、このようにstudyを作成する際に渡すだけで有効化されます。
一方で、**pruner**を有効にするためには、目的関数内で中間値を報告し、各ステップで枝刈りをするかどうか判断するコードを追加する必要があります。
上の分散並列最適化のセクションで用いた目的関数を、**pruner**が有効になるよう書き換えると以下のようになるでしょう。

In [4]:
def objective(trial):
    #  データのロードと分割
    wine = sklearn.datasets.load_wine()
    classes = list(set(wine.target))
    train_x, valid_x, train_y, valid_y = \
        sklearn.model_selection.train_test_split(wine.data, wine.target, test_size=0.25, random_state=0)

    #  ハイパーパラメータの決定とモデルオブジェクトの初期化
    alpha = trial.suggest_float("alpha", 1e-5, 1e-1, log=True)
    clf = sklearn.linear_model.SGDClassifier(alpha=alpha)
        
    # モデルの学習と評価
    # １回の訓練(１回のトライアル)を100ステップに分けて、各ステップで中間値を報告
    for step in range(100):
        clf.partial_fit(train_x, train_y, classes=classes, )

        # 現時点での目的関数の評価値（中間値）を計算し、Trialオブジェクトに報告
        intermediate_value = 1.0 - clf.score(valid_x, valid_y)
        trial.report(intermediate_value, step)
        
        # 現時点での中間値を、これまでのトライアルと比べて枝刈りするかどうか判断する
        if trial.should_prune():
            raise optuna.TrialPruned()
    
    # 枝刈りされずに完了した場合は、最終的な評価値を出力する
    return 1.0 - clf.score(valid_x, valid_y)

この目的関数を用いて**study.optimize**を呼ぶと、枝刈りを考慮した最適化を行う事ができます。

In [None]:
study.optimize(objective, n_trials=20)

実行ログを見ると、いくつかのトライアルが最後まで実行されず途中で枝刈りされている事がわかります。
枝刈りによる高速化成功です！

...ちょっと待ってください。これで我々の最適化はリーズナブルに改善されたでしょうか？
いいえ。これだけだと、実行するはずだった20トライアルが早く終わっただけです。
枝刈りの目的は、与えられたリソースの元で、見込みの薄いトライアルを枝刈りすることで
最大限多くのハイパーパラメータ候補を試すことにあります。
したがって、枝刈りによって最適化を改善するためには**study.optimizeのトライアル数を一定にしてはダメです。**
代わりに、**最適化全体で消費されたリソース量を一定にする必要があります。**

これを実現するための最も簡単な方法は、トライアル数ではなく時間を一定にすることです。


In [None]:
study.optimize(objective, timeout=10)

こうすることで、与えられたリソース（10秒)の元で、見込みのないパラメータが枝刈りされて最大限多くのハイパーパラメータ候補が試されることになります。

最適化全体で消費されたリソース量を一定にする方法には、少しトリッキーですが以下のような方法も考えられるでしょう。
それは、最適化全体で実行されるステップ数を一定にすることです。

In [None]:
# 枝刈りせずに学習した場合、20トライアル分のステップ数
N_TOTAL_STEPS = 20 * 100
remaining_steps = N_TOTAL_STEPS

while 100 <= remaining_steps:
  n_trials = remaining_steps // 100
  study.optimize(objective, n_trials=n_trials)
  remaining_steps = N_TOTAL_STEPS - sum([len(trial.intermediate_values) for trial in study.trials])

こうすることで、与えられたリソース（20 * 100ステップ数)の元で、見込みのないパラメータが枝刈りされて最大限多くのハイパーパラメータ候補が試されることになります。
（このコードは若干不正確で、最小で20 * 100 - 99ステップしか実行されない可能性がありますが、ここではその点に目を瞑ることにします。）

さて、それではOptunaで利用可能な**sampler**と**pruner**について簡単に見ていきましょう。

Optunaでは、v2.2.0時点で以下のような**sampler**を利用する事ができます。
詳細は、各々のドキュメントを参照してください。
- [`optuna.samplers.GridSampler`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.samplers.GridSampler.html)
  - グリッドサーチを行うsamplerです。
- [`optuna.samplers.RandomSampler`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.samplers.RandomSampler.html)
  - ランダムサーチを行うsamplerです。
- [`optuna.samplers.TPESampler`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.samplers.TPESampler.html)
  - ベイズ最適化のアルゴリズムの1つであるTPE (Tree-structured Parzen Estimator)を実装しているsamplerです。
  TPEはOptunaのデフォルトのsamplerです。アルゴリズムの詳細は[元論文](https://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf)を参照してください。
- [`optuna.samplers.CmaEsSampler`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.samplers.CmaEsSampler.html)
  - 進化計算のアルゴリズムの1つであるCMA-ES (Covariance Matrix Adaptation - Evolution Strategy) を実装しているsamplerです。
  アルゴリズムの詳細は原著論文の著者によって書かれた[こちらの論文](https://arxiv.org/abs/1604.00772)を参照するとわかりやすいかと思います。
- [`optuna.integration.SkoptSampler`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.integration.SkoptSampler.html)
  - ベイズ最適化の代表的なアルゴリズムである、代理モデル(例えばガウス過程やランダムフォレスト)に基づく最適化を実装しているsamplerです。
  アルゴリズムの実装はサードパーティライブラリの `scikit-optimize` を利用しており、Optunaのbuilt-inのsamplerではありません。
  実装されているアルゴリズムの詳細は[scikit-optimizeの公式ページ](https://scikit-optimize.github.io/stable/auto_examples/bayesian-optimization.html)を参照してください。
  代理モデルに基づく最適化については、[こちらの論文](https://ieeexplore.ieee.org/document/7352306)が網羅的によくまとまっています。

また、Optunaでは、v2.2.0時点で以下のような**pruner**を利用する事ができます。
- [`optuna.pruners.NopPruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.NopPruner.html)
  - 何も枝刈りしない、というprunerです。
- [`optuna.pruners.PercentilePruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.PercentilePruner.html)
  - 各epochにおいて、最適化履歴の 下位$\alpha$%に入っていれば枝刈りする、というprunerです。
- [`optuna.pruners.MedianPruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.MedianPruner.html)
  - 各epochにおいて、最適化履歴の下位50%に入っていれば枝刈りする、というprunerです。
- [`optuna.pruners.SuccessiveHalvingPruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.SuccessiveHalvingPruner.html)
  - Successive Halvingという有名な枝刈りアルゴリズムを実装しているprunerです。
  アルゴリズムの詳細は、[こちらの論文](https://arxiv.org/abs/1810.05934)を参照してください。
  なお、Optunaでは実装の都合上、論文とは多少異なるアルゴリズムを実装しています。
- [`optuna.pruners.HyperbandPruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.HyperbandPruner.html)
  - Hyperbandという最先端の枝刈りアルゴリズムを実装しているprunerです。
  アルゴリズムの詳細は、[元論文](https://arxiv.org/abs/1603.06560)を参照してください。
  なお、Optunaでは実装の都合上、論文とは多少異なるアルゴリズムを実装しています。
- [`optuna.pruners.ThresholdPruner`](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.pruners.ThresholdPruner.html)
  - 各epochにおいて、与えられた閾値から外れた値の場合に枝刈りする、というprunerです。

以上のsampler, prunerをどういった組み合わせで用いれば良いのかは、タスクごとに異なります。

例えば、実行可能なトライアル数が少ない状況（数十から数百程度）では`TPESampler`や`SkoptSampler`のようなベイズ最適化のsamplerが威力を発揮し、実行可能なトライアル数が比較的多い状況（数百から数万程度）では`CmaEsSampler`が威力を発揮するでしょう。それ以上のトライアル数（数十万以上）になると、最適化履歴に基づくsamplerは現実的な時間で動作せず、`RandomSampler`を使わざるを得ないでしょう。（その場合はOptunaのストレージ部分の処理もボトルネックになってきます。）
さらにprunerは、用いるsamplerと最適化したい目的関数の性質に応じて選ぶ必要があります。
この選択は、次のセクションで示す可視化機能を用いた分析によって、インタラクティブに行われる事が多いでしょう。

タスクごとに、どういった組み合わせでsamplerとprunerを選択すれば良いのかは難しい問題なので、我々Optuna開発者も多くのベンチマーク実験を行いながら知見を貯めています。
そういったベンチマーク実験の結果は[OptunaのWiki](https://github.com/optuna/optuna/wiki/Benchmarks-with-Kurobako)で公開されているので、samplerとprunerを選ぶ際は参考にしてみてください。

## 豊富な可視化機能を用いて最適化結果を分析する


高度なアルゴリズムの利用法、特に枝刈りの利用法について学び、最適化プロセスが改善されました。
また、必要があれば複数のワーカーで分散して並列処理をする事ができるようになりました。
最終的に達成された目的関数の評価値は**study.best_value**, ハイパーパラメータの組は**study.best_params**で取得できます。
最適化プロセスの改善や結果の分析は、これで十分でしょうか？

**いいえ。そんなことはありません。**

一度ハイパーパラメータ最適化を行うと、以下のような疑問が溢れてくることでしょう。
- トライアル数を決め打って最適化を行ったが、本当にこんなにたくさんのトライアルを実行する必要はあったのだろうか？
実はもっと早い段階で収束していたのではないだろうか？
逆にトライアル数は不十分だったりしないだろうか？

- 自分の目的関数において、最も適切なsamplerとprunerの組み合わせは何なのだろうか？
今使ったsamplerとprunerが本当に最適なのだろうか？

- 最適化の際に指定したハイパーパラメータの範囲は適切だろうか？
また、最終的に得たハイパーパラメータはどの程度信頼できるのだろうか？

- 最適化したハイパーパラメータの中で、目的関数に最もよく効いているパラメータは何なのだろうか？
逆に、効いていないパラメータは最適化せずとも良かったのではないだろうか？

Optunaは豊富な可視化機能を提供しており、ユーザはこれらの機能を利用して、
Optunaとインタラクティブに協同して、ハイパーパラメータ最適化のプロセスを改善していくことができます。
以下では、Optunaが提供する可視化機能の一部を紹介して、具体的な改善の手法について説明します。

このセクションでは以下のような目的関数を用いて、説明を行います。

In [8]:
class Objective(object):
    def __init__(self, wine):
        self.wine = wine

    def __call__(self, trial):
        x, y = self.wine.data, self.wine.target

        max_depth = trial.suggest_int("max_depth", 2, 128, log=True)
        n_estimators = trial.suggest_int("n_estimators", 1, 20)
        criterion = trial.suggest_categorical("criterion", ("gini", "entropy"))

        classifier_obj = sklearn.ensemble.RandomForestClassifier(
            max_depth=max_depth, n_estimators=n_estimators, criterion=criterion
        )

        score = sklearn.model_selection.cross_val_score(classifier_obj, x, y, n_jobs=-1, cv=3)
        accuracy = score.mean()
        return accuracy

In [None]:
# 各トライアルの実行でデータセットを再利用するために、事前にデータセットを読み込んでおく。
wine = sklearn.datasets.load_wine()
objective = Objective(wine)

sampler = optuna.samplers.TPESampler()
study = optuna.create_study(sampler=sampler, direction="maximize")
study.optimize(objective, timeout=300)

In [10]:
print("最良の目的間数値は: ", study.best_value)
print("最良のハイパーパラメータの組は: ", study.best_params)

最良の目的間数値は:  0.9720338983050847
最良のハイパーパラメータの組は:  {'max_depth': 7, 'n_estimators': 15, 'criterion': 'gini'}


まずは、`optuna.visualization.plot_optimization_history` 関数を紹介します。
この関数の利用法はとてもシンプルで、最適化した`study`を関数に渡すだけです。
この関数は、与えられたstudyで行われた最適化の様子を、横軸をトライアル数、縦軸を目的関数値として表示します。
表示されるのは枝刈りされずに最後まで完了したトライアルだけです。

In [11]:
optuna.visualization.plot_optimization_history(study)

出力された図を見ると、初めの200トライアル程度で目的関数の最適値は収束し、その後数千トライアルに渡って目的関数の値は改善されていないことがわかります。
したがって、今回の目的関数に対してはこんなにたくさんのトライアルを実行する必要は全くなかったということになります。

それでは、以降はリソース量（時間）を10秒に減らすことにします。
また、今回の目的関数にどのsamplerが適しているのか調べるために、複数のsamplerに対して`study`を作り最適化を行ってみましょう。

In [None]:
study_random = optuna.create_study(sampler=optuna.samplers.RandomSampler(), direction="maximize")
study_tpe = optuna.create_study(sampler=optuna.samplers.TPESampler(), direction="maximize")

study_random.optimize(objective, timeout=10)
study_tpe.optimize(objective, timeout=10)

それぞれの`study`の最適化結果を図示してみます。

In [13]:
fig1 = optuna.visualization.plot_optimization_history(study_random)
fig2 = optuna.visualization.plot_optimization_history(study_tpe)

fig1['data'][0]['name'] = 'Objective Value (Random)'
fig1['data'][1]['name'] = 'Best Value (Random)'
fig2['data'][0]['name'] = 'Objective Value (TPE)'
fig2['data'][1]['name'] = 'Best Value (TPE)'
fig = plotly.graph_objs.Figure(
    data=fig1['data'] + fig2['data'],
    layout=fig1['layout']
)
fig.show()

<img src="files/opt_hist2.png"/>

出力された図を見ると、TPE samplerの方が高速に最適な目的関数値を達成していることがわかります。
したがって、この目的関数に対しては`RandomSampler`よりも`TPESampler`の方が適していると判断できます。

以上のように`plot_optimization_history`関数を用いることで、最適化をもう一度行うときにトライアル数を削減したり、目的関数に対して適切なsamplerやprunerを選択することができます。

次に、`optuna.visualization.plot_contour`関数を紹介します。
この関数も、引数に`study`を与えるだけで動作します。
この関数は、全てのハイパーパラメータに対して、それらの任意の2個を縦軸横軸として目的関数値の等高線を表示します。（等高線を表示するハイパーパラメータの組を制限することもできます。詳細は[ドキュメント](https://optuna.readthedocs.io/en/stable/reference/visualization/generated/optuna.visualization.plot_contour.html#)を参照してください。）

In [14]:
optuna.visualization.plot_contour(study)

<img src="files/contour.png"/>

出力された等高線を見ると、max_depthは値の大きな部分からはほとんど選択されていないことがわかります。
したがって、この場合は最適化するハイパーパラメータの範囲をもっと狭めることで、より丁寧な最適化が行えると期待されます。
それでは、範囲を狭めて同様に最適化してみましょう。

In [15]:
class Objective(object):
    def __init__(self, wine):
        self.wine = wine

    def __call__(self, trial):
        x, y = self.wine.data, self.wine.target

        max_depth = trial.suggest_int("max_depth", 2, 32, log=True) # [2, 128] -> [2, 32]に狭めた
        n_estimators = trial.suggest_int("n_estimators", 1, 20)
        criterion = trial.suggest_categorical("criterion", ("gini", "entropy"))

        classifier_obj = sklearn.ensemble.RandomForestClassifier(
            max_depth=max_depth, n_estimators=n_estimators, criterion=criterion
        )

        score = sklearn.model_selection.cross_val_score(classifier_obj, x, y, n_jobs=-1, cv=3)
        accuracy = score.mean()
        return accuracy

In [None]:
wine = sklearn.datasets.load_wine()
objective = Objective(wine)

study_new = optuna.create_study(direction="maximize")
study_new.optimize(objective, timeout=10)
print(study_new.best_trial)

In [17]:
optuna.visualization.plot_contour(study_new)

<img src="files/contour2.png"/>

In [18]:
print("study_newの最良の精度は: ", study_new.best_value)

study_newの最良の精度は:  0.9719397363465161


以上のように`plot_contour`関数を用いることで、ハイパーパラメータの最適化範囲を狭めて、ほとんど精度の変わらないハイパーパラメータを得ることができました。

最後に、`optuna.visualization.plot_param_importances`関数を紹介します。
この関数も最適化結果のstudyを渡すだけで利用することができます。
この関数は、最適化したハイパーパラメータに対して、目的関数の値に与えた影響の度合い（重要度）を計算して出力します。

上で計算した`study_new`をもとに、パラメータの重要度を計算してみましょう。

In [19]:
optuna.visualization.plot_param_importances(study_new)

<img src="files/importance.png"/>

今回の目的関数に対しては、n_estimatorsが圧倒的に重要であることがわかります。
この知見を利用して、max_depthとcriterionを固定し、n_estimatorsに対してだけ最適化を行ってみましょう。

In [28]:
study_new.best_params

{'criterion': 'gini', 'max_depth': 7, 'n_estimators': 15}

In [29]:
class Objective(object):
    def __init__(self, wine):
        self.wine = wine

    def __call__(self, trial):
        x, y = self.wine.data, self.wine.target

        max_depth = study_new.best_params["max_depth"]
        n_estimators = trial.suggest_int("n_estimators", 1, 20)
        criterion = study_new.best_params["criterion"]

        classifier_obj = sklearn.ensemble.RandomForestClassifier(
            max_depth=max_depth, n_estimators=n_estimators, criterion=criterion
        )

        score = sklearn.model_selection.cross_val_score(classifier_obj, x, y, n_jobs=-1, cv=3)
        accuracy = score.mean()
        return accuracy

In [None]:
wine = sklearn.datasets.load_wine()
objective = Objective(wine)

study = optuna.create_study(direction="maximize")
study.optimize(objective, timeout=10)

In [31]:
print("studyの最良の精度は: ", study.best_value)

studyの最良の精度は:  0.9774952919020716


以上のように`plot_param_importances`を用いることで、探索すべきハイパーパラメータを絞り、より精度の高いハイパーパラメータを得ることができました。

## おわりに

以上でOptunaの発展的な使い方に関するハンズオンは終わりです。
- Efficient optimization algorithms
- Easy parallelization
- Quick visualization

今回紹介したように、Optunaでは容易に最適化を並列化して多くの最先端アルゴリズムや可視化機能を用いることができます。
今回は紹介できなかった優れたアルゴリズムや便利な可視化機能がまだまだ沢山あるので、ぜひ[ドキュメント](https://optuna.readthedocs.io/en/stable/index.html)を読んでみてくださいね。
Optunaが気に入った方は、ぜひ[GitHubページ](https://github.com/optuna/optuna)でスターを押してください！

それでは、よいハイパラ最適化ライフを！