In [None]:
import pandas as pd

pd.set_option("display.max_columns", None)

# [Functions](https://pycaret.gitbook.io/docs/get-started/functions)

## [Optimize（最適化）](https://pycaret.gitbook.io/docs/get-started/functions/optimize)

Optimization functions in PyCaret

PyCaretの最適化関数

### tune_model（チューンモデル）

This function tunes the hyperparameters of the model. The output of this function is a scoring grid with cross-validated scores by fold. The best model is selected based on the metric defined in `optimize` parameter. Metrics evaluated during cross-validation can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は、モデルのハイパーパラメータを調整します。この関数の出力は、フォールドごとに交差検証されたスコアを持つスコアリンググリッドです。最適なモデルは、 `optimize` パラメータで定義された指標に基づいて選択されます。交差検証中に評価されたメトリクスは `get_metrics` 関数を用いてアクセスすることができます。カスタムメトリクスは `add_metric` と `remove_metric` 関数で追加・削除することができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(data=boston, target='medv')

# train model
dt = create_model('dt')

# tune model
tuned_dt = tune_model(dt)

![tune_model_default](./images/tune_model_default.png)

To compare the hyperparameters.

ハイパーパラメータを比較する。

In [None]:
# default model
print(dt)

# tuned model
print(tuned_dt)

![tune_model_default](./images/tune_model_default2.png)

#### Increasing the iteration（繰り返し回数を増やす）

Hyperparameter tuning at the end of the day is an optimization that is constrained by the number of iterations, which eventually depends on how much time and resources you have available. The number of iterations is defined by `n_iter`. By default, it is set to `10`.

ハイパーパラメータのチューニングは結局のところ、反復回数に制約される最適化であり、最終的には利用可能な時間とリソースに依存することになります。反復回数は `n_iter` で定義されます。デフォルトでは、`10`に設定されています。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(data=boston, target='medv')

# train model
dt = create_model('dt')

# tune model
tuned_dt = tune_model(dt, n_iter=50)

![tune_model_n_iter](./images/tune_model_n_iter.png)

##### Comparison of 10 and 50 iterations

|`n_iter=10`|`n_iter=50`|
|:-:|:-:|
|![n_iter=10](./images/tune_model_n_iter_10.png)|![n_iter=50](./images/tune_model_n_iter_50.png)|

#### Choosing the metric（メトリクスの選択）

When you are tuning the hyperparameters of the model, you must know which metric to optimize for. That can be defined under `optimize` parameter. By default, it is set to `Accuracy` for classification experiments and `R2` for regression.

モデルのハイパーパラメータをチューニングする場合、どの指標に対して最適化するか知っておく必要があります。これは `optimize` パラメータで定義することができます。デフォルトでは、分類実験では `Accuracy` に、回帰実験では `R2` に設定されています。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(data=boston, target='medv')

# train model
dt = create_model('dt')

# tune model
tuned_dt = tune_model(dt, optimize='MAE')

![tune_model_optimize](./images/tune_model_optimize.png)

#### Passing custom grid（カスタムグリッドの渡し方）

The tuning grid for hyperparameters is already defined by PyCaret for all the models in the library. However, if you wish you can define your own search space by passing a custom grid using `custom_grid` parameter.

ハイパーパラメータのチューニンググリッドは、ライブラリ内のすべてのモデルに対して PyCaret によって既に定義されています。しかし、もしあなたが望むなら、 `custom_grid` パラメータを使用してカスタムグリッドを渡すことで、独自の探索空間を定義することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# define search space
params = {
    "max_depth": np.random.randint(1, (len(boston.columns) * 0.85), 20),
    "max_features": np.random.randint(1, len(boston.columns), 20),
    "min_samples_leaf": [2, 3, 4, 5, 6]
}

# tune model
tuned_dt = tune_model(dt, custom_grid=params)

![tune_model_custom_gride](./images/tune_model_custom_grid.png)

#### Changing the search algorithm（検索アルゴリズムの変更）

PyCaret integrates seamlessly with many different libraries for hyperparameter tuning. This gives you access to many different types of search algorithms including random, bayesian, optuna, TPE, and a few others. All of this just by changing a parameter. By default, PyCaret using `RandomGridSearch` from the sklearn and you can change that by using `search_library` and `search_algorithm` parameter in the `tune_model` function.

PyCaret はハイパーパラメータチューニングのための多くの異なるライブラリとシームレスに統合されています。これにより、ランダム、ベイジアン、オプトナ、TPE、その他いくつかのアルゴリズムを含む多くの異なるタイプの検索アルゴリズムにアクセスすることができます。これらはすべて、パラメータを変更するだけで実現できます。デフォルトでは、PyCaret は sklearn の `RandomGridSearch` を使用しますが、 `tune_model` 関数の `search_library` と `search_algorithm` パラメータで変更することが可能です。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# tune model sklearn
tune_model(dt)

# tune model optuna
tune_model(dt, search_library='optuna')

# tune model scikit-optimize
tune_model(dt, search_library='scikit-optimize')

# tune model tune-sklearn
tune_model(dt, search_library ='tune-sklearn', search_algorithm='hyperopt')

|||
|:-:|:-:|
|scikit-learn|optuna|
|![tune_mole_search_algo_scikit_learn](./images/tune_model_search_algo_scikit_learn.png)|![tune_mole_search_algo_optuna](./images/tune_model_search_algo_optuna.png)|
|scikit-optimize|tune-sklearn|
|![tune_mole_search_algo_scikit_optimize](./images/tune_model_search_algo_scikit_optimize.png)|![tune_mole_search_tune_sklearn](./images/tune_model_search_algo_tune_sklearn.png)|

#### Access the tuner（チューナーにアクセスする）

By default PyCaret's `tune_model` function only returns the best model as selected by the tuner. Sometimes you may need access to the tuner object as it may contain important attributes, you can use `return_tuner` parameter.

PyCaret の `tune_model` 関数は、デフォルトではチューナーによって選択されたベストモデルのみを返します。時には、重要な属性を含むチューナーオブジェクトにアクセスする必要がある場合があるので、 `return_tuner` パラメータを使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# tune model and return tuner
tuned_model, tuner = tune_model(dt, return_tuner=True)

![tune_model_return_tuner](./images/tune_model_return_tuner.png)

In [None]:
type(tuned_model), type(tuner)

![tune_model_return_tuner2](./images/tune_model_return_tuner2.png)

In [None]:
print(tuner)

![tune_model_return_tuner2](./images/tune_model_return_tuner3.png)

#### Automatically choose better（よりよいものを自動的に選択する）

Often times the `tune_model` will not improve the model performance. In fact, it may end up making performance worst than the model with default hyperparameters. This may be problematic when you are not actively experimenting in the Notebook rather you have a python script that runs a workflow of `create_model` --> `tune_model` or `compare_models` --> `tune_model`. To overcome this issue, you can use `choose_better`. When set to `True` it will always return a better performing model meaning that if hyperparameter tuning doesn't improve the performance, it will return the input model.

多くの場合、`tune_model`はモデルのパフォーマンスを向上させません。実際、デフォルトのハイパーパラメータを用いたモデルよりも性能が悪くなってしまうかもしれません。これは、ノートブックで積極的に実験をするのではなく、 `create_model` --> `tune_model` や `compare_models` --> `tune_model` というワークフローを実行する python スクリプトを持っている場合に問題になるかもしれません。この問題を解決するために、`choose_better` を使用することができます。True` に設定すると、常にパフォーマンスの良いモデルを返します。つまり、ハイパーパラメータのチューニングでパフォーマンスが向上しない場合は、入力モデルを返します。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# tune model
dt = tune_model(dt, choose_better=True)

![tune_model_choose_better](./images/tune_model_choose_better.png)

> NOTE: choose_better doesn't affect the scoring grid that is displayed on the screen. The scoring grid will always present the performance of the best model as selected by the tuner, regardless of the fact that output performance < input performance.
>
> 注： choose_better は画面に表示される採点グリッドに影響を与えません。スコアリング・グリッドは、出力性能 < 入力性能であっても、チューナーによって選択された最良のモデルの性能を常に提示します。

### ensemble_model（アンサンブルモデル）

This function ensembles a given estimator. The output of this function is a scoring grid with CV scores by fold. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は，与えられた推定量をアンサンブルします。この関数の出力は，畳み込みによるCVスコアを含むスコアリンググリッドです。CV中に評価されたメトリクスは、 `get_metrics` 関数を用いてアクセスすることができます。また、 `add_metric` および `remove_metric` 関数を用いて、カスタムメトリックを追加したり削除したりすることができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# ensemble model
bagged_dt = ensemble_model(dt)

![ensemble_model](./images/ensemble_model.png)

In [None]:
type(bagged_dt)
# >>> sklearn.ensemble._bagging.BaggingRegressor

print(bagged_dt)

![ensemble_model](./images/ensemble_model2.png)

#### Changing the fold param（折りたたみパラメーターの変更）

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# ensemble model
bagged_dt = ensemble_model(dt, fold=5)

![ensemble_model_fold](./images/ensemble_model_fold.png)

The model returned by this is the same as above, however, the performance evaluation is done using 5 fold cross-validation.

これによって返されるモデルは上記と同じですが、パフォーマンス評価は 5 分割交差検証を使用して行われます。

#### Method: Bagging（方法: 袋詰め）

Bagging, also known as Bootstrap aggregating, is a machine learning ensemble meta-algorithm designed to improve the stability and accuracy of machine learning algorithms used in statistical classification and regression. It also reduces variance and helps to avoid overfitting. Although it is usually applied to decision tree methods, it can be used with any type of method. Bagging is a special case of the model averaging approach.

BaggingはBootstrap aggregatingとも呼ばれ、統計的分類や回帰に用いられる機械学習アルゴリズムの安定性と精度を向上させるために設計された機械学習アンサンブルのメタアルゴリズムです。また、分散を減らし、オーバーフィッティングを回避するのに 役立ちます。通常、決定木法に適用されるが、どのようなタイプの手法にも使用できます。バギングはモデル平均化手法の特殊なケースです。

![ensemble_model_bagging](./images/ensemble_model_bagging.png)

#### Method: Boosting（方法: ブースティング）

Boosting is an ensemble meta-algorithm for primarily reducing bias and variance in supervised learning. Boosting is in the family of machine learning algorithms that convert weak learners to strong ones. A weak learner is defined to be a classifier that is only slightly correlated with the true classification (it can label examples better than random guessing). In contrast, a strong learner is a classifier that is arbitrarily well-correlated with the true classification.

ブースティングは、教師あり学習における偏りや分散を減らすためのアンサンブル・メタ・アルゴリズムです。ブースティングは弱い学習器を強い学習器に変換する機械学習アルゴリズムの一種です。弱い学習器とは、真の分類とわずかな相関しか持たない分類器（ランダムな推測よりもうまく例をラベル付けできる）と定義される。これに対して，強い学習器とは，真の分類と任意によく相関する分類器を指します。

![ensemble_model_boosting](./images/ensemble_model_boosting.png)

#### Choosing the method（メソッドの選択）

There are two possible ways you can ensemble your machine learning model with `ensemble_model`. You can define this in the `method` parameter.

`ensemble_model` を用いて機械学習モデルをアンサンブルする方法には、2つの可能性があります。これは `method` パラメータで定義することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# ensemble model
boosted_dt = ensemble_model(dt, method='Boosting')

![ensemble_model_boosting](./images/ensemble_model_boosting2.png)

In [None]:
type(boosted_dt)
# >>> sklearn.ensemble._weight_boosting.AdaBoostRegressor

print(boosted_dt)

![ensemble_model_boosting](./images/ensemble_model_boosting3.png)

#### Increasing the estimators（推定量を増やす）

By default, PyCaret uses 10 estimators for both `Bagging` or `Boosting`. You can increase that by changing `n_estimators` parameter.

デフォルトでは、PyCaret は `Bagging` と `Boosting` の両方で 10 個の推定量を使用します。n_estimators` パラメータを変更することで、この値を増やすことができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
dt = create_model('dt')

# ensemble model
ensemble_model(dt, n_estimators=100)

![ensemble_model_n_estimators](./images/ensemble_model_n_estimators.png)

#### Automatically choose better（より良いものを自動的に選択）

Often times the `ensemble_model` will not improve the model performance. In fact, it may end up making performance worst than the model with ensembling. This may be problematic when you are not actively experimenting in the Notebook rather you have a python script that runs a workflow of `create_model` --> `ensemble_model` or `compare_models` --> `ensemble_model`. To overcome this issue, you can use `choose_better`. When set to `True` it will always return a better performing model meaning that if hyperparameter tuning doesn't improve the performance, it will return the input model.

多くの場合、`ensemble_model`はモデルの性能を向上させることはありません。実際、アンサンブルを行ったモデルよりも性能が悪くなってしまうかもしれません。これは、ノートブックで積極的に実験をするのではなく、 `create_model` --> `ensemble_model` や `compare_models` --> `ensemble_model` というワークフローを実行する Python スクリプトを持っている場合に問題になるかもしれません。この問題を解決するために、`choose_better` を使用することができます。True` に設定すると、常にパフォーマンスの良いモデルを返します。つまり、ハイパーパラメータのチューニングでパフォーマンスが向上しない場合は、入力モデルを返します。

In [None]:
# load dataset
from pycaret.datasets import get_data
boston = get_data('boston')

# init setup
from pycaret.regression import *
reg1 = setup(boston, target='medv')

# train model
lr = create_model('lr')

# ensemble model
ensemble_model(lr, choose_better=True)

![ensemble_model_choose_better](./images/ensemble_model_choose_better.png)

Notice that with `choose_better = True` the model returned from the `ensemble_model` is a simple `LinearRegression` instead of `BaggedRegressor`. This is because the performance of the model didn't improve after ensembling and hence input model is returned.

`choose_better = True` の場合、 `ensemble_model` から返されるモデルは `BaggedRegressor` ではなく、単純な `LinearRegression` であることに注意してください。これは、アンサンブルの結果、モデルの性能が向上しなかったため、入力モデルが返されたためです。

### blend_models（ブレンドモデル）

This function trains a Soft Voting / Majority Rule classifier for select models passed in the `estimator_list` parameter. The output of this function is a scoring grid with CV scores by fold. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は， `estimator_list` パラメータで渡された選択モデルに対して，ソフト投票/多数決分類器を学習します。この関数の出力は、フォールドごとのCVスコアを含むスコアリンググリッドです。CV中に評価されたメトリクスは `get_metrics` 関数を用いてアクセスすることができます。カスタムメトリクスは `add_metric` および `remove_metric` 関数で追加・削除することができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender = blend_models([lr, dt, knn])

![ensemble_model_blend_model](./images/blend_model.png)

In [None]:
type(blender)
# >>> sklearn.ensemble._voting.VotingClassifier

print(blender)

![ensemble_model_blend_model](./images/blend_model2.png)

#### Changing the fold param（折りたたみパラメーターの変更）

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender = blend_models([lr, dt, knn], fold=5)

![ensemble_model_blend_model](./images/blend_model_fold.png)

The model returned by this is the same as above, however, the performance evaluation is done using 5 fold cross-validation.

これによって返されるモデルは上記と同じですが、パフォーマンス評価は 5 分割交差検証を使用して行われます。

#### Dynamic input estimators（動的入力推定量）

You can also automatically generate the list of input estimators using the [compare_models](./03_02_train.ipynb) function. The benefit of this is that you do not have the change your script at all. Every time the top N models are used as an input list.

また，[compare_models](./03_02_train.ipynb) 関数を用いて入力推定量のリストを自動生成することも可能です。この方法の利点は、スクリプトを全く変更する必要がないことです。毎回，上位N個のモデルが入力リストとして使用されます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# blend models
blender = blend_models(compare_models(n_select=3))

![blend_model_dynamic_input_estimators](./images/blend_model_dynamic_input_estimators.png)

Notice here what happens. We passed `compare_models(n_select = 3)` as an input to `blend_models`. What happened internally is that the `compare_models` function got executed first and the top 3 models are then passed as an input to the `blend_models` function.

ここで、何が起こっているかに注目してください。`compare_models(n_select = 3)`を `blend_models` への入力として渡しました。内部的には、まず `compare_models` 関数が実行され、上位 3 つのモデルが `blend_models` 関数の入力として渡されます。

In [None]:
print(blender)

![blend_model_dynamic_input_estimators](./images/blend_model_dynamic_input_estimators2.png)

In this example, the top 3 models as evaluated by the `compare_models` are `LogisticRegression`, `LinearDiscriminantAnalysis`, and `RandomForestClassifier`.

この例では、 `compare_models` によって評価された上位3つのモデルは、 `LogisticRegression`, `LinearDiscriminantAnalysis`, と `RandomForestClassifier` です。

#### Changing the method（メソッドの変更）

When `method = 'soft'`, it predicts the class label based on the argmax of the sums of the predicted probabilities, which is recommended for an ensemble of well-calibrated classifiers.

`method = 'soft'` の場合、予測確率の総和のargmaxに基づいてクラスラベルを予測します。これは、よく調整された分類器のアンサンブルに推奨される方法です。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender_soft = blend_models([lr,dt,knn], method='soft')

![blend_model_method](./images/blend_model_method.png)

When the `method = 'hard'` , it uses the predictions (hard labels) from input models instead of probabilities.

`method = 'hard'` の場合、確率の代わりに入力モデルからの予測値（ハードラベル）を使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender_hard = blend_models([lr,dt,knn], method='hard')

![blend_model_method](./images/blend_model_method2.png)

The default method is set to auto which means it will try to use `soft` method and fall back to `hard` if the former is not supported, this may happen when one of your input models does not support `predict_proba` attribute.

デフォルトのメソッドは auto に設定されており、`soft` メソッドを使おうとし、前者がサポートされていない場合は `hard` にフォールバックします。これは、入力モデルのいずれかが `predict_proba` 属性をサポートしていない場合に発生する可能性があります。

> NOTE: Method parameter is only available in [Classification](https://pycaret.gitbook.io/docs/get-started/modules) module.
>
> 注：Method パラメータは、[Classification](https://pycaret.gitbook.io/docs/get-started/modules) モジュールでのみ使用できます。

#### Changing the weights（ウェイトの変更）

By default, all the input models are given equal weight when blending them but you can explicitly pass the weights to be given to each input model.

デフォルトでは、すべての入力モデルに同じ重みが与えられてブレンドされるが、各入力モデルに与える重みを明示的に渡すことができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender_weighted = blend_models([lr,dt,knn], weights=[0.5, 0.2, 0.3])

![blend_model_weights](./images/blend_model_weights.png)

You can also tune the weights of the blender using the `tune_model`.

また、`tune_model` を使ってブレンダーの重みを調整することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blender_weighted = blend_models([lr, dt, knn], weights=[0.5, 0.2, 0.3])

# tune blender
tuned_blender = tune_model(blender_weighted)

![blend_model_weights](./images/blend_model_weights2.png)

In [None]:
print(tuned_blender)

![blend_model_weights](./images/blend_model_weights3.png)

#### Automatically choose better（より良いものを自動的に選択）

Often times the `blend_models` will not improve the model performance. In fact, it may end up making performance worst than the model with blending. This may be problematic when you are not actively experimenting in the Notebook rather you have a python script that runs a workflow of `compare_models` --> `blend_models`. To overcome this issue, you can use `choose_better`. When set to `True` it will always return a better performing model meaning that if blending the models doesn't improve the performance, it will return the single best performing input model.

多くの場合、`blend_models`はモデルのパフォーマンスを向上させることはありません。実際、ブレンドしたモデルよりもパフォーマンスが悪くなってしまうかもしれません。これは、ノートブックで積極的に実験しているのではなく、Pythonスクリプトで `compare_models` --> `blend_models` のワークフローを実行している場合に問題となる可能性があります。この問題を解決するために、 `choose_better` を使用することができます。`True` に設定すると、常にパフォーマンスの良いモデルを返します。つまり、モデルをブレンドしてもパフォーマンスが向上しない場合は、最もパフォーマンスの良い単一の入力モデルを返します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# blend models
blend_models([lr, dt, knn], choose_better=True)

![blend_model_choose_better](./images/blend_model_choose_better.png)

Notice that because `choose_better=True` the final model returned by this function is `LogisticRegression` instead of `VotingClassifier` because the performance of Logistic Regression was most optimized out of all the given input models plus the blender.

`choose_better=True` であるため、この関数が返す最終モデルは `VotingClassifier` ではなく `LogisticRegression` であることに注意してください。なぜなら、ロジスティック回帰のパフォーマンスが、与えられたすべての入力モデルとブレンダーの中で最も最適化されていたからです。

### stack_models（スタックモデル）

This function trains a meta-model over select estimators passed in the `estimator_list` parameter. The output of this function is a scoring grid with CV scores by fold. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は、 `estimator_list` パラメータで渡された推定量に対してメタモデルの学習を行います。この関数の出力は、フォールド毎の CV スコアを持つスコアリンググリッドです。CV中に評価されるメトリクスは `get_metrics` 関数で取得することができます。また， `add_metric` および `remove_metric` 関数を用いて、カスタムメトリクスの追加や削除を行うことができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# stack models
stacker = stack_models([lr, dt, knn])

![stack_model](./images/stack_model.png)

#### Changing the fold param（折りたたみパラメーターの変更）

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# stack models
stacker = stack_models([lr, dt, knn], fold=5)

![stack_model](./images/stack_model_fold.png)

The model returned by this is the same as above, however, the performance evaluation is done using 5 fold cross-validation.

これによって返されるモデルは上記と同じですが、パフォーマンス評価は 5 分割交差検証を使用して行われます。

#### Dynamic input estimators（動的入力推定量）

You can also automatically generate the list of input estimators using the [compare_models](./03_02_train.ipynb) function. The benefit of this is that you do not have the change your script at all. Every time the top N models are used as an input list.

また，[compare_models](./03_02_train.ipynb)  関数を用いて入力推定量のリストを自動生成することも可能です。この方法の利点は、スクリプトを全く変更する必要がないことです。毎回、上位N個のモデルが入力リストとして使用されます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# stack models
stacker = stack_models(compare_models(n_select=3))

![stack_model](./images/stack_model_n_select.png)

Notice here what happens. We passed `compare_models(n_select = 3)` as an input to `stack_models`. What happened internally is that the `compare_models` function got executed first and the top 3 models are then passed as an input to the `stack_models` function.

ここで、何が起こっているかに注目してください。`compare_models(n_select = 3)`を `stack_models` への入力として渡しました。内部的には、まず `compare_models` 関数が実行され、上位 3 つのモデルが `stack_models` 関数への入力として渡されます。

In [None]:
print(stacker)

![stack_model](./images/stack_model_n_select2.png)

In this example, the top 3 models as evaluated by the `compare_models` are `LogisticRegression`, `RandomForestClassifier`, and `LGBMClassifier`.

この例では、 `compare_models` によって評価された上位3つのモデルは、 `LogisticRegression`, `RandomForestClassifier`, および `LGBMClassifier` であることがわかります。

#### Changing the method（メソッドの変更）

There are a few different methods you can explicitly choose for stacking or pass `auto` to be automatically determined. When set to `auto`, it will invoke, for each model, `predict_proba`, `decision_function` or `predict` function in that order. Alternatively, you can define the method explicitly.

スタッキングにはいくつかの方法があり、明示的に選択するか、`auto`を渡して自動的に決定させることができます。`auto` を指定すると、各モデルに対して、 `predict_proba`, `decision_function`, `predict` の順で関数が呼び出されます。また、明示的にメソッドを定義することも可能です。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# stack models
stacker = stack_models([lr, dt, knn], method='predict')

![stack_model](./images/stack_model_method.png)

#### Changing the meta-model（メタモデルの変更）

When no `meta_model` is passed explicitly, `LogisticRegression` is used for Classification experiments and `LinearRegression` is used for Regression experiments. You can also pass a specific model to be used as a meta-model.

明示的に `meta_model` を渡さない場合、分類の実験には `LogisticRegression` が、回帰の実験には `LinearRegression` が利用されます。また、メタモデルとして使用するモデルを指定することも可能です。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# train meta-model
lightgbm = create_model('lightgbm')

# stack models
stacker = stack_models([lr, dt, knn], meta_model=lightgbm)

![stack_model](./images/stack_model_meta_model.png)

In [None]:
print(stacker.final_estimator_)

![stack_model](./images/stack_model_meta_model2.png)

#### Restacking（再スタッキング）

There are two ways you can stack models. (i) only the predictions of input models will be used as training data for meta-model, (ii) predictions as well as the original training data is used for training meta-model.

モデルを積み重ねるには2つの方法があります。(i) 入力モデルの予測値のみをメタモデルの学習データとして使用する方法、(ii) 予測値だけでなく元の学習データもメタモデルの学習データとして使用する方法です。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a few models
lr = create_model('lr')
dt = create_model('dt')
knn = create_model('knn')

# stack models
stacker = stack_models([lr, dt, knn], restack=False)

![stack_model](./images/stack_model_restack.png)

### optimize_threshold（最適化閾値）

This function optimizes the probability threshold for a trained model. It iterates over performance metrics at different `probability_threshold` with a step size defined in `grid_interval` parameter. This function will display a plot of the performance metrics at each probability threshold and returns the best model based on the metric defined under `optimize` parameter.

この関数は、学習済みモデルの確率閾値を最適化します。この関数は、`grid_interval`パラメータで定義されたステップサイズで、異なる `probability_threshold` でパフォーマンスメトリクスを繰り返し処理します。この関数は、各確率閾値におけるパフォーマンスメトリクスのプロットを表示し、 `optimize` パラメータで定義されたメトリックに基づいて最適なモデルを返します。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a model
knn = create_model('knn')

# optimize threshold
optimized_knn = optimize_threshold(knn)

![stack_model](./images/stack_model_optimize_threshold.png)

In [None]:
print(optimized_knn)

![stack_model](./images/stack_model_optimize_threshold2.png)

### calibrate_model（キャリブレート・モデル）

This function calibrates the probability of a given model using isotonic or logistic regression. The output of this function is a scoring grid with CV scores by fold. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は、等張回帰またはロジスティック回帰を用いて、与えられたモデルの確率をキャリブレーションします。この関数の出力は、フォールドごとのCVスコアを持つスコアリンググリッドです。CV中に評価されるメトリクスは、 `get_metrics` 関数を用いてアクセスすることができます。カスタムメトリクスは `add_metric` および `remove_metric` 関数を用いて追加・削除することができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train a model
dt = create_model('dt')

# calibrate model
calibrated_dt = calibrate_model(dt)

![stack_model](./images/stack_model_calibrate_model.png)

In [None]:
print(calibrated_dt)

![stack_model](./images/stack_model_calibrate_model2.png)

#### Before and after calibration（キャリブレーション前と後）

|||
|:-:|:-:|
|Before Calibration|After Calibration|
|![before calibration](./images/stack_model_before_calibration.png)|![after calibration](./images/stack_model_after_calibration.png)|