In [None]:
import pandas as pd

pd.set_option("display.max_columns", None)

# [Functions](https://pycaret.gitbook.io/docs/get-started/functions)

## [Train（訓練）](https://pycaret.gitbook.io/docs/get-started/functions/train)

Training functions in PyCaret

PyCaretのトレーニング関数

### compare_models（モデルの比較）

This function trains and evaluates the performance of all estimators available in the model library using cross-validation. The output of this function is a scoring grid with average cross-validated scores. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は，モデルライブラリで利用可能なすべての推定量を交差検証により訓練し、その性能を評価します。この関数の出力は、交差検証された平均スコアを含むスコアリンググリッドです。CV中に評価されたメトリクスは `get_metrics` 関数を用いてアクセスすることができます。カスタムメトリクスの追加や削除は `add_metric` および `remove_metric` 関数で行うことができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models()

![compare_models_default](./images/compare_models_default.png)

The `compare_models` returns only the top-performing model based on the criteria defined in `sort` parameter. It is `Accuracy` for classification experiments and `R2` for regression. You can change the `sort` order by passing the name of the metric based on which you want to do model selection.

`compare_models` は `sort` パラメータで定義された基準に基づいて、最もパフォーマンスの高いモデルのみを返します。分類の実験では `Accuracy` 、回帰の実験では `R2` となる。モデル選択を行いたい基準の名前を渡すことで、`sort` の順番を変更することができます。

#### Change the sort order（ソート順を変更する）

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(sort='F1')

![compare_models_sort](./images/compare_models_sort.png)

> Notice that the sort order of scoring grid is changed now and also the best model returned by this function is selected based on `F1`.
>
> スコアリンググリッドのソート順が変更され、この関数が返すベストモデルが `F1` に基づいて選択されていることに注意してください。

In [None]:
print(best)

![compare_models_sort2](./images/compare_models_sort2.png)

#### Compare only a few models（一部のモデルのみを比較する）

If you don't want to do horse racing on the entire model library, you can only compare a few models of your choice by using the `include` parameter.

モデルライブラリ全体で競馬をしたくない場合は、`include`パラメータを使うことで、好きなモデル数種類だけを比較することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(include=['lr', 'dt', 'lightgbm'])

![compare_models_include](./images/compare_models_include.png)

Alternatively, you can also use `exclude` parameter. This will compare all models except for the ones that are passed in the `exclude` parameter.

また、`exclude` パラメータを使用することもできます。これは `exclude` パラメータで渡されたモデル以外のすべてのモデルを比較します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(exclude=['lr', 'dt', 'lightgbm'])

![compare_models_include](./images/compare_models_exclude.png)

#### Return more than one model（複数のモデルを返す）

By default, `compare_models` only return the top-performing model but if you want you can get the Top N models instead of just one model.

デフォルトでは `compare_models` はトップパフォーマンスのモデルのみを返しますが、必要であれば、1つのモデルだけでなくトップNのモデルを取得することもできます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(n_select=3)

![compare_models_n_select](./images/compare_models_n_select.png)

> Notice that there is no change in the results, however, if you check the variable `best` , it will now contain a list of the top 3 models instead of just one model as seen previously.
>
> 結果に変化はありませんが、変数 `best` をチェックすると、以前のように1つのモデルだけでなく、上位3つのモデルのリストが格納されていることに注意してください。

In [None]:
type(best)
# >>> list

print(best)

![compare_models_best](./images/compare_models_best.png)

#### Set the budget time（予算時間の設定）

If you are running short on time and would like to set a fixed budget time for this function to run, you can do that by setting the `budget_time` parameter.

もし、時間がなくて、この関数を実行するための固定予算時間を設定したい場合は、`budget_time`パラメータを設定することによって、それを行うことができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(budget_time=0.5)

![compare_models_budget_time](./images/compare_models_budget_time.png)

#### Set the probability threshold（確率の閾値を設定する）

When performing binary classification, you can change the probability threshold or cut-off value for hard labels. By default, all classifiers use 0.5 as a default threshold.

2値分類を行う際、ハードラベルの確率の閾値またはカットオフ値を変更することができます。デフォルトでは、すべての分類器は0.5をデフォルトの閾値として使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(probability_threshold=0.25)

![compare_models_probability_threshold](./images/compare_models_probability_threshold.png)

> Notice that all metrics except for `AUC` are now different. AUC doesn't change because it's not dependent on the hard labels, everything else is dependent on the hard label which is now obtained using `probability_threshold=0.25`.
>
> AUC` 以外の全てのメトリクスが異なっていることに注意してください。AUCはハードラベルに依存しないので変わりませんが、それ以外は全て`probability_threshold=0.25`で取得したハードラベルに依存しています。

> NOTE: This parameter is only available in the [Classification](https://pycaret.gitbook.io/docs/get-started/modules) module of PyCaret.
>
> 注：このパラメータは、PyCaret の [Classification](https://pycaret.gitbook.io/docs/get-started/modules) モジュールでのみ使用できます。

#### Disable cross-validation（交差検証を無効にする）

If you don't want to evaluate models using cross-validation and rather just train them and see the metrics on the test/hold-out set you can set the `cross_validation=False`.

もし、交差検証を使用してモデルを評価せず、単にモデルをトレーニングしてテスト/ホールドアウト・セットでメトリクスを確認したい場合は、`cross_validation=False`を設定することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# compare models
best = compare_models(cross_validation=False)

![compare_models_cross_validation](./images/compare_models_cross_validation.png)

The output looks pretty similar but if you focus, the metrics are now different and that's because instead of average cross-validated scores, these are now the metrics on the test/hold-out set.

これは、交差検証された平均スコアの代わりに、テスト/ホールドアウトセットのメトリクスが出力されるからです。

> NOTE: This function is only available in [Classification](https://pycaret.gitbook.io/docs/get-started/modules) and [Regression](https://pycaret.gitbook.io/docs/get-started/modules) modules.
>
> 注：この機能は、[Classification](https://pycaret.gitbook.io/docs/get-started/modules) および [Regression](https://pycaret.gitbook.io/docs/get-started/modules) モジュールでのみ利用可能です。

#### Distributed training on a cluster（クラスタでの分散学習）

To scale on large datasets you can run `compare_models` function on a cluster in distributed mode using a parameter called `parallel`. It leverages the [Fugue](https://github.com/fugue-project/fugue/) abstraction layer to run `compare_models` on Spark or Dask clusters.

大規模なデータセットを処理するために、`parallel` というパラメータを使用して分散モードで `compare_models` 関数をクラスタ上で実行することができます。[Fugue](https://github.com/fugue-project/fugue/) の抽象化レイヤーを利用して、Spark や Dask クラスタ上で `compare_models` を実行することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data = diabetes, target = 'Class variable', n_jobs = 1)

# create pyspark session
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

# import parallel back-end
from pycaret.parallel import FugueBackend

# compare models
best = compare_models(parallel=FugueBackend(spark))

![compare_models_parallel](./images/compare_models_parallel.png)

> Note that we need to set `n_jobs = 1` in the setup for testing with local Spark because some models will already try to use all available cores, and running such models in parallel can cause deadlocks from resource contention.
>
> ローカルのSparkでテストする場合は、`n_jobs = 1`とする必要があることに注意してください。
そのようなモデルを並列に実行すると、リソースの競合によるデッドロックが発生する可能性があるからです。

For Dask, we can specify the `"dask"` inside `FugueBackend` and it will pull the available Dask client.

Dask の場合は、`FugueBackend` の内部で `"dask"` を指定すると、利用可能な Dask クライアントを引き出します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable', n_jobs=1)

# import parallel back-end
from pycaret.parallel import FugueBackend

# compare models
best = compare_models(parallel=FugueBackend("dask"))

For the complete example and other features related to distributed execution, check [this example](https://github.com/pycaret/pycaret/blob/master/examples/PyCaret%202%20Fugue%20Integration.ipynb). This example also shows how to get the leaderboard in real-time. In a distributed setting, this involves setting up an RPCClient, but Fugue simplifies that.

完全な例と分散実行に関連する他の機能については、[この例](https://github.com/pycaret/pycaret/blob/master/examples/PyCaret%202%20Fugue%20Integration.ipynb)をチェックしてください。この例では、リアルタイムでリーダーボードを取得する方法も示しています。分散環境では、これはRPCClientを設定する必要がありますが、Fugueはそれを簡素化します。

### create_model（モデル作成）

This function trains and evaluates the performance of a given estimator using cross-validation. The output of this function is a scoring grid with CV scores by fold. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function. All the available models can be accessed using the `models` function.

この関数は，交差検証法を用いて、与えられた推定値の学習と性能の評価を行います。この関数の出力は、フォールド毎の CV スコアを表すスコアリンググリッドです。CV中に評価されたメトリクスには、関数 `get_metrics` を用いてアクセスすることができます。カスタムメトリクスの追加や削除は `add_metric` および `remove_metric` 関数で行うことができます。利用可能なすべてのモデルは `models` 関数を用いてアクセスすることができます。

#### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train logistic regression
lr = create_model('lr')

![create_model_default](./images/create_model_default.png)

This function displays the performance metrics by fold and the average and standard deviation for each metric and returns the trained model. By default, it uses the `10` fold that can either be changed globally in the [setup](./03_01_initialize.ipynb) function or locally within `create_model`.

この関数は、性能指標を fold ごとに表示し、各指標の平均と標準偏差を表示し、学習済みモデルを返します。デフォルトでは `10` 個の fold が使用されるが、これは [setup](./03_01_initialize.ipynb) 関数でグローバルに変更するか、`create_model` 内でローカルに変更することが可能です。

#### Changing the fold param（折り返しパラメーターの変更）

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train logistic regression
lr = create_model('lr', fold=5)

![create_model_fold_param](./images/create_model_fold_param.png)

The model returned by this is the same as above, however, the performance evaluation is done using 5 fold cross-validation.

これによって返されるモデルは上記と同じですが、パフォーマンス評価は 5 分割交差検証を使用して行われます。

#### Model library（モデルライブラリ）

To check the list of available models in any module, you can use `models` function.

任意のモジュールで利用可能なモデルのリストを確認するには、 `models` 関数を使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# check available models
models()

![models()](./images/models.png)

#### Models with custom param（カスタムパラメータを使用したモデル）

When you just run `create_model('dt')`, it will train Decision Tree with all default hyperparameter settings. If you would like to change that, simply pass the attributes in the create_model function.

`create_model('dt')` を実行すると、デフォルトのハイパーパラメータ設定でデシジョンツリーを学習します。これを変更したい場合は、create_model 関数で属性を指定するだけです。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train decision tree
dt = create_model('dt', max_depth=5)

![create_model_custom_param](./images/create_model_custom_param.png)

In [None]:
# see models params
print(dt)

![create_model_custom_param](./images/create_model_custom_param2.png)

#### Access the scoring grid（スコアリンググリッドにアクセスする）

The performance metrics/scoring grid you see after the `create_model` is only displayed and is not returned. As such, if you want to access that grid as `pandas.DataFrame` you will have to use `pull` command after `create_model`.

`create_model` の後に表示されるパフォーマンスメトリクス/スコアリンググリッドは、表示されるだけで、返されることはありません。そのため、もしそのグリッドに `pandas.DataFrame` としてアクセスしたい場合は、 `create_model` の後に `pull` コマンドを使用しなければなりません。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train decision tree
dt = create_model('dt', max_depth=5)

# access the scoring grid
dt_results = pull()
print(dt_results)

![create_model_scoring_grid](./images/create_model_scoring_grid.png)

In [None]:
# check type
type(dt_results)
# >>> pandas.core.frame.DataFrame

# select only Mean and SD
dt_results.loc[['Mean', 'SD']]

![create_model_scoring_grid](./images/create_model_scoring_grid2.png)

#### Disable cross-validation（交差検証の無効化）

If you don't want to evaluate models using cross-validation and rather just train them and see the metrics on the test/hold-out set you can set the `cross_validation=False`.

もし、交差検証を使用してモデルを評価せず、単にモデルをトレーニングしてテスト/ホールドアウト・セットでメトリクスを確認したい場合は、`cross_validation=False`を設定することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train model without cv
lr = create_model('lr', cross_validation=False)

![create_model_cross_validation](./images/create_model_cross_validation.png)

These are the metrics on the test/hold-out set. That's why you only see one row as opposed to the 12 rows in the original output. When you disable `cross_validation`, the model is only trained one time, on the entire training dataset and scored using the test/hold-out set.

これらは、テスト/ホールドアウト・セットのメトリクスです。そのため、元の出力では12行あったのが、1行しか表示されないのはそのためです。`cross_validation` を無効にすると、モデルは1回だけ、トレーニングデータセット全体で学習され、テスト/ホールドアウトセットを使って採点されます。

> NOTE: This function is only available in [Classification](https://pycaret.gitbook.io/docs/get-started/modules) and [Regression](https://pycaret.gitbook.io/docs/get-started/modules) modules.

> 注：この機能は、[Classification](https://pycaret.gitbook.io/docs/get-started/modules) および [Regression](https://pycaret.gitbook.io/docs/get-started/modules) モジュールでのみ利用可能です。

#### Return train score（リターン・トレイン・スコア）

The default scoring grid shows the performance metrics on the validation set by fold. If you want to see the performance metrics on the training set by fold as well to examine the over-fitting/under-fitting you can use `return_train_score` parameter.

デフォルトのスコアリンググリッドでは、検証用セットのパフォーマンスメトリクスを fold ごとに表示します。もしトレーニングセットのパフォーマンスメトリクスを fold ごとに見たい場合は、 `return_train_score` パラメータを使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train model without cv
lr = create_model('lr', return_train_score=True)

![create_model_return_train_score](./images/create_model_return_train_score.png)

#### Set the probability threshold（確率の閾値を設定する）

When performing binary classification, you can change the probability threshold or cut-off value for hard labels. By default, all classifiers use `0.5` as a default threshold.

2値分類を行う際、ハードラベルの確率の閾値やカットオフ値を変更することができます。デフォルトでは、すべての分類器は `0.5` をデフォルトの閾値として使用します。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train model with 0.25 threshold
lr = create_model('lr', probability_threshold=0.25)

![create_model_probability_threshold](./images/create_model_probability_threshold.png)

In [None]:
# see the model
print(lr)

![create_model_probability_threshold](./images/create_model_probability_threshold2.png)

#### Train models in a loop（ループでモデルをトレーニングする）

You can use the `create_model` function in a loop to train multiple models or even the same model with different configurations and compare their results.

ループ内で `create_model` 関数を使用すると、複数のモデル、あるいは同じモデルを異なる設定で学習させ、その結果を比較することができます。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# train models in a loop
lgbs = [create_model('lightgbm', learning_rate=i) for i in np.arange(0, 1, 0.1)]

![create_mode_train_models_in_a_loop](./images/create_model_train_models_in_a_loop.png)

In [None]:
type(lgbs)
# >>> list

len(lgbs)
# >>> 9

If you want to keep track of metrics as well, as in most cases, this is how you can do it.

ほとんどの場合そうですが、指標も把握したい場合は、このような方法があります。

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# start a loop
models = []
results = []

for i in np.arange(0.1, 1, 0.1):
    model = create_model('lightgbm', learning_rate=i)
    model_results = pull().loc[['Mean']]
    models.append(model)
    results.append(model_results)

results = pd.concat(results, axis=0)
results.index = np.arange(0.1, 1, 0.1)
results.plot()

![create_mode_train_models_in_a_loop](./images/create_model_train_models_in_a_loop2.png)

#### Train custom models（カスタムモデルのトレーニング）

You can use your own custom models for training or models from other libraries which are not part of pycaret. As long as their API is consistent with `sklearn`, it will work like a breeze.

In [None]:
# load dataset
from pycaret.datasets import get_data
diabetes = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data=diabetes, target='Class variable')

# import custom model
from gplearn.genetic import SymbolicClassifier
sc = SymbolicClassifier()

# train custom model
sc_trained = create_model(sc)

![create_model_train_custom_models](./images/create_model_train_custom_models.png)

In [None]:
type(sc_trained)
# >>> gplearn.genetic.SymbolicClassifier

print(sc_trained)

![create_model_train_custom_models](./images/create_model_train_custom_models2.png)

#### Write your own models（独自のモデルを作成する）

You can also write your own class with `fit` and predict function. PyCaret will be compatible with that. Here is a simple example:

また、`fit`とpredict関数を使った独自のクラスを書くこともできます。PyCaret はそれと互換性があります。以下は簡単な例です。

In [None]:
# load dataset
from pycaret.datasets import get_data
insurance= get_data('insurance')

# init setup
from pycaret.regression import *
reg1 = setup(data=insurance, target='charges')

# create custom estimator
import numpy as np
from sklearn.base import BaseEstimator
class MyOwnModel(BaseEstimator):

    def __init__(self):
        self.mean = 0

    def fit(self, X, y):
        self.mean = y.mean()
        return self

    def predict(self, X):
        return np.array(X.shape[0] * [self.mean])

# create an instance
my_own_model = MyOwnModel()

# train model
my_model_trained = create_model(my_own_model)

![own_model](./images/create_model_own_model.png)