In [None]:
import pandas as pd

pd.set_option("display.max_columns", None)

# [Other setup parameters（その他の設定パラメータ）](https://pycaret.gitbook.io/docs/get-started/preprocessing/other-setup-parameters)

## Required Parameters（必須パラメータ） <a id="required_parameters"></a>

There are only two non-optional parameters in the setup function.


setup 関数には、オプションでないパラメータが2つだけあります。

### PARAMETERS

- **data**: pandas.DataFrame
  - Shape (n_samples, n_features)
  - where n_samples is the number of samples and n_features is the number of features.
  - ここで、n_samples はサンプル数、n_features は特徴量の数です。
- **target**: str
  - Name of the target column to be passed in as a string.
  - 文字列として渡されるターゲットのカラム名。

## Experiment Logging（実験ログの記録） <a id="experiment_logging"></a>

PyCaret can automatically log entire experiments including setup parameters, model hyperparameters, performance metrics, and pipeline artifacts. The default settings use [MLflow](https://mlflow.org/) as the logging backend. [wandb](https://wandb.ai/site) is also available as an option for logging backend. A parameter in the setup can be enabled to automatically track all the metrics, hyperparameters, and other important information about your machine learning model.

PyCaretはセットアップパラメータ、モデルのハイパーパラメータ、性能指標、パイプラインの成果物を含む実験全体を自動的にログに記録することができます。デフォルトの設定では、ロギングバックエンドとして [MLflow](https://mlflow.org/) が使用されます。また、ロギングバックエンドのオプションとして [wandb](https://wandb.ai/site) も利用可能です。セットアップのパラメータを有効にすると、機械学習モデルに関するすべての指標、ハイパーパラメータ、および他の重要な情報を自動的に追跡することができます。

### PARAMETERS

- **log_experiment**: bool, default = bool or string 'mlflow' or 'wandb'
  - A (list of) PyCaret `BaseLogger` or str (one of `mlflow`, `wandb`) corresponding to a logger to determine which experiment loggers to use. Setting to True will use the MLFlow backend by default.
  - どの実験ロガーを使用するかを決めるために、ロガーに対応する PyCaret `BaseLogger` または str (`mlflow`, `wandb` のいずれか) のリストです。 `True` に設定すると、デフォルトで MLFlow バックエンドを使用します。
- **experiment_name**: str, default = None
  - Name of the experiment for logging. When set to `None`, a default name is used.
  - ロギングを行う実験の名前。None` に設定すると、デフォルトの名前が使用されます。
- **experiment_custom_tags**: dict, default = None
  - Dictionary of tag_name: String -> value: (String, but will be string-ified if not) passed to the mlflow.set_tags to add new custom tags for the experiment.
  - tag_nameの辞書：String -> value: (String, ただし文字列化される) mlflow.set_tags に渡され、実験に新しいカスタムタグを追加します。
- **log_plots**: bool, default = False
  - When set to `True`, applicable analysis plots are logged as an image file.
  - `True` に設定すると、該当する解析プロットを画像ファイルとしてログに記録します。
- **log_profile**: bool, default = False
  - When set to `True`, the data profile is logged as an HTML file.
  - `True` に設定すると、データプロファイルは HTML ファイルとして記録されます。
- **log_data**: bool, default = False
  - When set to `True`, train and test dataset are logged as a CSV file.
  - `True` に設定すると、train および test データセットが CSV ファイルとしてログに記録されます。

### Example

In [None]:
# load dataset
from pycaret.datasets import get_data
data = get_data('diabetes')

# init setup
from pycaret.classification import *
clf1 = setup(data, target='Class variable', log_experiment=True, experiment_name='diabetes1')

# model training
best_model = compare_models()

To initialize `MLflow` server you must run the following command from within the notebook or from the command line. Once the server is initialized, you can track your experiment on `https://localhost:5000`.

MLflow` サーバを初期化するには、ノートブック内またはコマンドラインから以下のコマンドを実行する必要があります。サーバーが初期化されると、`https://localhost:5000` で実験を追跡できるようになります。

In [None]:
# init server
!mlflow ui

![mlflow](./images/mlflow_image.png)

#### Configure MLflow tracking server（MLflowトラッキングサーバーの設定）

When no backend is configured Data is stored locally at the provided file (or ./mlruns if empty). To configure the backend use mlflow.`set_tracking_uri` before executing the setup function.

バックエンドが設定されていない場合、データは提供されたファイル(空の場合は ./mlruns)にローカルで保存されます。バックエンドを設定するには、setup 関数を実行する前に mlflow.`set_tracking_uri` を使用します。

- An empty string, or a local file path, prefixed with file:/. Data is stored locally at the provided file (or ./mlruns if empty).
  - 空の文字列、またはローカルファイルのパスで、先頭に file:/ が付きます。データは提供されたファイル（空の場合は./mlruns）にローカルで保存されます。
- An HTTP URI like https://my-tracking-server:5000.
  - https://my-tracking-server:5000 のようなHTTP URI
- A Databricks workspace, provided as the string “databricks” or, to use a Databricks CLI profile, “databricks://<profileName>”.
  - Databricks ワークスペース。文字列 "databricks"、または Databricks CLI プロファイルを使用する場合は "databricks://<profileName>" として提供されます。


In [None]:
# set tracking uri
import mlflow

mlflow.set_tracking_uri('file:/c:/users/mlflow-server')

# load dataset
from pycaret.datasets import get_data

data = get_data('diabetes')

# init setup
from pycaret.classification import *

clf1 = setup(
    data,
    target='Class variable',
    log_experiment=True,
    experiment_name='diabetes1'
)

#### PyCaret on Databricks（Databricks上のPyCaret）

When using PyCaret on Databricks `experiment_name` parameter in the setup must include complete path to storage.  See example below on how to log experiments when using Databricks:

Databricks 上で PyCaret を使用する場合、セットアップの `experiment_name` パラメータにストレージへの完全なパスを含める必要があります。 Databricks を使用した場合の実験記録の取り方については、以下の例を参照してください。

In [None]:
# load dataset
from pycaret.datasets import get_data

data = get_data('diabetes')

# init setup
from pycaret.classification import *

clf1 = setup(
    data,
    target='Class variable',
    log_experiment=True,
    experiment_name='/Users/username@domain.com/experiment-name-here'
)

## Model Selection（モデル選択） <a id="model_selection"></a>

Following parameters in the setup can be used for setting parameters for model selection process. These are not related to data preprocessing but can influence your model selection process.

設定に含まれる以下のパラメータは、モデル選択処理のパラメータ設定に使用できます。これらはデータの前処理とは関係ありませんが、モデル選択処理に影響を与えることがあります。

### PARAMETERS

- **train_size**: float, default = 0.7
  - The proportion of the dataset to be used for training and validation.
  - 学習と検証に使用するデータセットの割合。
- **test_data**: pandas.DataFrame, default = None
  - If not `None`, the `test_data` is used as a hold-out set and the `train_size` is ignored. `test_data` must be labeled and the shape of the data and `test_data` must match.
  - `None` でない場合は、 `test_data` を保留セットとして使用し、 `train_size` は無視されます。`test_data` はラベル付けされ、データと `test_data` の形状が一致しなければなりません。
- **data_split_shuffle**: bool, default = True
  - When set to `False`, prevents shuffling of rows during `train_test_split`.
  - `False` に設定すると、 `train_test_split` の際に行のシャッフルを行わないようにします。
- **data_split_stratify**: bool or list, default = False
  - Controls stratification during the `train_test_split`. When set to `True`, it will stratify by target column. To stratify on any other columns, pass a list of column names. Ignored when `data_split_shuffle` is `False`.
  - `train_test_split` の際に階層化を行うかどうかを制御します。`True` に設定すると、ターゲットカラムで階層化されます。他のカラムで階層化する場合は、カラム名のリストを渡します。`data_split_shuffle` が `False` の場合は無視されます。
- **fold_strategy**: str or scikit-learn CV generator object, default = ‘stratifiedkfold’
  - Choice of cross-validation strategy. Possible values are:
  - 交差検証手法の選択。可能な値は以下の通り。
    - ‘kfold’
    - ‘stratifiedkfold’
    - ‘groupkfold’
    - ‘timeseries’
    - a custom CV generator object compatible with `scikit-learn`.
    - `scikit-learn` と互換性のあるカスタム CV ジェネレータオブジェクトです。
- **fold**: int, default = 10
  - The number of folds to be used in cross-validation. Must be at least 2. This is a global setting that can be over-written at the function level by using the fold parameter. Ignored when `fold_strategy` is a custom object.
  - 交差検証で使用するフォルド数．これはグローバルな設定であり、関数レベルでは fold パラメータで上書きすることができます。fold_strategy` がカスタムオブジェクトの場合は、無視されます。
- **fold_shuffle**: bool, default = False
  - Controls the shuffle parameter of CV. Only applicable when `fold_strategy` is `kfold` or `stratifiedkfold`. Ignored when `fold_strategy` is a custom object.
  - CV のシャッフルパラメータを制御します．`fold_strategy` が `kfold` または `stratifiedkfold` の場合のみ適用されます。`fold_strategy` がカスタムオブジェクトの場合は無視されます。
- **fold_groups**: str or array-like, with shape (n_samples,), default = None
  - Optional group labels when ‘GroupKFold’ is used for the cross-validation. It takes an array with shape (n_samples, ) where n_samples is the number of rows in the training dataset. When the string is passed, it is interpreted as the column name in the dataset containing group labels.
  - 交差検証で 'GroupKFold' を利用する場合に，オプションで指定するグループラベル。shape (n_samples, ) の配列で，n_samples は学習データセットの行数．文字列を渡すと，グループラベルを含むデータセットの列名として解釈されます。

## Other Miscellaneous（その他雑多なもの） <a id="other_miscellaneous"></a>

Following parameters in the setup can be used for controlling other experiment settings such as using GPU for training or setting verbosity of the experiment. They do not affect the data in any way.

セットアップの以下のパラメータは、トレーニングにGPUを使用したり、実験の冗長性を設定するなど、他の実験設定を制御するために使用することができます。これらはデータには一切影響を与えません。

### PARAMETERS

- **n_jobs**: int, default = -1
  - The number of jobs to run in parallel (for functions that support parallel processing) -1 means using all processors. To run all functions on single processor set n_jobs to `None`.
  - 並列に実行するジョブの数（並列処理をサポートする関数の場合） -1 はすべてのプロセッサを使用することを意味します。すべての関数をシングルプロセッサで実行するには、n_jobs に `None` を設定します。
- **use_gpu**: bool or str, default = False
  - When set to `True`, it will use GPU for training with algorithms that support it and fall back to CPU if they are unavailable. When set to `force` it will only use GPU-enabled algorithms and raise exceptions when they are unavailable. When `False` all algorithms are trained using CPU only.
  - `True` に設定すると、GPU をサポートするアルゴリズムの学習に使用し、使用できない場合は CPU にフォールバックします。`強制`に設定すると、GPUに対応したアルゴリズムのみを使用し、使用できない場合は例外を発生させます。False` に設定すると、すべてのアルゴリズムが CPU のみで学習されます。
- **html**: bool, default = True
  - When set to `False`, prevents the runtime display of the monitor. This must be set to `False` when the environment does not support IPython. For example, command line terminal, Databricks, PyCharm, Spyder, and other similar IDEs.
  - `False` に設定すると、ランタイムモニタの表示を行いません。IPythonをサポートしていない環境では、`False`に設定する必要があります。例えば、コマンドライン・ターミナル、Databricks、PyCharm、Spyder、その他類似のIDEなどです。
- **session_id**: int, default = None
  - Controls the randomness of the experiment. It is equivalent to `random_state` in `scikit-learn`. When `None`, a pseudo-random number is generated. This can be used for later reproducibility of the entire experiment.
  - 実験のランダム性を制御します。これは `scikit-learn` の `random_state` と等価です。None` の場合、擬似乱数が生成されます。これは後で実験全体の再現性を高めるために用いることができます。
- **silent**: bool, default = False
  - Controls the confirmation input of data types when `setup` is executed. When executing in completely automated mode or on a remote kernel, this must be `True`.
  - `setup` 実行時のデータ型の確認入力を制御します。完全に自動化されたモードやリモートカーネルで実行する場合、これは `True` でなければなりません。
- **verbose**: bool, default = True
  - When set to `False`, Information grid is not printed.
  - False` に設定すると、情報グリッドは印刷されません。
- **profile**: bool, default = False
  - When set to `True`, an interactive EDA report is displayed.
  - `True` に設定すると、インタラクティブな EDA レポートが表示されます。
- **profile_kwargs**: dict, default = {} (empty dict)
  - Dictionary of arguments passed to the ProfileReport method used to create the EDA report. Ignored if `profile` is `False`.
  - EDA レポートを作成するために使用される ProfileReport メソッドに渡される引数のディクショナリです。`profile` が `False` の場合、無視されます。
- **custom_pipeline**: (str, transformer) or list of (str, transformer), default = None
  - When passed, will append the custom transformers in the preprocessing pipeline and are applied on each CV fold separately and on the final fit. All the custom transformations are applied after `train_test_split` and before PyCaret's internal transformations.
  - 渡されると、前処理パイプラインにカスタムトランスが追加され、各 CV フォールドに個別に適用され、最終的なフィットにも適用されます。すべてのカスタム変換は `train_test_split` の後、PyCaret の内部変換の前に適用されます。
- **preprocess**: bool, default = True
  - When set to `False`, no transformations are applied except for `train_test_split` and custom transformations passed in `custom_pipeline` parameter. Data must be ready for modeling (no missing values, no dates, categorical data encoding) when preprocess is set to `False`.
  - `False` に設定すると、`train_test_split` と `custom_pipeline` パラメータで渡されたカスタム変換以外の変換は適用されません。`preprocess` を `False` に設定した場合、データはモデリング可能な状態でなければならない（欠損値なし、日付なし、カテゴリカルデータのエンコーディング）。