In [2]:
import pandas as pd
pd.set_option("display.max_columns",None)

# [Quickstart](https://pycaret.gitbook.io/docs/get-started/quickstart)

## [Classification](https://pycaret.gitbook.io/docs/get-started/quickstart#classification)

PyCaret’s **Classification** Module is a supervised machine learning module that is used for classifying elements into groups. The goal is to predict the categorical class **labels** which are discrete and unordered. Some common use cases include predicting customer default (Yes or No), predicting customer churn (customer will leave or stay), the disease found (positive or negative). This module can be used for **binary** or **multiclass** problems. It provides several [pre-processing](https://pycaret.gitbook.io/docs/get-started/preprocessing) features that prepare the data for modeling through the [setup](https://pycaret.gitbook.io/docs/get-started/functions#setting-up-environment) function. It has over 18 ready-to-use algorithms and [several plots](https://pycaret.gitbook.io/docs/get-started/functions#plot-model) to analyze the performance of trained models. 


PyCaret の **Classification Module** は、要素をグループに分類するために使用される教師あり機械学習モジュールです。 目標は、離散的で順序付けされていないカテゴリクラス **ラベル**を予測することです。 一般的なユースケースには、顧客のデフォルトの予測 (はいまたはいいえ)、顧客離れの予測 (顧客が離れるか留まるか)、見つかった病気 (陽性または陰性) の予測が含まれます。 このモジュールは、**バイナリ**または**マルチクラス**の問題に使用できます。 [セットアップ](https://pycaret.gitbook.io/docs/get-started/functions#setting-up-environment)関数を使用してモデリング用のデータを準備するいくつかの[前処理](https://pycaret.gitbook.io/docs/get-started/preprocessing)機能を提供します。 18 を超えるすぐに使用できるアルゴリズムと、トレーニング済みモデルのパフォーマンスを分析するための[いくつかのプロット](https://pycaret.gitbook.io/docs/get-started/functions#plot-model)があります。

### Setup（設定）

This function initializes the training environment and creates the transformation pipeline. Setup function must be called before executing any other function. It takes two mandatory parameters: data and target. All the other parameters are optional.

この関数は、トレーニング環境を初期化し、変換パイプラインを作成します。 セットアップ関数は、他の関数を実行する前に呼び出す必要があります。 data と target の 2 つの必須パラメータを取ります。 他のすべてのパラメーターはオプションです。

In [1]:
from pycaret.datasets import get_data
data = get_data('diabetes')

Unnamed: 0,Number of times pregnant,Plasma glucose concentration a 2 hours in an oral glucose tolerance test,Diastolic blood pressure (mm Hg),Triceps skin fold thickness (mm),2-Hour serum insulin (mu U/ml),Body mass index (weight in kg/(height in m)^2),Diabetes pedigree function,Age (years),Class variable
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


When the `setup` is executed, PyCaret's inference algorithm will automatically infer the data types for all features based on certain properties. The data type should be inferred correctly but this is not always the case. To handle this, PyCaret displays a prompt, asking for data types confirmation, once you execute the `setup`. You can press enter if all data types are correct or type `quit` to exit the setup.

Ensuring that the data types are correct is really important in PyCaret as it automatically performs multiple type-specific preprocessing tasks which are imperative for machine learning models.

Alternatively, you can also use `numeric_features` and `categorical_features` parameters in the `setup` to pre-define the data types.

`setup` が実行されると、PyCaret の推論アルゴリズムは、特定のプロパティに基づいてすべての機能のデータ型を自動的に推論します。 データ型は正しく推測される必要がありますが、常にそうであるとは限りません。 これを処理するために、「setup」を実行すると、PyCaret はデータ型の確認を求めるプロンプトを表示します。 すべてのデータ型が正しい場合は Enter キーを押すか、`quit`と入力してセットアップを終了します。

データ型が正しいことを確認することは、機械学習モデルに不可欠な複数の型固有の前処理タスクを自動的に実行するため、PyCaret では非常に重要です。

または、`setup`で`numeric_features`および`categorical_features`パラメーターを使用して、データ型を事前に定義することもできます。

In [3]:
from pycaret.classification import *
s = setup(data, target = 'Class variable')

Unnamed: 0,Description,Value
0,session_id,1809
1,Target,Class variable
2,Target Type,Binary
3,Label Encoded,
4,Original Data,"(768, 9)"
5,Missing Values,False
6,Numeric Features,7
7,Categorical Features,1
8,Ordinal Features,False
9,High Cardinality Features,False


### Compare Models（モデルの比較）

This function trains and evaluates the performance of all the estimators available in the model library using cross-validation. The output of this function is a scoring grid with average cross-validated scores. Metrics evaluated during CV can be accessed using the `get_metrics` function. Custom metrics can be added or removed using `add_metric` and `remove_metric` function.

この関数は、交差検証を使用して、モデル ライブラリで使用可能なすべての推定量のパフォーマンスをトレーニングおよび評価します。 この関数の出力は、クロス検証された平均スコアを含むスコアリング グリッドです。 CV 中に評価されたメトリクスには、`get_metrics` 関数を使用してアクセスできます。 カスタム メトリックは、`add_metric` および `remove_metric` 関数を使用して追加または削除できます。

In [4]:
best = compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lr,Logistic Regression,0.7673,0.8123,0.5643,0.7138,0.6259,0.4614,0.4711,1.109
ridge,Ridge Classifier,0.7654,0.0,0.5538,0.7151,0.6199,0.4552,0.4658,0.004
lda,Linear Discriminant Analysis,0.7561,0.8036,0.5433,0.6977,0.6063,0.4347,0.4448,0.004
catboost,CatBoost Classifier,0.7525,0.8175,0.5649,0.6762,0.6129,0.4341,0.4396,0.468
rf,Random Forest Classifier,0.7356,0.8155,0.5272,0.6586,0.5769,0.3906,0.4013,0.073
xgboost,Extreme Gradient Boosting,0.734,0.7718,0.5757,0.6287,0.5993,0.4016,0.4035,0.043
gbc,Gradient Boosting Classifier,0.7337,0.7969,0.5477,0.6365,0.5844,0.3917,0.3969,0.027
et,Extra Trees Classifier,0.7302,0.7816,0.4901,0.6464,0.5475,0.3657,0.3769,0.067
ada,Ada Boost Classifier,0.7225,0.7762,0.5325,0.625,0.5725,0.3697,0.374,0.025
lightgbm,Light Gradient Boosting Machine,0.7172,0.7791,0.5754,0.6018,0.5875,0.3727,0.3735,0.02


In [5]:
print(best)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=1000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=1809, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)


### Analyze Model（モデルの分析）

This function analyzes the performance of a trained model on the test set. It may require re-training the model in certain cases.

この関数は、テスト セットでトレーニングされたモデルのパフォーマンスを分析します。 場合によっては、モデルの再トレーニングが必要になる場合があります。

In [6]:
evaluate_model(best)

interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Hyperparameters', 'param…