### Knock91: PyCaret で回帰 Model の前処理を実施しよう

In [5]:
# Boston の住宅価格 Dataset を取得
from pycaret.datasets import get_data
boston_data_all = get_data('boston')

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,black,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [6]:
# 未見 Data の取得
boston_data = boston_data_all.sample(frac=0.90, random_state=0).reset_index(drop=True)
boston_data_unseen = boston_data_all.drop(boston_data.index).reset_index(drop=True)
print('All Data: ' + str(boston_data_all.shape))
print('Data for Modeling:' + str(boston_data.shape))  # 90% を訓練 Data として取り分け
print('Unseen Data For Predictions:' + str(boston_data_unseen.shape))
    # PyCaret に公開しない未見 Data として取り分け。学習済 Model の仕上げの評価時に利用する。

All Data: (506, 14)
Data for Modeling:(455, 14)
Unseen Data For Predictions:(51, 14)


In [7]:
# # setup 関数の実行
# from pycaret.regression import *  # PyCaret の回帰系 Library を import
#
# ret = setup(  # setup() 関数で Data を分析し、必要な前処理を自動的に行なってくれる。
#     boston_data,  # Dataset
#     target='medv',  # 目的変数を指定
#     normalize=False,  # 標準化するかどうかを指定
#     session_id=0  # PyCaret 実行時の識別子。内部的には乱数の seed となっており、指定しないと Random に決定される(sklean の random_state= にあたる）
# )

In [8]:
# setup Dialog で変数型の再確認
# setup Dialog で前処理結果の確認
from pycaret.regression import *  # PyCaret の回帰系 Library を import

ret = setup(  # setup() 関数で Data を分析し、必要な前処理を自動的に行なってくれる。
    boston_data,  # Dataset
    target='medv',  # 目的変数を指定
    normalize=False,  # 標準化するかどうかを指定
    session_id=0,  # PyCaret 実行時の識別子。内部的には乱数の seed となっており、指定しないと Random に決定される(sklean の random_state= にあたる）
    numeric_features=['chas'],  # 型を明示的に指定
    categorical_features=['rad']  # 型を明示的に指定
)

Unnamed: 0,Description,Value
0,session_id,0
1,Target,medv
2,Original Data,"(455, 14)"
3,Missing Values,False
4,Numeric Features,12
5,Categorical Features,1
6,Ordinal Features,False
7,High Cardinality Features,False
8,High Cardinality Method,
9,Transformed Train Set,"(318, 21)"


`setup()` では欠損処理, Data の分割(train_test_split) などを実施しており、完了すると結果が表示され Data size や説明変数の数や各種前処理の指定の有無などを確認できる。

#### 代表的な項目
| 項目名                                         | 概要                                              |
|---------------------------------------------|-------------------------------------------------|
| Missing Values                              | 元の Data に欠損値がある場合、True が 表示される。                 |
| Transformed Train Set, Transformed Test Set | Default で訓練 Data は 70%, Test-data は 30% になっている。 |
| Categorical Features                        | 説明変数が Category変数に変換された数                         |