# 自動機械学習 Automated Machine Learning による離反予測モデリング & モデル解釈 (リモート高速実行)


顧客属性データを用いて与信管理モデルを開発します。

1. 事前準備
    - Python SDK のインポート
    - Azure ML `Workspace` への接続
    - `Experiment` の作成
    - `Dataset` の作成と登録
2. 自動機械学習 Automated Machine Learning
    - 計算環境 `Machine Learning Compute` の準備
    - 自動機械学習 Automated ML の事前設定
    - モデル学習と結果の確認
3. モデル解釈

## 1. 事前準備
### Python SDK のインポート
Azure Machine Learning の Python SDKをインポートします

In [1]:
import azureml.core
from azureml.core.experiment import Experiment
from azureml.core.workspace import Workspace
from azureml.core.dataset import Dataset
from azureml.train.automl import AutoMLConfig

Azure Machine Learning Python SDK のバージョンを確認します。

In [2]:
print(azureml.core.VERSION)

1.0.76


In [3]:
# その他必要なライブラリを利用します
import logging
from matplotlib import pyplot as plt
import pandas as pd
import os
import warnings

# 警告メッセージを削除する
warnings.showwarning = lambda *args, **kwargs: None

### Azure ML workspace との接続
Azure Machine Learning との接続を行います。Azure Active Directory の認証が必要です。

In [4]:
# 保存されている接続情報を利用する場合
ws = Workspace.from_config()
print(ws.name, ws.location, ws.resource_group, ws.location, sep = '\t')

azureml-bootcamp	japaneast	aml-bootcamp	japaneast


In [5]:
# # 明示的に接続情報を記載する場合
# subscription_id = ''
# resource_group = ''
# workspace_name =  ''
# ws = Workspace(subscription_id, resource_group, workspace_name)

### 実験名の設定
Azure Machine Learing では 実験を管理する仕組みがあります。自動機械学習は自動的にその実験管理の仕組みでメトリックやログが残ります。

In [6]:
# choose a name for experiment
experiment_name = 'automl-classification-hmeq-dev'
experiment=Experiment(ws, experiment_name)

### 学習データの準備

Azure Machine Learning service の計算環境 (Machine Learning Compute) で学習を回すために、Azure Machine Learning service の Dataset のフォーマットでデータを定義します。

In [7]:
dataset = Dataset.get_by_name(ws, name='hmeq')
dataset.take(5).to_pandas_dataframe()

Unnamed: 0,不履行フラグ,融資依頼金額,未払担保金額,現在資産価値,債務理由,職種,勤務年数,信用調査会社問い合わせ数,延滞トレードライン数,最も古いトレードラインの月齢,最近のクレジットの問い合わせ数,トレード(クレジット)ラインの数,債務対所得の割合
0,1,1100,25860.0,39025.0,HomeImp,Other,10.5,0.0,0.0,94.37,1.0,9.0,
1,1,1300,70053.0,68400.0,HomeImp,Other,7.0,0.0,2.0,121.83,0.0,14.0,
2,1,1500,13500.0,16700.0,HomeImp,Other,4.0,0.0,0.0,149.47,1.0,10.0,
3,1,1500,,,,,,,,,,,
4,0,1700,97800.0,112000.0,HomeImp,Office,3.0,0.0,0.0,93.33,0.0,14.0,


In [None]:
#予測変数の指定
label = '不履行フラグ'

### 学習データとテストデータに分割
※ハンズオンの都合上85%のデータをモデル学習で利用します。テストデータは後半のモデル解釈で利用されます。

In [None]:
train_dataset, test_dataset = dataset.random_split(0.95, seed=12345)

In [None]:
train_dataset.to_pandas_dataframe().tail()

Unnamed: 0,不履行フラグ,融資依頼金額,未払担保金額,現在資産価値,債務理由,職種,勤務年数,信用調査会社問い合わせ数,延滞トレードライン数,最も古いトレードラインの月齢,最近のクレジットの問い合わせ数,トレード(クレジット)ラインの数,債務対所得の割合
5656,0,88900,48919.0,93371.0,DebtCon,Other,15.0,0.0,1.0,205.65,0.0,15.0,34.82
5657,0,88900,57264.0,90185.0,DebtCon,Other,16.0,0.0,0.0,221.81,0.0,16.0,36.11
5658,0,89000,54576.0,92937.0,DebtCon,Other,16.0,0.0,0.0,208.69,0.0,15.0,35.86
5659,0,89200,54045.0,92924.0,DebtCon,Other,15.0,0.0,0.0,212.28,0.0,15.0,35.56
5660,0,89900,48811.0,88934.0,DebtCon,Other,15.0,0.0,0.0,219.6,0.0,16.0,34.57


In [None]:
train_dataset.to_pandas_dataframe().describe()

Unnamed: 0,不履行フラグ,融資依頼金額,未払担保金額,現在資産価値,勤務年数,信用調査会社問い合わせ数,延滞トレードライン数,最も古いトレードラインの月齢,最近のクレジットの問い合わせ数,トレード(クレジット)ラインの数,債務対所得の割合
count,5661.0,5661.0,5153.0,5558.0,5175.0,4986.0,5113.0,5365.0,5180.0,5448.0,4450.0
mean,0.2,18623.12,73806.08,101810.5,8.93,0.25,0.45,179.75,1.19,21.26,33.76
std,0.4,11198.94,44328.98,57551.42,7.58,0.85,1.13,85.51,1.72,10.1,8.67
min,0.0,1100.0,2063.0,8000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.52
25%,0.0,11100.0,46423.0,66000.0,3.0,0.0,0.0,115.19,0.0,14.0,29.12
50%,0.0,16400.0,65077.0,89208.0,7.0,0.0,0.0,173.32,1.0,20.0,34.77
75%,0.0,23300.0,91731.0,119961.5,13.0,0.0,0.0,231.73,2.0,26.0,38.97
max,1.0,89900.0,399550.0,855909.0,41.0,10.0,15.0,1168.23,17.0,71.0,203.31


### Dataset として登録
Azure Machine Learning の データセット管理機能 Dataset に登録します。

In [None]:
train_dataset = train_dataset.register(ws, name = 'hmeq-train', description = 'hmeq train data in bootcamp', create_new_version=True)
test_dataset = test_dataset.register(ws, name = 'hmeq-test', description = 'hmeq test data in bootcamp', create_new_version=True)

### 計算環境 (Machine Learning Compute) の設定

Azure Machine Learning は高速にモデル学習を高速に回す計算環境 Machine Learning Compute が利用できます。

In [None]:
# 予め Azure ML studio にて cpucluster という名称の Machine Learning Compute を 作成しておく
from azureml.core.compute import ComputeTarget
compute_target = ComputeTarget(ws, "cpucluster")

## 2. 自動機械学習 Automated Machine Learning
自動機械学習の事前設定を行います。[AutoMLConfig](https://docs.microsoft.com/ja-JP/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig.automlconfig?view=azure-ml-py) を用いて定義します。

In [None]:
automl_settings = {
    "iteration_timeout_minutes": 5, # 各試行の最大実験時間
    "iterations": 10,  # 試行する機械学習パイプラインの数
    #"max_concurrent_iterations": 4,
    "max_cores_per_iteration": -1,
    "n_cross_validations": 3,
    "primary_metric": 'accuracy', # 精度指標
    "preprocess": True,
    "enable_voting_ensemble": False,
    "enable_stack_ensemble": False
}

automl_config = AutoMLConfig(task = 'classification',
                             training_data = train_dataset,
                             label_column_name = label,                             
                             #compute_target=compute_target,
                             model_explainability = True,
                             **automl_settings
                            )

### 実行と結果確認

※ Machine Learning Compute を利用する場合、一番最初の実行は Docker Image を作成するため、20 〜 30分ほど時間がかかります。Dokcer Image を Build している様子は統合開発画面 Azure Machine Learning studio から確認できます。

In [None]:
remote_run = experiment.submit(automl_config, show_output = True)

Running on local machine
Parent Run ID: AutoML_ba52f3de-e51a-4c44-abc4-14401cdfa773

Current status: DatasetFeaturization. Beginning to featurize the dataset.
Current status: DatasetEvaluation. Gathering dataset statistics.
Current status: FeaturesGeneration. Generating features for the dataset.
Current status: DatasetFeaturizationCompleted. Completed featurizing the dataset.
Current status: DatasetCrossValidationSplit. Generating individually featurized CV splits.

****************************************************************************************************
DATA GUARDRAILS SUMMARY:
For more details, use API: run.get_guardrails()

TYPE:         Class balancing detection
STATUS:       PASSED
DESCRIPTION:  Classes are balanced in the training data.

TYPE:         Missing values imputation
STATUS:       FIXED
DESCRIPTION:  The training data had the following missing values which were resolved.

Please review your data source for data quality issues and possibly filter out the rows 

In [None]:
# Widget で結果確認
from azureml.widgets import RunDetails
RunDetails(remote_run).show()

In [None]:
# 詳細ログの出力
#remote_run.get_details()

In [None]:
#remote_run.get_guardrails()

In [None]:
best_run, fitted_model = remote_run.get_output()
best_run

### 機械学習モデルの理解

In [None]:
pd.DataFrame(fitted_model.named_steps['datatransformer'].get_engineered_feature_names())

In [None]:
pd.DataFrame.from_records(fitted_model.named_steps['datatransformer'].get_featurization_summary())

## 3. モデル解釈
Azure Machine Learning には Automated ML のモデルを解釈する仕組みがあります。詳しくは [モデルを解釈する方法](https://docs.microsoft.com/ja-jp/azure/machine-learning/service/how-to-machine-learning-interpretability#how-to-interpret-your-model)をご参照ください。

In [None]:
# Pandas Dataframe に変換
train_df = train_dataset.to_pandas_dataframe()
test_df = test_dataset.to_pandas_dataframe()

In [None]:
from azureml.train.automl.runtime.automl_explain_utilities import AutoMLExplainerSetupClass, automl_setup_model_explanations
automl_explainer_setup_obj = automl_setup_model_explanations(fitted_model, 
                                                             X=train_df.drop([label], axis=1), 
                                                             X_test=test_df.drop([label], axis=1), 
                                                             y=train_df[label].values, 
                                                             task='classification')

`MimicWrapper` は **Global Surrogate Model** によるグローバルなモデル解釈を実現します。ここでは LightGBM を用いています。

In [None]:
from azureml.explain.model.mimic.models.lightgbm_model import LGBMExplainableModel
from azureml.explain.model.mimic_wrapper import MimicWrapper
explainer = MimicWrapper(ws, automl_explainer_setup_obj.automl_estimator, LGBMExplainableModel, 
                         init_dataset=automl_explainer_setup_obj.X_transform, run=best_run,
                         features=automl_explainer_setup_obj.engineered_feature_names, 
                         feature_maps=[automl_explainer_setup_obj.feature_map],
                         classes=automl_explainer_setup_obj.classes)

## Engineered Explanation
特徴量エンジニアリングで生成された変数を用いたモデル解釈を行います。

In [None]:
# Compute the engineered explanations
engineered_explanations = explainer.explain(['local', 'global'],get_raw=False,
                                            eval_dataset=automl_explainer_setup_obj.X_test_transform)

In [None]:
# ダッシュボードの表示
from interpret_community.widget import ExplanationDashboard
ExplanationDashboard(engineered_explanations, 
                     automl_explainer_setup_obj.automl_estimator, 
                     datasetX=automl_explainer_setup_obj.X_test_transform)

## Raw Explanation
特徴量エンジニアリング前の変数を用いたモデル解釈を行います。

In [None]:
raw_explanations = explainer.explain(['local', 'global'], get_raw=True, 
                                     raw_feature_names=automl_explainer_setup_obj.raw_feature_names,
                                     eval_dataset=automl_explainer_setup_obj.X_test_transform)

In [None]:
# ダッシュボードの表示
from interpret_community.widget import ExplanationDashboard
ExplanationDashboard(raw_explanations, 
                     automl_explainer_setup_obj.automl_pipeline, 
                     datasetX=automl_explainer_setup_obj.X_test_raw)