# 解譯模型

您可使用 Azure Machine Learning 來解譯模型，做法是使用 *解釋器* 將每個特徵對預測標籤造成的影響程度量化。有許多常見的解釋器，每個都適合用於不同種類的模型化演算法；但是其基本使用方法都一樣。

## 安裝 SDK 套件

除了最新版本的 **azureml-sdk** 和 **azureml-widgets** 之外，您還需要 **azureml-explain-model** 套件來執行此筆記本中的程式碼。您也會使用 Azure ML 可解釋性程式庫 (**azureml-interpret**)。您可使用此程式庫來解譯許多典型的模型種類，即使其尚未在 Azure ML 實驗中定型或在 Azure ML 工作區中註冊也一樣。

執行以下的儲存格以驗證是否已安裝這些套件。

In [None]:
pip show azureml-explain-model azureml-interpret

## 說明模型

讓我們從 Azure Machine Learning 外部定型的模型著手：執行以下的儲存格，以定型決策樹分類模型。

In [None]:
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('data/diabetes.csv')

# Separate features and labels
features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
labels = ['not-diabetic', 'diabetic']
X, y = data[features].values, data['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))

print('Model trained.')

定型程序根據保留的驗證資料集產生了一些模型評估計量，讓您了解其預測準確度；但資料中的特徵對預測有何影響？

### 取得模型的解釋器

讓我們從您先前安裝的 Azure ML 可解釋性程式庫，為模型取得合適的解釋器。解釋器有許多種。在此範例中，您將使用 *表格式解釋器*，這是一個「黑盒子」解釋器，可藉由叫用適當的 [SHAP](https://github.com/slundberg/shap) 模型解釋器來說明許多種類的模型。

In [None]:
from interpret.ext.blackbox import TabularExplainer

# "features" and "classes" fields are optional
tab_explainer = TabularExplainer(model,
                             X_train, 
                             features=features, 
                             classes=labels)
print(tab_explainer, "ready!")

### 取得「全域」特徵重要度

第一件事就是嘗試藉由評估整體「特徵重要度」來說明模型 - 換句話說，將每個特徵對以整個定型資料集為基礎的預測造成的影響程度量化。

In [None]:
# you can use the training data or the test data here
global_tab_explanation = tab_explainer.explain_global(X_train)

# Get the top features by importance
global_tab_feature_importance = global_tab_explanation.get_feature_importance_dict()
for feature, importance in global_tab_feature_importance.items():
    print(feature,":", importance)

特徵重要度會經過排名，最重要的特徵最先列出。

### 取得「本機」特徵重要度

您有整體的觀點，但說明個別觀察值怎麼樣？讓我們為個別預測產生「本機」說明，並將每個特徵對於決策的影響程度量化，以預測每個可能的標籤值。在此案例中，這是二元模型，因此有兩個可能的標籤 (非糖尿病患者和糖尿病患者)；而您可針對資料集中的個別觀察值，將每個特徵對每個標籤值的影響量化。您只會評估測試資料集中的前兩個案例。

In [None]:
# Get the observations we want to explain (the first two)
X_explain = X_test[0:2]

# Get predictions
predictions = model.predict(X_explain)

# Get local explanations
local_tab_explanation = tab_explainer.explain_local(X_explain)

# Get feature names and importance for each possible label
local_tab_features = local_tab_explanation.get_ranked_local_names()
local_tab_importance = local_tab_explanation.get_ranked_local_values()

for l in range(len(local_tab_features)):
    print('Support for', labels[l])
    label = local_tab_features[l]
    for o in range(len(label)):
        print("\tObservation", o + 1)
        feature_list = label[o]
        total_support = 0
        for f in range(len(feature_list)):
            print("\t\t", feature_list[f], ':', local_tab_importance[l][o][f])
            total_support += local_tab_importance[l][o][f]
        print("\t\t ----------\n\t\t Total:", total_support, "Prediction:", labels[predictions[o]])

## 將可解釋性新增至模型訓練實驗

如您所見，您可以為在 Azure Machine Learning 外部定型的模型產生說明；但是當您使用實驗在 Azure Machine Learning 工作區中定型和註冊模型時，您可產生模型說明並加以記錄。

執行以下儲存格中的程式碼，以連線到您的工作區。

> **注意**：如果您尚未使用 Azure 訂閱建立已驗證的工作階段，系統會提示您透過按一下連結、輸入驗證碼並登入 Azure 來進行驗證。

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

### 使用實驗來定型及說明模型

好的，讓我們建立實驗，並將其所需的檔案放在本機資料夾中  - 在此案例中，我們只會使用糖尿病資料的相同 CSV 檔案來定型模型。

In [None]:
import os, shutil
from azureml.core import Experiment

# Create a folder for the experiment files
experiment_folder = 'diabetes_train_and_explain'
os.makedirs(experiment_folder, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(experiment_folder, "diabetes.csv"))

現在，我們將建立類似於任何其他 Azure ML 定型指令碼的定型指令碼，但包含下列特徵：

- 我們用來產生模型說明的相同程式庫會匯入並用於產生全域說明
- **ExplanationClient** 程式庫用於將說明上傳至實驗輸出

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# Import Azure ML run library
from azureml.core.run import Run

# Import libraries for model explanation
from azureml.interpret import ExplanationClient
from interpret.ext.blackbox import TabularExplainer

# Get the experiment run context
run = Run.get_context()

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('diabetes.csv')

features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
labels = ['not-diabetic', 'diabetic']

# Separate features and labels
X, y = data[features].values, data['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes.pkl')

# Get explanation
explainer = TabularExplainer(model, X_train, features=features, classes=labels)
explanation = explainer.explain_global(X_test)

# Get an Explanation Client and upload the explanation
explain_client = ExplanationClient.from_run(run)
explain_client.upload_model_explanation(explanation, comment='Tabular Explanation')

# Complete the run
run.complete()

實驗需要 Python 環境來執行指令碼，因此我們將為其定義 Conda 規格。請注意，**azureml-interpret** 程式庫包含在定型環境中，因此指令碼可以建立 **TabularExplainer** 並使用 **ExplainerClient** 類別。

In [None]:
%%writefile $experiment_folder/interpret_env.yml
name: batch_environment
dependencies:
- python=3.6.2
- scikit-learn
- pandas
- pip
- pip:
  - azureml-defaults
  - azureml-interpret

您現在可以執行實驗。

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails


# Create a Python environment for the experiment
explain_env = Environment.from_conda_specification("explain_env", experiment_folder + "/interpret_env.yml")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                      script='diabetes_training.py',
                      environment=explain_env,
                      docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment
experiment_name = 'mslearn-diabetes-explain'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

## 擷取特徵重要度值

實驗執行完成後，您可使用 **ExplanationClient** 類別，從針對執行註冊的說明中擷取特徵重要度。

In [None]:
from azureml.interpret import ExplanationClient

# Get the feature explanations
client = ExplanationClient.from_run(run)
engineered_explanations = client.download_model_explanation()
feature_importances = engineered_explanations.get_feature_importance_dict()

# Overall feature importance
print('Feature\tImportance')
for key, value in feature_importances.items():
    print(key, '\t', value)

## 在 Azure Machine Learning 工作室中檢視模型說明

您也可以按一下 [執行詳細資料] 小工具中的 [檢視執行詳細資料] 連結，以查看在 Azure Machine Learning 工作室中的執行，並檢視 [說明] 索引標籤。然後：

1.為您的表格式解釋器選取說明 ID。
2.檢視 **彙總特徵重要度** 圖表，其中顯示整體全域特徵重要度。
3.檢視 **個別特徵重要度** 圖表，其中顯示測試資料中的每個資料點。
4.選取個別點，以針對所選的資料點查看個別預測的本機特徵重要度。
5.使用 **新增世代** 按鈕，以下列設定來定義資料子集：
    - **資料集世代名稱**：小於 25
    - **選取篩選條件**：資料集
        - 存留期小於 25 (務必在儲存新世代前新增此篩選條件)。
6.建立名為 **25 以上** 的第二個新世代，其篩選條件為存留期大於或等於 25。
6.檢閱 **彙總特徵重要度** 視覺效果，並且比較您所定義兩個世代的相對特徵重要度。比較世代的功能可讓您了解特徵如何以不同的方式影響資料母體的多個子集預測。



**詳細資訊**：如需在 Azure ML 中使用解釋器的詳細資訊，請參閱 [文件](https://docs.microsoft.com/azure/machine-learning/how-to-machine-learning-interpretability)。