# 偵測及減緩不公平性模型

機器學習模型可能會納入無意的偏見，這可能導致*公平性*問題。例如，預測糖尿病可能性的模型可能適用於某些年齡組，但不適用於其他年齡組 - 這導致一部分患者需接受不必要的測試，或無法接受可以確認糖尿病診斷的測試。

在此筆記本中，您將使用 **Fairlearn** 套件來分析模型，並根據年齡探索不同患者子集的預測效能差異。

> **注意**：與 Fairlearn 套件的整合目前處於預覽狀態。您可能會遭遇到未預期的錯誤。

## 重要 - 公平性的考量事項

> 此筆記本旨在進行實務練習，幫助您探索 Fairlearn 套件及其與 Azure Machine Learning 的整合。但是，在使用這些工具之前，組織或資料科學團隊必須先討論與公平性相關的大量注意事項。公平性是一項複雜的*社會技術*挑戰，而不僅是運行工具以分析模型。
>
> Microsoft Research 已共同開發 [公平性檢查清單](https://www.microsoft.com/en-us/research/publication/co-designing-checklists-to-understand-organizational-challenges-and-opportunities-around-fairness-in-ai/)，可為編寫代碼之前需要進行的重要討論提供良好的起點。

## 安裝必要 SDK

若要將 Fairlearn 套件與 Azure Machine Learning 搭配使用，您需要 Azure Machine Learning 和 Fairlearn Python 套件，因此請執行以下資料格，驗證是否已安裝 **azureml-contrib-fairness** 套件。

In [None]:
pip show azureml-contrib-fairness

您還會需要 **fairlearn** 套件本身和 **raiwidgets** 套件 (Fairlearn 運用該套件來將儀表板視覺化)。執行下列資料格以進行安裝。

In [None]:
pip install --upgrade fairlearn==0.7.0 raiwidgets

## 將模型定型

首先您將定型一個分類模型，用於預測糖尿病的可能性。除了將資料分為特徵和標籤的定型集與測試集外，您還將提取*敏感*特徵，這些特徵會用於定義要比較公平性的資料子群。在此案例中，您將使用 **年齡** 資料行定義兩類患者：50 歲以上，和 50 歲或以下。

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('data/diabetes.csv')

# Separate features and labels
features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
X, y = data[features].values, data['Diabetic'].values

# Get sensitive features
S = data[['Age']].astype(int)
# Change value to represent age groups
S['Age'] = np.where(S.Age > 50, 'Over 50', '50 or younger')

# Split data into training set and test set
X_train, X_test, y_train, y_test, S_train, S_test = train_test_split(X, y, S, test_size=0.20, random_state=0, stratify=y)

# Train a classification model
print("Training model...")
diabetes_model = DecisionTreeClassifier().fit(X_train, y_train)

print("Model trained.")

現在您已經將一個模型定型，您可以使用 Fairlearn 套件來比較其針對不同敏感特徵值的行為。在此案例中，您將：

- 使用 fairlearn **selection_rate** 函式傳回總體人口的選擇率 (積極預測的百分比)。
- 使用 **scikit-learn** 度量函式來計算整體準確度、召回率和精確度度量。
- 使用 **MetricFrame** 計算 **年齡** 敏感特徵中，每個年齡群組的選擇率、準確度、召回率和精確度。請注意，**fairlearn** 和 **scikit-learn** 度量函式的組合用於計算效能值。

In [None]:
from fairlearn.metrics import selection_rate, MetricFrame
from sklearn.metrics import accuracy_score, recall_score, precision_score

# Get predictions for the witheld test data
y_hat = diabetes_model.predict(X_test)

# Get overall metrics
print("Overall Metrics:")
# Get selection rate from fairlearn
overall_selection_rate = selection_rate(y_test, y_hat) # Get selection rate from fairlearn
print("\tSelection Rate:", overall_selection_rate)
# Get standard metrics from scikit-learn
overall_accuracy = accuracy_score(y_test, y_hat)
print("\tAccuracy:", overall_accuracy)
overall_recall = recall_score(y_test, y_hat)
print("\tRecall:", overall_recall)
overall_precision = precision_score(y_test, y_hat)
print("\tPrecision:", overall_precision)

# Get metrics by sensitive group from fairlearn
print('\nMetrics by Group:')
metrics = {'selection_rate': selection_rate,
           'accuracy': accuracy_score,
           'recall': recall_score,
           'precision': precision_score}

group_metrics = MetricFrame(metrics=metrics,
                             y_true=y_test,
                             y_pred=y_hat,
                             sensitive_features=S_test['Age'])

print(group_metrics.by_group)

從這些度量中，您應該能夠辨別出更大比例的老年患者預計患有糖尿病。兩組的 *準確度* 應該或多或少相等，但更仔細地檢查 *精確度* 和 *召回率* 後，可發現模型對每個年齡群組的預測效果存在一些差異。

在此案例中，請考量 *召回率*。此度量表示模型正確識別的陽性病例比例。換句話說，在實際上有糖尿病的所有患者中，模型能找出多少個？與年輕患者相比，該模型對老年患者的效果更好。

用視覺比較度量通常更容易。如果要這樣做，您將使用 Fairlearn 公平性儀表板：

1.執行下列資料格，以從您先前建立的模型產生儀表板。
2.當小工具顯示時，使用 **開始使用** 連結開始設定您的視覺化。
3.選取您要比較的敏感性特徵 (在此案例中只有一項：**年齡**)。
4.選取您要比較的模型效能度量 (在此案例中為二進位分類模型，因此選項為 *準確度*、*平衡準確度*、*精確度* 和 *召回率*)。從 **召回率** 開始。
5.選取您要檢視的公平性比較類型。從 **人口均等差額** 開始。
6.檢視儀表板圖表，其中顯示：
    - **選擇率** - 每個子群陽性病例數的比較。
    - **誤判為真和誤判為否率** - 子群中所選的效能度量比較的結果，包括 *預測不足* (誤判為否) 和 *預測超過* (誤判為真)。
7.編輯設定，以根據不同的效能和公平性度量比較預測。

In [None]:
from raiwidgets import FairnessDashboard

# View this model in Fairlearn's fairness dashboard, and see the disparities which appear:
FairnessDashboard(sensitive_features=S_test,
                   y_true=y_test,
                   y_pred={"diabetes_model": diabetes_model.predict(X_test)})

結果顯示，50 歲以上的患者比起年輕患者有更高的選擇率。然而，實際上，年齡是糖尿病的一個確實因素，因此您會預期在老年患者中出現更多陽性病例。

如果我們將模型效能基於 *準確度* (也就是模型正確預測的百分比)，那麼模型對兩個子群的效能似乎或多或少相同。然而，如果基於 *精確度* 和 *召回率* 度量，則模型對 50 歲以上的患者表現較好。

讓我們看看，如果在定型模型時排除 **年齡** 特徵，會發生什麼情況。

In [None]:
# Separate features and labels
ageless = features.copy()
ageless.remove('Age')
X2, y2 = data[ageless].values, data['Diabetic'].values

# Split data into training set and test set
X_train2, X_test2, y_train2, y_test2, S_train2, S_test2 = train_test_split(X2, y2, S, test_size=0.20, random_state=0, stratify=y2)

# Train a classification model
print("Training model...")
ageless_model = DecisionTreeClassifier().fit(X_train2, y_train2)
print("Model trained.")

# View this model in Fairlearn's fairness dashboard, and see the disparities which appear:
FairnessDashboard(sensitive_features=S_test2,
                   y_true=y_test2,
                   y_pred={"ageless_diabetes_model": ageless_model.predict(X_test2)})

探索儀表板中的模型。

當您查看 *召回率* 時，請注意差異已減少，但整體召回率也已減少，因為該模型現在大幅低估了老年患者的陽性病例。儘管 **年齡** 不是定型中使用的特徵，但該模型在預測老年和年輕患者的效果仍然表現出一些差異。

在這種情況下，只刪除 **年齡** 特徵會稍微降低 *召回率* 的差異，但會增加 *精確度* 和 *準確度* 的差異。這強調了將公平性套用至機器學習模型的主要難點之一 - 您必須釐清 *公平性* 在特定上下文中的含義，並對此進行優化。

## 註冊模型並將儀表板資料上傳到您的工作區

您已經在此筆記本中定型了模型，並在本地查看了儀表板；但若能在您的 Azure Machine Learning 工作區中註冊模型，並創建實驗來記錄儀表板資料，可能會很有幫助，因為這樣您就可以追蹤和共享您的公平性分析。

讓我們從註冊原始模型開始 (其中包括 **年齡** 作為特徵)。

> **注意**：如果您尚未使用 Azure 訂用帳戶建立已驗證的工作階段，則系統會提示您按一下連結、輸入驗證碼並登入 Azure 來進行驗證。

In [None]:
from azureml.core import Workspace, Experiment, Model
import joblib
import os

# Load the Azure ML workspace from the saved config file
ws = Workspace.from_config()
print('Ready to work with', ws.name)

# Save the trained model
model_file = 'diabetes_model.pkl'
joblib.dump(value=diabetes_model, filename=model_file)

# Register the model
print('Registering model...')
registered_model = Model.register(model_path=model_file,
                                  model_name='diabetes_classifier',
                                  workspace=ws)
model_id= registered_model.id


print('Model registered.', model_id)

現在，您可以使用 FairLearn 套件為一個或多個模型建立二進位分類群組度量集，並使用 Azure Machine Learning 實驗上傳度量。

> **注意**：這可能需要一段時間，並且可能會導致一些警告訊息 (您可以忽略這些警告)。當實驗完成後，系統便會下載並顯示儀表板資料，以驗證資料已成功上傳。

In [None]:
from fairlearn.metrics._group_metric_set import _create_group_metric_set
from azureml.contrib.fairness import upload_dashboard_dictionary, download_dashboard_by_upload_id

#  Create a dictionary of model(s) you want to assess for fairness 
sf = { 'Age': S_test.Age}
ys_pred = { model_id:diabetes_model.predict(X_test) }
dash_dict = _create_group_metric_set(y_true=y_test,
                                    predictions=ys_pred,
                                    sensitive_features=sf,
                                    prediction_type='binary_classification')

exp = Experiment(ws, 'mslearn-diabetes-fairness')
print(exp)

run = exp.start_logging()

# Upload the dashboard to Azure Machine Learning
try:
    dashboard_title = "Fairness insights of Diabetes Classifier"
    upload_id = upload_dashboard_dictionary(run,
                                            dash_dict,
                                            dashboard_name=dashboard_title)
    print("\nUploaded to id: {0}\n".format(upload_id))

    # To test the dashboard, you can download it
    downloaded_dict = download_dashboard_by_upload_id(run, upload_id)
    print(downloaded_dict)
finally:
    run.complete()

上述程式碼會下載實驗中產生的度量，以確認實驗成功完成。將度量上傳到實驗的真正好處，是您現在可以在 Azure Machine Learning 工作室中檢視 FairLearn 儀表板。

執行下列資料格以檢視實驗詳細資料，然後按一下小工具中的 [檢視執行詳細資料] 連結，以查看在 Azure Machine Learning 工作室中的執行。然後檢視實驗運行的 **公平性** 索引標籤，以查看指派給您上傳度量的公平性 ID 儀表板，其行為方式與您之前在此筆記本中查看的小工具相同。

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

您還可以在 Azure Machine Learning 工作室的 **模型** 頁面中選擇一個模型並查看其 **公平性** 索引標籤，藉此來找到公平性儀表板。這使您的組織能夠維護您定型和註冊的模型公平性分析日誌。

## 減緩模型中的不公平性

現在您已經分析了模型的公平性，因此可以使用 FairLearn 套件支持的任何 *減緩* 技術，來找到平衡預測效能和公平性的模型。

在本練習中，您將使用 **GridSearch** 特徵，該特徵可定型多個模型，以盡量減少資料集中敏感特徵 (在本例中為年齡組) 的預測效能差異。您將透過套用 **EqualizedOdds** 同位條件約束來最佳化模型，該條件約束試圖確保模型對每個敏感特徵分組表現出相似的真假陽性率。

> *這可能需要一些時間來執行*

In [None]:
from fairlearn.reductions import GridSearch, EqualizedOdds
import joblib
import os

print('Finding mitigated models...')

# Train multiple models
sweep = GridSearch(DecisionTreeClassifier(),
                   constraints=EqualizedOdds(),
                   grid_size=20)

sweep.fit(X_train, y_train, sensitive_features=S_train.Age)
models = sweep.predictors_

# Save the models and get predictions from them (plus the original unmitigated one for comparison)
model_dir = 'mitigated_models'
os.makedirs(model_dir, exist_ok=True)
model_name = 'diabetes_unmitigated'
print(model_name)
joblib.dump(value=diabetes_model, filename=os.path.join(model_dir, '{0}.pkl'.format(model_name)))
predictions = {model_name: diabetes_model.predict(X_test)}
i = 0
for model in models:
    i += 1
    model_name = 'diabetes_mitigated_{0}'.format(i)
    print(model_name)
    joblib.dump(value=model, filename=os.path.join(model_dir, '{0}.pkl'.format(model_name)))
    predictions[model_name] = model.predict(X_test)


現在您可使用 FairLearn 儀表板來比較減緩的模型：

執行下列資料格，然後使用精靈來依 **召回率** 視覺化 **年齡**。

In [None]:
FairnessDashboard(sensitive_features=S_test,
                   y_true=y_test,
                   y_pred=predictions)

模型顯示在散佈圖上。您可以透過測量預測的差異 (即選擇率) 或所選效能度量的差異 (在本例中為 *召回率*) 來比較模型。在此案例中，我們預期選擇率會存在差異 (因為我們知道年齡*是*糖尿病的因素，而在老年組中陽性病例更多)。我們感興趣的是預測效能的差異，因此選取選項以度量 **召回率差異**。

該圖表顯示模型叢集，X 軸為整體 *召回率* 度量，Y 軸為召回率差異。因此，理想的模型 (具有高召回率和低差異) 將位於圖的右下角。您可以根據特定需求在預測效能和公平性之間選擇適當的平衡，並選擇合適的模型來檢視其詳細資料。

需要強調的重點是，對模型套用公平性減緩時，便是在整體預測效能和敏感特徵群組之間的差異進行權衡 - 通常您必須犧牲一些整體預測效能，才能確保模型對人口的所有分組進行公平預測。

> **注意**：檢視 *精確度* 度量可能導致警告，告知由於沒有預測樣本，精度會設定為 0.0 - 您可以忽略此警告。

## 將減緩儀表板度量上傳至 Azure Machine Learning

和以前一樣，您可能希望追蹤您的減緩實驗。若要這樣做，您可以：

1.註冊 GridSearch 程序中找到的模型。
2.計算模型的效能和差異度量。
3.上傳 Azure Machine Learning 實驗中的度量。

In [None]:
# Register the models
registered_model_predictions = dict()
for model_name, prediction_data in predictions.items():
    model_file = os.path.join(model_dir, model_name + ".pkl")
    registered_model = Model.register(model_path=model_file,
                                      model_name=model_name,
                                      workspace=ws)
    registered_model_predictions[registered_model.id] = prediction_data

#  Create a group metric set for binary classification based on the Age feature for all of the models
sf = { 'Age': S_test.Age}
dash_dict = _create_group_metric_set(y_true=y_test,
                                     predictions=registered_model_predictions,
                                     sensitive_features=sf,
                                     prediction_type='binary_classification')

exp = Experiment(ws, "mslearn-diabetes-fairness")
print(exp)

run = exp.start_logging()
RunDetails(run).show()

# Upload the dashboard to Azure Machine Learning
try:
    dashboard_title = "Fairness Comparison of Diabetes Models"
    upload_id = upload_dashboard_dictionary(run,
                                            dash_dict,
                                            dashboard_name=dashboard_title)
    print("\nUploaded to id: {0}\n".format(upload_id))
finally:
    run.complete()

> **注意**：可能顯示警告，告知由於沒有預測樣本，精度會設定為 0.0 - 您可以忽略此警告。


實驗執行完成後，按一下小工具中的 **檢視執行詳細資料** 連結以檢視 Azure Machine Learning 工作室中的執行 (您可能需要滾動跳過初始輸出才能看到小工具)，然後檢視 **公平性** 索引標籤上的 FairLearn 儀表板。