# 監視資料漂移

經過一段時間之後，模型在預測的準確性上，可能會因為特性資料趨勢的改變而變差。此現象稱為「資料漂移」**。請務必監視機器學習解決方案來偵測資料漂移，以在必要時重新訓練模型。

在此實驗室裡，您將為資料集設定資料漂移監視。

## 開始之前

除了最新版的 **azureml-sdk** 和 **azureml-widgets** 之外，您還需要 **azureml-datadrift** 套件，才能執行此筆記本的程式碼。請執行下列儲存格，確定是否已安裝。

In [None]:
pip show azureml-datadrift

## 連線到您的工作區

安裝所需的 SDK 套件後，就可以開始連線到工作區。

> **注意**：若您尚未使用 Azure 訂閱，建立通過驗證的工作階段，將會提示您按一下連結、輸入驗證碼登入 Azure 來進行驗證。

In [None]:
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to work with', ws.name)

## 建立「基準」**資料集

若要監視資料集的資料漂移，必須註冊「基準」**資料集 (通常是用以訓練模型的資料集)，作為未來收集之資料的比較點。

In [None]:
from azureml.core import Datastore, Dataset
from azureml.data.datapath import DataPath

# Upload the baseline data
default_ds = ws.get_default_datastore()
Dataset.File.upload_directory(src_dir='data',
                              target=DataPath(default_ds, 'diabetes-data/')
                              )

# Create and register the baseline dataset
print('Registering baseline dataset...')
baseline_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, 'diabetes-baseline/*.csv'))
baseline_data_set = baseline_data_set.register(workspace=ws, 
                           name='diabetes baseline',
                           description='diabetes baseline data',
                           tags = {'format':'CSV'},
                           create_new_version=True)

print('Baseline dataset registered!')

## 建立「目標」**資料集

您可能會在經過一段時間之後，收集到具備基準訓練資料相同特性的新資料。若要比較新資料與基準資料，必須定義目標資料集，在其中加入要用於分析資料漂移的特性，並加入時間戳記欄位，指出新資料當下的時間點。如此一來，您就能測量短期間內的資料漂移。時間戳記可以是資料集本身的欄位，也可以衍生自用以儲存資料的資料夾和檔案名稱樣式。例如，您可能會將新的資料，儲存在以年份命名之資料夾組成的資料夾階層中，資料夾中包含了以月份命名的資料夾，而以月份命名的資料夾，又包含以天命名的資料夾；或者您可能以類似於下列格式，在檔案名稱中加入年、月和日：*data_2020-01-29. csv*。下列程式碼便是採取此方式：

In [None]:
import datetime as dt
import pandas as pd

print('Generating simulated data...')

# Load the smaller of the two data files
data = pd.read_csv('data/diabetes2.csv')

# We'll generate data for the past 6 weeks
weeknos = reversed(range(6))

file_paths = []
for weekno in weeknos:
    
    # Get the date X weeks ago
    data_date = dt.date.today() - dt.timedelta(weeks=weekno)
    
    # Modify data to ceate some drift
    data['Pregnancies'] = data['Pregnancies'] + 1
    data['Age'] = round(data['Age'] * 1.2).astype(int)
    data['BMI'] = data['BMI'] * 1.1
    
    # Save the file with the date encoded in the filename
    file_path = 'data/diabetes_{}.csv'.format(data_date.strftime("%Y-%m-%d"))
    data.to_csv(file_path)
    file_paths.append(file_path)

# Upload the files
path_on_datastore = 'diabetes-target'
default_ds.upload_files(files=file_paths,
                       target_path=path_on_datastore,
                       overwrite=True,
                       show_progress=True)

# Use the folder partition format to define a dataset with a 'date' timestamp column
partition_format = path_on_datastore + '/diabetes_{date:yyyy-MM-dd}.csv'
target_data_set = Dataset.Tabular.from_delimited_files(path=(default_ds, path_on_datastore + '/*.csv'),
                                                       partition_format=partition_format)

# Register the target dataset
print('Registering target dataset...')
target_data_set = target_data_set.with_timestamp_columns('date').register(workspace=ws,
                                                                          name='diabetes target',
                                                                          description='diabetes target data',
                                                                          tags = {'format':'CSV'},
                                                                          create_new_version=True)

print('Target dataset registered!')

## 建立資料漂移監視器

您現在已可開始建立糖尿病資料的資料漂移監視器。資料漂移監視器會定期或隨選執行，比較基準資料集與目標資料集，而目標資料集中則會加入一段時間內收集到的新資料。

### 建立計算目標

若要執行資料漂移監視器，便需要有計算目標。您可以執行下列儲存格來指定計算叢集 (若無此叢集，將會自動建立)。

> **重要**：請先將 *your-compute-cluster* 變更成您下列程式碼中的計算叢集名稱，然後再執行！叢集名稱在全域中不可重複，且長度必須介於 2 到 16 個字元。有效字元包括字母、數字及 - 字元。

In [None]:
from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

cluster_name = "your-compute-cluster"

try:
    # Check for existing compute target
    training_cluster = ComputeTarget(workspace=ws, name=cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # If it doesn't already exist, create it
    try:
        compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_DS11_V2', max_nodes=2)
        training_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
        training_cluster.wait_for_completion(show_output=True)
    except Exception as ex:
        print(ex)
    

> **注意**：計算執行個體和叢集採用標準 Azure 虛擬機器映像。此練習建議使用 *Standard_DS11_v2* 映像，以達到成本與效能的最佳平衡。若您訂閱的配額不包含此映像，請選擇備用映像；但請注意，映像愈大，可能產生的費用愈高，然而映像太小，又不足以完成工作。您也可以要求您的 Azure 系統管理員提高您的配額。

### 定義資料偏移監視器

現在您已準備好使用 **DataDriftDetector**，為您的資料定義資料漂移監視器。您可以指定要監視資料漂移的特性；執行監視流程時所用之計算目標的名稱；比較資料的頻率；觸發警示的資料漂移閾值；以及允許資料收集的等待時間 (小時)。

In [None]:
from azureml.datadrift import DataDriftDetector

# set up feature list
features = ['Pregnancies', 'Age', 'BMI']

# set up data drift detector
monitor = DataDriftDetector.create_from_datasets(ws, 'mslearn-diabates-drift', baseline_data_set, target_data_set,
                                                      compute_target=cluster_name, 
                                                      frequency='Week', 
                                                      feature_list=features, 
                                                      drift_threshold=.3, 
                                                      latency=24)
monitor

### 回填資料偏移監視器

您有一個基準資料集和一個目標資料集，包含了每週的模擬資料收集，共六週。您可以使用此資料集回填監視器，交由其分析原始基準與目標資料之間的資料漂移。

> **注意**：因為必須啟動計算目標執行回填分析，所以這可能需要一些時間執行。Widget 不一定會更新其顯示的狀態，因此請按一下連結，觀察 Azure Machine Learning 工作室中的實驗狀態！

In [None]:
from azureml.widgets import RunDetails

backfill = monitor.backfill(dt.datetime.now() - dt.timedelta(weeks=6), dt.datetime.now())

RunDetails(backfill).show()
backfill.wait_for_completion()

## 分析資料漂移

您可以使用下列程式碼，檢查回填執行中所收集之時間點的資料漂移。

In [None]:
drift_metrics = backfill.get_metrics()
for metric in drift_metrics:
    print(metric, drift_metrics[metric])

您也可以遵循下列步驟，以圖表顯示 [Azure Machine Learning 工作室] (https://ml.azure.com) 中的資料漂移計量：

1.在 [資料]**** 頁面上，檢視 [資料集監視器]**** 索引標籤。
2.按一下您要檢視的資料漂移監視器。
3.選取您要檢視資料漂移計量的日期範圍 (若直條圖未顯示多週的資料，請稍待一分鐘左右的時間，然後按一下 [重新整理]****)。
4.檢查頂端 [漂移概觀]**** 區段中的圖表，其中會顯示整體漂移範圍，以及每項特性的漂移比重。
5.探索底部 [特性詳細資訊]**** 區段中的圖表，從中了解個別特性的各種漂移計量。

> **注意**：若要了解資料漂移計量的詳細資訊，請參閱 Azure Machine Learning 文件中的 ［如何監視資料集］ (https://docs.microsoft.com/zh-tw/azure/machine-learning/how-to-monitor-datasets?tabs=python) (機器翻譯)。

## 進一步探索

本實驗室的設計在介紹資料漂移監視的概念和原則。若要深入了解如何使用資料集，監視資料漂移的詳細資訊，請參閱 Azure Machine Learning 文件中的 [偵測資料集的資料漂移] (https://docs.microsoft.com/zh-tw/azure/machine-learning/how-to-monitor-datasets?tabs=python) (機器翻譯)。

您也可以從已發佈的服務收集資料，作為資料漂移監視的目標資料集。如需詳細資訊，請參閱 [從生產環境中的模型收集資料] (https://docs.microsoft.com/azure/machine-learning/how-to-enable-data-collection) (機器翻譯)。
