# 探索差異隱私權

機器學習專案通常牽涉到反覆處理資料分析，以取得資料見解，並判斷哪些變數最有可能幫助建置預測模型。分析資料通常會涉及彙總和統計函式，以提供變數的統計分佈，以及它們之間的關聯性見解。使用大量資料時，彙總會提供某種層級的抽象概念；但如果資料量較少或重複分析的話，就連彙總結果都可能顯示個別觀察的詳細資料。

*差異隱私權* 是一項技術，旨在將「雜訊」新增至資料，以維護個別資料點的隱私。其目標是確保新增足夠雜訊，以為個別值提供隱私，同時確保資料的整體統計組成保持一致，而且彙總會產生與原始未經處理資料搭配使用時的類似統計結果。

## 安裝 SmartNoise SDK

[*SmartNoise*](https://smartnoise.org/) 是來自 OpenDP 的工具組；這是一項 Microsoft、Harvard 大學和其他參與者之間的聯合專案，其目標是要提供建置組塊，以在資料分析和機器學習專案中使用差異隱私權。

> **注意**：SmartNoise 目前處於開發的初期階段。

讓我們從安裝 SmartNoise Python SDK 套件著手。在本練習中，您可以忽略任何與 Azure CLI 相容性有關的錯誤。

In [None]:
pip install opendp-smartnoise==0.1.4.2

## 載入資料

現在我們就來看看部分未經處理資料。在此案例中，我們有 10,000 項已接受糖尿病測試患者的記錄集。

In [None]:
import pandas as pd

data_path = 'data/diabetes.csv'
diabetes = pd.read_csv(data_path)
diabetes.describe()

上方程式碼輸出顯示糖尿病資料集中變數的關鍵摘要統計資料。

## 執行分析

您可以使用 SmartNoise 來建立分析，其中已將雜訊新增至來源資料。如何新增雜訊的基礎數學運算相當複雜，但 SmartNois 會為您處理大多數的細節。不過，有幾個有用的概念需要注意。

- **上限和下限**：*壓制 (Clamping)* 是用來設定變數值的上限和下限。這是為了確保 SmartNoise 所產生的雜訊，與未經處理資料的預期分佈一致。
- **取樣大小**：若要為部分彙總產生一致的差異隱私權資料，SmartNoise 必須了解要產生的資料樣本大小。
- **Epsilon**：簡單來說，*epsilon* 是一項非負數值，可提供新增至資料之雜訊數量的反向量值。較低的 epsilon 會導致資料集具有較高的隱私權層級，而較高的 epsilon 則會產生接近原始資料的資料集。一般來說，您應該使用介於 0 和 1 之間的 epsilon 值。Epsilon 與名為 *delta* 的另一個值相互關聯，這顯示由一項分析所產生的報表可能不是完全私人。

在了解這些概念之後，請檢查並執行下列程式碼，該程式碼會建立一項分析，並報告差異隱私權資料的 **Age** 值平均值。也會顯示原始未經處理資料的實際平均值，以供比較。

In [None]:
import opendp.smartnoise.core as sn

cols = list(diabetes.columns)
age_range = [0.0, 120.0]
samples = len(diabetes)

with sn.Analysis() as analysis:
    # load data
    data = sn.Dataset(path=data_path, column_names=cols)
    
    # Convert Age to float
    age_dt = sn.to_float(data['Age'])
    
    # get mean of age
    age_mean = sn.dp_mean(data = age_dt,
                          privacy_usage = {'epsilon': .50},
                          data_lower = age_range[0],
                          data_upper = age_range[1],
                          data_rows = samples
                         )
    
analysis.release()

# print differentially private estimate of mean age
print("Private mean age:",age_mean.value)

# print actual mean age
print("Actual mean age:",diabetes.Age.mean())

## 使用長條圖探索資料分佈

在使用長條圖分析資料以檢查變數的分佈時，這種情況十分常見。

例如，讓我們看看糖尿病資料集內的實際年齡分佈。

In [None]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

ages = list(range(0, 130, 10))
age = diabetes.Age

# Plot a histogram with 10-year bins
n_age, bins, patches = plt.hist(age, bins=ages, color='blue', alpha=0.7, rwidth=0.85)
plt.grid(axis='y', alpha=0.75)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('True Age Distribution')
plt.show()
print(n_age.astype(int))

現在，讓我們將該分佈與年齡的差異隱私權長條圖相比較。

In [None]:
import matplotlib.pyplot as plt

with sn.Analysis() as analysis:
    data = sn.Dataset(path = data_path, column_names = cols)

    age_histogram = sn.dp_histogram(
            sn.to_int(data['Age'], lower=0, upper=120),
            edges = ages,
            upper = 10000,
            null_value = -1,
            privacy_usage = {'epsilon': 0.5}
        )
    
analysis.release()

plt.ylim([0,7000])
width=4
agecat_left = [x + width for x in ages]
agecat_right = [x + 2*width for x in ages]
plt.bar(list(range(0,120,10)), n_age, width=width, color='blue', alpha=0.7, label='True')
plt.bar(agecat_left, age_histogram.value, width=width, color='orange', alpha=0.7, label='Private')
plt.legend()
plt.title('Histogram of Age')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

print(age_histogram.value)

該長條圖與分佈非常類似，可確保以差異隱私權資料為基礎的報表，會提供與未經處理資料之報表相同的見解。

## 計算共變數

分析的另一項常見目標是建立變數之間的關聯性。SmartNoise 提供了差異隱私權 *共變數* 函式，可以幫助達成此一目標。

In [None]:
with sn.Analysis() as analysis:
    sn_data = sn.Dataset(path = data_path, column_names = cols)

    age_bp_cov_scalar = sn.dp_covariance(
                left = sn.to_float(sn_data['Age']),
                right = sn.to_float(sn_data['DiastolicBloodPressure']),
                privacy_usage = {'epsilon': 1.0},
                left_lower = 0.,
                left_upper = 120.,
                left_rows = 10000,
                right_lower = 0.,
                right_upper = 150.,
                right_rows = 10000)
analysis.release()
print('Differentially private covariance: {0}'.format(age_bp_cov_scalar.value[0][0]))
print('Actual covariance', diabetes.Age.cov(diabetes.DiastolicBloodPressure))

在此情況下，**Age** 與 **DisatolicBloodPressure** 之間的共變數是正數，指出年齡較高的患者，通常會有較高的血壓。

## 使用 SQL 查詢

除了 **Analysis** 功能以外，SmartNoise 還可讓您針對資料來源使用 SQL 查詢，以擷取差異隱私權彙總結果。

首先，您需要為資料結構描述內的資料表定義中繼資料。您可以在 yml 檔案中執行此動作，例如 **/metadata** 資料夾中的 **diabetes.yml** 檔案。中繼資料可描述資料表中的欄位，包含資料類型和數值欄位的最大值。

In [None]:
from opendp.smartnoise.metadata import CollectionMetadata

meta = CollectionMetadata.from_file('metadata/diabetes.yml')
print (meta)

在定義中繼資料之後，您可以建立可供查詢的 *readers*。在下列範例中，我們會建立 **PandasReader** 來讀取 Pandas 資料框架的未經處理資料，並建立一個 **PrivateReader**，其可將差異隱私權層新增至 **PandasReader**。

In [None]:
from opendp.smartnoise.sql import PandasReader, PrivateReader

reader = PandasReader(diabetes, meta)
private_reader = PrivateReader(reader=reader, metadata=meta, epsilon_per_column=0.7)
print('Readers ready.')

現在，您可以將傳回彙總結果集的 SQL 查詢提交給私人讀取器。

In [None]:
query = 'SELECT Diabetic, AVG(Age) AS AvgAge FROM diabetes.diabetes GROUP BY Diabetic'

result_dp = private_reader.execute(query)
print(result_dp)

讓我們將結果與未經處理資料的相同彙總進行比較。

In [None]:
result = reader.execute(query)
print(result)

您可以使用 **epsilon_per_column parameter** 自訂 **PrivateReader** 的行為。

我們來試試具有高 epsilon (低隱私權) 值的讀取器，以及另一具有低 epsilon (高隱私權) 值的讀取器。

In [None]:
low_privacy_reader = PrivateReader(reader, meta, 5.0)  # large epsilon, less privacy
result = low_privacy_reader.execute(query)
print(result)
print()

high_privacy_reader = PrivateReader(reader, meta, 0.1)  # smaller epsilon, more privacy
result = high_privacy_reader.execute(query)
print(result)

您可以注意到，高 epsilon (低隱私權) 讀取器的結果，較低 epsilon (高隱私權) 讀取器更接近未經處理資料的真實結果。

## 深入了解

若要深入了解差異隱私權與 SmartNoise，請參閱 [https://smartnoise.org](https://smartnoise.org/)