# HierA方法 方案设计

### 一、符号定义
$$\begin{array}{c|c}
\hline
{符号}&{描述}\\
\hline
{U=\{u_1,u_2,...,u_n\}}&{用户集，u_i表示第i个用户}\\
\hline
V = \{v_1,v_2,...,v_n\}& 用户数据集，v_i表示用户u_i的数据\\
\hline
D = \{D_1,D_2,...,D_n\}& 数据值域按隐私等级划分的子区间\\
\hline
\varepsilon =\{\epsilon_1,\epsilon_2,...,\epsilon_n\}&数据的隐私预算集合\\
\hline
t_i & 数据v_i的隐私等级\\
\hline
m & 用户数据的真实均值\\
\hline
m^* & 用户数据的估计均值\\
\hline
\end{array}$$

### 二、数值型数据的分级收集

In [2]:
import numpy as np
import pandas as pd
import random
import math

In [3]:
from Harmony import Harmony
from PiecewiseMechanism import PiecewiseMechanism as PM
from multi_laplace import MultiLaplace  as Multi_Laplace

###### 算法1. 本地分级扰动方法（LHP算法）：
__输入：__ 用户数据$v$，数据值域的子区间划分$D=\{D_1,D_2,...,D_k\}$，各子区间相对应的隐私预算集合$ \varepsilon = \{\epsilon_1,\epsilon_2,...\epsilon_k\}$。

__输出：__ 扰动后的用户数据$<t^*,v^*>$。
- __步骤1__ 根据$v$所处区间，查询到其应采取的隐私等级$t，t\in \{1,2,...,k\}$；
- __步骤2__ 使用GRR方法对$t$进行扰动，得到扰动后的$t^*=GRR(t, \epsilon_t)$；
- __步骤3__ 使用用harmony方法对$v$进行离散扰动，得到扰动后的$v^*=Harmony(v, \epsilon_t^*)$；
- __步骤4__ 返回扰动后的$<t^*,v^*>$。

算法1主要完成用户在本地对数据的隐私化处理。其中我们假设数据值域子区间的隐私等级从低到高排列，相对应的各隐私预算依次降低即$\epsilon_1>\epsilon_2>...>\epsilon_k$。

In [4]:
class user:
    def __init__(self, range_division: tuple, epsilons: tuple):
        self.range_division = range_division
        self.epsilons = epsilons
        self.levels = tuple(i for i in range(1, len(epsilons)+1))
        
    def get_level(self, value: float):
        '''根据数据所在子区间，得到相应的隐私等级'''
        v = value
        if not -1 <= v <= 1:
            raise Exception('输入值：{}，不在[-1,1]内'.format(v))
        for i in range(len(self.range_division)):
            if v < self.range_division[i]:
                return i
        return self.levels[-1]
    def per_level(self, level, epsilon: float):
        '''对隐私等级进行扰动'''
        levels = list(self.levels)
        p = np.e**epsilon / (np.e**epsilon + len(levels)-1)
        if random.random() < p:
            return level
        else:
            levels.remove(level)
            return random.choice(levels)
    
    def per_value(self, value: float, epsilon: float):
        '''对用户数据进行扰动'''
        v = value
        if not -1 <= v <= 1:
            raise Exception('输入值：{}，超限'.format(v))
        
        rnd_1 = random.random()
        v_ = -1 if rnd_1 < (1-v)/2 else 1
        
        p = np.e ** epsilon / (np.e ** epsilon + 1)
        rnd_2 = random.random()
        v_ = v_ if rnd_2 < p else -v_
        return v_
    
    def lhp(self, value):
        '''用户数据的本地扰动'''
        level = self.get_level(value)
        p_level = self.per_level(level, self.epsilons[level-1])
        p_value = self.per_value(value, self.epsilons[p_level-1])
        return (p_level, p_value)

##### 算法2 收集端的隐私等级转换方法（PLC算法）：
__输入：__ 隐私等级为i的数据集$V_i$，目标隐私等级$j$以及与隐私等级相对应的隐私预算$\epsilon_i,\epsilon_j$。

__输出：__ 转换后的隐私等级为$j$的数据集集合$V_{ij}$。
- __步骤1__ 对$V_i$中的每个数据$v$进行一下扰动：
- __步骤2__ 计算$p_i = \frac{e^{\epsilon_i}}{e^{\epsilon_i}+1},p_j=\frac{e{\epsilon_j}}{e^{\epsilon_j}+1}$
- __步骤3__ 对$V_i$中的每个数据$v$进行以下操作：
- __步骤4__ 从[0,1]中均匀随机的抽取$x$，
- __步骤5__ 如果 $x < \frac{p_i+p_j-1}{2p_i-1}$，则 $v^* = v$
- __步骤6__ 否则$v^* = -v$
- __步骤7__ 返回等级转换后的数据集$V_{ij}$。

算法2主要实现用户数据的可重复使用，增加可用的数据量从而提高数据分析时的准确性。具体地，通过二次扰动将低等级的数据转换成高等级的数据，从而大幅增加每一隐私等级内的数据量。

##### 算法3 数值型数据的分级收集方法（HierA算法）
__输入：__ 用户数据集$V=\{v_1,v_2,...,v_n\}$，数据值域的子区间划分$D=\{D_1,D_2,...,D_n\}$，与区间划分相对应的隐私预算集合$\varepsilon = \{ \epsilon_1,\epsilon_2,...,\epsilon_n\}$, 数据量扩展倍数$\mu$。

__输出：__ 估计均值$m^*$。

__用户端__：
- __步骤1__ 用户$u_i$在本地采用LHP算法对自己的数据$v_i$进行扰动，得到扰动后的元组$<t_i^*,v_i^*> = LHP(D,\varepsilon,v_i)$。之后将元组$<t_i^*, v_i^*>$发送给数据收集方。

__收集端__:
- __步骤2__ 将接收到的用户数据按照隐私等级进行分类得到$\{V_1,V_2,...,V_k\}$；
- __步骤3__ 根据数据重复使用次数$\mu$，对分类后的数据集使用PLC算法进行转换，得到转换后的数据集$\{V_i,V_{i(i+1)},V_{i(i+2)},...,V_{i(i+\mu-1)}\}$，其中$V_{ij} = PLC(V_i,\epsilon_i,\epsilon_j)$。
- __步骤4__ 得到如下数据集矩阵，每一列代表一个隐私等级：
$$\begin{bmatrix}
V_1&V_{12}&\cdots&V_{1(1+\mu-1)}& & \\
 &V_2&V_{2(3)}&\cdots&V_{2(2+\mu-1)}&\\
 & &\ddots&\ddots&\ddots&\ddots \\
\end{bmatrix}$$
- __步骤5__ 将同一隐私等级的数据集进行合并，同时加入补偿数据集
    - for $i$ in $\{1,2,3,...,k\}$:
         - if $i+\mu-1 < k$:
            - $V_i^* = (\mu-k+i)V_i$
         - $V_i^* = V_i^* + V_{(i-1)i} + ... + V_{1i}$

    - 得到扩大后的数据集$V^* = \{V_1^*, V_2^*,...,V_k^*\}$
- __步骤6__ 对$V^*$中的每个数据集$V_i^*$进行以下操作：
    - 统计$V_i^*$中的1和-1数量，分别记做$n_1$和$n_2$；
    - $N = n_1 + n_2, p_i = \frac{e^{\epsilon_i}}{e^{\epsilon_i}+1}$
    - $n_1^* = \frac{p_i\cdot N - n_2}{2\cdot p_i-1}$
    - $n_2^* = \frac{p_i\cdot N - n_1}{2\cdot p_i-1}$
    - 对$n_1^*$和$n_2^*$进行校正，若大于N则令其等于N，若小于0则令其等于0。
    - $S(V_i^*) = n_1^* - n_2^*$
- __步骤7__ 计算均值$m^*$：$m^* = \frac{1}{|V^*|}\sum_{i=1}^kS(V_i^*)$
                 

算法3通过结合算法1和算法2，描述了在本地差分隐私下对数值型数据进行分级收集分析的全过程。详细描述了收集方从用户端收集完数据之后进行均值估计的过程。

In [5]:
class aggregator:
    def __init__(self, range_division: tuple, epsilons: tuple, mu: int):
        self.range_division = range_division
        self.epsilons = epsilons
        self.mu = mu
        self.levels = tuple(i for i in range(1, len(epsilons)+1))
        
    def classify(self, userdata: list) -> dict:
        '''对收集到的用户数据，按照隐私等级进行分类'''
        dataset = {k: [] for k in self.levels}
        for level, data in userdata:
            dataset[level].append(data)
        return dataset
    
    @staticmethod
    def plc(dataset: list, epsilon_i: float, epsilon_j: float) -> list:
        '''隐私等级转换机制'''
        if epsilon_i < epsilon_j:
            raise Exception('目标隐私等级{}输入错误'.format(epsilon_j))
        p_i = np.e ** epsilon_i / (np.e**epsilon_i+1)
        p_j = np.e ** epsilon_j / (np.e**epsilon_j+1)
        result = []
        for value in dataset:
            rnd = random.random()
            if rnd < (p_i+p_j-1) / (2*p_i-1):
                _v = value
            else:
                _v = -value
            result.append(_v)
        return result
    
    def data_expand(self, classified_data: dict)-> dict:
        '''对用户数据进行隐私等级转换以扩大数据量'''
        levels = self.levels
        epsilons = self.epsilons
        mu = self.mu

        result_data = { k : [v.copy()] for k, v in classified_data.items() }
        
        # 将低等级数据转换成高等级数据实现数据的重复使用
        for level, dataset in classified_data.items():
            for t_level in range(level+1, min(level+ mu,levels[-1]+1)): 
                result_data[level].append(self.plc(dataset, epsilons[level-1], epsilons[t_level-1]))
        # 合并相同隐私等级的数据
        last_result_data = {k : v.copy() for k, v in classified_data.items()}
        
        for j in last_result_data.keys():
            if j+mu-1 > self.levels[-1]:
                last_result_data[j] *= (mu - levels[-1] + j) 
                
            for i in range(j-1, max(0, j-mu), -1):
                last_result_data[j] += result_data[i][j-i]
        return last_result_data
    
    @staticmethod
    def _sum(dataset: list, epsilon: float):
        '''求和'''
        
        n_1 = dataset.count(1)
        n_2 = dataset.count(-1)
        n = n_1 + n_2
        p = np.e**epsilon / (np.e**epsilon+1)
        n_1_ = (n*p-n_2) / (2*p-1)
        n_2_ = (n*p-n_1) / (2*p-1)
        if not 0 <= n_1_ <= n:
            n_1_ = 0 if n_1_ < 0 else n
        if not 0 <= n_2_ <= n:
            n_2_ = 0 if n_2_ < 0 else n
        s = n_1_ - n_2_
        return s
    
    def average(self, userdata: list) -> float:
        '''求均值'''
        classified_data = self.classify(userdata)
        if self.mu == 1:
            expand_data = classified_data
        else:
            expand_data = self.data_expand(classified_data)
        s = 0
        n = 0
        for level, dataset in expand_data.items():
            n += len(dataset)
            s += self._sum(dataset, self.epsilons[level-1])
        m = s/n
        return m

In [6]:
def HierA(userdata: tuple, range_division: tuple, epsilons: tuple, mu = 2):
    '''put things together'''
    
    #用户端：
    lhp = user(range_division, epsilons).lhp
    send_data = list()
    for v in userdata:
        send_data.append(lhp(v))

    #收集端：
    average = aggregator(range_division, epsilons, mu).average
    m = average(send_data)
    return m

### 三、小批量随机梯度下降

以线性回归模型为例研究分级收集方法在随机梯度下降法中的应用。

假设每个用户拥有一组多元数据$<\boldsymbol{x_i}, y_i>$，其中$\boldsymbol{x_i} \in [-1,1]^d,y_i \in [-1,1]$。目标模型为线性模型$f(\boldsymbol x_i) = \boldsymbol \alpha^T\boldsymbol x_i + b$。
令$\boldsymbol\beta = [b,\alpha_1,\alpha_2,...,\alpha_d],\boldsymbol x_i =[1,x_{i1},x_{i2},...,x_{id}]$，则模型训练最终目标为得到参数向量$\boldsymbol\beta^*$，满足条件$$\boldsymbol\beta^* = arg\ \underset {\boldsymbol \beta}min[\frac{1}{n}\sum_{i=1}^nL(\boldsymbol\beta;\boldsymbol x_i,y_i)+\frac{\lambda}{2}\Vert \boldsymbol \beta \Vert^2_2]$$
其中$L(\cdot)$表示损失函数，$L(\boldsymbol \beta;\boldsymbol x_i,y_i)=(\boldsymbol x_i^T \beta - y_i)^2$；$\lambda$表示正则项系数。


小批量的随机梯度下降法求$\boldsymbol\beta^*$。具体地，首先初始化一个参数向量$\boldsymbol\beta^*_0$，然后按下式进行迭代更新:
$$\boldsymbol\beta_{t+1} = \boldsymbol\beta_t - \gamma_t\cdot \frac{1}{|G|}\sum_{i=1}^{|G|}\nabla R(\boldsymbol\beta_t;\boldsymbol x_i,y_i)$$

其中：
- $R(\boldsymbol\beta;\boldsymbol x_i,y_i)=L(\boldsymbol\beta;\boldsymbol x_i,y_i)+\frac{\lambda}{2}\Vert \boldsymbol \beta \Vert^2_2$；

- $\nabla R(\boldsymbol\beta;\boldsymbol x_i,y_i)$是$R(\boldsymbol\beta;\boldsymbol x_i,y_i)$在$\boldsymbol\beta_t$处的梯度；

- $\gamma_t$表示第$t$次迭代的学习效率，设$\gamma_t=O(1/\sqrt t) $
- $|G|$是每次进行迭代时所使用的样本点数,即每组用户数。$|G|=\Omega(\frac{d(log(d))}{\epsilon^2})$


在本地差分隐私环境下，收集方首先将初始化得到的参数向量$\boldsymbol\beta^*_0$发送给第一组用户，该组用户在本地根据收到的参数向量，计算得到梯度$\nabla R$，然后使用数值型数据的扰动算法对$\nabla R$进行扰动得到$\nabla R^*$并发送给收集方。收集方根据收集到的数据，求取均值。本文使用算法3实现对$\nabla R$的扰动和求均值。具体步骤见__算法4__。

在对梯度向量的分级扰动收集中，用户并不根据梯度向量中的各个偏导数$\frac{\partial R}{\partial \alpha_j}(\boldsymbol x_i,y_i)$的本身大小对其进行隐私分级，而是根据各偏导数对应的$\boldsymbol x_i$分量$x_{ij}$的大小对该偏导数进行隐私分级。为实验方便，我们将每维数据的值域平均分为5个子区间$\{[-1,-0.6),[-0.6,-0.2),[-0.2,0.2), [0.2,0.6),[0.6,1]\}$,相对应的隐私预算集合为$\{2\epsilon, 1.75\epsilon,1.5\epsilon,1.25\epsilon,\epsilon\}$。

在一般的随机梯度下降中每个样本数据往往需要参与多次循环迭代，直至参数向量变化足够小为止。然而，本地差分隐私环境下，如果每个样本点参与多次迭代，为保护用户隐私，用户每次所采用的隐私预算将会被严重分割，从而造成用户数据可用性急剧降低。因此，在本地差分隐私环境中，每个用户只参与一次循环迭代。

###### 算法4 小批量随机梯度下降
__输入：__ 用户集$U=\{u_1,u_2,...,u_n\}$，用户数据集$V=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2),...,(\boldsymbol x_n, y_n)\}$，值域子区间集合$D=\{D_1,D_2,...,D_k\}$，与区间划分相对应的隐私预算集合$\varepsilon = \{ \epsilon_1,\epsilon_2,...,\epsilon_k\}$, 数据量扩展倍数$\mu$。梯度下降中每组人数$G=\frac{2d logd} {\epsilon^2}$，参数更新的学习效率$\gamma=1/\sqrt t$，正则项系数$\lambda=10^{-4}$。

__输出：__参数向量$\boldsymbol\beta^*$
- __step 0__ 收集方与用户就数据的隐私等级划分$D,\varepsilon$达成一致
- __step 1__ 从[0,1]中随机抽取初始化参数向量$\beta^*_0\in [0,1]^{d+1}$
- __step 2__ 收集方从用户集U中不放回地随机抽取G个用户，向他们发送$\beta^*_0$
- __step 3__ 接收到参数向量的每个用户在本地根据自己的数据对梯度向量的各偏导数进行计算,如果该值大于1则令其等于1，如果该值小于-1，则令其等于-1。使用算法1进行扰动后将进行隐私处理后的梯度向量发送给收集方。
- __step 4__ 收集方根据接收到的梯度集，使用算法3对各个偏导数进行均值估计，之后对参数向量进行更新。
- __step 5__ 重复step 2到step 4直到所有用户均进行了参与一次模型训练。
- __step 6__ 得到最终的参数向量$\boldsymbol \beta^*$。

In [7]:
def predict_f(beta: list, x:tuple):
    '''目标模型函数'''
    return np.array(beta).dot(np.array(x))

def loss_f(beta: list, x: list, y: float):
    '''损失函数'''
    return (predict_f(beta, x)-y)**2

def penalty(beta: list, lam: float):
    '''正则项'''
    return lam*sum([b*b for b in beta[1:]])/2

def target_f(beta: list,lam: float, x: tuple, y: float):
    '''带惩罚项的残差函数'''
    return loss_f(beta, x, y) + penalty(beta, lam)

def gradient_f(beta: list, lam: float, x: tuple, y: float):
    '''残差函数的梯度'''

    loss_f_g = [2*x_i*(predict_f(beta,x)-y) for x_i in x]
    penalty_g = [0] + [lam * abs(b) for b in beta[1:]]
    return  [a + b for a,b in zip(loss_f_g, penalty_g)]

In [8]:
def in_random_order(data):
    '''为数据生成随机索引，以实现随机选取，随机分组'''
    indexes = [i for i, _ in enumerate(data)]
    random.shuffle(indexes)
    return indexes

In [9]:
def harmony_mb_sgd(x: tuple, y: tuple,range_division:tuple,\
                   epsilon: float, lam=0.0001):
    '''小批量随机梯度下降并用Harmony方法进行隐私保护'''
    beta = [random.random() for _ in range(len(x[0])+1)] #随机初始化一个参数向量beta
    d = len(x[0])+1
    group_n = max(math.ceil(d*math.log(d)/epsilon**2), 1000)
    
    t = 0 # t表示迭代次数
    gs = [] # 用于存放每次迭代收集到的用户数据梯度。
    n = 0 # 用于统计已参与的用户数量
    
    harmony = Harmony(epsilon).encode
    for i in in_random_order(y):
        n += 1
        
        #计算得到在用户user_i的梯度

        gradient_i = gradient_f(beta, lam, [1]+list(x[i]), y[i])
        
#         print(i,gradient_i)
        #对梯度各分量进行裁剪，使其在[-1,1]之间
        for k in range(len(gradient_i)):
            if gradient_i[k] > 1:
                gradient_i[k] = 1
            elif gradient_i[k] < -1:
                gradient_i[k] = -1
         
        #使用Harmony方法对梯度进行隐私处理
        p_gradient_i = [0 for _ in gradient_i]# 存放扰动后的梯度
        
        sample = random.choice(range(len(gradient_i))) # 每次采样一个分量
        p_gradient_i[sample] = (harmony(gradient_i[sample]))
        gs.append(p_gradient_i)     
        
        if n % group_n == 0:
            t += 1
            g_mean =[] #用于存放每组数据梯度的均值
            for i in range(len(gs[0])):
                g_i = [] #用于存放一组梯度中所有的第i个分量
                for g_j in gs:
                    g_i.append(g_j[i])
                g_mean.append(sum(g_i)/len(g_i))
            # 进行参数向量更新：
            gamma = 1/t**0.5
            beta = [a-gamma*b for a, b in zip(beta,g_mean)]
            gs = []
    return beta

In [10]:
def hiera_mb_sgd(x: tuple, y: tuple, range_division: tuple,\
                 epsilon: float ,mu=2, lam=0.0001):
    '''小批量随机梯度下降并用HierA方法进行隐私保护'''
    beta = [random.random() for _ in range(len(x[0])+1)] #随机初始化一个参数向量beta
    d = len(x[0])+1
    group_n = max(math.ceil(d*math.log(d)/epsilon**2), 1000)
    
    t = 0 # t表示迭代次数
    gs = [] # 用于存放每次迭代收集到的用户数据梯度。
    n = 0 # 用于统计已参与的用户数量
    
    epsilons = tuple(i*epsilon for i in np.arange(5, 0, -1))
    for i in in_random_order(y):
        n += 1
        
        #计算得到在用户user_i的梯度
        gradient_i = gradient_f(beta, lam, [1]+list(x[i]), y[i])
        # print(gradient_i)
        #对梯度各分量进行裁剪，使其在[-1,1]之间
        for k in range(len(gradient_i)):
            if gradient_i[k] > 1:
                gradient_i[k] = 1
            elif gradient_i[k] < -1:
                gradient_i[k] = -1
                
        # 对梯度各分量进行分级扰动：
        p_gradient_i = []# 存放扰动后的梯度
        p_gradient_i = [(5,0) for _ in gradient_i]# 存放扰动后的梯度
        
        sample = random.choice(range(len(gradient_i))) # 每次采样一个分量 
        
        _x = [1] + list(x[i])
        user_i = user(range_division, epsilons)
        level = user_i.get_level(_x[sample])
        p_level = user_i.per_level(level, epsilons[level-1])
        p_value = user_i.per_value(gradient_i[sample], epsilons[p_level-1])
        p_gradient_i[sample] = ((p_level,p_value))

#         for x_ij, grad in zip([1]+list(x[i]),gradient_i):
#                 level = user_i.get_level(x_ij)
#                 p_level = user_i.per_level(level, epsilons[level-1])
#                 p_value = user_i.per_value(grad, epsilons[p_level-1])
#                 p_gradient_i.append((p_level,p_value))
        gs.append(p_gradient_i)
        
        if n % group_n == 0:
            t += 1
            g_mean =[] #用于存放每组数据梯度的均值
            server = aggregator(range_division, epsilons, mu)
            for i in range(len(gs[0])):
                g_i = [] #用于存放一组梯度中所有的第i个分量
                for g_j in gs:
                    g_i.append(g_j[i])
                g_mean.append(server.average(g_i))
            # 进行参数向量更新：
            gamma = 1/t**0.5
            beta = [a-gamma*b for a, b in zip(beta,g_mean)]
            gs = []
    return beta

In [11]:
def pm_mb_sgd(x: tuple, y: tuple,range_division:tuple, \
              epsilon: float, lam=0.0001):
    '''小批量随机梯度下降并用PM方法进行隐私保护'''
    beta = [random.random() for _ in range(len(x[0])+1)] #随机初始化一个参数向量beta
    d = len(x[0])+1
    group_n = max(math.ceil(d*math.log(d)/epsilon**2), 1000)
    
    t = 0 # t表示迭代次数
    gs = [] # 用于存放每次迭代收集到的用户数据梯度。
    n = 0 # 用于统计已参与的用户数量
    
    pm = PM(epsilon).encode
    for i in in_random_order(y):
        n += 1
        
        #计算得到在用户user_i的梯度
        gradient_i = gradient_f(beta, lam, [1]+list(x[i]),y[i])
        
        #对梯度各分量进行裁剪，使其在[-1,1]之间
        for k in range(len(gradient_i)):
            if gradient_i[k] > 1:
                gradient_i[k] = 1
            elif gradient_i[k] < -1:
                gradient_i[k] = -1
         
        #使用PM方法对梯度进行隐私处理
        p_gradient_i = [0 for _ in gradient_i]# 存放扰动后的梯度
        
        sample = random.choice(range(len(gradient_i))) # 每次采样一个分量
        p_gradient_i[sample] = (pm(gradient_i[sample]))
        gs.append(p_gradient_i)  
        
#         p_gradient_i = []# 存放扰动后的梯度
#         for grad in gradient_i:
#                 p_gradient_i.append(pm(grad))
#         gs.append(p_gradient_i)
        
        if n % group_n == 0:
            t += 1
            g_mean =[] #用于存放每组数据梯度的均值
            for i in range(len(gs[0])):
                g_i = [] #用于存放一组梯度中所有的第i个分量
                for g_j in gs:
                    g_i.append(g_j[i])
                g_mean.append(sum(g_i)/len(g_i))
            # 进行参数向量更新：
            gamma = 1/t**0.5
            beta = [a-gamma*b for a, b in zip(beta,g_mean)]
            gs = []
    return beta

In [12]:
def multilaplace_mb_sgd(x: tuple, y: tuple, range_division: tuple, \
                        epsilon: float, lam=0.0001):
    '''小批量随机梯度下降并用PM方法进行隐私保护'''
    beta = [random.random() for _ in [1]+list(x[0])] #随机初始化一个参数向量beta
    d = len(x[0])+1
    group_n = max(math.ceil(d*math.log(d)/epsilon**2), 1000)
    
    t = 0 # t表示迭代次数
    gs = [] # 用于存放每次迭代收集到的用户数据梯度。
    n = 0 # 用于统计已参与的用户数量
    
    epsilons = tuple(i*epsilon for i in np.arange(5, 0, -1))
    multi_laplace = Multi_Laplace(range_division, epsilons).encode
    for i in in_random_order(y):
        n += 1
        
        #计算得到在用户user_i的梯度
        gradient_i = gradient_f(beta, lam, [1]+list(x[i]),y[i])
        
        #对梯度各分量进行裁剪，使其在[-1,1]之间
        for k in range(len(gradient_i)):
            if gradient_i[k] > 1:
                gradient_i[k] = 1
            elif gradient_i[k] < -1:
                gradient_i[k] = -1
         
        #使用分级的laplace方法对梯度进行隐私处理
        
        p_gradient_i = [0 for _ in gradient_i]# 存放扰动后的梯度
        
        sample = random.choice(range(len(gradient_i))) # 每次采样一个分量
        p_gradient_i[sample] = (multi_laplace(gradient_i[sample]))
        gs.append(p_gradient_i)  
        
#        p_gradient_i = []# 存放扰动后的梯度
#         for grad in gradient_i:
#                 p_gradient_i.append(multi_laplace(grad))
#         gs.append(p_gradient_i)        
        
        if n % group_n == 0:
            t += 1
            g_mean =[] #用于存放每组数据梯度的均值
            for i in range(len(gs[0])):
                g_i = [] #用于存放一组梯度中所有的第i个分量
                for g_j in gs:
                    g_i.append(g_j[i])
                g_mean.append(sum(g_i)/len(g_i))
            # 进行参数向量更新：
            gamma = 1/t**0.5
            beta = [a-gamma*b for a, b in zip(beta,g_mean)]
            gs = []
    return beta

### 三、实验

### 1 实验数据

- 合成数据集

In [4]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
# import mysql.connector

In [5]:
mpl.rcParams['font.sans-serif'] = ["SimHei"]
mpl.rcParams["axes.unicode_minus"] = False

In [20]:
def normal(loc=0.5, scale=0.1, size=10**5):
    '''正态分布'''
    data = np.clip(np.random.normal(loc=loc, scale=scale, size=size), a_min=-1, a_max=1)
    return tuple(data)

def uniform(low=-1, high=1, size=10**5):
    '''均匀分布'''
    data = np.random.uniform(low=low, high=high, size=size)
    return tuple(data)

def exponent(scale=1,size =10**5):
    '''指数分布'''
    data = 2 * np.clip(np.random.exponential(scale=scale, size=size), a_min=0, a_max=1) - 1
    return tuple(data)

- 真实数据集

In [21]:
def adult_age():
    '''get dataset: adult_age'''
    mydb = mysql.connector.connect(
        host = 'localhost',
        user = 'root',
        passwd = 'root',
        database = 'my_paper'
        )
    mycursor = mydb.cursor()
    get_adult_age = 'SELECT * FROM adult'
    mycursor.execute(get_adult_age)
    result = mycursor.fetchall()
    adult_age = tuple(a[0] for a in result)
    return adult_age

def br_age():
    '''get dataset: br_age'''
    mydb = mysql.connector.connect(
        host = 'localhost',
        user = 'root',
        passwd = 'root',
        database = 'my_paper'
        )
    mycursor = mydb.cursor()
    get_br_age = 'SELECT * FROM br_age'
    mycursor.execute(get_br_age)
    result = mycursor.fetchall()
    br_age = tuple(a[0] for a in result)
    return br_age

def us_age():
    '''get dataset: us_age'''
    mydb = mysql.connector.connect(
        host = 'localhost',
        user = 'root',
        passwd = 'root',
        database = 'my_paper'
        )
    mycursor = mydb.cursor()
    get_us_age = 'SELECT * FROM us_age'
    mycursor.execute(get_us_age)
    result = mycursor.fetchall()
    us_age = tuple(a[0] for a in result)
    return us_age

def brazil():
    '''get dataset: BR'''
    mydb = mysql.connector.connect(
        host  = 'localhost',
        user = 'root',
        passwd = 'root',
        database = 'my_paper'
        )
    mycursor = mydb.cursor()
    get_br= 'SELECT * FROM brazil'
    mycursor.execute(get_br)
    result = mycursor.fetchall()
    br_y = tuple(a[-1] for a in result)
    br_x = tuple(a[:-1] for a in result)
    return br_x, br_y

def us():
    '''get dataset: US'''
    mydb = mysql.connector.connect(
        host  = 'localhost',
        user = 'root',
        passwd = 'root',
        database = 'my_paper'
        )
    mycursor = mydb.cursor()
    get_us= 'SELECT * FROM usa'
    mycursor.execute(get_us)
    result = mycursor.fetchall()
    us_y = tuple(a[-1] for a in result)
    us_x = tuple(a[:-1] for a in result)
    return us_x, us_y

### 2 实验一、不同的数据重复次数$\mu$
在Adult_AGE数据集上，改变$\mu$值，观察利用HierA方法进行均值估计时的准确性。使用MAE作为评价指标，T=100。设置隐私预算为：$\{5\epsilon,4\epsilon,3\epsilon,2\epsilon,\epsilon\}$

In [8]:
range_division = (-1, -0.6, -0.2, 0.2, 0.6, 1)
epsilon_list = (0.25,0.5, 1, 1.5, 2, 2.5)
mus = (1,2,3,4,5)

In [14]:
def var_mu(userdata: tuple, range_division:tuple, \
                epsilon_list: tuple, mus:tuple) ->dict:
    m_true = sum(userdata)/len(userdata)
    mae_mus = {i: [] for i in mus}
    for mu in mus:
        mae_mu = []
        for epsilon in epsilon_list:
            ae = []
            epsilons = tuple(i*epsilon for i in np.arange(5, 0, -1))
            for i in range(100):
                m = HierA(userdata, range_division, epsilons, mu)
                ae.append(abs(m - m_true))
            mae_mu.append(sum(ae) / len(ae))
        mae_mus[mu] = mae_mu
    return mae_mus

### 3 实验二、不同方法的比较
在不同数据集上，比较使用Harmony、PM、multi_laplace和HierA方法对用户数据进行隐私保护并进行均值估计的准确性，使用MAE作为评价指标，T=10。

In [61]:
from Harmony import Harmony
from PiecewiseMechanism import PiecewiseMechanism as PM
from multi_laplace import MultiLaplace  as Multi_Laplace

In [21]:
def var_methods(userdata:tuple, range_division: tuple, epsilon_list: tuple, mu=2):
    '''横向对比'''
    mae = {'harmony': [], 'pm': [], 'laplace': [], 'hiera': []}
    methods = ('harmony', 'pm', 'laplace', 'hiera')
    np_userdata = np.array(userdata)   
    m_true = np_userdata.mean()
    
    for epsilon in epsilon_list:
        ae_1, ae_2, ae_3, ae_4 = [], [], [], []
        harmony = np.vectorize(Harmony(epsilon).encode)
        pm = np.vectorize(PM(epsilon).encode)
    
        epsilons = tuple(i*epsilon for i in np.arange(5, 0, -1))
        multi_laplace = np.vectorize(Multi_Laplace(range_division, epsilons).encode)
        
        for i in range(100):
            m_harmony = harmony(np_userdata).mean()
            m_pm = pm(np_userdata).mean()
            m_laplace = multi_laplace(np_userdata).mean()
            m_hiera = HierA(userdata, range_division, epsilons,mu)
            for m_, ae_ in zip((m_harmony, m_pm, m_laplace, m_hiera), (ae_1, ae_2, ae_3, ae_4)):
                ae_.append(abs(m_ - m_true))

        for method, ae in zip(methods, (ae_1, ae_2, ae_3, ae_4)):
            mae[method].append(sum(ae) / len(ae))

    return mae

### 4 实验三、小批量随机梯度下降
在BR数据集和US数据集上，将“总收入”属性作为输出Y，其他属性作为输入X，使用小批量随机梯度下降方法，进行多元线性回归实验。使用5折交叉验证的均方误差MSE作为评价指标。

In [13]:
from Harmony import Harmony
from PiecewiseMechanism import PiecewiseMechanism as PM
from multi_laplace import MultiLaplace  as Multi_Laplace

In [14]:
def five_folds_sgd(x:tuple, y:tuple, sgd, range_division: tuple, epsilon: float):
    '''横向对比'''
    r_num = len(y)
    se = []
    for i in range(5):
        for i in range(5):
            test_x = x[i*r_num//5: (i+1)*r_num//5]
            test_y = y[i*r_num//5: (i+1)*r_num//5]
            train_x = x[0: i*r_num//5] + x[(i+1)*r_num//5:]
            train_y = y[0: i*r_num//5] + y[(i+1)*r_num//5:]

            beta = sgd(train_x, train_y, range_division, epsilon)

            for j in range(len(test_y)):
                se.append((predict_f(beta, [1]+list(x[j])) - test_y[j])**2)
                
    mse = sum(se)/len(se)
    return mse


In [15]:
def diff_methods_sgd(x:tuple, y:tuple, range_division:tuple, epsilon_list:tuple, mu=2, lam=0.0001):
    mse = {'Harmony':[], 'PM':[], '分级的laplace': [], 'HierA':[]}
    
    for epsilon in epsilon_list:
        mse['Harmony'].append(five_folds_sgd(x, y, harmony_mb_sgd, range_division, epsilon))
        mse['PM'].append(five_folds_sgd(x, y, pm_mb_sgd, range_division, epsilon))
        mse['分级的laplace'].append(five_folds_sgd(x, y, multilaplace_mb_sgd, range_division, epsilon))
        mse['HierA'].append(five_folds_sgd(x, y, hiera_mb_sgd, range_division, epsilon))
    return mse