## Secure and Utility-Aware Data Collection with Condensed Local Differential Privacy

## 1 简介

目前的LDP算法存在许多问题，阻碍其在网络空间安全中的应用（existing LDP protocols suffer from problems that hinder their deployment in the cybersecurity domain）。

* 1）本地化差分隐私在数据量足够大的情况下，可以获取到很好的结果，但当用户数据量较小，准确率仍存在问题
（First, although they are accurate for large populations their accuracy suffers when client populations are smaller.）


* 2）本地化差分隐私无法为序列数据同时提供长度和内容的隐私性（ To the best of our knowledge, currently no protocol supports perturbation of item sequences (with either ordinal or non-ordinal item domains) to offer privacy with respect to sequence length and content simultaneously.）

## 2 背景

多个用户拥有各自的隐私数据（可以是有序或无序的、数值型或类别型数据），用户可以将自己的数据进行随机扰动以保证数据的隐私性；不可信的服务器可以通过收集扰动后的数据来获取有用的统计信息。

### 2.1 攻击模型

使用贝叶斯模型衡量LDP的隐私性。

$$\begin{align}A(y) &= arg \max _{\hat v\in u} Pr[\hat v|y]
\\ &= arg \max _{\hat v\in u} \frac{\pi(\hat v)\cdot Pr[f(\hat v)=y]}{\sum _{z \in u}\pi(z)\cdot Pr[f(z)=y]}\end{align}$$


$\pi(\hat v)$表示$\hat v$的先验概率,$f$表示扰动函数



maximum posterior confidence:

$$MPC= \max _{v \in u, y} Pr[v|y] = \max _{v \in u, y} \frac{\pi( v)\cdot Pr[f(v)=y]}{\sum _{z \in u}\pi(z)\cdot Pr[f(z)=y]}$$


无论是对于有背景知识的攻击者（先验知识$\pi(x)$）或没有背景知识的攻击者（$\pi(x) = \frac{1}{|u|}$）来说，上述定义建立了一个衡量最差扰动的框架模型，


### 2.2 本地化差分隐私

<img src="images/LDP_define.png" height="400" width="400"  >



相关算法：GRR、OLH、RAPPOR



### 2.3 有用的模型和分析

<img src="images/CLDP_Utility.png" height="400" width="400"  >

在任意数据规模下，CLDP要优于GRR、OLH、RAPPOR


### 2.4 问题描述

* 在MPC攻击模型下，该模型要提供与现有的LDP相同的隐私保护水平

* 在小数据集下，该模型要提供更加准确的统计结果

* 支持更加复杂的数据（项、项集、序列等）


## 3 解决方式

### 3.1 Condensed LDP

一个算随机化的算法$\Phi$满足$\alpha$-CLDP（$\alpha > 0$），当且仅当对于任意的输入$v_1,v_2\in u$，有

$$\frac{Pr[\Phi(v_1) =y]}{Pr[\Phi(v_2) =y]} \leq e ^{\alpha \cdot d(v_1,v_2)}$$


$d(\cdot,\cdot)$为两个项之间的距离，当$d$增加时，$\alpha$可以用来减小这种差异，$\alpha \ll \epsilon$



注：

距离度量需要满足如下的数学性质：
* 非负性：距离是一个非负的数值,即$d(i,j) \geq 0$
* 同一性：对象到自身的距离为0,即$d(i,i) = 0$
* 对称性：距离是一个对称函数,即$d(i,j) = d(j,i)$
* 三角不等式：从对象i到对象j的直接距离不会大于途径任何其他对象k的距离,即$d(i,j) \leq d(i,k) + d(k,j)$


指数机制（Exponential Mechanism）:

$$Pr[\Phi _{EM}(v)=y] = \frac{e^{\frac{-\alpha \cdot d(v,y)}{2}}}{\sum _{z \in u} e^{\frac{-\alpha \cdot d(v,z)}{2}}}$$


### 3.2 LDP与CLDP的隐私性

其中$\Phi$是CLDP的扰动函数，$\Psi$是LDP的扰动函数。为了保证模型攻击者在最大后验置信度下CLDP至少与LDP具有相同的隐私性，则需要保证如下不等式成立。

$$ \max _{v \in u, y} \frac{\pi( v)\cdot Pr[\Phi(v)=y]}{\sum _{z \in u}\pi(z)\cdot Pr[\Phi(z)=y]} \leq \max _{v \in u, y} \frac{\pi( v)\cdot Pr[\Psi(v)=y]}{\sum _{z \in u}\pi(z)\cdot Pr[\Psi(z)=y]}$$


上式中的$\pi$对于结果也有影响，对于不同分布的$\pi$，$\alpha$与$\epsilon$的关系如下：

<img src="images/CLDP_LDP.png" height="400" width="400"  >


对于在其它的分布$\pi$下，LDP与CLDP的比较可以作为该模型的未来工作。

## 4 CLDP机制与协议

### 4.1 Ordinal-CLDP for Ordinal Items

<img src="images/O_CLDP.png" height="400" width="400"  >


### 4.2 Item-CLDP for Non-Ordinal Items

<img src="images/Non_O_CLDP.png" height="400" width="400"  >



### 4.3 Sequence-CLDP for Item Sequences


Sequence具有两个隐私数据：长度隐私和内容隐私。

长度隐私:α-length-indistinguishability
$$ \frac{Pr[\phi_SEQ (X) = S]}{Pr[\phi_SEQ (Y) = S]} \leq e^{\alpha \cdot d(|X|-|Y|)}$$


内容隐私:α-content-indistinguishability
$$ \frac{Pr[\phi_SEQ (X) = S]}{Pr[\phi_SEQ (Y) = S]} \leq e^{\alpha \cdot d_{seq}(X,Y)}$$



Sequence算法：

<img src="images/S_CLDP.png" height="400" width="400"  >