# Formation Pratique 10  - Confidentialité différentielle 



## 10.1.1 Anonymiser
Jusqu'à maintenant nous avons étudié plusieurs méthodes permettant de tirer des conclusions à partir de jeux de données. Or, en pratique, ces jeux de données contiennent souvent des informations privés. Par exemple, une compagnie qui récolte des données sur la santé physique pourrait vouloir partager ses données tout en protégeant la vie privée de ses utilisateurs. S'il est possible de retracer les résultats d'une personne, cela pourrait avoir des conséquences désastreuses (ex. assurances). La première étape consiste naturellement à retirer les informations qui permettraient de directement retracer un participant (i.e. qui sont uniques à un participant): son nom, son numéro de téléphone, son adresse, etc. Or, cette précaution n'est pas suffisante...



## 10.1.2 Linkage Attack
En utilisant plusieurs jeux de données ayant un même participant, il est possible de le retracer même si les jeux de données ont été anonymisés. Pour reprendre un exemple non-fictif (Sweeney, 2002), il a été possible de retracer les données médicales du gouverneur du Massachusetts en utilisant plusieurs jeux de données. Un premier jeu de données, le *National Association of Health Data Organizations*, contenant des dossiers médicaux avait été rendu publique. Il contenait des informations comme: la date de visite, le diagnostic, l'ethnicité, le sexe, la date de naissance, le code postal, etc. En utilisant un second jeu de données, la liste électorale de Cambridge (qui contient le nom des personnes ainsi que la date de naisance et le code postal), il a été possible de la comparer aux dossiers médicaux anonymisés pour le lier au gouverneur  (voir l'image ci-dessous tirée de Sweeney, 2002). Seulement cinq voteurs avaient la même date de naissance que le gouverneur et ces cinq personnes avaient tous un code postal différent...

<img src="https://github.com/Cours-EDUlib/DIRO-SD1FR/blob/master/FP/FP10/linkage_attack.png?raw=1" width="400">

Comment éviter ce genre d'attaque?



## 10.1.3 La k-anonymité
Un jeu de données (ou en fait un rapport public présentant des statistiques) est dit k-anonyme si chaque individu est indistinguable d'au moins k-1 individus. En pratique, il existe plusieurs méthodes simples pour rendre un rapport k-anonyme dont la suppression et la généralisation. La suppression consiste simplement à retirer des colonnes. La généralisation consiste à grouper en catégorie certaine valeurs. Par exemple, pour reprendre l'exemple précédent, au lieu de publier la date de naissance, il aurait été possible de seulement garder l'année de naissance ou bien de créer des catégories d'âges (20 à 30 ans, 30 à 40 ans, etc). Voici un exemple tiré de Sweeney 2002 qui respecte la 2-anonymité où la donnée sensible est le problème de santé:

| Race  | Birth|  Gender | ZIP   | Problem      |
|-------|------|---------|-------|--------------|
| Black | 1965 |  m      | 0214* | short breath |
| Black | 1965 |  m      | 0214* | chest pain   |
| Black | 1965 |  f      | 0213* | hypertension |
| Black | 1965 |  f      | 0213* | hypertension |
| Black | 1964 |  f      | 0213* | obesity      |
| Black | 1964 |  f      | 0213* | chest pain   |
| White | 1964 |  m      | 0213* | chest pain   |
| White | 1964 |  m      | 0213* | obesity      |
| White | 1964 |  m      | 0213* | short breath |
| White | 1967 |  m      | 0213* | chest pain   |
| White | 1967 |  m      | 0213* | chest pain   |

C'est-à-dire que pour chaque entrée possible de race, année de naissance, genre et code postal (Race, Birth, Gender, ZIP), il y a au moins deux individus qui sont indistinguables: il ne serait pas possible de retracer une personne seulement avec ce rapport. 

Cependant, cette méthode contient plusieurs faiblesses: elle peut encore être la cible de "linkage attack". Si par exemple je sais que mon ami Jean a participé à l'étude et qu'il est un homme blanc né en 1967, je peux déduire qu'il a des douleurs à la poitrine ("chest pain"). Ce problème se nomme attaque par homogénéité. Pour contrer ce type d'attaque, une variante de k-anonymité a été proposé: la l-diversité (Machanavajjhala et al., 2007). Le principe est simple: on s'assure que pour chaque groupe ayant la même valeur, la variable sensible prend des valeurs diverses. Un autre type d'attaque: si je connais Jeanne qui est une femme noire née en 1964 et que je sais qu'elle n'est pas obèse, je peux déduire qu'elle a des douleurs à la poitrine. 

Bien que plusieurs améliorations ont été suggérée, il reste que lorsqu'on fait une aggrégation des données, on perd de l'information. Ces méthodes ne donnent aucune indication sur la perte d'information encourue. Par exemple, si pour s'assurer d'avoir la k-anonymité on devait faire une aggrégation de l'âge par tranche de 30 ans, il se peut que certaines corrélations statistiques ne soient plus observables. K-anonymité n'offre aucune balise sur le "bruit" qui est ajouté aux données.

### Exercice 

Étant donné un jeu de données sous forme de $n$ entrées en $m$ dimensions, proposer une implémentation naive de la fonction **test_k_anonymity** dans la cellule de code ci-dessous, qui vérifie si la condition de k-anonymité est vérifiée par rapport à l'ensemble des features, autrement dit on veut s'assurer que tout élement a au moins k-1 copies exactes (on suppose que l'on a déjà sélectionné les variables pertinentes). Votre fonction peut avoir un temps de calcul quadratique en $n$, bien que cette complexité ne soit pas optimale. 

In [12]:
def test_k_anonymity(data, k):
  # data is 2d matrix with entries as rows and features as columns. k is an integer.
  # returns a boolean, True if data is k-anonymous and False otherwise
  return

Testez à présent votre implémentation sur le jeu de données suivant. Est-il 2-anonyme ? Est-il 3-anonyme ?

In [13]:
data = [['male', '1988', 'France'],
        ['female', '1992', 'United States'],
        ['male', '1988', 'France'],
        ['male', '1999', 'Germany'],
        ['male', '1988', 'France'],
        ['female', '1988', 'France'],
        ['male', '1988', 'France'],
        ['female', '1992', 'United States'],
        ['male', '1999', 'Germany'],
        ['male', '1999', 'Germany'],
        ['female', '1988', 'France'],
        ['female', '1992', 'United States']]

print(test_k_anonymity(data, 2))
print(test_k_anonymity(data, 3))


None
None


#### Réponses (Essayez de trouver par vous-même avant de regarder les réponses)

In [10]:
def test_k_anonymity(data, k):
  for x in data:
    counter = 0
    for y in data:
      if y == x:
        counter += 1
    if counter < k:
      return False
  return True

On obtient que l'exemple de données est 2-anonyme, mais n'est pas 3 anonyme. En effet, l'élément ['female', '1988', 'France'] n'a que deux copies dans le tableau.

## 10.2 Confidentialité différentielle
La confidentialité différentielle (*differential privacy*) n'est pas un algorithme, mais plutôt une définition (ou un standard) d'un type de confidentialité. On veut que l'inclusion ou la non-inclusion d'une personne ne change pas le résultat d'une analyse (ex. calculer la moyenne de différents groupes).

<img src="https://github.com/Cours-EDUlib/DIRO-SD1FR/blob/master/FP/FP10/dp_diagram.png?raw=1" width="400">

Naturellement, cet idéal n'est pas atteignable: on ne peut parfaitement cacher l'information de tous les individus tout en conservant les mêmes données. Cependant, en tolérant une très petite variation ($\epsilon$) entre les données (jeu de données complet vs jeu de données ne contenant pas un certain individu), on obtient quelque chose d'intéressant et de réalisable. On dira qu'un algorithme $\mathcal{A}$ ayant une composante aléatoire respecte la *$\epsilon$-confidentialité différentielle* si, pour tous jeux de données $D_1$ et $D_2$ qui ne varie que d'une entrée, on a:

$$ P(\mathcal{A}(D_1) \in \mathcal{S}) \leq e^\epsilon P(\mathcal{A}(D_2) \in \mathcal{S}) $$

où $\mathcal{S}$ représente tous les sous-ensembles de l'image de $\mathcal{A}$. Intuitivement, ce que l'on doit comprendre de cette définition, c'est que la probabilité d'obtenir un certain résultat doit être pratiquement la même (car pour $\epsilon$ petit, $e^\epsilon \approx 1$) quand on enlève une entrée. Cette définition peut sembler complexe, mais en s'attaquant à un exemple concret ce sera plus clair...


### 10.2.1 Implémentation réponse aléatoire
Un participant doit répondre à une question par oui ou non. Imaginez par exemple qu'on demande à cette personne si elle a déjà commis un crime. Le répondant veut que cette réponse reste confidentielle et pourrait ne pas vouloir répondre honnêtement. Or, en utilisant une petite astuce, on peut protéger l'information de la personne.

On pourrait par exemple suggérer la méthode suivante: à chaque question la personne lance une pièce de monnaie. S'il obtient pile, il doit répondre honnêtement. S'il obtient face, il répond au hasard (il relance la pièce, pile=0, face=1). Au lieu d'une pièce de monnaie, on peut définir une distribution de Bernoulli tel que l'algorithme soit *$\epsilon$-confidentialité différentiable*. Soit:

$$ f(x) = \begin{cases}
             \frac{1}{2} + \alpha & si\ x = 0 \\
             \frac{1}{2} - \alpha & si\ x = 1 \\
          \end{cases} $$
          
Si $ \alpha = \frac{1}{2}\frac{e^\epsilon - 1}{e^\epsilon + 1} $, alors $f$ est *$\epsilon$-confidentialité différentielle*. La preuve est assez simple:

$$ P(\mathcal{A}(D_1) \in \mathcal{S}) \leq e^\epsilon P(\mathcal{A}(D_2) \in \mathcal{S}) $$

$$ \frac{P(\mathcal{A}(D_1) \in \mathcal{S})}{P(\mathcal{A}(D_2) \in \mathcal{S})} \leq e^\epsilon $$

La plus grande différence entre $D_1$ et $D_2$ est obtenue lorsque $D_1$ contient 0 et $D_2$ contient 1.

$$ \frac{\frac{1}{2} + \alpha}{\frac{1}{2} - \alpha} \leq e^\epsilon $$

$$ \frac{\frac{1}{2}(1 + \frac{e^\epsilon - 1}{e^\epsilon + 1})}{\frac{1}{2}(1 - \frac{e^\epsilon - 1}{e^\epsilon + 1})} = e^\epsilon $$

### 10.2.2 Mécanisme de Laplace
Supposons que la fonction qui nous intéresse est de compter le nombre d'individus selon une certaine condition. Par exemple, combien y a-t-il d'individu dans la tranche d'âge 20 à 30 ans? 

In [None]:
import pandas as pd
import numpy as np

!rm -rf DIRO-SD1FR
!git clone https://github.com/Cours-EDUlib/DIRO-SD1FR
import sys
sys.path += ['DIRO-SD1FR/FP/FP10']

In [None]:
df = pd.read_csv('DIRO-SD1FR/FP/FP10/adult.csv')
df['label'] = df['label'].astype(str)

In [None]:
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,label,postal codes,NAS,birthdate,name
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,V9R 5K5,986-171-731,1980-4-9,Koczan Bochra
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,P7P 4C6,575-238-128,1968-12-14,Karkampasis Russel
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,E8A 2Q6,771-950-636,1981-11-2,Solaun Sekhou
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,A6Q 5A8,587-870-707,1965-12-17,Sonderkamp Faty
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,Y0M 4B2,236-414-311,1991-1-24,Ras Marika


In [None]:
np.sum((df['age'] >= 20) & (df['age'] <= 30))

8915

Cette information pourrait être utilisée pour identifier des individus. Pour donner un exemple simple, si on sait qu'un certain individu a participé à l'étude, il serait possible de savoir s'il gagne plus ou moins de 50k. 

Le mécanisme de Laplace est une méthode générale (pas spécifique au compte) qui consiste à ajouter un bruit laplacien pour rendre une fonction *$\epsilon$-confidentialité différentiable*. Plus précisément, si on a une fonction $f(x) \in \mathbb{R}$ on peut la rendre *$\epsilon$-confidentialité différentiable* en y sommant $Laplace(0, \frac{s}{\epsilon})$. $s$ représente la sensibilité de la fonction $f$ qui est définie comme suit:
$$ s = \max_{D_1, D_2} || f(D_1) - f(D_2) || $$
En d'autres termes, c'est la plus grande variation du résultat de $f$ que l'on peut obtenir en changeant seulement une entrée du jeu de données.

Pour reprendre l'exemple du compte, la sensibilité de la fonction est simplement 1. En effet, en retirant une seule personne du jeu de données, on ne pourra que réduire le compte de 1 pour n'importe quelle catégorie.

#### **Question**: 

Implémentez une fonction nommée `laplace_count` qui retourne un compte en lui ajoutant un bruit laplacien permettant de rendre le compte *$\epsilon$-confidentialité différentiable*.

In [None]:
def laplace_count(index, epsilon):
    """Le but est de compter les élèments de index en y ajoutant le bruit adéquat."""

    # indication : utilisez la fonction np.random.laplace(x,y)
    pass

#### Réponses (essayez d'abord de répondre par vous-même avant de regarder la réponse)


In [None]:
def laplace_count(index, epsilon):
    return np.sum(index) + np.random.laplace(0, 1/epsilon)

#### Exemple d'utilisation

In [None]:
laplace_count((df['age'] >= 20) & (df['age'] <= 30), 0.1)

8911.122920972957

Pour vous convaincre que votre méthode fonctionne, testez si vous pouvez déterminer le salaire de 'Koczan Bochra'. Comptez le nombre d'entrées ayant les mêmes identifiants et gagnant >= 50k. Vous devriez obtenir 1. Maintenant, comptez le nombre d'entrée avec `laplace_count`.

In [None]:
df[(df['name'] == 'Koczan Bochra') & (df['label'] == ' <=50K')].shape[0]

1

In [None]:
laplace_count((df['name'] == 'Koczan Bochra') & (df['label'] == ' <=50K'), 0.1)

1.119342392241252

#### **Question**: 

Implémentez la fonction `laplace_mean` qui retourne une moyenne bruitée. Supposons que cette fonction renvoie la moyenne pour la variable `age` du jeu de données entier (pas de sous-ensembles). Quelle sera la valeur de s (la sensibilité de la fonction)? 

In [None]:
def laplace_mean(feature_list, epsilon):
    s = # Calculez ici la valeur de s dont on se servira pour ajouter le bruit adéquat.
    # Il suffit ensuite de calculer la moyenne de la list de variable et y ajouter le bruit

    pass 

#### Réponses (essayez d'abord de répondre par vous-même avant de regarder la réponse)

La valeur de la sensibilité sera la valeur maximum de la variable choisie, divisée par la taille de la liste à moyenner. En effet, l'impact sur la moyenne sera maximum si on change la donnée de valeur maximum, et cet impact sera bien $$s=\frac{max(feature\_list)}{len(feature\_list)}$$

In [None]:
def laplace_mean(feature_list, epsilon):
    s = np.max(feature_list) / feature_list.shape[0]
    return np.mean(feature_list) + np.random.laplace(0, s / epsilon)

#### Exemple pratique 
Comparons maintenant la vraie moyenne d'âge avec la moyenne obtenu par `laplace_mean` avec $\epsilon = \{ 0.001, 0.01, 0.1, 1 \}$.

In [None]:
epsilon = [0.001, 0.01, 0.1, 1]

for e in epsilon:
    print(f"Epsilon={e}: \t{laplace_mean(df['age'], e)}")
    
print("\nMoyenne du jeu de données original:")
print(df['age'].mean())

Epsilon=0.001: 	35.46522395049011
Epsilon=0.01: 	38.68670699926789
Epsilon=0.1: 	38.730999223956346
Epsilon=1: 	38.581366198154846

Moyenne du jeu de données original:
38.58164675532078


### 10.2.3 Bruit: réponse aléatoire vs mécanisme de Laplace
Il existe un très grand nombre de méthodes permettant de rendre une fonction *$\epsilon$-confidentialité différentiable*. Cependant, on souhaite trouver une fonction qui n'ajoute pas trop de variance afin que nos conclusions statistiques n'en soient pas trop affectées. Dans cette section, nous allons comparer empiriquement la variance des deux méthodes présentées précedemment.

In [None]:
def randomized_response(data, epsilon):
    sum_ = 0
    alpha = 0.5 * float(np.exp(epsilon) - 1)/(np.exp(epsilon) + 1)
    
    for x in data:
        coin = np.random.binomial(1, 0.5 + alpha, 1)
        if coin == 0:
            sum_ += x
        else:
            sum_ += np.random.randint(0, 2)
            
    sum_estimate = 0.5 * (((sum_)/data.shape[0] - 0.5)/alpha + 1)
    return sum_estimate * data.shape[0]

In [None]:
def laplace_sum(x, epsilon):
    return np.sum(x) + np.random.laplace(0, 1/epsilon)

In [None]:
x = np.random.binomial(1, 0.3, 100)
print(f"Vraie moyenne: {np.sum(x)}")
epsilon = 0.5
n_iters = 100
rr = []
laplace = []

for i in range(n_iters):
    rr.append(randomized_response(x, epsilon))
    laplace.append(laplace_sum(x, epsilon))
    
print(f"RR - Moyenne: {np.mean(rr)}, Std: {np.std(rr)}")
print(f"Laplace - Moyenne: {np.mean(laplace)}, Std: {np.std(laplace)}")

Vraie moyenne: 34
RR - Moyenne: 25.7062204178121, Std: 17.58412696796007
Laplace - Moyenne: 34.46112542954675, Std: 2.527513979819353


Si vos expériences ont bien fonctionnées, vous devriez remarquer que l'écart-type de la réponse alétoire est beaucoup plus élevé que celui du mécanisme de laplace. En fait, l'écart-type de la réponse alétoire est $\approx \frac{\sqrt{n}}{\epsilon}$ tandis l'écart-type du mécanisme de laplace est de $\approx \sqrt{n}$

### 10.2.4 Propriétés intéressantes: composition et de post-processing
Souvent, lorsqu'on veut analyser des données, on va appliquer des méthodes complexes. Par exemple, on va appliquer plusieurs méthodes en chaînes. Est-ce que nos méthodes vont conserver leur propriété de confidentialité? La confidentialité diférentielle a plusieurs propriétés très intéressantes. Si on applique une fonction déterministe (comme post-processing), on ne va pas changer la *$\epsilon$-confidentialité*. Si on compose deux fonctions qui sont respectivement *$\epsilon_1$-confidentialité* et *$\epsilon_2$-confidentialité*, la fonction résultante sera $\epsilon_1 + \epsilon_2$-confidentialité.

## 10.3 Pour aller plus loin: Implémentation RAPPOR
Si vous souhaitez voir une vraie implémentation de la confidentialité différentielle, vous pouvez réimplémenter la méthode RAPPOR. Cette méthode a été introduite par Google et est, entre autre, utilisée pour traiter les statistiques d'utilisation du navigateur Google Chrome. Elle se base sur les filtres de Bloom. Consultez l'article: "Erlingsson, Ú., Pihur, V., & Korolova, A. (2014, November). Rappor: Randomized aggregatable privacy-preserving ordinal response. In Proceedings of the 2014 ACM SIGSAC conference on computer and communications security (pp. 1054-1067). ACM." https://arxiv.org/abs/1503.01214



## Références

Pour davantages d'information, vous pouvez consulter un tutoriel conçu par un des auteurs de la confidentialité différentielle: http://helper.ipam.ucla.edu/publications/pbd2018/pbd2018_14892.pdf.

Pour aller plus loin dans le domaine général de la confidentialité différentielle, je vous invite à consulter ce cours en ligne: https://github.com/jnear/cs295-data-privacy

Pour une libraire implémentant plusieurs techniques de confidentialité différentielle: https://github.com/google/differential-privacy/
