# GTI720 - Protection des renseignements personnels

## Laboratoire 1

| NOMS                  | CODE PERMANENT                                   |
|-----------------------|--------------------------------------------------|
| Étudiant1             | Code1                                            |
| Étudiant2             | Code2                                            |
| Étudiant3             | Code3                                            |

## Description
Le but de ce laboratoire est de vous familiariser aux enjeux de vie privée des données dépersonnalisées et aggrégées ainsi qu'aux propriétés de k-anonymat et de l-diversité. On utilisera ici une version modifiée (contenant des `DCP`) du jeu de données [UCI Adult Income](https://archive.ics.uci.edu/ml/datasets/adult) contenant des informations démographiques du recensement américain de 1994. Ce laboratoire est réalisé avec Python et les librairies `pandas`, `numpy` et `matplotlib`.

## Partie 0: Installation de l'environnement de travail (5pts)

**Question 0** [5 pts]:
- Installer Python >= 3.9.10
- Installer un environnement virtuel python `gti720`. Cet environnement contiendra les librairies python indispensables à la réalisation de ce laboratoire
- Installer les librairies suivantes dans votre environnement virtuel
    - `pandas`
    - `numpy`
    - `matplotlib`
    - `jupyterlab` (optionel si vous utilisez un éditeur comme VS Code)

## Partie 1: Attaques ciblant un jeu de données dépersonnalisées (31 pts)
Un renseignement personnel est `dépersonnalisé` si ce dernier ne permet plus d’identifier *directement* la personne concernée. La dépersonnilisation consiste donc à retirer les identifiants directs du jeu de données.

In [1]:
# importation des librairies
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# importation du jeu de données
adult = pd.read_csv('https://github.com/tisl-lab/data-privacy-class/blob/main/data/adult_with_pii.csv?raw=true')

In [3]:
# affichage des 5 premières lignes du jeu de données
adult.head(5)

Unnamed: 0,Name,DOB,SSN,Zip,Age,Workclass,fnlwgt,Education,Education-Num,Marital Status,Occupation,Relationship,Race,Sex,Capital Gain,Capital Loss,Hours per week,Country,Target
0,Karrie Trusslove,9/7/1967,732-14-6110,64152,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,Brandise Tripony,6/7/1988,150-19-2766,61523,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,Brenn McNeely,8/6/1991,725-59-9860,95668,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,Dorry Poter,4/6/2009,659-57-4974,25503,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,Dick Honnan,9/16/1951,220-93-3811,75387,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


**Question 1** [3 pts]: Identifier les `identifiants directs` de ce jeu de données. Justifier pourquoi vous avez choisi ces attributs. 
Conseils: Référez vous à la définition de donnée à caractère personnel définie dans le cours 1.

**Question 2** [5 pts]: A l'aide de ces `identifiants directs`, construire la version dépersonnalisée de ce jeu de données.

In [4]:
def depersonnaliser_adult():
    #VOTRE CODE ICI
    return None

In [5]:
adult_depersonlise = depersonnaliser_adult()

In [None]:
assert 'Name' not in adult_depersonlise.columns
assert 'DOB' not in adult_depersonlise.columns
assert 'SSN' not in adult_depersonlise.columns

**Question 3** [1 pts]: Afficher les 5 premières ligne du jeu de données dépersonnalisé

**Question 4** [3 pts]: En utilisant `pandas`, écrire un code qui renvoit uniquement la ligne corespondant à l'enregistrement de `Faith McCloughlin` à partir du jeu de donnée original `adult`

In [7]:
def get_McCloughlin_row():
    # VOTRE CODE ICI
    return None

In [17]:
McCloughlin_row = get_McCloughlin_row()

In [25]:
assert len(McCloughlin_row) == 1
assert McCloughlin_row['SSN'].iloc[0] == '718-79-8158'

**Question 5** [2 pts]:  À l'aide de l'enregistrement `McCloughlin_row`, récupérer les quasi-identifiants `Zip`, `Age` et `Sex` de `Faith McCloughlin`.

**Question 6** [5 pts]:  En utilisant ces quasi-identifiants, effectuer une attaque de `ré-identification` de `Faith McCloughlin` à partir du jeu de données dépersonnalisé `Faith McCloughlin`.

In [30]:
def recover_McCloughlin_row():
    # VOTRE CODE ICI
    return None

In [31]:
McCloughlin_recovered_row = recover_McCloughlin_row()

**Question 7** [2 pts]:  Montrer que la connaissance du `Zip` suffit pour ré-identifier `Faith McCloughlin`

**Question 8** [4 pts]:  Peut-on dire la même chose de l'attribut `Age`? Même question pour l'attribut `Sex`.

**Question 9** [2 pts]:  Combien de personnes peut-on réidentifier de manière unique avec la connaissance de l'attribut `Zip`? Même question pour l'attribut `DOB`.

**Question 10** [4 pts]:  Combien de personnes peut-on réidentifier avec une chance de 1/2 (resp. 1/3) avec la connaissance de l'attribut `Zip`? Même question pour l'attribut `DOB`

## Partie 2: Attaques ciblant un jeu de données aggrégées (25 pts)
La partie 1 montre que les jeux de données dépersonnalisés peuvent être problématique car ils permettent avec très peu d'information de réidentifier des personnes concernées.
Dans cette partie, on s'intéresse à ce que les données aggrégées peuvent révéler sur les individus contenus dans les jeux de données originaux.

### Problème des petits groupes

**Question 11** [2 pts]: À l'aide de la fonction `mean`, calculer l'âge moyen des individus contenus dans le jeu de données `adult`.

**Question 12** [2 pts]: À l'aide des fonctions `mean` et `groupby`, calculer l'âge moyen *groupé par pays* des individus contenus dans le jeu de données `adult`.

**Question 13** [2 pts]: À l'aide de la fonction `value_counts`, montrer les statistiques du nombre de personnes par pays du jeu de données `adult`.

**Question 14** [5 pts]:  Que peut-on déduire de l'âge d'une certaine personne originaire des Pays-bas ?

### Attaques de différenciation

Supposons maintenant que les données agrégées sont publiées chaque année et que le jeu de donnée `adult` contient les enregistrements de l'année courante.

**Question 15** [2 pts]: À l'aide de la fonction `sum` calculer la somme des heures de travail (`Hours per week`) des individus contenus dans le jeu de données `adult` pour l'année courante.

**Question 16** [2 pts]: Sachant que seulement `Faith McCloughlin` a été ajouté au jeu de données cette année, calculer la somme des heures de travail des individus contenus dans le jeu de données `adult` l'année précédente.

**Question 17** [5 pts]: Déduire le nombre d'heures de travail de `Faith McCloughlin`

**Question 18** [5 pts]: Proposer une méthode pour déduire le nombre d'heures de travail si au lieu de la `somme des heures de travail`, c'est la `moyenne des heures de travail` qui est publiée chaque année.

## Partie 3: Anonymat (39 pts)


Pour cette partie on utilisera le jeu de donnée suivant:

In [9]:
# importation du jeux de données
adult_df = pd.read_csv('https://github.com/tisl-lab/data-privacy-class/blob/main/data/adult_small.csv?raw=true')

**Question 19** [3 pts]: Expliquer en trois ou quatre phrases un algorithme pouvant vérifier étant donné un jeu de données `D`, une liste `QIDs` de quasi-identifiants et un paramètre `k` que `D` est **k-anonymisé**

**Question 20** [5 pts]: Proposer une implémentation de cet algorithme qui devra prendre en entrée un dataframe `df`, une liste de quasi-identifiant `QIDs` et le paramètre de k-anonymat `k`.

**Question 21** [2 pts]: Est-ce que ce le jeu de données `adult_df` satisfait le 2-anonymat pour QIDs = `["Sex", "Race"]`?

**Question 22** [3 pts]: Donner la liste des pairs de quasi-identifiants pour lesquels `adult_df` satisfait le 2-anonymat.

**Question 23** [3 pts]: Donner la liste des pairs de quasi-identifiants pour lesquels `adult_df` satisfait le 5-anonymat.

**Question 24** [3 pts]: Donner la liste des triplets de quasi-identifiants pour lesquels `adult_df` satisfait le 2-anonymat.

**Question 25** [3 pts]: Expliquer en trois ou quatre phrases comment l'algorithme précédent pourrait être modifié pour vérifier qu'un jeu de données anonymisé satisfait la **l-diversité** pour un attribut sensible `s`.

**Question 26** [5 pts]: Proposer une implémentation de cet algorithme qui devra prendre en entrée un dataframe `df`, une liste de quasi-identifiant `QIDs`, un attribut sensible `s`, le paramètre de k-anonymat `k` et le paramètre de l-diversité `l`.

**Question 27** [2 pts]:  Est-ce que ce le jeu de données `adult_df` satisfait au 3-anonymat pour QIDs = `["Sex", "Race"]` et à la 2-diversité pour l'attribut `Occupation`?

**Question 28** [5 pts]:  Étant donné le jeu de données `adult_df` qui satisfait le 3-anonymat pour QIDs = `["Sex", "Race"]`, parmi les attributs `["Age", "Workclass", "Relationship", "Country"]`, lesquels pourraient permettre une attaque d'homogénéité s'ils étaient publiés comme attributs sensibles?

**Question 29** [5 pts]: Proposer un algorithme pour généraliser l'attribut `Zip` en transformant les `n` derniers chiffres en `0`. Votre algorithme devra retourner la version transformée du jeu de données.