# TP 3: Données personnelles, données sensibles & anonymisation

## Données personnelles

Une donnée personnelle est toute information se rapportant à une personne physique identifiée ou identifiable. Mais, parce qu’elles concernent des personnes, celles-ci doivent en conserver la maîtrise.

(Source: https://www.cnil.fr/fr/definition/donnee-personnelle)

Une personne physique peut être identifiée :

* **directement** (exemple : nom et prénom) ;
* **indirectement** (exemple : par un numéro de téléphone ou de plaque d’immatriculation, un identifiant tel que le numéro de sécurité sociale, une adresse postale ou courriel, mais aussi la voix ou l’image).



L’identification d’une personne physique peut être réalisée :

* à partir d’une seule donnée (exemple : nom) ;
* à partir du **croisement d’un ensemble de données** (exemple : une femme vivant à telle adresse, née tel jour et membre dans telle association) :



## Droits des personnes associés à leurs données

* **droit à l’information**: Toute personne a un droit de regard sur ses propres données ; par conséquent, quiconque met en œuvre un fichier ou un traitement de données personnelles est obligé d’informer les personnes fichées de son identité, de l’objectif de la collecte d’informations et de son caractère obligatoire ou facultatif, des destinataires des informations, des droits reconnus à la personne, des éventuels transferts de données vers un pays hors de l’Union européenne.
* **droit d’accès**: Toute personne peut prendre connaissance de l’intégralité des données la concernant dans un fichier en s’adressant directement à ceux qui les détiennent, et en obtenir une copie dont le coût ne peut dépasser celui de la reproduction.
* **droit d’accès indirect**: Toute personne peut demander que la CNIL vérifie les renseignements qui peuvent la concerner dans les fichiers intéressant la sûreté de l’État, la Défense et la Sécurité publique.
* **droit de rectification**: Toute personne peut faire rectifier, compléter, actualiser, verrouiller ou effacer des informations la concernant lorsqu’ont été décelées des erreurs, des inexactitudes ou la présence de données dont la collecte, l’utilisation, la communication ou la conservation est interdite.
* **droit d’opposition**: Toute personne a la possibilité de s’opposer, pour des motifs légitimes, à figurer dans un fichier, et peut refuser sans avoir à se justifier, que les données qui la concernent soient utilisées à des fins de prospection commerciale.
* **La finalité du traitement**: La finalité du traitement est l’objectif principal de l’utilisation de données personnelles. Les données sont collectées pour un but bien déterminé et légitime et ne sont pas traitées ultérieurement de façon incompatible avec cet objectif initial. Ce principe de finalité limite la manière dont le responsable de traitement peut utiliser ou réutiliser ces données dans le futur. (ex: gestion des recrutements, gestion des paies, gestion des clients, enquête de satisfaction, surveillance des locaux, etc.)
* **accountability**:  L’accountability désigne l’obligation pour les entreprises de mettre en œuvre des mécanismes et des procédures internes permettant de démontrer le respect des règles relatives à la protection des données.

## Données sensibles

Les données sensibles forment une **catégorie particulière des données personnelles**.
Ce sont des informations qui révèlent la prétendue **origine raciale ou ethnique**, les **opinions politiques**, les **convictions religieuses ou philosophiques** ou l'**appartenance syndicale**, ainsi que le traitement des **données génétiques**, des **données biométriques** aux fins d'identifier une personne physique de manière unique, des données concernant **la santé** ou des données concernant la **vie sexuelle** ou l'**orientation sexuelle** d'une personne physique. 

(Source: https://www.cnil.fr/fr/definition/donnee-sensible)

Le règlement européen interdit de recueillir ou d’utiliser ces données, sauf, notamment, dans les cas suivants :

* **si la personne concernée a donné son consentement exprès** (démarche active, explicite et de préférence écrite, qui doit être libre, spécifique, et informée) ;
* si les informations sont manifestement rendues publiques par la personne concernée
* **si elles sont nécessaires à la sauvegarde de la vie humaine**
* **si leur utilisation est justifiée par l'intérêt public et autorisé par la CNIL**
* si elles concernent les membres ou adhérents d'une association ou d'une organisation politique, religieuse, philosophique, politique ou syndicale. 


# Objectifs du TP 

* Vous disposez d'un fichier de données patients à partir duquel vous souhaitez faire une étude.
* Vous souhaitez traiter ces données en faisant attention à la confidentialité des données personnelles et sensibles des patients. A cette fin, vous allez vous mettre dans la peau d'une personne malveillante pour voir à quel point les méthodes que vous mettrez en oeuvre résisteront à la créativité humaine.

## Dans le monde réel, les données sont normalement protégées

* chiffrement
* droits utilisateurs
* sécurité réseau 
* ...

mais ce n'est pas suffisant.

## Les données

* Vous disposez des données de votre étude
* Vous avez pu récupérer sur markettingetcarambouilles.fr un fichier client qui se targue d'avoir une couverture excellente (pour ne pas dire parfaite) sur les départements de l'isère et du rhône. 

## Etape 1: récupérez les données et commencez à les regarder 

1. Créez une base sqlite localement
2. Créez deux tables et uploadez les données
3. Récupérez les tables sous forme de dataframe python et faites une exploration rapide de ces données.
4. Quels sont selon vous dans les données patients les données personnelles (identificateurs & quasi-identificateurs) et les données sensibles ?
5. De combien de patients retrouvez vous le nom en faisant une jointure entre ces deux tables ?

# Anonymisation

L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre **impossible**, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière **irréversible**.



# Anonymisation & pseudonymisation

La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. 

L’opération de pseudonymisation est [...] **réversible**, contrairement à l’anonymisation.

En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.).

## Remarques

Le règlement général sur la protection des données (RGPD) ne comporte pas d’obligation générale d’anonymisation.
Il s’agit d’une solution, parmi d’autres, pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes.

En effet, l’anonymisation ouvre des potentiels de réutilisation des données initialement interdits du fait du caractère personnel des données exploitées, et permet ainsi aux acteurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données au-delà de leur durée de conservation.


Dans ce cas, la législation relative à la protection des données ne s’applique plus, car la diffusion ou la réutilisation des données anonymisées n’a pas d’impact sur la vie privée des personnes concernées.

* différentes méthodes
* equilibre en densité d'information des données et caractère anonyme

* https://www.rocket-services.com/blog/2019/06/24/8-techniques-marketing-enrichir-base-de-donnees-client/
* https://www.marketingconnect.fr/achat-fichier/

linkage attack
differential privacy, plausible deniability
https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
    
> bruit donc besoin de grands volumes de données
> plus complexe pour mettre en place & exploitation

https://fr.wikipedia.org/wiki/Confidentialit%C3%A9_diff%C3%A9rentielle

# Méthodes protection données

* balayage chiffrement, droits utilisateurs, sécurité réseau, ...


# TP

* hacking données personnelles données de santé: on suppose base de données personnelles
    * on a des données que l'on cherche à anonymiser. Plusieurs anonymisations successives pour
    * retrouver le plus d'individus possible avec des contraintes de plus en plus difficiles sur les
    * données (besoin de l'age exact pour X ou Y raison).

## Etape 2: Pseudonymisez vos données puis attaquez les

1. Supprimer les identificateurs et les remplacer par une valeur unique par patient.
2. Chargez les données pseudonymisées. Combien d'individus vous arrivez à identifier de manière unique et pour combien retrouvez vous le nom et le prénom ?
    * Quelles sont selon vous les limites de la pseudonymisation ?
    * Que feriez vous pour améliorer cette approche ?
3. Mettez en oeuvre vos idées. Pour rappel, dans le cadre de votre étude, il vous faut conserver au minimum sujet des patients:
    * une idée de l'âge
    * le genre
    * une idée de la localisation géographique

In [None]:
religion, maladie
https://desfontain.es/privacy/k-anonymity.html
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2528029/
https://github.com/Nuclearstar/K-Anonymity/blob/master/k-Anonymity.ipynb
https://arturo102964.medium.com/differential-privacy-with-python-35ea710facd6

# Fun facts

prix Netflix
De 2006 à 2009, Netflix organisa une compétition offrant 1 000 000 $US à quiconque pourrait améliorer de 10% son système de recommandation (i.e. filtrage collaboratif). La société fournissait un jeu de données permettant aux candidats d'entraîner leurs modèles. Bien que l'entreprise ait au préalable pris soin de remplacer les identifiants clients par des identifiants aléatoires, les chercheurs Arvind Narayanan et Vitaly Shmatikov5 ont réussi à ré-identifier une partie de ces données à partir des notes attribuées par les membres d'IMDb. En effet, sur IMDb, les membres peuvent noter des films sans que leurs informations personnelles reliées soient anonymisées. C'est à partir de ces informations que les deux chercheurs de l'Université du Texas à Austin ont pu ré-identifier partiellement la base de données fournie par Netflix, révélant de fait l'identité et les attributs de clients de la société. Pour ces raisons, la deuxième édition en 2010 n'a pas été reconduite. 


Sweeney l’a mis en évidence aux Etats-Unis en 2001 en croisant deux bases de données, une base de données médicale pseudonymisée et une liste électorale avec des données nominatives. Le croisement a été effectué non pas sur des champs directement identifiants, mais sur un triplet de valeurs : code postal, date de naissance et sexe, qui est unique pour environ 80% de la population des Etats-Unis3 ! Elle a ainsi pu relier des données médicales à des individus (en l’occurrence le gouverneur de l’Etat). William Weld était gouverneur du Massachusetts à l'époque et ses dossiers médicaux étaient dans les données GIC. Il vivait à Cambridge MassachusettsDans la liste des électeurs de Cambridge, 6 personnes avaient la même date de naissance que lui, mais seulement 3 d'entre eux étaient des hommes, et il était le seul dans son code postal à 5 chiffres

# k-anonymisation

Réduire le niveau de détail des données de telle sorte qu’il y a au moins kn-uplets différents qui ont la même valeur de quasi-identifiant

une chance sur k qu’on a bien lié un individu donné avec son n-uplet anonyme

There are two common methods for achieving k-anonymity for some value of k.

Suppression: In this method, certain values of the attributes are replaced by an asterisk '*'. All or some values of a column may be replaced by '*'. In the anonymized table below, we have replaced all the values in the 'Name' attribute and all the values in the 'Religion' attribute with a '*'.
Generalization: In this method, individual values of attributes are replaced with a broader category. For example, the value '19' of the attribute 'Age' may be replaced by ' ≤ 20', the value '23' by '20 < Age ≤ 30' , etc.

http://pages.cs.wisc.edu/~lefevre/MultiDim.pdf
https://github.com/qiyuangong/Mondrian

1 Re-identify a specific individual (known as the prosecutor re-identification scenario). The intruder (e.g., a prosecutor) would know that a particular individual (e.g., a defendant) exists in an anonymized database and wishes to find out which record belongs to that individual.

2 Re-identify an arbitrary individual (known as the journalist re-identification scenario). The intruder does not care which individual is being re-identified, but is only interested in being able to claim that it can be done. In this case the intruder wishes to re-identify a single individual to discredit the organization disclosing the data.

## Problemes

* Problème NP-Hard (heuristique: k-optimize): être capable de déterminer les généralisations à effectuer pour produire les quasi-identifiants, ce qui peut être fait soit par un expert humain qui connaît le domaine, ou bien par un calcul informatique, souvent très coûteux pour une base de données réelle.

* Homogeneity Attack: This attack leverages the case where all the values for a sensitive value within a set of k records are identical. In such cases, even though the data has been k-anonymized, the sensitive value for the set of k records may be exactly predicted.

* Background Knowledge Attack: This attack leverages an association between one or more quasi-identifier attributes with the sensitive attribute to reduce the set of possible values for the sensitive attribute. For example, Machanavajjhala, Kifer, Gehrke, and Venkitasubramaniam (2007) showed that knowing that heart attacks occur at a reduced rate in Japanese patients could be used to narrow the range of values for a sensitive attribute of a patient's disease.

* certaine quantité d’information sera déjà dévoilée, en particulier de l’information négative : si on connaît le quasi-identifiant d’une personne, on pourra exclure tout un ensemble de valeurs, ou bien savoir qu’elle a de plus grandes chances d’avoir une certaine valeur sensible. (inférence)

* K-anonymization is not a good method to anonymize high-dimensional datasets.

* It has also been shown that k-anonymity can skew the results of a data set if it disproportionately suppresses and generalizes data points with unrepresentative characteristics

# Sources

* https://www.cnil.fr/fr/les-fichiers-detat-civil
* https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles
* https://www.cnil.fr/fr/rnipp-repertoire-national-didentification-des-personnes-physiques-0
* https://data.grandbesancon.fr/opendata/dataset/publicationsEtatCivilNaissance
* https://developers.facebook.com/docs/graph-api/reference/user/?locale=fr_FR#Reading
* https://drees.solidarites-sante.gouv.fr/IMG/pdf/4_methodes_d_anonymisation.pdf
* https://www.marketingconnect.fr/achat-fichier/
* https://www.datadrive.fr/btoc/
* https://www.easyfichiers.com/
* https://www.cartegie.com/data/bases-btob
* https://www.spot-hit.fr/base-prospects-opt-in
* https://www.cnil.fr/fr/les-durees-de-conservation-des-donnees
* https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_fr.pdf
* https://epic.org/privacy/reidentification/Sweeney_Article.pdf
* https://drees.solidarites-sante.gouv.fr/IMG/pdf/4_methodes_d_anonymisation.pdf
* https://www.enisa.europa.eu/publications/pseudonymisation-techniques-and-best-practices
* https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2528029/
* https://www.cs.auckland.ac.nz/research/groups/ssg/pastbib/pastpapers/bayardo05data.pdf
* https://core.ac.uk/download/pdf/207542776.pdf
* https://github.com/Nuclearstar/K-Anonymity/blob/master/k-Anonymity.ipynb

## Anonymisation

1. K-anonymisez ces données (manuellement ou pensez à un algorithme simple pour le faire)
2. Chargez les données k-anonymisées et tâchez de savoir combien d'individus vous arrivez à identifier de manière unique et pour combien vous savez retrouver le nom, prénom, [données sensible]

# I-diversité

non seulement au moins k n-uplets doivent apparaître dans une classe d’équivalence, mais en plus le champ sensible associé à la classe d’équivalence doit prendre au moins l valeurs distinctes

# t-proximité

comment partitionner mes données de telle sorte que toutes les partitions se ressemblent en termes
de distribution


# Confidentialité différentielle

* Utiliser https://github.com/IBM/differential-privacy-library/blob/main/notebooks/exploration.ipynb ?
* Quelles sont limites ?
* Utilisez des données issues de confdiff  et tâchez de savoir combien d'individus vous arrivez à identifier de manière unique et pour combien vous savez retrouver le nom, prénom