# Explorer la confidentialité différentielle

Un projet d’apprentissage automatique implique généralement un processus itératif d’analyses de données destiné à obtenir des insights sur les données et à déterminer les variables les plus susceptibles d’aider à créer des modèles prédictifs. L’analyse des données implique généralement des fonctions agrégatives et statistiques qui fournissent des insights sur la distribution statistique des variables et les relations entre elles. Avec des volumes de données conséquents, les agrégations fournissent un niveau d’abstraction, tandis qu’avec des volumes de données plus modestes ou avec des analyses répétées, même des résultats agrégés peuvent révéler des détails sur des observations individuelles.

La *confidentialité différentielle* est une technique conçue pour préserver la confidentialité des points de données individuels en ajoutant du « bruit » aux données. L’objectif est de s’assurer que le bruit ajouté est suffisant pour préserver la confidentialité des valeurs individuelles, tout en veillant à ce que la composition statistique globale des données reste cohérente, et que les agrégations produisent des résultats statistiquement similaires à ceux obtenus avec les données brutes d’origine.

## Installer le Kit de développement logiciel (SDK) SmartNoise

[*SmartNoise*](https://smartnoise.org/) est un kit de ressources d’OpenDP. Il s’agit d’un projet conjoint de chercheurs de Microsoft, de la Harvard University et d’autres contributeurs, qui vise à fournir des blocs de construction pour l’utilisation de la confidentialité différentielle dans des projets d’analyse de données et d’apprentissage automatique.

> **Remarque** : SmartNoise n’en est actuellement qu’aux premiers stades de développement.

Commençons par installer le package du Kit de développement logiciel (SDK) Python SmartNoise. Dans cet exercice, vous pouvez ignorer les erreurs relatives à la compatibilité d’Azure CLI.

In [None]:
pip install opendp-smartnoise==0.1.4.2

## Charger les données

Jetons maintenant un coup d’œil à certaines données brutes. Dans ce cas, nous disposons d’un ensemble de 10 000 enregistrements de patients testés pour le diabète.

In [None]:
import pandas as pd

data_path = 'data/diabetes.csv'
diabetes = pd.read_csv(data_path)
diabetes.describe()

La sortie du code ci-dessus montre les statistiques de synthèse clés pour les variables dans le jeu de données sur le diabète.

## Effectuer une analyse

Vous pouvez utiliser SmartNoise pour créer une analyse dans laquelle du bruit est ajouté aux données sources. Les mathématiques sous-tendant la façon dont le bruit est ajouté peuvent être assez complexes, mais SmartNoise s’occupe de la plupart des détails pour vous. Toutefois, il existe quelques concepts qu’il est utile de connaître.

- **Limites supérieures et inférieures** : un *bridage* est utilisé pour définir les limites supérieures et inférieures des valeurs d’une variable. Cela est nécessaire pour garantir la cohérence du bruit généré par SmartNoise avec la distribution attendue des données d’origine.
- **Taille de l’échantillon** : pour générer des données privées différentiellement cohérentes pour certaines agrégations, SmartNoise doit connaître la taille de l’échantillon de données à générer.
- **Epsilon** : en termes simples, *epsilon* est une valeur non négative qui fournit une mesure inverse de la quantité de bruit ajoutée aux données. Un valeur epsilon basse se traduit par un ensemble de données présentant un niveau de confidentialité plus élevé, tandis qu’une valeur epsilon élevée se traduit par un ensemble de données plus proche des données d’origine. En règle générale, vous devriez utiliser des valeurs epsilon comprises entre 0 et 1. La valeur epsilon est corrélée avec une autre valeur nommée *delta*, qui indique la probabilité qu’un rapport généré par une analyse ne soit pas entièrement privé.

Avec ces concepts en tête, examinez et exécutez le code suivant, qui crée une analyse et rapporte la valeur moyenne de **Âge** à partir des données différentiellement privées. La valeur de moyenne réelle des données brutes d’origine est également affichée à des fins de comparaison.

In [None]:
import opendp.smartnoise.core as sn

cols = list(diabetes.columns)
age_range = [0.0, 120.0]
samples = len(diabetes)

with sn.Analysis() as analysis:
    # load data
    data = sn.Dataset(path=data_path, column_names=cols)
    
    # Convert Age to float
    age_dt = sn.to_float(data['Age'])
    
    # get mean of age
    age_mean = sn.dp_mean(data = age_dt,
                          privacy_usage = {'epsilon': .50},
                          data_lower = age_range[0],
                          data_upper = age_range[1],
                          data_rows = samples
                         )
    
analysis.release()

# print differentially private estimate of mean age
print("Private mean age:",age_mean.value)

# print actual mean age
print("Actual mean age:",diabetes.Age.mean())

## Explorer la distribution des données avec des histogrammes

Il est courant, lors d’une analyse de données d’examiner la distribution d’une variable à l’aide d’un histogramme.

Par exemple, examinons la distribution réelle des âges dans le jeu de données sur le diabète.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

ages = list(range(0, 130, 10))
age = diabetes.Age

# Plot a histogram with 10-year bins
n_age, bins, patches = plt.hist(age, bins=ages, color='blue', alpha=0.7, rwidth=0.85)
plt.grid(axis='y', alpha=0.75)
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('True Age Distribution')
plt.show()
print(n_age.astype(int))

Nous allons maintenant comparer un histogramme différentiellement privé de Âge.

In [None]:
import matplotlib.pyplot as plt

with sn.Analysis() as analysis:
    data = sn.Dataset(path = data_path, column_names = cols)

    age_histogram = sn.dp_histogram(
            sn.to_int(data['Age'], lower=0, upper=120),
            edges = ages,
            upper = 10000,
            null_value = -1,
            privacy_usage = {'epsilon': 0.5}
        )
    
analysis.release()

plt.ylim([0,7000])
width=4
agecat_left = [x + width for x in ages]
agecat_right = [x + 2*width for x in ages]
plt.bar(list(range(0,120,10)), n_age, width=width, color='blue', alpha=0.7, label='True')
plt.bar(agecat_left, age_histogram.value, width=width, color='orange', alpha=0.7, label='Private')
plt.legend()
plt.title('Histogram of Age')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

print(age_histogram.value)

Les histogrammes sont suffisamment similaires pour garantir que des rapports basés sur les données différentiellement privées fournissent les mêmes insights que des rapports à partir des données brutes.

## Calcul de la covariance

Un autre objectif courant de l’analyse est d’établir des relations entre variables. SmartNoise fournit une fonction de *covariance* différentiellement privée qui peut vous aider à cet égard.

In [None]:
with sn.Analysis() as analysis:
    sn_data = sn.Dataset(path = data_path, column_names = cols)

    age_bp_cov_scalar = sn.dp_covariance(
                left = sn.to_float(sn_data['Age']),
                right = sn.to_float(sn_data['DiastolicBloodPressure']),
                privacy_usage = {'epsilon': 1.0},
                left_lower = 0.,
                left_upper = 120.,
                left_rows = 10000,
                right_lower = 0.,
                right_upper = 150.,
                right_rows = 10000)
analysis.release()
print('Differentially private covariance: {0}'.format(age_bp_cov_scalar.value[0][0]))
print('Actual covariance', diabetes.Age.cov(diabetes.DiastolicBloodPressure))

Dans ce cas, la covariance entre **Âge** et **DisatolicBloodPressure** est positive, ce qui indique que les patients plus âgés ont tendance à avoir une pression sanguine plus élevée.

## Utiliser des requêtes SQL

En plus de la fonctionnalité **Analyse**, SmartNoise vous permet d’utiliser des requêtes SQL sur des sources de données pour récupérer des résultats agrégés différentiellement privés.

Vous devez commencer par définir les métadonnées des tables dans votre schéma de données. Vous pouvez le faire dans un fichier .yml, tel que le fichier **diabetes.yml** dans le dossier **/metadata**. Les métadonnées décrivent les champs dans les tables, y compris les types de données et les valeurs minimales et maximales pour des champs numériques.

In [None]:
from opendp.smartnoise.metadata import CollectionMetadata

meta = CollectionMetadata.from_file('metadata/diabetes.yml')
print (meta)

Une fois les métadonnées définies, vous pouvez créer des *lecteurs* que vous pouvez interroger. Dans l’exemple suivant, nous allons créer un **PandasReader** pour lire les données brutes à partir d’une tramedonnées Pandas, et un **PrivateReader** qui ajoute une couche de confidentialité différentielle au **PandasReader**.

In [None]:
from opendp.smartnoise.sql import PandasReader, PrivateReader

reader = PandasReader(diabetes, meta)
private_reader = PrivateReader(reader=reader, metadata=meta, epsilon_per_column=0.7)
print('Readers ready.')

Vous pouvez maintenant envoyer une requête SQL qui retourne un jeu de résultats agrégé au lecteur privé.

In [None]:
query = 'SELECT Diabetic, AVG(Age) AS AvgAge FROM diabetes.diabetes GROUP BY Diabetic'

result_dp = private_reader.execute(query)
print(result_dp)

Comparons le résultat à la même agrégation à partir des données brutes.

In [None]:
result = reader.execute(query)
print(result)

Vous pouvez personnaliser le comportement d’un **PrivateReader** avec le paramètre **epsilon_per_column**.

Essayons un lecteur avec une valeur epsilon élevée (faible confidentialité), et un autre avec une valeur epsilon basse (haute confidentialité).

In [None]:
low_privacy_reader = PrivateReader(reader, meta, 5.0)  # large epsilon, less privacy
result = low_privacy_reader.execute(query)
print(result)
print()

high_privacy_reader = PrivateReader(reader, meta, 0.1)  # smaller epsilon, more privacy
result = high_privacy_reader.execute(query)
print(result)

Notez que les résultats du lecteur avec la valeur epsilon élevée (faible confidentialité) sont plus proches des vrais résultats des données brutes que les résultats du lecteur avec la valeur epsilon basse (haute confidentialité).

## En savoir plus

Pour en savoir plus sur la confidentialité différentielle avec SmartNoise, consultez [https://smartnoise.org](https://smartnoise.org/).