# Machine Learning éthique

Ce notebook est inspiré de l'article [FairTest: Discovering Unwarranted Associations in Data-Driven Applications](https://arxiv.org/abs/1510.02377) et propose d'étudier une façon de vérifier qu'un modèle ou une métrique n'est pas biaisé par rapport à certains critères.

In [1]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Principe

Un problème de machine learning dans sa définition la plus simple consiste à prédire $Y$ en fonction de $I$. On souhaite construire une fonction $f(I)$ qui s'approche le plus possible de $Y$. On appelle $I$ l'ensemble des données utilisateurs ou *user input* et $f(I)$ la sortie du modèle ou *output to users (O)*. On veut découvrir si la sortie du modèle est biaisée d'une façon non-éthique par rapport à des attributs dits protégés ou *protected attributes (S)* tels que l'origine éthnique ou le genre. On tient compte également du contexte, code postal, ...) ou *context attributes (X)* et de variables explicative ou *explanotory attributes (E)*. On a donc :

* **I** : les variables en entrée du modèles,
* **O** : la prédiction du modèle,
* **S** : les attributs protégés, toute corrélation entre la sortie et ces attributs est indésirable,
* **X** : le contexte (principalement le lieu géographique)
* **E** : les variables explicatives (contraintes qualitification), la sortie est a priori corrélée avec ces attributs, de façon quasi prévisible.

Un exemple. Supposons qu'on cherche à recommander un objet à la vente sur un site internet à partir des données de navigation de cette personne (I). Comme cette personne est identifiée, on peut savoir où elle habite (X), son origine éthnique (S) et son niveau d'étude (E). Le site lui recommande un livre de mathématiques (O). Est-ce que cette recommandation dépend principalement de l'origine éthnique (S) ? Et si les deux informations semblent corrélées, ne serait-ce pas plutôt son niveau d'étude (E) qui explique la recommandation ?