# Étude de l'éthique des données

## Sommaire

1. Situation initiale
2. Solutions
3. Parties prenantes
4. Impacts
5. Filtre éthique
6. Glossaire

## 1. Situation initiale

Il s'agit dans un document mettant en évidence l'appropriation de la méthodologie proposée pour avoir une démarche éthique traçant des choix justifiés par rapport aussi aux échanges qu'il y a eu dans l'équipe pendant toutes les phases du projet de la préparation du jeu de données à la proposition de pistes d'amélioration à votre client. En plus de la démarche, voici la mise en évidence les décisions qui ont été prises dans l'équipe ainsi que les points de vigilance ou de contrôle à mettre en place par rapport aux problématiques éthiques rencontrées.

Les questions accessibles depuis ce [site](https://digital-strategy.ec.europa.eu/en/library/assessment-list-trustworthy-artificial-intelligence-altai-self-assessment) pourront guider cette démarche. Le fichier PDF téléchargeable donne les principales questions à se poser pour valider qu'un projet d'IA est éthique selon 7 exigences recommandées par la Commission Européenne :
* respect de l'autonomie humaine
* robustesse technique et sécurité
* confidentialité et gouvernance des données
* transparence
* diversité, non-discrimination et équité
* bien-être environnemental et sociétal
* responsabilité

### Fichier de données

#### Données du service des ressources humaines

Pour chaque employé, le service des ressources humaines possède les informations suivantes (`general_data.csv`) :

|Label|Description|Type de data|Nullable|Exemple
|:--|:--|:--|:--|:--|
|Age|L'âge de l'employé en 2015|entier|Non|24, 51, 30, ...|
|Attrition|L'objet de notre étude, est-ce que l'employé a quitté l'entreprise durant l'année 2016 ?|booleen|Non| Yes ou No|
|BusinessTravel| A quel fréquence l'employé a été amené à se déplacer dans le cadre de son travail en 2015 ?| chaine de caractères |Non|Non-Travel = jamais, Travel_Rarely= rarement, Travel_Frequently = fréquemment|
|DistanceFromHome|Distance en km entre le logement de l'employé et l'entreprise|entier|Non|6, 10, ...|
|Education|Niveau d'étude|entier|Non|1=Avant College (équivalent niveau Bac), 2=College (équivalent Bac+2), 3=Bachelor (Bac+3), 4=Master (Bac+5) et 5=PhD (Thèse de doctorat)|
|EducationField| Domaine d'étude, matière principale|CdC|Non| Life Sciences, Medical, Other, ...|
|EmployeeCount|Si l'employé était compté dans les effectifs en 2015|booléen|Non|1 si l'employé était compté dans les effectifs en 2015|
|EmployeeId|l'identifiant d'un employé|entier|Non|1, 2, ...|
|Gender|Sexe de l'employé|CdC|Non|Female, Male|
|JobLevel| Niveau hiérarchique dans l'entreprise|entier|Non|De 1 à 5|
|JobRole|Métier dans l'entreprise|CdC|Non|Research Scientist, Sales Executive, ...|
|MaritalStatus|Statut marital du salarié|CdC|Non|Célibataire, Marié ou Divorcé|
|MonthlyIncome|Salaire brut en roupies par mois|entier|Non|23420, 193280, 103330, ...|
|NumCompaniesWorked|Nombre d'entreprises pour lequel le salarié a travaillé avant de rejoindre HumanForYou|entier|Non|0, 1, 2, ...|
|Over18|Est-ce que le salarié a plus de 18 ans ou non ?|caractère|Non|Y, N|
|PercentSalaryHike|% d'augmentation du salaire en 2015|entier|Non|11, 23, 15, ...|
|StandardHours|Nombre d'heures par jour dans le contrat du salarié|entier|Non|8, ...|
|StockOptionLevel|Niveau d'investissement en actions de l'entreprise par le salarié|entier|Non|0, 1, 2, ...|
|TotalWorkingYears|Nombre d'années d'expérience en entreprise du salarié pour le même type de poste|entier|Non|0, 1, 2, ...|
|TrainingTimesLastYear|Nombre de jours de formation en 2015|entier|Non|0, 1, 2, ...|
|YearsAtCompany|Ancienneté dans l'entreprise|entier|Non|0, 1, 2, ...|
|YearsSinceLastPromotion|Nombre d'années depuis la dernière augmentation individuelle|entier|Non|0, 1, 2, ...|
|YearsWithCurrManager|Nombre d'années de collaboration sous la responsabilité du manager actuel de l'employé|entier|Non|0, 1, 2, ...|

#### Dernière évaluation du manager

Ce fichier contient la dernière évaluation de chaque employé faite pas son manager en février 2015 (`manager_survey_data.csv`).

|Label|Description|Type de data|Nullable|Exemple
|:--|:--|:--|:--|:--|
|EmployeeID|l'identifiant d'un employé|entier|Non|1, 2, ...|
|JobInvolvement|Une évaluation de son implication dans son travail|entier|Non| 1 ('Faible'), 2 ("Moyenne"), 3 ("Importante") ou 4 ("Très importante")|
|PerformanceRating|Une évaluation de son niveau de performance annuel pour l'entreprise|entier|Non| 1 ('Faible'), 2 ("Bon"), 3 ("Excellent") ou 4 ("Au delà des attentes")|

#### Enquête qualité de vie au travail

Ce fichier (`employee_survey_data.csv`) provient d'une enquête soumise aux employés en juin 2015 par le service RH pour avoir un retour concernant leur qualité de vie au travail.

Une organisation avait été mise en place pour que chacun puisse répondre à ce questionnaire sur son lieu de travail en concertation avec les managers mais il n'y avait pas d'obligation.

|Label|Description|Type de data|Nullable|Exemple
|:--|:--|:--|:--|:--|
|EmployeeID|l'identifiant d'un employé|entier|Non|1, 2, ...|
|EnvironmentSatisfaction|Satisfaction de l'environnement de travail|entier|Oui| 1 ('Faible'), 2 ("Moyenne"), 3 ("Élevé") ou 4 ("Très élevé")|
|JobSatisfaction|Son travail|entier|Oui| De 1 à 4|
|WorkLifeBalance|Son équilibre entre vie professionnelle et vie privée|entier|Oui| 1 ("Mauvais"), 2 ("Satisfaisant"), 3 ("Très satisfaisant") ou 4 ("Excellent")|

#### Horaires de travail

Des badgeuses sont installées et utilisées dans l'entreprise depuis quelques années. Il a été jugé opportun par la direction de vous transmettre les horaires d'entrée et de sortie des employés sur une période de l'année choisie représentative d'une activité moyenne pour l'ensemble des services.

Il y a donc 2 fichiers traçants les horaires d'arrivée à leur poste et de départ de leur poste de l'ensemble des employés par date sur une période allant du 1er janvier au 31 décembre 2015.

`in_time.csv` :

|Label|Description|Type de data|Nullable|Exemple|
|:--|:--|:--|:--|:--|
|EmployeeID|l'identifiant d'un employé|entier|Non|1, 2, ...|
|2015-01-01 <br/>2015-01-02 <br/> ...|Date et heure de l'entrée|date heure|Oui|2015-01-02 09:43:45, 2015-01-02 09:44:45, ...|

`out_time.csv` :

|Label|Description|Type de data|Nullable|Exemple|
|:--|:--|:--|:--|:--|
|EmployeeID|l'identifiant d'un employé|entier|Non|1, 2, ...|
|2015-01-01 <br/>2015-01-02 <br/> ...|Date et heure de la sortie|date heure|Oui|2015-01-02 09:43:45, 2015-01-02 09:44:45, ...|

## 2. Solutions

Voici les solutions proposées pour chaque exigences proposées par la Comission Européenne :

| Exigences | Solutions |
|:--|:--|
| Respect de l'autonomie humaine | - L'intelligence artificielle doit être utilisisée pour proposer des suggestions et des recommandations, mais ne doit pas être utilisée pour prendre des décisions. |
| Robustesse technique et sécurité | - Doit disposer de leviers de sécurité, de contrôle et de surveillance. Comme par exemple, la possibilité de désactiver l'IA en cas de problème. |
| Confidentialité et gouvernance des données | - Pas de collecte de données personnelles. </br>- Localisation des serveurs. </br>- Les responsables et les utilisateurs doivent être identifiables et responsables. </br>- Contrôle des données par les utilisateurs. |
| Transparence | - Pas de parti-pris. </br>- Les décisions prises par les systèmes d'IA doivent être compréhensibles et explicables pour les utilisateurs et les parties prenantes. |
| Diversité, non-discrimination et équité | - Pas de biais ou de discrimination. </br>- Respect de la diversité et de l'égalité de traitement. </br>- *Pas de traitement sur : l'origine, l'éthnie, la nationalité, l'handicap, le sexe, la religion et le statut matriominial ou familial.* |
| Bien-être environnemental et sociétal | - Pas de risque de traçabilité pour les utilisateurs. </br>- Pas de risque de sécurité pour les données. |
| Responsabilité | - Conformité aux normes en vigueur. |

### Autonomie humaine

Nous avons pris en compte le respect de l'autonomie humaine en évitant que l'IA prenne des décisions à la place des humains. Il faut opter pour l'utilisation de l'IA pour proposer des suggestions et des recommandations aux utilisateurs. Nous avons ainsi assuré que les décisions finales restent entre les mains des humains.

Ressource [1](https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000037809855&dateTexte=20181231).

### Robustesse technique et sécurité

La robustesse technique et la sécurité ont été des points clés dans notre projet. Il faut en priorité mettre en place des leviers de sécurité, de contrôle et de surveillance pour éviter tout problème potentiel. Par exemple, HumanForYou a prévu la possibilité de désactiver l'IA en cas de problème et a veillé à ce que l'IA soit développée selon les normes et standards de sécurité en vigueur, pour garantir un haut niveau de protection des données.

Ressources [2](https://www.lebigdata.fr/intelligence-artificielle-securite), [3](https://linc.cnil.fr/fr/securite-des-systemes-dia-les-gestes-qui-sauvent).

### Confidentialité et gouvernance des données

Nous avons pris en compte la confidentialité et la gouvernance des données tout au long du projet. Nous avons opté pour la non-collecte de données personnelles pour respecter la vie privée des utilisateurs et recommandons une localisation sécurisée des serveurs, et assurer que les responsables et les utilisateurs soient identifiables et responsables. Enfin, il faut mettre en place un contrôle des données par les utilisateurs pour leur permettre de gérer leurs informations de manière autonome.

Ressources [4](https://www.cnil.fr/fr/intelligence-artificielle/ia-comment-etre-en-conformite-avec-le-rgpd), [5](https://www.ibm.com/fr-fr/analytics/data-privacy-ai-protection).

### Transparence

Nous avons veillé à éviter tout parti pris dans notre projet. Les décisions prises par les systèmes d'IA doivent être compréhensibles et explicables pour les utilisateurs et les parties prenantes. Nous avons ainsi assuré la transparence de notre projet en fournissant des explications claires sur les choix de recommandations proposées par l'IA.

Ressource [6](https://www.diplomatie.gouv.fr/fr/politique-etrangere-de-la-france/diplomatie-numerique/transparence-et-responsabilite-les-enjeux-de-l-intelligence-artificielle/).

### Diversité, non-discrimination et équité

Dans notre projet, nous avons veillé à ne pas introduire de biais ou de discrimination, et à respecter la diversité et l'égalité de traitement. Nous avons évité tout traitement basé sur l'origine, l'éthnie, la nationalité, l'handicap, le sexe, la religion et le statut matrimonial ou familial.

Ressources [7](https://assembly.coe.int/LifeRay/EGA/Pdf/TextesProvisoires/2020/20200915-PreventingDiscriminationAI-FR.pdf), [8](https://www.zdnet.fr/actualites/une-ia-digne-de-confiance-l-ue-publie-des-lignes-directrices-pour-le-developpement-d-une-ia-ethique-39883303.htm).

### Bien-être environnemental et sociétal

Nous avons pris en compte le bien-être environnemental et sociétal dans notre projet d'IA en évitant tout risque de traçabilité pour les utilisateurs et en garantissant la sécurité des données. Nous avons assuré que notre projet ne pose aucun risque pour l'environnement ou la société.

Ressource [9](https://ecoinfo.cnrs.fr/2022/03/15/impacts-sociaux-de-lia/).

### Responsabilité

Enfin, il faut assurer la conformité aux normes en vigueur pour garantir la responsabilité du projet. Nous avons ainsi veillé à respecter les lois et les réglementations en matière d'éthique de l'IA pour assurer la transparence et la responsabilité.

Ressource [4](https://www.cnil.fr/fr/intelligence-artificielle/ia-comment-etre-en-conformite-avec-le-rgpd).

## 3. Parties prenantes

Les parties prenantes sont :
- HumanForYou ;
- Les utilisateurs ;
- Les développeurs ;
- Les partenaires ;
- Les autorités (CNIL, RGPD, etc.) ;
- La commission européenne.

## 4. Impacts

L'objectif de notre projet est de proposer une estimation des facteurs de démission d'un employé.

Suivant les résultats de notre projet, HumanForYou proposera des solutions pour réduire le taux de démission des employés, ainsi, les impacts seront :
- Améliorer la satisfaction des employés ;
- Réduire les coûts de recrutement ;
- Réduire les coûts de formation ;
- Améliorer la productivité de l'entreprise.

## 5. Filtre éthique

Voici les données non-pertinentes que nous avons identifiées dans notre projet :

|Pas utile|
|:-|
|"Over18"|
|"EducationField"|
|"EmployeeCount" = 0|
|*"StockOptionLevel"*|

Non-pertinantes car elles ne sont pas utiles pour la prédiction de la démission d'un employé :
- `Over18` : Nous avons déjà l'age de l'employé.
- `EducationField` : Nous avons déjà l'education de l'employé.
- `EmployeeCount` : Tous les employés ont 0 comme valeur.
- `StockOptionLevel` : Non pertinente.

Voici les données non-éthiques que nous avons identifiées dans notre projet :

|Pas éthique|
|:-|
|< 18 ans|
|"Gender"|
|"MaritalStatus"|

- `<18` : Nous ne pouvons pas prédire la démission d'un employé mineur.
- `Gender` : Il est interdit de discriminer les employés en fonction de leur sexe.
- `MaritalStatus` : Il est interdit de discriminer les employés en fonction de leur statut matrimonial.

## 6. Glossaire

* **RGPD :** Règlement Général sur la Protection des Données.
* **IA :** Intelligence Artificielle.
* **CNIL :** Commission Nationale de l'Informatique et des Libertés.
* **Discrimination :** Lorsqu'une personne est traitée différemment en raison de son origine, de son sexe, de son âge, de son handicap, de son orientation sexuelle, de son identité de genre, de son état matrimonial, de sa situation familiale, de sa religion ou de ses croyances, de son appartenance à une ethnie ou à une nation, de son appartenance à une organisation syndicale, de son appartenance à un parti politique ou de ses opinions politiques.