# 1. Introduction et Contextualisation

### Présentation du problème et de l'importance de la sélection non biaisée des candidats.

Au cœur du succès d'une entreprise se trouve son processus de recrutement, un défi complexe où il est crucial d'assurer une sélection de candidats exempte de biais. Notre projet vise à développer un système de sélection non biaisé, crucial pour construire des milieux de travail inclusifs et performants.

Les préjugés dans le recrutement, souvent inconscients, peuvent limiter la diversité et perpétuer des inégalités, fermant la porte à des talents prometteurs. Un recrutement biaisé réduit la diversité de pensée, essentielle à l'innovation et à la créativité.

Notre objectif est donc de créer une solution qui identifie et atténue ces biais, ouvrant la voie à un recrutement fondé sur l'équité et l'inclusion. Cette approche vise non seulement à renforcer la justice sociale, mais aussi à doter les entreprises d'outils pour bâtir des équipes dynamiques, capables de relever les défis futurs.

Ce projet représente une étape vers un environnement de travail où l'égalité des chances est une réalité, où la diversité est valorisée et célébrée.

### Objectifs et portée du projet.

Notre projet se dresse à l'intersection de la technologie et de l'humanité, avec un double objectif clair et ambitieux. D'une part, nous aspirons à développer un outil de sélection de candidats innovant, capable d'identifier et de réduire les biais inhérents au processus de recrutement. D'autre part, nous visons à encourager une prise de conscience plus large sur l'importance de l'équité dans le recrutement, jetant ainsi les bases d'une révolution dans les pratiques des ressources humaines.

La portée de notre projet s'étend bien au-delà de la simple conception d'un algorithme. Nous envisageons un système complet qui non seulement évalue les candidats sur des critères objectifs et équitables, mais offre également des insights précieux sur la manière de structurer des processus de recrutement plus inclusifs. En intégrant des analyses approfondies et des visualisations intuitives, notre solution vise à mettre en lumière les zones d'ombre souvent ignorées dans les pratiques de recrutement actuelles.

Nous sommes conscients des défis et des responsabilités que comporte un tel projet. Cela implique non seulement une compréhension technique approfondie, mais aussi une sensibilité aux nuances sociales et éthiques du recrutement. Notre objectif est de créer un outil qui respecte et valorise la diversité, tout en fournissant aux entreprises les moyens de recruter des talents de manière juste et efficace.

### Aspect technique

##### Packages

In [None]:
!pip install xlrd
!pip install openpyxl
!pip install dalex
!pip install statsmodels
!pip install wordcloud
!pip install xgboost

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.graphics.mosaicplot import mosaic
from wordcloud import WordCloud
from sklearn.utils import resample
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
from sklearn.model_selection import train_test_split
import dalex as dx
import numpy as np
from copy import copy
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.metrics import mean_squared_error
import requests
from io import StringIO


# 2. Collecte et Nettoyage des Données

La réussite de notre projet repose sur une base de données robuste et fiable. Cette étape cruciale détermine la qualité et l'efficacité de toute notre analyse ultérieure. Pour cela, nous allons entreprendre un processus minutieux d'identification et d'acquisition de sources de données pertinentes.

### Identification et acquisition de sources de données pertinentes (bases de données existantes, APIs, scraping, etc.).

**Identification des Sources de Données :** Notre quête commence par la recherche de bases de données existantes qui fournissent des informations complètes et fiables sur les candidats, les processus de recrutement et les critères de sélection. L'objectif est de trouver des données qui reflètent la diversité du marché du travail et qui sont représentatives des différents secteurs et niveaux professionnels. 

L'enquête annuelle générée par les utilisateurs de StackOverflow (plus de 70 000 réponses de plus de 180 pays) examine tous les aspects de l'expérience des développeurs, de l'apprentissage du code aux technologies préférées, en passant par le contrôle de version et l'expérience professionnelle.

À partir des résultats de l'enquête, nous avons construit un jeu de données avec les colonnes suivantes :
- **Age** : âge du candidat, >35 ans ou <35 ans *(catégorique)*
- **EdLevel** : niveau d'éducation du candidat (Licence, Master, Doctorat...) *(catégorique)*
- **Gender** : genre du candidat, (Homme, Femme, ou Non-Binaire) *(catégorique)*
- **MainBranch** : si le candidat est un développeur professionnel *(catégorique)*
- **YearsCode** : depuis combien de temps le candidat programme *(entier)*
- **YearsCodePro** : depuis combien de temps le candidat programme dans un contexte professionnel *(entier)*
- **PreviousSalary** : salaire du dernier emploi du candidat *(flottant)*
- **ComputerSkills** : nombre de compétences informatiques connues par le candidat *(entier)*
- **Employed** : variable cible, indiquant si le candidat a été embauché *(catégorique)*


In [None]:
# Premiere base de donnees sur les developpeurs

# Spécifier l'URL du fichier CSV dans votre dépôt GitHub
github_csv_url = "https://raw.githubusercontent.com/Pierre-Clayton/Projet-Python-ENSAE/main/stackoverflow_full.csv"

# Charger le fichier CSV directement dans un DataFrame Pandas
df = pd.read_csv(github_csv_url, index_col="Unnamed: 0")

# Maintenant, on peut utiliser 'df' comme DataFrame pour travailler avec les données du CSV
# Par exemple, on peut afficher les premières lignes du DataFrame :
print(df.head())

**PROPOSITION D'EVOLUTION**

**Acquisition de Données :** Nous ne nous limiterons pas aux bases de données traditionnelles. L'utilisation des APIs et le scraping de sites web sont des méthodes que nous envisageons pour enrichir notre base de données. Ces techniques nous permettront de capter une gamme plus large de données, y compris des informations dynamiques et en temps réel sur les tendances du recrutement.

### Nettoyage et prétraitement des données (traitement des valeurs manquantes, normalisation, etc.).

**Nettoyage et Prétraitement :** Une fois les données collectées, le nettoyage est essentiel. Cette étape consiste à éliminer les incohérences, traiter les valeurs manquantes et s'assurer que les données sont structurées de manière à faciliter les analyses ultérieures. L'objectif est de transformer un ensemble de données brutes et hétérogènes en un format cohérent et exploitable.

In [None]:
df.info()

In [None]:
df.head()

In [None]:
# Recodage des variables catégorielles (ENG -> FR)

df_fr = df.copy()

df_fr["EmployedCat"] = pd.cut(df_fr["Employed"], bins=[-1, 0, 1], labels=["Sans emploi", "En emploi"])

df_fr["Age"] = df_fr["Age"].replace(
    ["<35", ">35"],
    ["Moins de 35 ans", "Plus de 35 ans"]
)

df_fr["Accessibility"] = df_fr["Accessibility"].replace(
    ["No", "Yes"],
    ["Non", "Oui"]
)

df_fr["EdLevel"] = df_fr["EdLevel"].replace(
    ["NoHigherEd", "Undergraduate", "Master", "PhD", "Other"],
    ["Pas d'éducation supérieure", "Licence", "Master", "Doctorat", "Autre"]
)

df_fr["Gender"] = df_fr["Gender"].replace(
    ["Man", "Woman", "NonBinary"],
    ["Homme", "Femme", "Non-Binaire"]
)

df_fr["MentalHealth"] = df_fr["MentalHealth"].replace(
    ["No", "Yes"],
    ["Non", "Oui"]
)

df_fr["MainBranch"] = df_fr["MainBranch"].replace(
    ["Dev", "NotDev"],
    ["Développement", "Autre"]
)

In [None]:
df_fr.head()

In [None]:
# Gestion des valeurs manquantes
#df.fillna(df.mean(), inplace=True)  # Pour les données numériques
#df.fillna('Inconnu', inplace=True)    # Pour les données catégorielles

# Suppression des colonnes inutiles
#df.drop(['colonne_inutile1', 'colonne_inutile2'], axis=1, inplace=True)

# Traitement des données textuelles (exemple simple)
#df['colonne_texte'] = df['colonne_texte'].str.strip()

# Conversion des types de données
#df['colonne_numerique'] = pd.to_numeric(df['colonne_numerique'], errors='coerce')

# Traitement des valeurs aberrantes (exemple simple)
#df = df[df['colonne_numerique'] < seuil_valeur_aberrante]

# Normalisation (exemple simple)
#df['colonne_numerique'] = (df['colonne_numerique'] - df['colonne_numerique'].mean()) / df['colonne_numerique'].std()

In [None]:
cat=["Age","Accessibility","EdLevel","Gender","MentalHealth","MainBranch"]
num=["YearsCode","YearsCodePro","PreviousSalary","ComputerSkills"]

# 3. Enrichissement des données : informations sur les pays

In [None]:
# Ajout d'une colonne "Continent" :
continent = pd.read_excel("/home/onyxia/work/Projet-Python-ENSAE/" + "Countries_Languages.xls")

def countries_to_continent(country):
    name_countries = continent['Unnamed: 1']
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return continent.loc[i,'GUIDE TO COUNTRIES AND MOST WIDELY SPOKEN FIRST LANGUAGES']

    list_missing_values = ['United Kingdom of Great Britain and Northern Ireland',
     'Russian Federation',
     'United States of America',
     'Viet Nam',
     'Iran, Islamic Republic of...',
     'Hong Kong (S.A.R.)',
     'Belarus',
     'The former Yugoslav Republic of Macedonia',
     'Venezuela, Bolivarian Republic of...',
     'Syrian Arab Republic',
     'Taiwan',
     'South Korea',
     'Cameroon',
     'Republic of Moldova',
     "Lao People's Democratic Republic",
     'Democratic Republic of the Congo',
     'United Republic of Tanzania',
     'Kosovo',
     'Nomadic',
     'Congo, Republic of the...',
     'Republic of Korea',
     'Saint Kitts and Nevis',
     'Monaco',
     'Libyan Arab Jamahiriya',
     'Palestine',
     'Isle of Man',
     "Côte d'Ivoire",
     'Senegal',
     'Saint Lucia',
     'Saint Vincent and the Grenadines']
    fixed_missing_continent = ['Europe',
                               'Europe',
                               'North,Central America',
                               'Asia (West)',
                               'Asia (West)',
                               'Asia (East)',
                               'Eurpoe',
                               'Europe',
                               'South America',
                               'Asia (West)',
                               'Asia (East)',
                               'Asia (East)',
                               'Africa',
                               'Europe',
                               'Africa',
                               'Africa',
                               'Africa',
                               'Europe',
                               'Nomadic',
                               'Africa',
                               'Asia (East)',
                               'North,Central America',
                               'Europe',
                               'Asia (West)',
                               'Asia (West)',
                               'Europe',
                               'Africa',
                               'Africa',
                               'North,Central America',
                               'North,Central America']
    for i in range(len(list_missing_values)):
        if list_missing_values[i] == country:
            return fixed_missing_continent[i]

df['Continent'] = df['Country'].apply(countries_to_continent)


In [None]:
# Ajout d'une colonne "Langues officielles" :
def countries_to_language(country):
    name_countries = continent["Unnamed: 1"]
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return continent.loc[i,'Unnamed: 5'].split(', ')
    list_missing_values = ['United Kingdom of Great Britain and Northern Ireland',
     'Russian Federation',
     'United States of America',
     'Viet Nam',
     'Iran, Islamic Republic of...',
     'Hong Kong (S.A.R.)',
     'Belarus',
     'The former Yugoslav Republic of Macedonia',
     'Venezuela, Bolivarian Republic of...',
     'Syrian Arab Republic',
     'Taiwan',
     'South Korea',
     'Cameroon',
     'Republic of Moldova',
     "Lao People's Democratic Republic",
     'Democratic Republic of the Congo',
     'United Republic of Tanzania',
     'Kosovo',
     'Nomadic',
     'Congo, Republic of the...',
     'Republic of Korea',
     'Saint Kitts and Nevis',
     'Monaco',
     'Libyan Arab Jamahiriya',
     'Palestine',
     'Isle of Man',
     "Côte d'Ivoire",
     'Senegal',
     'Saint Lucia',
     'Saint Vincent and the Grenadines']
    
    fixed_missing_language = ['English',
                              'Russian',
                              'English',
                              'Vietnamese',
                              'Persian,Farsi',
                              'Mandarin Chinese, Cantonese, English',
                              'Belarusian,Russian',
                              'Macedonian',
                              'Spanish',
                              'Arabic',
                              'Mandarin Chinese',
                              'Korean',
                              'French, English',
                              'Romanian (Moldovan)',
                              'Lao',
                              'French',
                              'Kiswahili, English',
                              'Albanian, Serbian',
                              'Unknown',
                              'French',
                              'Korean',
                              'English',
                              'French',
                              'Arabic',
                              'Arabic',
                              'Manx, English',
                              'French',
                              'French',
                              'English',
                              'English']
   
    for i in range(len(list_missing_values)):
        if list_missing_values[i] == country:
            return fixed_missing_language[i].split(',')

df['Language']  = df['Country'].apply(countries_to_language)

In [None]:
# Traitement des données manquantes

# Continent :
# Finding the number of None values in the column Continent
none_count_cont = df['Continent'].isnull().sum()

 # Extracting the indices of None values
none_indices_cont = df.index[df['Continent'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_cont = df['Country'].iloc[none_indices_cont]

 #List of all missing values
data_without_duplicates_cont = values_at_indices_cont.drop_duplicates()

# Langues officielles :

 # Finding the number of None values in the column Language
none_count_lang = df['Language'].isnull().sum()

 # Extracting the indices of None values
none_indices_lang = df.index[df['Language'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_lang = df['Language'].iloc[none_indices_lang]

 #List of all missing values
data_without_duplicates_lang = values_at_indices_lang.drop_duplicates()


In [None]:
# Ajout de colonnes IDH, espérance de vie à la naissance, années d'éducation attendues, PIB/hab :
hdi = pd.read_excel("/home/onyxia/work/Projet-Python-ENSAE/" + "HDI.xlsx")

list_missing_countries = ['United Kingdom of Great Britain and Northern Ireland',
         'Turkey',
         'United States of America',
         'Iran, Islamic Republic of...',
         'Hong Kong (S.A.R.)',
         'Bolivia',
         'Czech Republic',
         'The former Yugoslav Republic of Macedonia',
         'Venezuela, Bolivarian Republic of...',
         'Taiwan',
         'South Korea',
         'Republic of Moldova',
         'Democratic Republic of the Congo',
         'United Republic of Tanzania',
         'Kosovo',
         'Nomadic',
         'Congo, Republic of the...',
         'Republic of Korea',
         'Swaziland',
         'Libyan Arab Jamahiriya',
         'Palestine',
         'Isle of Man',
         'Cape Verde']

fixed_missing_values = [[0.929,80.7422,17.30971909,13.4061203,45224.76564],
                        [0.838,76.0324,18.3382206,8.63313961,31032.80106],
                        [0.921,77.1982,16.28097916,13.68342972,64765.21509],
                        [0.774,73.8749,14.61524963,10.63645314,13000.7117],
                        [0.952,85.4734,17.27816963,12.22620964,62606.8454],
                        [0.692,63.6304,14.94697094,9.827750206,8111.190194],
                        [0.889,77.7283,16.21968079,12.86931038,38745.21386],
                        [0.77,73.8415,13.62443234,10.22815037,15917.75283],
                        [0.691,70.5536,12.81608,11.10727736,4810.882621],
                        [0.768,78.2107,14.2361149,7.600118446,17504.39969],
                        [None,73.2845,10.78317,None,None],
                        [0.767,68.8459,14.43299961,11.82159042,14875.33189],
                        [0.571,63.5187,12.33081527,6.166,2889.283521],
                        [0.549,66.2007,9.221489906,6.37289871,2664.329096],
                        [None,None,None,None,None],
                        [None,None,None,None,None],
                        [0.571,63.5187,12.33081527,6.166,2889.283521],
                        [None,73.2845,10.78317,None,None],
                        [0.597,57.0657,13.74434586,5.596,7678.591873],
                        [0.718,71.9112,12.85428,7.599985,15335.712],
                        [0.715,73.4727,13.35801029,9.938480377,6582.899416],
                        [None,None,None,None,None],
                        [None,None,None,None,None]]

def countries_to_hdi(country):
    name_countries = hdi["Table 1. Human Development Index and its components "]
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return hdi.loc[i,'Unnamed: 2']
    for i in range(len(list_missing_countries)):
        if list_missing_countries[i] == country:
            return fixed_missing_values[i][0]

def countries_to_le(country):
    #le = life expectency at birth
    name_countries = hdi["Table 1. Human Development Index and its components "]
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return hdi.loc[i,'Unnamed: 4']
    for i in range(len(list_missing_countries)):
        if list_missing_countries[i] == country:
            return fixed_missing_values[i][1]
    
def countries_to_eys(country):
    #eys = expected years of schooling
    name_countries = hdi["Table 1. Human Development Index and its components "]
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return hdi.loc[i,'Unnamed: 6']
    for i in range(len(list_missing_countries)):
        if list_missing_countries[i] == country:
            return fixed_missing_values[i][2]

def countries_to_gnipc(country):
    #gnipc = Gross National Income Per Capita
    name_countries = hdi["Table 1. Human Development Index and its components "]
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return hdi.loc[i,'Unnamed: 10']
    for i in range(len(list_missing_countries)):
        if list_missing_countries[i] == country:
            return fixed_missing_values[i][4]
        
df['HDI'] = df['Country'].apply(countries_to_hdi)
df['Life expectency at birth'] = df['Country'].apply(countries_to_le)
df['Expected years of schooling'] = df['Country'].apply(countries_to_eys)
df['Gross National Income Per Capita'] = df['Country'].apply(countries_to_gnipc)

In [None]:
# Traitement des données manquantes :

# IDH :
# Finding the number of None values in the column HDI
none_count_hdi = df['HDI'].isnull().sum()

 # Extracting the indices of None values
none_indices_hdi = df.index[df['HDI'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_hdi = df['Country'].iloc[none_indices_hdi]

 #List of all missing values
data_without_duplicates_hdi = values_at_indices_hdi.drop_duplicates()

# Espérance de vie à la naissance :
 # Finding the number of None values in the column Life expectency at birt
none_count_le = df['Life expectency at birth'].isnull().sum()

 # Extracting the indices of None values
none_indices_le = df.index[df['Life expectency at birth'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_le = df['Country'].iloc[none_indices_le]

 #List of all missing values
data_without_duplicates_le = values_at_indices_le.drop_duplicates()

# Années d'éducation attendues :
 # Finding the number of None values in the column Expected years of schooling
none_count_eys = df['Expected years of schooling'].isnull().sum()

 # Extracting the indices of None values
none_indices_eys = df.index[df['Expected years of schooling'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_eys = df['Country'].iloc[none_indices_eys]

 #List of all missing values
data_without_duplicates_eys = values_at_indices_eys.drop_duplicates()

# PIB / hab :
 # Finding the number of None values in the column Gross National Income Per Capita
none_count_gnipc = df['Gross National Income Per Capita'].isnull().sum()

 # Extracting the indices of None values
none_indices_gnipc = df.index[df['Gross National Income Per Capita'].isnull()].tolist()

 #Extracting the indices of missing values
values_at_indices_gnipc = df['Country'].iloc[none_indices_gnipc]

 #List of all missing values
data_without_duplicates_gnipc = values_at_indices_gnipc.drop_duplicates()


In [None]:
# Ajout d'une colonne Code ISO (nécessaire pour les cartes)
iso = pd.read_excel("/home/onyxia/work/Projet-Python-ENSAE/" + "Liste-Excel-des-pays-du-monde.xlsx")

def countries_to_iso(country):
    name_countries = iso['Unnamed: 4']
    for i in range(len(name_countries)):
        if name_countries[i] == country:
            return iso.loc[i,'Unnamed: 1']
    list_missing_values = ['United Kingdom of Great Britain and Northern Ireland',
     'Russian Federation',
     'United States of America',
     'Netherlands',
     'Iran, Islamic Republic of...',
     'Hong Kong (S.A.R.)',
     'United Arab Emirates',
     'Bolivia',
     'Czech Republic',
     'The former Yugoslav Republic of Macedonia',
     'Venezuela, Bolivarian Republic of...',
     'Dominican Republic',
     'Syrian Arab Republic',
     'Taiwan',
     'South Korea',
     'Republic of Moldova',
     "Lao People's Democratic Republic",
     'Democratic Republic of the Congo',
     'Philippines',
     'United Republic of Tanzania',
     'Kosovo',
     'Nomadic',
     'Congo, Republic of the...',
     'Republic of Korea',
     'Swaziland',
     'Libyan Arab Jamahiriya',
     'Sudan',
     'Palestine',
     'Cape Verde',
     'Niger',
     'Gambia']
    fixed_missing_values = ["GBR",
                    "RUS",
                    "USA",
                    "NLD",
                    "IRN",
                    "HKG",
                    "ARE",
                    "BOL",
                    "CZE",
                    "MKD",
                    "VEN",
                    "DOM",
                    "SYR",
                    "TWN",
                    "KOR",
                    "MDA",
                    "LAO",
                    "COG",
                    "PHL",
                    "TZA",
                    "XXK",
                    None,
                    "COG",
                    "KOR",
                    "SWZ",
                    "LBY",
                    "SDN",
                    "PSE",
                    "CPV",
                    "NER",
                    "GMB"]
    for i in range(len(list_missing_values)):
        if list_missing_values[i] == country:
            return fixed_missing_values[i]
        
df['ISO'] = df['Country'].apply(countries_to_iso)


In [None]:
# Traitement des données manquantes : 

 # Finding the number of None values in the column ISO
none_count_iso = df['ISO'].isnull().sum()

 # Extracting the indices of None values
none_indices_iso = df.index[df['ISO'].isnull()].tolist()

 # Extracting the indices of missing values
values_at_indices_iso = df['Country'].iloc[none_indices_iso]

 # List of all missing values
data_without_duplicates_iso = values_at_indices_iso.drop_duplicates()

In [None]:
df.head(10)

# 4. Analyse Exploratoire des Données

### Statistiques descriptives pour comprendre les caractéristiques des données.

In [None]:
# Statistiques descriptives pour les colonnes numériques
descriptive_stats_num = df.describe()

# Statistiques descriptives pour les colonnes non numériques
descriptive_stats_obj = df.describe(include='object')

# Affichage des résultats
print("Statistiques descriptives pour les colonnes numériques:")
print(descriptive_stats_num)
print("\nStatistiques descriptives pour les colonnes non numériques:")
print(descriptive_stats_obj)


### Visualisations (histogrammes, diagrammes en boîte, etc.) pour identifier les tendances et les anomalies.

In [None]:
# Configuration des paramètres de visualisation
sns.set(style="whitegrid")

# Tracé des distributions des colonnes démographiques clés et de leur relation avec le statut 'Employed'
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Âge vs. Employé
sns.countplot(x='Age', hue='Employed', data=df, ax=axes[0, 0])
axes[0, 0].set_title('Distribution de l\'âge vs. Statut d\'emploi')

# Genre vs. Employé
sns.countplot(x='Gender', hue='Employed', data=df, ax=axes[0, 1])
axes[0, 1].set_title('Distribution du genre vs. Statut d\'emploi')

# Niveau d'éducation (EdLevel) vs. Employé
sns.countplot(x='EdLevel', hue='Employed', data=df, ax=axes[1, 0])
axes[1, 0].set_title('Niveau d\'éducation vs. Statut d\'emploi')
axes[1, 0].tick_params(axis='x', rotation=45)

# Branche principale (MainBranch) vs. Employé
sns.countplot(x='MainBranch', hue='Employed', data=df, ax=axes[1, 1])
axes[1, 1].set_title('Branche principale vs. Statut d\'emploi')

plt.tight_layout()
plt.show()


In [None]:
mosaic(df, index=["Employed","MainBranch"])
mosaic(df, index=["Employed","Age"])
mosaic(df, index=["Employed","Accessibility"])
mosaic(df, index=["Employed","EdLevel"])
mosaic(df, index=["Employed","Gender"])
mosaic(df, index=["Employed","MentalHealth"])

In [None]:
# Configuration du style pour les graphiques
sns.set(style='whitegrid')

# Création d'une figure avec des sous-graphiques
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Création de boîtes à moustaches (boxplots) pour chaque variable
sns.boxplot(ax=axes[0, 0], x="Employed", y="PreviousSalary", data=df)
axes[0, 0].set_title('Salaire précédent par statut d\'emploi')

sns.boxplot(ax=axes[0, 1], x="Employed", y="ComputerSkills", data=df)
axes[0, 1].set_title('Compétences en informatique par statut d\'emploi')

sns.boxplot(ax=axes[1, 0], x="Employed", y="YearsCodePro", data=df)
axes[1, 0].set_title('Années de codage professionnel par statut d\'emploi')

sns.boxplot(ax=axes[1, 1], x="Employed", y="YearsCode", data=df)
axes[1, 1].set_title('Années de codage par statut d\'emploi')

# Ajustement de la mise en page
plt.tight_layout()
plt.show()


In [None]:
# Sélection d'un sous-ensemble de colonnes pour la visualisation sommaire
# Incluant à la fois des colonnes catégorielles et numériques
colonnes_selectionnées = ['Age', 'Accessibility', 'EdLevel', 'Employment', 'YearsCode', 'YearsCodePro', 'PreviousSalary', 'ComputerSkills']

# Détermination du nombre de lignes et de colonnes pour la grille des sous-graphiques
num_cols = len(colonnes_selectionnées)
nrows = num_cols // 2 if num_cols % 2 == 0 else (num_cols // 2) + 1

# Création de la visualisation combinée
fig, axes = plt.subplots(nrows, 2, figsize=(15, nrows * 4))

for i, col in enumerate(colonnes_selectionnées):
    ax = axes[i // 2, i % 2]
    if df[col].dtype == 'object' or col == 'Employed':
        # Pour les colonnes catégorielles
        sns.countplot(y=col, data=df, ax=ax, palette='Set2')
    else:
        # Pour les colonnes numériques
        sns.histplot(df[col], ax=ax, kde=True, color='skyblue')
    ax.set_title(f'Distribution de {col}')
    ax.set_xlabel('')
    ax.set_ylabel('')

# Ajustement de la mise en page
plt.tight_layout()
plt.show()


In [None]:
# Travailler avec HaveWorkedWith avant de supprimer la colonne
x = [str(cat).split(";") for cat in df["HaveWorkedWith"]]
texte = [item for sublist in x for item in sublist]
texte_final = "".join(cat for cat in texte)

# Création d'un nuage de mots avec le texte en tant qu'argument dans la méthode .generate()
nuage_de_mots = WordCloud(collocations=False, background_color='white').generate(texte_final)

# Afficher le nuage de mots généré
plt.imshow(nuage_de_mots, interpolation='bilinear')
plt.axis("off")
plt.show()


# 5. Modélisation

## Premiers modèles "baseline"

##### Construction des premiers modèles

In [None]:
preprocess = make_column_transformer(
    (StandardScaler(), num),
    (OneHotEncoder(), cat))
X1=df[['Age', 'Accessibility', 'EdLevel', 'Gender', 'MentalHealth', 'MainBranch','YearsCode', 'YearsCodePro', 'PreviousSalary', 'ComputerSkills']]
y1=df['Employed']

X1_train, X1_test, y1_train, y1_test=train_test_split(X1, y1, test_size = 0.25, random_state = 4)

In [None]:
# Avec l'échantillon d'origine
# Régression logistique
cv_lr1 = make_pipeline(
    preprocess,
    LogisticRegression(penalty='l2'))
cv_lr1.fit(X1_train, y1_train)

# Arbre de décision
cv_tree1 = make_pipeline(preprocess, DecisionTreeClassifier(max_depth=7, random_state=123))
cv_tree1.fit(X1_train, y1_train)

# Forêt aléatoire
cv_forest1 = make_pipeline(preprocess, RandomForestClassifier(n_estimators=200, max_depth=7, random_state=123))
cv_forest1.fit(X1_train, y1_train)

# XGBoost
cv_xg1 = make_pipeline(preprocess, xgb.XGBClassifier(objective='multi:softmax', num_class=3, max_depth=3, learning_rate=0.1, n_estimators=100))
cv_xg1.fit(X1_train, y1_train)


In [None]:
from joblib import dump

# Sauvegarde des modèles
dump(cv_lr1, 'modeles/logistic_regression_baseline.joblib')
dump(cv_tree1, 'modeles/decision_tree_baseline.joblib')
dump(cv_forest1, 'modeles/random_forest_baseline.joblib')
dump(cv_xg1, 'modeles/xgboost_baseline.joblib')

##### Étude de la performance et de l'équité

Commençons par un petit mot sur la mesure de l'équité de nos modèles. En effet, pour faciliter le développement d'un modèle responsable, nous utilisons le package Python dalex : https://dalex.drwhy.ai/

Citant le tutoriel de Dalex :

> L'idée est que les rapports entre les scores des métriques privilégiées et non privilégiées devraient être proches de 1. Plus ils le sont, plus c'est équitable. Pour assouplir un peu ce critère, cela peut être formulé de manière plus réfléchie :

> $$ \forall i \in \{a, b, ..., z\}, \quad \epsilon < \frac{métrique_i}{métrique_{privilégiée}} < \frac{1}{\epsilon}.$$

> Où epsilon est une valeur comprise entre 0 et 1, elle devrait être une valeur minimale acceptable du rapport. Par défaut, elle est de 0.8, ce qui respecte la règle des quatre cinquièmes (règle des 80%) souvent observée dans l'embauche, par exemple.


Description des métriques utilisées pour l'évaluation de la performance en termes d'équité pour chaque stratégie :

- **Ratio d'opportunité égale** calculé à partir du taux de vrais positifs (rappel)

> Ce nombre décrit les proportions d'instances positives correctement classifiées.

> $TPR = \frac{TP}{P}$

- **Ratio de parité prédictive** calculé à partir de la valeur prédictive positive (précision)

> Ce nombre décrit le ratio d'échantillons qui ont été correctement classifiés comme positifs parmi toutes les prédictions positives.

> $PPV = \frac{TP}{TP + FP}$

- **Ratio d'égalité de précision** calculé à partir de la précision

> Ce nombre est le ratio des instances correctement classifiées (positives et négatives) parmi toutes les décisions.

> $ACC = \frac{TP + TN}{TP + FP + TN + FN}$

- **Ratio d'égalité prédictive** calculé à partir du taux de faux positifs

> Ce nombre décrit la part de négatifs réels qui ont été faussement classifiés comme positifs.

> $FPR = \frac{FP}{TP + TN}$

- **Ratio de parité statistique** calculé à partir du taux de positifs

> Ce nombre est le taux global d'instances classifiées positivement, incluant à la fois les décisions correctes et incorrectes.

> $PR = \frac{TP + FP}{TP + FP + TN + FN}$


In [None]:
# Créer un Explainer pour le Pipeline
exp_tree1 = dx.Explainer(cv_tree1, X1_test, y1_test, verbose=False)
exp_forest1 = dx.Explainer(cv_forest1, X1_test, y1_test, verbose=False)
exp1 = dx.Explainer(cv_lr1, X1_test, y1_test, label='Logistic regression Pipeline')
exp_xg1=dx.Explainer(cv_xg1, X1_test, y1_test, verbose=False)

In [None]:
# Performance du modèle
pd.concat([exp.model_performance().result for exp in [exp1, exp_tree1, exp_forest1,exp_xg1]])

In [None]:
# Importance des variables
exp_tree1.model_parts().plot(objects=[exp_forest1.model_parts(), exp1.model_parts(),exp_xg1.model_parts()])

In [None]:
# Preparation pour le test d'équité de Gender
protected = X1_test.Gender 
mf_tree1 = exp_tree1.model_fairness(protected=protected,
                                  privileged = "Woman")

mf_forest1 = exp_forest1.model_fairness(protected=protected,
                                  privileged = "Woman")

mf_log1 = exp1.model_fairness(protected=protected,
                                  privileged = "Woman")
mf_xg1=exp_xg1.model_fairness(protected=protected,
                                  privileged = "Woman")

In [None]:
mf_tree1.fairness_check()
mf_forest1.fairness_check()
mf_log1.fairness_check()
mf_xg1.fairness_check()

In [None]:
mf_tree1.plot(objects=[mf_log1, mf_forest1,mf_xg1],
             type="performance_and_fairness",
             fairness_metric="FPR",
             performance_metric="accuracy")

##### Un exemple pour mieux comprendre

In [None]:
john = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['Man'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[14],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['John'])
mary = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['Woman'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[14],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['Mary'])
jean = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['NonBinary'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[14],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['Jean'])

In [None]:
bd_john = exp_xg1.predict_parts(john, type='break_down', label=john.index[0])
bd_mary = exp_xg1.predict_parts(mary, type='break_down', label=mary.index[0])
bd_jean = exp_xg1.predict_parts(jean, type='break_down', label=jean.index[0])
bd_interactions_john = exp_xg1.predict_parts(john, type='break_down_interactions', label="John+")
bd_interactions_mary = exp_xg1.predict_parts(mary, type='break_down_interactions', label="Mary+")
bd_interactions_jean = exp_xg1.predict_parts(jean, type='break_down_interactions', label="Jean+")
sh_john = exp_xg1.predict_parts(john, type='shap', B = 10, label=john.index[0])
sh_mary = exp_xg1.predict_parts(mary, type='shap', B = 10, label=mary.index[0])
sh_jean = exp_xg1.predict_parts(jean, type='shap', B = 10, label=jean.index[0])

In [None]:
sh_john.plot(bar_width = 16)

In [None]:
sh_mary.plot(bar_width = 16)

In [None]:
sh_jean.plot(bar_width = 16)

Nos modèles baseline sont biaisés, nous allons donc essayer de réflechir aux solutions que l'on peut adopter pour mitiger ce biais.

## Reflexion sur les solutions possibles pour corriger les biais détectés

![image.png](attachment:image.png)

##### Traitement des biais historiques, sociaux et de mesure
- **Biais historiques** : Mettre à jour les ensembles de données avec des informations plus récentes ou utiliser des techniques pour rééquilibrer les données.
- **Biais sociaux** : Mettre en place des programmes de sensibilisation et réviser les processus de recrutement pour les rendre plus objectifs et inclusifs.
- **Biais de mesure** : S'assurer d'avoir un échantillon diversifié et représentatif, et utiliser plusieurs sources de données.


##### Atténuation du prétraitement
- **Nettoyage des données** : Gérer les valeurs manquantes et les erreurs qui peuvent affecter certains groupes.
- **Sélection des caractéristiques** : Choisir des caractéristiques qui n'incluent pas de variables de substitution pour les attributs protégés.
- **Ré-échantillonnage ou ré-pondération** : Équilibrer l'ensemble de données en suréchantillonnant les groupes sous-représentés.


##### Atténuation en cours de traitement
- **Sélection d'algorithmes** : Choisir des algorithmes moins sensibles aux déséquilibres.
- **Incorporer des contraintes d'équité** : Modifier les algorithmes pour inclure l'équité pendant l'entraînement.
- **Validation** : Utiliser la validation croisée pour garantir des performances équitables entre les sous-groupes.


##### Atténuation après le traitement
- **Ajustement des seuils de décision** : Égaliser les faux positifs et les faux négatifs entre les groupes.
- **Étalonnage** : Ajuster les prédictions pour garantir la cohérence.
- **Analyse des résultats** : Analyser les décisions en termes d'équité avant de les finaliser.


##### Points de décision
- **Après le prétraitement** : Déterminer l'efficacité de l'atténuation des biais avant l'entraînement.
- **Après les prédictions** : Décider du déploiement du modèle en fonction de l'analyse de l'équité.


##### Surveillance et rétroaction
- **Surveillance des résultats** : Évaluer les résultats du processus de recrutement à la recherche de signes de biais.
- **Collecte de rétroaction** : Mettre en place des mécanismes de rétroaction auprès des candidats et des employés.


## Mitigation des biais et nouveaux modèles

### Pre-processing Mitigation



In [None]:
# NETTOYAGE DES DONNÉES
# Effectué lors de l'exploration des données

# SÉLECTION DES CARACTÉRISTIQUES
# Suppression des caractéristiques qui pourraient être des proxies pour des attributs protégés (comme 'Country' s'il est un proxy pour l'origine ethnique)
#df = df.drop(['Country'], axis=1)

# RÉ-ÉCHANTILLONNAGE
# Identification de la variable cible
target_column = 'Employed'

# Séparation de l'ensemble de données en classes majoritaires et minoritaires en fonction de la variable cible
majority_class = df[df[target_column] == df[target_column].mode()[0]]  
minority_class = df[df[target_column] != df[target_column].mode()[0]]  

# Sur-échantillonnage de la classe minoritaire
minority_upsampled = resample(minority_class,
                              replace=True,      
                              n_samples=len(majority_class), 
                              random_state=123) 

# Combinaison de la classe majoritaire avec la classe minoritaire sur-échantillonnée
upsampled_data = pd.concat([majority_class, minority_upsampled])

# Mélanger les données pour éviter tout biais d'ordre
upsampled_data = upsampled_data.sample(frac=1, random_state=123).reset_index(drop=True)

# L'ensemble de données 'upsampled_data' est maintenant un ensemble de données équilibré
upsampled_data.head()

### In-processing Mitigation

##### Data Preprocessing & Preparation for Modeling

- Utilisation de StandardScaler pour normaliser les variables numériques et de OneHotEncoder pour transformer les variables catégorielles en vecteurs binaires.
- Création d'un transformateur de colonnes (make_column_transformer) pour appliquer ces prétraitements aux colonnes appropriées.

- Sélection des caractéristiques d'apprentissage (X) et de la variable cible (y).
- Division des données en ensembles d'entraînement et de test (train_test_split).


In [None]:
X=upsampled_data[['Age', 'Accessibility', 'EdLevel', 'Gender', 'MentalHealth', 'MainBranch','YearsCode', 'YearsCodePro', 'PreviousSalary', 'ComputerSkills']]
y=upsampled_data['Employed']

X_train, X_test, y_train, y_test=train_test_split(X, y, test_size = 0.25, random_state = 4)

##### Creation and Training of Classification Models

- Utilisation de différents algorithmes (régression logistique, arbre de décision, forêt aléatoire, XGBoost) intégrés dans des pipelines pour automatiser le flux de prétraitement et d'apprentissage.


In [None]:
#Avec les données pré-traitées
#Logistic regression
cv_lr = make_pipeline(
    preprocess,
    LogisticRegression(penalty = 'l2'))
cv_lr.fit(X_train, y_train)

#Decision Tree
cv_tree = make_pipeline(preprocess, DecisionTreeClassifier(max_depth=7, random_state=123))
cv_tree.fit(X_train, y_train)

#Random Forest
cv_forest = make_pipeline(preprocess, RandomForestClassifier(n_estimators=200, max_depth=7, random_state=123))
cv_forest.fit(X_train, y_train)

#XGBoost
cv_xg = make_pipeline(preprocess,xgb.XGBClassifier(objective='multi:softmax', num_class=3, max_depth=3, learning_rate=0.1, n_estimators=100))
cv_xg.fit(X_train, y_train)

In [None]:
# Sauvegarde des modèles
dump(cv_lr, 'modeles/logistic_regression.joblib')
dump(cv_tree, 'modeles/decision_tree.joblib')
dump(cv_forest, 'modeles/random_forest.joblib')
dump(cv_xg, 'modeles/xgboost.joblib')

##### Performance Analysis

- Utilisation de dalex pour créer des "explainers" de modèle qui permettent l'analyse des performances et de l'importance des variables.
- Constat que "ComputerSkills" est la caractéristique la plus importante dans tous les modèles.


In [None]:
# Créer un Explainer pour le Pipeline
exp_tree = dx.Explainer(cv_tree, X_test, y_test, verbose=False)
exp_forest = dx.Explainer(cv_forest, X_test, y_test, verbose=False)
exp = dx.Explainer(cv_lr, X_test, y_test, label='Logistic regression Pipeline')
exp_xg=dx.Explainer(cv_xg, X_test, y_test, verbose=False)

In [None]:
# Performance du modèle
pd.concat([exp.model_performance().result for exp in [exp, exp_tree, exp_forest,exp_xg]])

In [None]:
# Importance des variables
exp_tree.model_parts().plot(objects=[exp_forest.model_parts(), exp.model_parts(),exp_xg.model_parts()])

##### Analysis of Algorithmic Fairness (Fairness)

- Vérification de l'équité des modèles en se concentrant sur le genre en tant que variable protégée.
- Utilisation de différentes méthodes (vérification de l'équité, visualisation) pour évaluer et représenter graphiquement l'égalité entre les groupes.


In [None]:
# Preparation du Test Fairness
protected = X_test.Gender
mf_tree = exp_tree.model_fairness(protected=protected,
                                  privileged = "Woman")

mf_forest = exp_forest.model_fairness(protected=protected,
                                  privileged = "Woman")

mf_log = exp.model_fairness(protected=protected,
                                  privileged = "Woman")
mf_xg=exp_xg.model_fairness(protected=protected,
                                  privileged = "Woman")

In [None]:
mf_tree.fairness_check()

In [None]:
mf_forest.fairness_check()

In [None]:
mf_log.fairness_check()

In [None]:
mf_xg.fairness_check()

On remarque que tous les classifiers sont biaisés. Essayons de quantifier le biais.

In [None]:
mf_tree.plot(objects=[mf_log, mf_forest, mf_xg])

On observe que le biais ne semble pas très élevé.

In [None]:
mf_tree.plot(objects=[mf_log, mf_forest,mf_xg], type='stacked')

Le DecisionTreeClassifier semble avoir la plus petite parity loss.

In [None]:
mf_tree.plot(objects=[mf_log, mf_forest,mf_xg],
             type="performance_and_fairness",
             fairness_metric="FPR",
             performance_metric="accuracy")

Plus l'exactitude est élevée, plus la perte de parité est grande.
Existe-t-il une méthode qui nous permettrait d'atténuer les biais ? Oui, et nous en essaierons quelques-unes dans la prochaine section.

##### Bias Mitigation

- Application de techniques telles que "ceteris paribus cutoff," "roc_pivot," "resample," "reweight" pour tenter de réduire les biais dans les modèles.
- Reformation des modèles avec ces techniques et évaluation de l'équité après atténuation.

**Ceteris Paribus Cutoff**

La méthode "ceteris paribus cutoff" pour atténuer les biais dans les modèles d'apprentissage automatique consiste à identifier un seuil de décision optimal qui équilibre l'équité et les performances. Cette approche ajuste le seuil de classification tout en maintenant les autres paramètres du modèle constants, dans le but de minimiser les disparités dans les métriques d'équité entre différents groupes. Elle est particulièrement utile dans les scénarios où il existe un compromis entre la précision du modèle et l'équité des prédictions pour les sous-groupes protégés.

In [None]:
mf_tree.plot(objects=[mf_log, mf_forest,mf_xg], type="ceteris_paribus_cutoff", subgroup="Woman")

**ROC Pivot**

Cette méthode ajuste le seuil de décision en fonction de la courbe ROC (Receiver Operating Characteristic) pour équilibrer la sensibilité et la spécificité, dans le but d'améliorer l'équité des prédictions tout en maintenant les performances du modèle.

In [None]:
from dalex.fairness import resample, reweight, roc_pivot

In [None]:
privileged="Woman"
exp1 = copy(exp)
exp2 = copy(exp_forest)
exp3=copy(exp_tree)
expg=copy(exp_xg)
# roc pivot
exp1 = roc_pivot(exp1, protected, privileged, theta = 0.02, verbose = False)
exp2 = roc_pivot(exp2, protected, privileged, theta = 0.02, verbose = False)
exp3 = roc_pivot(exp3, protected, privileged, theta = 0.02, verbose = False)
expg = roc_pivot(expg, protected, privileged, theta = 0.02, verbose = False)


In [None]:
fobject1 = exp1.model_fairness(protected, privileged, label='roc Logistic')
fobject2 = exp2.model_fairness(protected, privileged, label='roc forest')
fobject3 = exp3.model_fairness(protected, privileged, label='roc tree')
fobjectg = expg.model_fairness(protected, privileged, label='roc xg')

In [None]:
fobject1.plot([fobject2,fobject3,fobjectg])

In [None]:
fobjectg.fairness_check()

In [None]:
fobject1.fairness_check()

In [None]:
fobject2.fairness_check()

In [None]:
fobject3.fairness_check()

**Resample**

Cette approche consiste à modifier l'ensemble de données d'entraînement en suréchantillonnant les groupes sous-représentés ou en sous-échantillonnant les groupes surreprésentés, créant ainsi un ensemble de données plus équilibré qui peut conduire à des résultats de modèle plus équitables.

In [None]:
# copying
clf_u = copy(cv_lr)
clf_p = copy(cv_lr)
clfx=copy(cv_xg)
clfx2=copy(cv_xg)

In [None]:
indices_uniform = resample(X_test.Gender, y_test, verbose = False)
indices_preferential = resample(X_test.Gender,
                                y_test,
                                type = 'preferential', # different type
                                probs = exp.y_hat, # requires probabilities
                                verbose = False)


clf_u.fit(X_test.iloc[indices_uniform, :], y_test.iloc[indices_uniform])
clf_p.fit(X_test.iloc[indices_preferential, :], y_test.iloc[indices_preferential])
clfx.fit(X_test.iloc[indices_preferential, :], y_test.iloc[indices_preferential])
clfx2.fit(X_test.iloc[indices_uniform, :], y_test.iloc[indices_uniform])


In [None]:
exp3u = dx.Explainer(clf_u, X_test, y_test, verbose = False)
exp3p = dx.Explainer(clf_p, X_test, y_test, verbose = False)
exp3x = dx.Explainer(clfx, X_test, y_test, verbose = False)
exp3x1 = dx.Explainer(clfx2, X_test, y_test, verbose = False)

In [None]:
fobject3u = exp3u.model_fairness(protected, privileged, label='res_unif_lr')
fobject3p = exp3p.model_fairness(protected, privileged, label='res_pref_lr')
fobject3xx = exp3x.model_fairness(protected, privileged, label='res_pref_xg')
fobject3x1 = exp3x1.model_fairness(protected, privileged, label='res_unif_xg')

In [None]:
fobject3u.fairness_check()

In [None]:
fobject3p.fairness_check()

In [None]:
fobject3x1.fairness_check()

In [None]:
fobject3xx.fairness_check()

**Reweight**

Cette technique ajuste les poids attribués aux différents échantillons de l'ensemble de données d'entraînement, accordant davantage d'importance aux groupes sous-représentés. Cela contribue à réduire les biais en veillant à ce que le modèle accorde plus d'attention à ces groupes pendant l'entraînement.

Regression logistique

In [None]:
weights = reweight(protected, y_test, verbose = False)

cv_weighted_lr = copy(cv_lr)

kwargs = {cv_weighted_lr.steps[-1][0] + '__sample_weight': weights}

cv_weighted_lr.fit(X_test,y_test, **kwargs)

In [None]:
expw_lr = dx.Explainer(cv_weighted_lr, X_test, y_test, verbose = False)
fobjectw_lr = expw_lr.model_fairness(protected, privileged, label='weighted')
fobjectw_lr.fairness_check()

In [None]:
fobject3wp = expw_lr.model_fairness(X_test.Age, '<35', label='weighted')
fobject3wp.fairness_check()

In [None]:
fobject3wp = expw_lr.model_fairness(X_test.MentalHealth, 'No', label='weighted')
fobject3wp.fairness_check()

In [None]:
fobject3wp = expw_lr.model_fairness(X_test.Accessibility, 'No', label='weighted')
fobject3wp.fairness_check()

C'est beaucoup mieux qu'auparavant. Nous avons décidé d'essayer avec l'arbre de décision et le XGBoost.

Essayons avec un arbre de décision

In [None]:
clf_weighted_forest = copy(cv_forest)

kwargs = {clf_weighted_forest.steps[-1][0] + '__sample_weight': weights}

clf_weighted_forest.fit(X_test,y_test, **kwargs)

In [None]:
expwt = dx.Explainer(clf_weighted_forest, X_test, y_test, verbose = False)
fobject3wt = expwt.model_fairness(protected, privileged, label='weighted')
fobject3wt.fairness_check()

Essayons avec le xgboost

In [None]:
clf_weighted_xg = copy(cv_xg)

kwargs = {clf_weighted_xg.steps[-1][0] + '__sample_weight': weights}

clf_weighted_xg.fit(X_test,y_test, **kwargs)

In [None]:
expxg = dx.Explainer(clf_weighted_xg, X_test, y_test, verbose = False)
fobjectxg = expxg.model_fairness(protected, privileged, label='weighted')
fobjectxg.fairness_check()

In [None]:
fobjectxg = expxg.model_fairness(X_test.Accessibility, 'No', label='weighted')
fobjectxg.fairness_check()

In [None]:
fobjectxg = expxg.model_fairness(X_test.MentalHealth, 'No', label='weighted')
fobjectxg.fairness_check()

In [None]:
fobjectxg = expxg.model_fairness(X_test.Age, '<35', label='weighted')
fobjectxg.fairness_check()

In [None]:
fobjectxg.plot()

Donc, l'atténuation du modèle XGBoost avec la répartition tend à le rendre équitable par rapport aux variables : l'âge, le genre, l'accessibilité et la santé mentale.

##### Detailed Analysis with Dalex

- Utilisation de model_parts, model_performance et d'autres outils de Dalex pour une analyse plus approfondie.
- Évaluation de l'impact des différentes caractéristiques sur les prédictions des modèles à l'aide de techniques telles que SHAP (SHapley Additive exPlanations) et Break Down (BD).

In [None]:
explanation=expxg.model_parts()
explanation.result
explanation.plot()

In [None]:
explanationp=exp_xg1.model_parts()
explanationp.result
explanationp.plot()

In [None]:
mp = expxg.model_performance(model_type = 'classification')
mp.result

In [None]:
mp.plot(geom="roc")

### Post-processing Mitigation/Evaluation

##### Complementary Analysis

- Utilisation de la validation croisée pour évaluer les performances du modèle XGBoost.
- Analyse des profils du modèle (PDP - Partial Dependence Plots, ALE - Accumulated Local Effects) pour comprendre comment différentes caractéristiques influencent les prédictions.

In [None]:
# Effectuer une validation croisée
cv_scores = cross_val_score(cv_xg, X_train, y_train, cv=5, scoring='accuracy')

# Afficher les scores de validation croisée
print("Scores de validation croisée :", cv_scores)
print("Précision moyenne : {:.2f}".format(cv_scores.mean()))

In [None]:
param_grid = {
    'xgbclassifier__learning_rate': [0.01, 0.1, 0.2],
    'xgbclassifier__max_depth': [3, 4, 5],
    'xgbclassifier__n_estimators': [50, 100, 200]
}

# Choisissez une stratégie de validation croisée, par exemple, une validation croisée à 5 plis
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Créez un pipeline avec prétraitement et XGBoost
xgb_model = make_pipeline(preprocess, xgb.XGBClassifier())

# Configurez GridSearchCV avec le pipeline
grid_search = GridSearchCV(xgb_model, param_grid, cv=kf, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

# Affichez les meilleurs hyperparamètres
print("Meilleurs Hyperparamètres : ", grid_search.best_params_)

# Évaluez sur l'ensemble de test
y_pred = grid_search.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("Erreur quadratique moyenne sur l'ensemble de test : ", mse)


In [None]:
ale_num = expxg.model_profile(type = 'accumulated', label="ale")

In [None]:
pdp_num = expxg.model_profile(type = 'partial', label="pdp")

In [None]:
pdp_num.plot(ale_num)

##### Interpretation/Visualisation de notre meilleur modèle (XGBoost)

In [None]:
john = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['Man'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[4],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['John'])
mary = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['Woman'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[4],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['Mary'])
jean = pd.DataFrame({'Age': '<35',
                       'Accessibility': ['Yes'],
                       'EdLevel': ['PhD'],
                       'Gender': ['NonBinary'],
                       'MentalHealth': ['No'],
                       'MainBranch': ['Dev'],
                       'YearsCode':[4],
                       'YearsCodePro':[7],
                       'PreviousSalary': [60000],
                       'ComputerSkills': [7]
                     },
                      index = ['Jean'])

In [None]:
bd_john = expxg.predict_parts(john, type='break_down', label=john.index[0])
bd_mary1 = expxg.predict_parts(mary, type='break_down', label=mary.index[0])
bd_jean = expxg.predict_parts(jean, type='break_down', label=jean.index[0])
bd_interactions_john = expxg.predict_parts(john, type='break_down_interactions', label="John+")
bd_interactions_mary1 = expxg.predict_parts(mary, type='break_down_interactions', label="Mary+")
bd_interactions_jean = expxg.predict_parts(jean, type='break_down_interactions', label="Jean+")
sh_john1 = expxg.predict_parts(john, type='shap', B = 10, label=john.index[0])
sh_mary1 = expxg.predict_parts(mary, type='shap', B = 10, label=mary.index[0])
sh_jean = expxg.predict_parts(jean, type='shap', B = 10, label=jean.index[0])

In [None]:
bd_john.plot(bd_interactions_john)

In [None]:
bd_mary1.plot(bd_interactions_mary1)

In [None]:
sh_mary1.plot(bar_width = 16)

In [None]:
sh_john1.plot(bar_width = 16)

In [None]:
sh_jean.plot(bar_width = 16)

# 6. Développement de l'Application de Visualisation (Streamlit)

### Conception de l'interface utilisateur pour afficher les résultats des modèles.

In [None]:
#!pip install streamlit

In [None]:
import streamlit as st
x = st.slider("Select a value")
st.write(x, "squared is", x * x)

### Intégration des fonctionnalités pour visualiser les performances et les biais.

### Tests et validation de l'application.

# 7. Conclusion et Recommandations

### Synthèse des résultats.

### Discussion sur l'efficacité du sélecteur de candidats.

### Recommandations pour des travaux futurs et améliorations.

# 8. Documentation et Reproductibilité

### Documentation détaillée du code et des méthodes utilisées.

### Assurer la reproductibilité des résultats (notebook Jupyter, code propre, dépôt GitHub).

# 9. Préparation de la Soutenance

### Création des slides de présentation.

### Répétition et préparation des réponses aux questions potentielles.