# CESI HumanForYou

L'entreprise de produits pharmaceutiques HumanForYou basée en Inde emploie environ 4000 personnes. Cependant, chaque année elle subit un turn-over d'environ 15% de ses employés nécessitant de retrouver des profils similaires sur le marché de l'emploi.

La direction trouve que ce niveau de turn-over n'est pas bon pour l'entreprise car :

* Les projets sur lesquels étaient les employés quittant la société prennent du retard ce qui nuit à la réputation de l'entreprise auprès de ses clients et partenaires.

* Un service de ressources humaines de taille conséquente doit être conservé car il faut avoir les moyens de trouver les nouvelles recrues.

* Du temps est perdu à l'arrivée des nouveaux employés car ils doivent très souvent être formés et ont besoin de temps pour devenir pleinement opérationnels dans leur nouvel environnement.

Le direction fait donc appel à notre équipe, spécialistes de l'analyse de données, pour déterminer les facteurs ayant le plus d'influence sur ce taux de turn-over et lui proposer des modèles afin d'avoir des pistes d'amélioration pour donner à leurs employés l'envie de rester.

### Table des matières

1. [Préparation de l'environnement](#chapter1)
    1. [Importation des librairies](#section_1_1)
    2. [Importation des données](#Section_1_2)
2. [Visualisation des données](#chapter2)
    1. [Données du service des ressources humaines](#section_2_1)
    2. [Dernière évaluation du manager](#section_2_2)
    3. [Enquête qualité de vie au travail](#section_2_3)
    4. [Horaires de travail](#section_2_4)
3. [Transformation des données](#chapter3)
    1. [Calcul des durées de travail](#section_3_1)
    2. [Concaténation des données](#section_3_2)
    3. [Ajout de valeur](#section_3_3)
    4. [Suppression colonne](#section_3_4)
    5. [Normalisation](#section_3_5)
    6. [Standardisation](#section_3_6)
    7. [Création des jeux de données ](#section_3_7)
4. [Analyses statistiques](#chapter4)
    1. [Analyse des données entrantes](#section_4_1)
    2. [Analyse de l'attrition](#section_4_2)
5. [Algorithmes](#chapter5)
6. [Evaluation des modèles](#chapter6)


<a id="chapter1"></a>
## Préparation de l'environnement

<a id="section_1_1"></a>
### Importation des librairies

Tout d'abord, nous devons importer toutes les bibliothèques que nous utiliserons.

In [None]:
# imports
import numpy as np
import os
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
from numpy.random import default_rng
from datetime import datetime
from plotly.subplots import make_subplots
import plotly.express as px
import plotly.graph_objects as go
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict, GridSearchCV, RandomizedSearchCV 
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score
from sklearn import metrics
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import roc_curve
from numpy import argmax

import warnings
warnings.filterwarnings('ignore')


<a id="section_1_2"></a>
### Importation des données

Les données utilisées pour nos analyses proviennent de fichier CSV depuis Github et doivent être charger dans nos variables.

In [None]:
#Importation des données depuis Github 
general_url = "https://raw.githubusercontent.com/anthonylorendeaux/CESI-IA-CSV/master/general_data.csv"
manager_url = "https://raw.githubusercontent.com/anthonylorendeaux/CESI-IA-CSV/master/manager_survey_data.csv"
employee_url = "https://raw.githubusercontent.com/anthonylorendeaux/CESI-IA-CSV/master/employee_survey_data.csv"
in_time_url = "https://raw.githubusercontent.com/anthonylorendeaux/CESI-IA-CSV/master/in_time.csv"
out_time_url = "https://raw.githubusercontent.com/anthonylorendeaux/CESI-IA-CSV/master/out_time.csv"

#Lecture des csv
general_info_data = pd.read_csv(general_url)
manager_survey_data = pd.read_csv(manager_url)
employee_survey_data = pd.read_csv(employee_url)
in_time_data = pd.read_csv(in_time_url)
out_time_data = pd.read_csv(out_time_url)

<a id="chapter2"></a>
## Visualisation des données

Dans un premier temps, nous regardons toutes les données que nous avons. Un certain nombre de données concernant les employés nous a donc été transmis par le service des ressources humaines ainsi que par des fiches d'évaluation.

Les données ont été anonymisées : un employé de l'entreprise sera représenté par le même EmployeeID dans l'ensemble des fichiers qui suivent.

<a id="section_2_1"></a>
### Données du service des ressources humaines

Pour chaque employé, le service des ressources humaines vous confie les informations en sa possession :

* Age : L'âge de l'employé en 2015.
* Attrition : L'objet de notre étude, est-ce que l'employé a quitté l'entreprise durant l'année 2016 ?

* BusinessTravel : A quel fréquence l'employé a été amené à se déplacer dans le cadre de son travail en 2015 ? (Non-Travel = jamais, Travel_Rarely= rarement, Travel_Frequently = fréquemment)

* DistanceFromHome : Distance en km entre le logement de l'employé et l'entreprise.

* Education : Niveau d'étude : 1=Avant College (équivalent niveau Bac), 2=College (équivalent Bac+2), 3=Bachelor (Bac+3), 4=Master (Bac+5) et 5=PhD (Thèse de doctorat).

* EducationField : Domaine d'étude, matière principale

* EmployeeCount : booléen à 1 si l'employé était compté dans les effectifs en 2015.

* EmployeeId : l'identifiant d'un employé

* Gender : Sexe de l'employé

* JobLevel : Niveau hiérarchique dans l'entreprise de 1 à 5

* JobRole : Métier dans l'entreprise

* MaritalStatus : Statut marital du salarié (Célibataire, Marié ou Divorcé).

* MonthlyIncome : Salaire brut en roupies par mois

* NumCompaniesWorked : Nombre d'entreprises pour lequel le salarié a travaillé avant de rejoindre HumanForYou.

* Over18 : Est-ce que le salarié a plus de 18 ans ou non ?

* PercentSalaryHike : % d'augmentation du salaire en 2015.

* StandardHours : Nombre d'heures par jour dans le contrat du salarié.

* StockOptionLevel : Niveau d'investissement en actions de l'entreprise par le salarié.

* TotalWorkingYears : Nombre d'années d'expérience en entreprise du salarié pour le même type de poste.

* TrainingTimesLastYear : Nombre de jours de formation en 2015

* YearsAtCompany : Ancienneté dans l'entreprise

* YearsSinceLastPromotion : Nombre d'années depuis la dernière augmentation individuelle

* YearsWithCurrentManager : Nombre d'années de collaboration sous la responsabilité du manager actuel de l'employé.



In [None]:
general_info_data.head(5)

Il est aussi intéressant de connaitre le type des variables qui composent le fichier.

In [None]:
print('Shape of general_info_data :',general_info_data.shape)
general_info_data.info()

<a id="section_2_2"></a>
### Dernière évaluation du manager

Ce fichier contient la dernière évaluation de chaque employé faite pas son manager en février 2015.

Il contient les données suivantes :

* L'identifiant de l'employé : EmployeeID

* Une évaluation de son implication dans son travail notée 1 ('Faible'), 2 ("Moyenne"), 3 ("Importante") ou 4 ("Très importante") : JobInvolvement

* Une évaluation de son niveau de performance annuel pour l'entreprise notée 1 ("Faible"), 2 ("Bon"), 3 ("Excellent") ou 4 ("Au delà des attentes") : PerformanceRating

In [None]:
manager_survey_data.head(3)

Type des données :

In [None]:
manager_survey_data.info()

<a id="section_2_3"></a>
### Enquête qualité de vie au travail

Ce fichier provient d'une enquête soumise aux employés en juin 2015 par le service RH pour avoir un retour concernant leur qualité de vie au travail.

Une organisation avait été mise en place pour que chacun puisse répondre à ce questionnaire sur son lieu de travail en concertation avec les managers mais il n'y avait pas d'obligation.

Les employés devaient répondre à 3 questions sur le niveau de satisfaction concernant :

* L'environnement de travail, noté 1 ("Faible"), 2 ("Moyen"), 3 ("Élevé") ou 4 ("Très élevé") : EnvironmentSatisfaction

* Son travail, noté de 1 à 4 comme précédemment : JobSatisfaction

* Son équilibre entre vie professionnelle et vie privée, noté 1 ("Mauvais"), 2 ("Satisfaisant"), 3 ("Très satisfaisant") ou 4 ("Excellent") : WorkLifeBalance

Lorsque un employé n'a pas répondu à une question, le texte "NA" apparaît à la place de la note.

In [None]:
employee_survey_data.head()

Type des données :

In [None]:
employee_survey_data.info()

<a id="section_2_4"></a>
### Horaires de travail

Des badgeuses sont installées et utilisées dans l'entreprise depuis quelques années. Il a été jugé opportun par la direction de nous transmettre les horaires d'entrée et de sortie des employés sur une période de l'année choisie représentative d'une activité moyenne pour l'ensemble des services.

Nous avons donc 2 fichiers traçants les horaires d'arrivée à leur poste et de départ de leur poste de l'ensemble des employés par date sur une période allant du 1er janvier au 31 décembre 2015.

Données d'arrivée des employées:

In [None]:
in_time_data.head(2)

Type des données :

In [None]:
in_time_data.info()

Données de départ des employées: 

In [None]:
out_time_data.head(2)

Type des données :

In [None]:
out_time_data.info()

<a id="chapter3"></a>
## Transformation des données

Plusieurs données ne peuvent pas être exploiter en l'état, il faut donc trier et retravailler les données.

<a id="section_3_1"></a>
### Calcul des durées de travail

Les données de temps ne sont pas exploitables sous cette forme, il faut donc les tranformer.

Avoir des heures d'entrées et de sortie de nos employés n'est pas très significatifs, c'est pour cela que nous remplaçons toutes les valeurs par la moyenne de temps de travail de chaque employé.

Cependant : 
* Les dates sont stockées en tant que chaine de caractère et il est compliqué de les exploiter.
* Cetaines données valent "NaN", ce qui veut dire qu'un employé a été absent au travail

Pour remédier à ça, nous transformons les données en objet Datetime. De plus lorsqu'un employé est absent au travail, son temps moyen de travail est de 0 donc nous remplaçons les NaN par 0.

Avant de mettre en place nos changements, nous devons renommer la colonne (sans nom) qui correspond aux IDs des employés. Cette actions est prise puisque dans le csv nous avons le même nombre de ligne que sur les autres csv.

In [None]:
# Renommage des colonnes sans nom de nos csv in et out
in_time_data.rename(columns={"Unnamed: 0": "EmployeeID"}, inplace=True)
in_time_data.set_index('EmployeeID', inplace=True)
in_time_data
out_time_data.rename(columns={"Unnamed: 0": "EmployeeID"}, inplace=True)
out_time_data.set_index('EmployeeID', inplace=True)

# Suppression des colonnesoù l'employée est absent (valeur NaN)
in_time_data=in_time_data.dropna(axis=1,how='all')
out_time_data=out_time_data.dropna(axis=1,how='all')

# Remplacement des NaN par 0
in_time_data.fillna(0, inplace=True)
out_time_data.fillna(0, inplace=True)

out_time_data.head(3)

On transforme nos chaines de caractère en objets datetime.

In [None]:
for date in in_time_data.columns:
    in_time_data[date]=pd.to_datetime(in_time_data[date])
    out_time_data[date]=pd.to_datetime(out_time_data[date])

On calcule dans un nouveau dataset le nombre d'heure passé qu'en employé passe au travail par jour.

In [None]:
time_work_per_day=pd.DataFrame()

cols=in_time_data.columns
for col in cols:
    time_work_per_day[col]=((out_time_data[col] - in_time_data[col]).dt.total_seconds() /3600)

time_work_per_day.head()

Nous ajoutons ensuite une colonne représentant : 
* La moyenne de temps passsé au travail par employé sur l'année 2015 
* Le nombre d'absences au travail par employé durant l'année 2015 

Les autres colonnes sont ensuite supprimées.

In [None]:
time_work_per_day['MeanTimeWorkOverYear2015']=round(time_work_per_day.astype(int).mean(axis=1),2)
time_work_per_day['absences_par_jour']=(time_work_per_day == 0).astype(int).sum(axis=1)
time_work_per_day = time_work_per_day.drop((time_work_per_day.columns[0:-2]), axis = 1)
time_work_per_day.head()

<a id="section_3_2"></a>
### Concaténation des données

Pour la suite des analyses, nous allons rassembler toutes les données sur une même variable. Comme sur chaque csv, l'ID des employées est inscrit, il est facile de concater les données.

In [None]:
concat_time_csv = general_info_data.merge(time_work_per_day, on='EmployeeID')
concat_manager_csv = concat_time_csv.merge(manager_survey_data, on='EmployeeID')
temp_concat = concat_manager_csv.merge(employee_survey_data, on='EmployeeID')
temp_concat = temp_concat.set_index('EmployeeID')
temp_concat.info()

A l'aide des informations précédentes, nous remarquons plusieurs choses:
* Tous les champs ne possèdent pas le même nombre de tuples
* Les champs ayants un type objet corréspondent à des variables qualitatives

Pour la suite des analyses, nous devons d'abord harmoniser nos données pour ne plus avoir les deux remarques précédentes.

<a id="section_3_3"></a>
### Ajout de valeur

Pour palier au manque de certaines données, nous comblons les valeurs manquantes par la valeur médiane de ses champs.


In [None]:
# Nombre de champs avec des valeurs vides
final_data = temp_concat.copy()
final_data[final_data.columns[final_data.isnull().any()]].isnull().sum()

In [None]:
# Ajout des valeurs médianes
final_data.fillna(round(final_data.median()),inplace=True)
final_data.info()

<a id="section_3_4"></a>
### Suppression de colonne

Il est important de vérifier qu'il n'y est pas des champs avec valeur similaire partout. Cela signifit que l'information n'est pas pertinente et qu'elle peut être supprimer.


In [None]:
final_data.describe(include='all').T

A l'aide de ce tableau, nous remarquons qu'il existe des champs à valeur unique :
- EmployeeCount : la valeur min et max est égale à 1
- Over18 : cette varible possède une unique valeur (unique = 1)
- StandardHours : la valeur min et max est égale à 8

Nous supprimons donc ces champs pour la suite des travaux.

In [None]:
final_data.drop(['EmployeeCount', 'Over18', 'StandardHours'], axis=1, inplace = True)
final_data.head(5)

<a id="section_3_5"></a>
### Normalisation

Comme dans la suite de ce projet nous devrons utiliser des algorithmes de machine learning, il est important de prendre en compte les recommandations de ses derniers. Comme de nombreux algorithmes d'apprentissage automatique ne peuvent pas fonctionner directement sur des données qualitatives, nous devons prévoir un ensemble de données dont toutes les variables d'entrée et les variables de sortie soient numériques.

Afin de n'avoir que des données quantitatives, nous utilisons le One-hot Encoding. Quand une variables n'est pas ordinale, cette solution va créer des variables supplémentaires dans le jeu de donnée pour représenter chacune des catégories.

Les champs concernés sont : "BusinessTravel","Department","EducationField", "JobRole","MaritalStatus", "Gender".
Et vont être remplacés par : 
* BusinessTravel_Non-Travel
* BusinessTravel_Travel_Frequently
* BusinessTravel_Travel_Rarely
* Department_Human Resources
* Department_Research & Development
* Department_Sales
* EducationField_Human Resources
* EducationField_Life Sciences
* EducationField_Marketing
* EducationField_Medical
* EducationField_Other
* EducationField_Technical Degree
* JobRole_Healthcare Representative
* JobRole_Human Resources
* JobRole_Manufacturing Director	
* JobRole_Research Director	
* JobRole_Research Scientist	
* JobRole_Sales Executive	
* JobRole_Sales Representative	
* MaritalStatus_Divorced	
* MaritalStatus_Married	
* MaritalStatus_Single	
* Gender_Female	
* Gender_Male

In [None]:
# One-hot Encoding
final_data2 = pd.get_dummies(final_data, 
prefix=["BusinessTravel","Department","EducationField", "JobRole","MaritalStatus", "Gender"],
columns=["BusinessTravel","Department","EducationField", "JobRole","MaritalStatus", "Gender"])
final_data2.head(5)

<a id="section_3_6"></a>

### Standardisation

In [None]:
# Suppression de la colonne Attrition
final_data3 = final_data2.drop("Attrition",axis=1)

# Normalisation des données en utilisant le z-score 
norm = StandardScaler().fit_transform(final_data3)
final_data3 = pd.DataFrame(norm, columns=final_data3.columns)
final_data3

Ethique

In [None]:
# Suppression cols
cols_pas_ethic = ["Gender_Male", "Gender_Female", "YearsWithCurrManager", "PerformanceRating", "Age", "MaritalStatus_Single", "MaritalStatus_Married", "MaritalStatus_Divorced"]
cols_big_corr = ["Department_Sales", "BusinessTravel_Travel_Rarely"]

final_data4 = final_data3.drop(cols_pas_ethic,axis=1)
final_data4 = final_data4.drop(cols_big_corr,axis=1)
final_data4.head()

<a id="section_3_7"></a>

### Création des jeux de données


In [None]:
# Définitions de nos variables X et y
X = final_data4
y = final_data2["Attrition"]


seed =42
test_size = 0.2
# Fixer un seed pour avoir les mêmes résultats à chaque essai
np.random.seed(seed)

# Séparer les données d'entrainement et de test
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=test_size)

A la suite de cette section, nous avons deux ensembles de données nettoyés et complets:
* final_data :  données qualitatives et quantitatives
* final_data2 : données uniquement quantitatives 
* final_data3 : données uniquement quantitatives et standardisées 


<a id="chapter4"></a>

## Analyses statistiques

Nous séparons nos données en deux parties : 
-  Les valeurs entrantes qui correspondent à tous les paramêtres qui possèdent différentes valeurs (Ex: DistanceFromHome, Education, Age ...)
- La valeur de sortie (variable 'Attrition') qui permet de savoir si l'employée à quitté ou non l'entreprise l'année suivante.

Pour cela, nous allons analyser nos deux groupes.

<a id="section_4_1"></a>
### Analyste des données entrantes

#### Histogramme 

Concernant les données quantitatives, nous affichons nos valeurs de façon visuelle afin d'avoir un meilleur appercu de l'allure de nos données.

In [None]:
final_data.hist(bins=50, figsize=(20,15))
plt.show()

#### Corrélation des données

Maintenant nous voulons voir si nos valeurs possèdent des liens entre-elles. Pour cela nous utilisons une matrice de corrélation. Elle permet d'évaluer la dépendence entre plusieurs variables en même temps. Le résultat est une table contenant les coefficients de corrélation entre chaque variable et les autres.


In [None]:
# Matrice de corrélation
corr_matrix = final_data2.corr(method="pearson")

plt.figure(figsize=(40,30))
sns.heatmap(corr_matrix, annot= True, cbar=True, cmap="Blues_r")
plt.show()

corr_matrix = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))
corr_matrix = corr_matrix.unstack().reset_index()
corr_matrix.columns = ["feature1", "feature2", "Correlation"]
corr_matrix.dropna(subset = ['Correlation'], inplace = True)
corr_matrix['Correlation'] = round(corr_matrix['Correlation'], 2)
corr_matrix['Correlation'] = abs(corr_matrix['Correlation'])
corr_matrix = corr_matrix.sort_values(by = 'Correlation', ascending = False)
value_high_corr = corr_matrix[corr_matrix['Correlation']>0.7]

value_high_corr

<a id="section_4_2"></a>

### Analyse de l'attrition

Maintenant que nous avons analyser les paramêtres indépendament de l'attrition, nous allons regarder leur influence sur cette dernière.

#### Courbes de densité superposées

A l'aide des courbes de densité superposées, nous regardons la répartition des valeurs quantitatives pour chaque variables en fonction de l'attrition. 

In [None]:
def area_chart(df,feature):
    ax=sns.kdeplot(df[df['Attrition']=='Yes'][feature],
             shade=True,label='Attrition = Yes')
    ax=sns.kdeplot(df[df['Attrition']=='No'][feature],
                 shade=True,label='Attrition = No')
    ax.legend()

cols = ['DistanceFromHome','MonthlyIncome','TotalWorkingYears','TrainingTimesLastYear', 'YearsAtCompany', 'YearsSinceLastPromotion','PercentSalaryHike','YearsWithCurrManager','MeanTimeWorkOverYear2015','absences_par_jour', "Age"]

plt.figure(figsize=(40,30))
for i, col in enumerate(cols):
    ax = plt.subplot(4, 3, i+1)
    area_chart(final_data, col)
plt.tight_layout(pad=3.0)
plt.show()

Cependant comme nous voyons peu de différence à l'oeil nu, nous allons dans un deuxième temps des boites à moustache.

#### Boîtes à moustache

A l'aide de boites à moustache, nous regardons la répartition des valeurs quantitatives pour chaque variables en fonction de l'attrition.

In [None]:
cols = ['DistanceFromHome','MonthlyIncome','TotalWorkingYears','TrainingTimesLastYear', 'YearsAtCompany', 'YearsSinceLastPromotion','PercentSalaryHike','YearsWithCurrManager','MeanTimeWorkOverYear2015','absences_par_jour']

plot_rows=2
plot_cols=5
fig = make_subplots(rows=plot_rows, cols=plot_cols,subplot_titles=(cols))

col_i = 0
for i in range(1, plot_rows + 1):
    for j in range(1, plot_cols + 1):
        for t in px.box(final_data, x="Attrition", y=cols[col_i]).data:
            fig.add_trace(t,row=i, col=j)

        col_i=col_i+1
fig.update_layout(height=600, width=1200)
fig.show()

#### Histogrammes

A l'aide des histogrammes, nous regardons la répartition des valeurs qualitatives pour chaque variables en fonction de l'attrition.

In [None]:
cols = ['BusinessTravel', 'Department', 'Education', 'EducationField', 'Gender', 'JobLevel', 'JobRole', 'MaritalStatus', 'StockOptionLevel', 'JobInvolvement', 'PerformanceRating', 'EnvironmentSatisfaction', 'JobSatisfaction', 'WorkLifeBalance']

attrition = final_data['Attrition'].tolist()
result = {}

for col in cols:
    current_col = final_data[col].tolist()

    #values = {name: "", [0,1]}
    values = {}
    label = []
    list_yes = []
    list_no = []

    for index in range(len(current_col)):

        try:
            i = label.index(current_col[index])
        except:
            i = -1
        
        # On ajoute
        if(i != -1):
            if(attrition[index] == 'Yes'):
                list_yes[i] += 1
            else:
                list_no[i] += 1
        # On créée
        else:
            label.append(current_col[index])
            if(attrition[index] == 'Yes'):
                list_yes.append(1)
                list_no.append(0)
            else:
                list_yes.append(0)
                list_no.append(1)
    pourcent_yes = []
    pourcent_no = []

    for j in range(len(list_yes)):
        no = list_no[j]
        yes = list_yes[j]
        total = no + yes
        pourcent_yes.append("{}%".format(round(100 * yes / total)))
        pourcent_no.append("{}%".format(round(100 * no / total)))
    
    plot_rows=7
    plot_cols=2
    fig = make_subplots(rows=plot_rows, cols=plot_cols,subplot_titles=(cols))

    for ii in range(1, plot_rows + 1):
        for jj in range(1, plot_cols + 1): 
            show=False
            if (ii == 1 and jj == 1):
                show=True
            fig.add_trace(go.Bar(
                                name='Yes',
                                x=label,
                                y=list_yes,
                                offsetgroup=0,
                                text = pourcent_yes,
                                marker_color="steelblue",
                                showlegend=show
                            ),row=ii, col=jj)
            fig.add_trace(go.Bar(
                                name='No',
                                x=label,
                                y=list_no,
                                offsetgroup=1,
                                text = pourcent_no,
                                marker_color="coral",
                                showlegend=show
                            ),row=ii, col=jj)
fig.update_layout(height=1800, width=1000, title="Attrition pour chaque colonnes")
fig.show()


<a id="chapter5"></a>
## Algorithmes

In [None]:
y_train_label = y_train.copy()
y_train_label.where(y_train_label == "Yes", 0, inplace=True)
y_train_label.where(y_train_label == 0, 1, inplace=True)
y_train_label = y_train_label.astype(np.int64)

In [None]:
y_test_label = y_test.copy()
y_test_label.where(y_test_label == "Yes", 0, inplace=True)
y_test_label.where(y_test_label == 0, 1, inplace=True)
y_test_label = y_test_label.astype(np.int64)

In [None]:
# Listes des algorithmes  
models = {"Logistic Regression": LogisticRegression(),
          "KNN": KNeighborsClassifier(),
          "Random Forest": RandomForestClassifier(),
          "Perceptron": Perceptron(),
          "Descente de gradient": SGDClassifier()}

# fonction appliquant un fit et score sur chacun des modeles
def fit_and_score(models, X_train, y_train_label):
    
    # Fixer un seed pour avoir les mêmes résultats à chaque essai 
    np.random.seed(42)
    
    # Dictionnaire pour sauvegarder les scores
    fitted_model = {}
    for name, model in models.items():
        # Fit le modèle
        model.fit(X_train, y_train_label)
        fitted_model[name] = model
        
    return fitted_model

In [None]:
fitted_model = fit_and_score(models=models, X_train=X_train, y_train_label=y_train_label)
fitted_model

In [None]:
# # Comparaison des résultats obtenus
# model_compare = pd.DataFrame(model_scores, index=["accuracy"])
# model_compare.T.plot.bar();

<a id="chapter5"></a>

## Evaluation des modèles

<a id="section_5_1"></a>
### Régression logistique

In [None]:
# fonction appliquant xxxxxxxxxxxxxxxxxxx
def evaluation_accuracy(models, X, y):
    
    tabl = pd.DataFrame(columns=['Algorithme', 'Accuracy Score Train', 'Accuracy Score Test', 'Différence'])
    tabl.style.hide_index()

    i = 0   
    for name, model in models.items():
        # Evaluer le modèle selon le score de chaque algorithme
        cross_val = (cross_val_score(model, X, y, cv=10, scoring='accuracy')).mean()
        
        #
        y_pred = model.predict(X)
        accuracy_test = accuracy_score(y, y_pred)
        
        diff = accuracy_test - cross_val
        
        tabl.loc[i] = [name, cross_val, accuracy_test, diff]
        i=i+1
        
        #confusion matrix
        cm = metrics.confusion_matrix(y, y_pred)
        
        #Visualize the confusion matrix
        plt.figure(figsize=(9,9))
        sns.heatmap(cm, annot=True, fmt=".0f", linewidths=.5, square = True, cmap = 'Blues_r');
        plt.ylabel('Actual Class');
        plt.xlabel('Predicted Class');
        all_sample_title = "Test Accuracy: %0.2f" % (cross_val)
        plt.title(all_sample_title, size = 15);


    return tabl

In [None]:
evaluation_accuracy(fitted_model, X_train, y_train_label)

In [None]:
#Hyperparameter tuning

#Données de paramètres

param_reglog = [
    {'solver': ['newton-cg', 'liblinear'],
    'penalty': ['none', 'l1', 'l2']}
]

param_knn = [
    {'n_neighbors' : range(1,10),
    'weights' : ['uniform', 'distance'],
    'metric' : ['euclidean', 'manhattan']}
]

param_random_forest = [
    {'n_estimators' : [10, 50, 100, 200],
    'max_depth' : [10, 20, 40, 50],
    'max_features': [1, 'auto', 'log2'],
    'bootstrap': [True, False]}
]

param_perceptron = [
    {'penalty' : ['l1', 'l2'],
    'fit_intercept': [True, False],
    'max_iter': [20, 50, 70, 100]}
]

param_descente = [
    {'learning_rate': ['optimal'],
    'early_stopping': [True],
    'validation_fraction': [0.1, 0.3, 0.5],
    'loss': ['log', 'perceptron'],
    'penalty': ['l1', 'l2']}
]

In [None]:
def fit_method(gs_cv, X, y):
    gs_cv.fit(X, y)
    gs_cv_best_score = gs_cv.best_score_
    gs_cv_best_param = gs_cv.best_params_
    gs_cv_best_estimator = gs_cv.best_estimator_
    gs_cv_score = cross_val_score(gs_cv_best_estimator, X, y, cv=10).mean()
    
    return gs_cv_best_score, gs_cv_best_param, gs_cv_best_estimator, gs_cv_score


Regression hyperparameter tuning

In [None]:
# Grid Search
gs_cv_reglog = GridSearchCV(LogisticRegression(), param_reglog, cv=10,return_train_score=False, verbose=0)

# Jeu de test
reglog_best_score_test, reglog_best_param_test, reglog_best_estimator_test, cv_score_reglog_test =  fit_method(gs_cv_reglog, X_test, y_test_label)
print('reglog_best_score_test:',reglog_best_score_test)

# Jeu d'entrainement
reglog_best_score_train, reglog_best_param_train, reglog_best_estimator_train, cv_score_reglog_train =  fit_method(gs_cv_reglog, X_train, y_train_label)
print('reglog_best_score_train:',reglog_best_score_train)


KNNeighboors hyperparameter tuning

In [None]:
# Grid Search
gs_cv_knn = GridSearchCV(KNeighborsClassifier(), param_knn, cv=10,return_train_score=False, verbose=0)

# Jeu de test
knn_best_score_test, knn_best_param_test, knn_best_estimator_test, cv_score_knn_test =  fit_method(gs_cv_knn, X_test, y_test_label)
print('knn_best_score_test:', knn_best_score_test)

# Jeu d'entrainement
knn_best_score_train, knn_best_param_train, knn_best_estimator_train, cv_score_knn_train =  fit_method(gs_cv_knn, X_train, y_train_label)
print('knn_best_score_train:', knn_best_score_train)


Random Forest hyperparameter tuning

In [None]:
# Grid Search
gs_cv_rf = GridSearchCV(RandomForestClassifier(), param_random_forest, cv=10,return_train_score=False, verbose=0, n_jobs=-1)

# Jeu de test
rf_best_score_test, rf_best_param_test, rf_best_estimator_test, cv_score_rf_test =  fit_method(gs_cv_rf, X_test, y_test_label)
print('rf_best_score_test:', rf_best_score_test)

# Jeu d'entrainement
rf_best_score_train, rf_best_param_train, rf_best_estimator_train, cv_score_rf_train =  fit_method(gs_cv_rf, X_train, y_train_label)
print('rf_best_score_train:', rf_best_score_train)

Perceptron hyperparameter tuning

In [None]:
# Grid Search
gs_cv_perceptron = GridSearchCV(Perceptron(), param_perceptron, cv=10,return_train_score=False, verbose=0)

# Jeu de test
perceptron_best_score_test, perceptron_best_param_test, perceptron_best_estimator_test, cv_score_perceptron_test =  fit_method(gs_cv_perceptron, X_test, y_test_label)
print('perceptron_best_score_test:', perceptron_best_score_test)

# Jeu d'entrainement
perceptron_best_score_train, perceptron_best_param_train, perceptron_best_estimator_train, cv_score_perceptron_train =  fit_method(gs_cv_perceptron, X_train, y_train_label)
print('perceptron_best_score_train:', perceptron_best_score_train)

Descente de Gradient Stochastique hyperparameter tuning

In [None]:
# Grid Search
gs_cv_dgs = GridSearchCV(SGDClassifier(), param_descente, cv=10,return_train_score=False, verbose=0)

# Jeu de test
dgs_best_score_test, dgs_best_param_test, dgs_best_estimator_test, cv_score_dgs_test =  fit_method(gs_cv_dgs, X_test, y_test_label)
print('dgs_best_score_test:', dgs_best_score_test)

# Jeu d'entrainement
dgs_best_score_train, dgs_best_param_train, dgs_best_estimator_train, cv_score_dgs_train =  fit_method(gs_cv_dgs, X_train, y_train_label)
print('dgs_best_score_train:', dgs_best_score_train)

Affichage

In [None]:
data_param = {
    'Algorithmes': ["Logisitic Regression", "KNN", "RandomForest", "Perceptron", "Descente de gradient stochastique"],
    'Best_param': [reglog_best_param_train, knn_best_param_train, rf_best_param_train, perceptron_best_param_train, dgs_best_param_train],
    'Best_estimator': [reglog_best_estimator_train, knn_best_estimator_train, rf_best_estimator_train, perceptron_best_estimator_train, dgs_best_estimator_train],
    'Cross-Validation score Train': [cv_score_reglog_train, cv_score_knn_train, cv_score_rf_train, cv_score_perceptron_train, cv_score_dgs_train]
}
hyperparameter = pd.DataFrame(data=data_param)
hyperparameter

### Recall et précision 

In [None]:
# On définie ici nos fonctions pour plot et de transfo
# Convertir une liste avec des 'No' & 'Yes' en 0 & 1 liste
def transform_binary(table):
    y_pred_binary = []
    
    for item in table:
        if item == 'No':
            y_pred_binary.append(0)
        else:
            y_pred_binary.append(1)
    return y_pred_binary

# Plot courbes de précision et recall vs Threshold
def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(thresholds, precisions[:-1], "b-", label="Precision", linewidth=2)
    plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
    plt.xlabel("Threshold", fontsize=16)
    plt.legend(loc="upper left", fontsize=16)
    plt.ylim([0, 1])

# Plot courbes de précision et recall
def plot_precision_vs_recall(precisions, recalls):
    plt.plot(recalls, precisions, "k-", linewidth=2)
    plt.xlabel("Recall", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])

# Plot de la courbe de Roc
def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.axis([0, 1, 0, 1])
    plt.xlabel('False Positive Rate', fontsize=16)
    plt.ylabel('True Positive Rate', fontsize=16)

In [None]:
# Affiche les informations pour un modèle donnée
def displayInfo_by_model(estimator_train, estimator_test, X_train, y_true_train, X_test, y_true_test, method, xlim_x, xlim_y, ylim_x, ylim_y ):
    # Fix random
    np.random.seed(42)

    # Print les infos de base (précision, recall, f1...)
    y_pred_train = cross_val_predict(estimator_train, X_train, y_true_train, cv=7)
    precision_train = precision_score(y_true_train, y_pred_train)
    recall_train = recall_score(y_true_train, y_pred_train)
    f1_train = f1_score(y_true_train, y_pred_train)
    
    y_pred_test = cross_val_predict(estimator_test, X_test, y_true_test, cv=7)
    precision_test = precision_score(y_true_test, y_pred_test)
    recall_test = recall_score(y_true_test, y_pred_test)
    f1_test =  f1_score(y_true_test, y_pred_test)
    
    data_train_test = {
    'Analyse': ["precision_score", "recall_score", "f1_score"],
    "Jeu d'entrainement": [precision_train, recall_train, f1_train],
    "Jeu de test": [precision_test, recall_test, f1_test],
    'Différence': [precision_train - precision_test, recall_train - recall_test, f1_train - f1_test]
    }
        
    result_train_test = pd.DataFrame(data=data_train_test)
    display(result_train_test)
    
    
    # Afficher courbes
    y_scores = cross_val_predict(estimator_train, X_train, y_true_train, cv=7,method=method)
    if(method == 'predict' or method == 'predict_proba'):
        y_scores = y_scores[:,1]
    precisions, recalls, thresholds = precision_recall_curve(y_true_train, y_scores)

    plt.figure(figsize=(8, 4))
    plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
    plt.xlim([xlim_x,xlim_y])
    plt.ylim([ylim_x,ylim_y])
    plt.show()

    plt.figure(figsize=(8, 6))
    plot_precision_vs_recall(precisions, recalls)
    plt.show()   

    fscore = (2 * precisions * recalls) / (precisions + recalls)
    fpr, tpr, thresholds = roc_curve(y_true_train, y_scores)
    plt.figure(figsize=(8, 6))
    plot_roc_curve(fpr, tpr)
    plt.show()
    
    return fpr, tpr, fscore, thresholds

In [None]:
y_test_label = y_test.copy()
y_test_label.where(y_test_label == "Yes", 0, inplace=True)
y_test_label.where(y_test_label == 0, 1, inplace=True)
y_test_label = y_test_label.astype(np.int64)
y_test_label_true = (y_test_label == 1)

y_train_label = y_train.copy()
y_train_label.where(y_train_label == "Yes", 0, inplace=True)
y_train_label.where(y_train_label == 0, 1, inplace=True)
y_train_label = y_train_label.astype(np.int64)
y_train_label = (y_train_label == 1)

#### Regression logistique

In [None]:
fpr_reglog, tpr_reglog, fscore_reglog, thresholds_reglog = displayInfo_by_model(reglog_best_estimator_train, reglog_best_estimator_test, X_train, y_train_label, X_test, y_test_label_true,"decision_function",-2,0,0,1)

#### KNN

In [None]:
fpr_knn, tpr_knn, fscore_knn, thresholds_knn = displayInfo_by_model(knn_best_estimator_train, knn_best_estimator_test, X_train, y_train_label, X_test, y_test_label_true,"predict_proba", 0.25,0.45,0.8,1)

Random Forest

In [None]:
fpr_rf, tpr_rf, fscore_rf, thresholds_rf = displayInfo_by_model(rf_best_estimator_train, rf_best_estimator_test, X_train, y_train_label, X_test, y_test_label_true,"predict_proba", 0.1,0.6,0.8,1)

Perceptron

In [None]:
fpr_perceptron, tpr_perceptron, fscore_perceptron, thresholds_perceptron = displayInfo_by_model(perceptron_best_estimator_train, perceptron_best_estimator_test, X_train, y_train_label, X_test, y_test_label_true,"decision_function", -10,10, 0, 1)

Descente de gradient stochastique

In [None]:
fpr_dgs, tpr_dgs, fscore_dgs, thresholds_dgs = displayInfo_by_model(dgs_best_estimator_train, dgs_best_estimator_test, X_train, y_train_label, X_test, y_test_label_true,"decision_function", -2, 0, 0,1)

In [None]:
plt.figure(figsize=(8, 6))
plot_roc_curve(fpr_rf, tpr_rf, "Random Forest")
plot_roc_curve(fpr_knn, tpr_knn, "KNN")
plot_roc_curve(fpr_reglog, tpr_reglog, "Logistic Regression")
plot_roc_curve(fpr_perceptron, tpr_perceptron, "Perceptron")
plot_roc_curve(fpr_dgs, tpr_dgs, "Descente de Gradient Stochastique")
plt.legend(loc="lower right", fontsize=16)
plt.show()

In [None]:
def percentage(unique, counts):
    return (counts[1]/(counts[0]+counts[1]))*100

ix = argmax(fscore_rf)

final_model = rf_best_estimator_train
final_threshold = thresholds_rf[ix]

final_prediction = final_model.predict_proba(X_train)[:, 1]
final_prediction_set = np.where(final_prediction < final_threshold, 0, 1)

unique, counts = np.unique(final_prediction_set, return_counts=True)
dict(zip(unique, counts))


In [None]:
percentage(unique, counts)

Nous pouvons donc voir que notre modèle prédit correctement l'attrition sur notre jeu de données, l'attrition étant sur celui-ci de 16%.

## Conclusion
Suite à notre prédiction, nous pouvons mettre en évidence les différentes features qui influent sur l'attrition, et donc le taux de turn-over.

In [None]:
rf_best_estimator_train.feature_importances_

In [None]:
feature_dict = dict(sorted(zip(X.columns, list(rf_best_estimator_train.feature_importances_)), reverse=True))
feature_dict_sorted_A = sorted(feature_dict.items(), key=lambda x:x[1], reverse=True)
feature_dict_sorted_A

In [None]:
feature_df = pd.DataFrame(feature_dict, index=[0])
feature_df.T.plot.barh(figsize=(20,12),title="Feature Importance", legend=False);

Ces différentes fonctions nous permettent donc de mettre en évidence ces features (au dessus de 0.06), qui sont :
* MeanTimeWorkOverYear2015
* TotalWorkingYears
* MonthlyIncome
* YearsAtCompany
* DistanceFromHome

Nous allons donc parmis ces 5 features choisir celles qui peuvent être influencée par l'entreprise, `YearsAtCompany` et `TotalWorkingYears` ne permettant pas de solution facile à mettre en place nous n'allons pas les étudier ici.

### Etude des features

#### MeanTimeWorkOverYear2015

Nous allons étudier dans quels cas les employées sont plus susceptibles de quitter l'entreprise en fonction de leur temps moyen de travail.

In [None]:
area_chart(final_data, 'MeanTimeWorkOverYear2015')

Nous pouvons voir les tendances suivantes grâce à ce graphique :
* Les employées dont la moyenne est comprise entre 4h à 7h de travail ont tendance à ne pas quitter l'entreprise.
* Les employées dont la moyenne est comprise entre 8h à 10h ont tendance à plus quitter l'entreprise. 

Nous allons donc simuler un réduction des horaires de travail pour observer si cela nous permet de réduire significativement l'attrition.


On peut ainsi voir que si les employées travaillent 30 minutes de moins par jour (soit 2h30 par semaines) on peut faire descendre l'attrition à **14,6%** au lieu de 16% auparavant. Cette piste est viable, car en adaptant les horaires des salariées, l'entreprise peut diminuer significativement l'attrition.

#### MonthlyIncome

Nous allons étudier dans quels cas les employées sont plus susceptibles de quitter l'entreprise en fonction de leur salaire par mois.

In [None]:
area_chart(final_data, 'MonthlyIncome')

Nous pouvons voir deux tendances grâce à ce graphique :
* Les employées dont le salaire est inférieur à 50000 roupies sont plus susceptible de quitter l'entreprise.
* Les employées dont le salaire est supérieur à 50000 roupies ont tendance à rester dans l'entreprise. 

Nous allons donc simuler une augmentation des salaires pour les employées ciblés pour voir si cela influera significativement notre attrition.

Une fois le modèle entrainé, en simulant une augmentation de 25% du salaire de nos employées, nous avons pu obtenir une attrition de **14.36%**. Cette piste peut donc elle aussi être mise en place par l'entreprise pour réduire son attrition.

#### DistanceFromHome

Nous allons étudier dans quels cas les employées sont plus susceptibles de quitter l'entreprise en fonction de la distance entre leurs lieux de résidences et leur travail.

In [None]:
pd.crosstab(final_data["DistanceFromHome"], final_data.Attrition).plot(kind="bar",figsize=(10, 6))
plt.title("Attrition en fonction de DistanceFromHome")
plt.xlabel("DistanceFromHome")
plt.ylabel("F")
plt.legend(["No", "Yes"])
plt.xticks(rotation=0)

Ce graphique nous apprend que la distance entre les domiciles des salariées et l'entreprise n'influe pas sur l'attrition, seulement certains cas comme 15km et 19km. Cette feature étant que significative nous allons quand même effectuer une signification, prenant en compte la mise en place de télétravail pour les salariées à hauteur de 25%.

Nous avons pu entrainer le modèle pour obtenir les résultats suivants : **14.6%** d'attrition, en mettant 25% du temps les salariées en télétravail. Cette piste peut donc être suivit par l'entreprise pour diminuer son attrition.

#### Pistes à suivre
Nous avons donc vu que trois des nos cinqs paramètres peuvent être adapté pour réduire l'attrition. Nous pouvons donc proposer des solutions pour ceux-ci :
* MeanTimeWorkOverYear2015 : Réduction de 30min/jour du temps de travail.
* TotalWorkingYears : *Pas prise en compte car les salairiés agés vont à la retraite*
* MonthlyIncome : Augmentation des salaires de 25%.
* YearsAtCompany : Mise en place de prime d'ancienneté plus conséquente.
* DistanceFromHome : Mise en place de télétravail à hauteur de 1,25j/semaine).
