`Importer les packages de base au traitement de data`

In [188]:
import importlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from packages import functions

importlib.reload(functions)
#Afficher toutes les colonnes des dataframes
pd.set_option("display.max_columns", None)

### Importation des différents datasets

In [189]:
eval_df = pd.read_csv("./data/extrait_eval.csv")
sirh_df = pd.read_csv("./data/extrait_sirh.csv")
survey_df = pd.read_csv("./data/extrait_sondage.csv")

print("Extrait du système SIRH")
display(sirh_df.head(3))
print("\nExtrait du système d'évaluation de performance")
display(eval_df.head(3))
print("\nSondage effectué sur la satisfaction des employés")
display(survey_df.head(3))

Extrait du système SIRH


Unnamed: 0,id_employee,age,genre,revenu_mensuel,statut_marital,departement,poste,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel
0,1,41,F,5993,Célibataire,Commercial,Cadre Commercial,8,80,8,6,4
1,2,49,M,5130,Marié(e),Consulting,Assistant de Direction,1,80,10,10,7
2,4,37,M,2090,Célibataire,Consulting,Consultant,6,80,7,0,0



Extrait du système d'évaluation de performance


Unnamed: 0,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,eval_number,note_evaluation_actuelle,heure_supplementaires,augementation_salaire_precedente
0,2,3,2,4,1,1,E_1,3,Oui,11 %
1,3,2,2,2,4,3,E_2,4,Non,23 %
2,4,2,1,3,2,3,E_4,3,Oui,15 %



Sondage effectué sur la satisfaction des employés


Unnamed: 0,a_quitte_l_entreprise,nombre_participation_pee,nb_formations_suivies,nombre_employee_sous_responsabilite,code_sondage,distance_domicile_travail,niveau_education,domaine_etude,ayant_enfants,frequence_deplacement,annees_depuis_la_derniere_promotion,annes_sous_responsable_actuel
0,Oui,0,0,1,1,1,2,Infra & Cloud,Y,Occasionnel,0,5
1,Non,1,3,1,2,8,1,Infra & Cloud,Y,Frequent,1,7
2,Oui,0,3,1,4,2,2,Autre,Y,Occasionnel,0,0


## Définition des différentes features

#### Fichier SIRH
***informations sur la fonction qu’occupe un employé, son âge, salaire, ancienneté***

| Feature                        | Description                                                         |
|--------------------------------|---------------------------------------------------------------------|
| id_employee                     | Identifiant unique de l'employé                                     |
| age                             | Âge de l'employé                                                    |
| genre                           | Sexe de l'employé (F pour femme, M pour homme)                     |
| revenu_mensuel                  | Salaire mensuel de l'employé                                        |
| statut_marital                  | Statut marital de l'employé                                         |
| departement                     | Département ou service auquel appartient l'employé                  |
| poste                           | Poste occupé par l'employé dans l'entreprise                        |
| nombre_experiences_precedentes  | Nombre d'années d'expérience professionnelle avant l'entreprise    |
| nombre_heures_travailless       | Nombre d'heures travaillées par l'employé                           |
| annee_experience_totale         | Nombre total d'années d'expérience professionnelle                  |
| annees_dans_l_entreprise        | Durée d'ancienneté de l'employé dans l'entreprise                  |
| annees_dans_le_poste_actuel     | Durée pendant laquelle l'employé occupe son poste actuel            |


#### Ficier SI
***spécifiquement pour les évaluations annuelles de performance***

| Feature                                 | Description                                                         |
|----------------------------------------|---------------------------------------------------------------------|
| satisfaction_employee_environnement    | Niveau de satisfaction de l'employé vis-à-vis de l'environnement de travail |
| note_evaluation_precedente              | Note obtenue lors de l'évaluation annuelle précédente               |
| niveau_hierarchique_poste               | Niveau hiérarchique du poste occupé par l'employé                  |
| satisfaction_employee_nature_travail   | Satisfaction de l'employé concernant la nature de son travail       |
| satisfaction_employee_equipe            | Satisfaction de l'employé vis-à-vis de son équipe                  |
| satisfaction_employee_equilibre_pro_perso | Satisfaction de l'employé concernant l'équilibre vie professionnelle / vie personnelle |
| eval_number                             | Numéro ou identifiant de l'évaluation                               |
| note_evaluation_actuelle                | Note obtenue lors de l'évaluation annuelle actuelle                 |
| heure_supplementaires                   | Nombre d'heures supplémentaires effectuées                          |
| augementation_salaire_precedente        | Montant ou taux d'augmentation de salaire lors de la dernière évaluation |


### Fichier sondage

***Utiliser pour mettre en place des actions pour le bien-être des employés***

| Feature                               | Description                                                         |
|---------------------------------------|---------------------------------------------------------------------|
| a_quitte_l_entreprise                 | Indique si l'employé a quitté l'entreprise (Oui/Non)               |
| nombre_participation_pee              | Nombre de participations à un plan d'épargne entreprise (PEE)       |
| nb_formations_suivies                 | Nombre de formations suivies par l'employé                          |
| nombre_employee_sous_responsabilite   | Nombre d'employés dont l'employé est responsable                   |
| code_sondage                           | Identifiant du sondage                                             |
| distance_domicile_travail             | Distance entre le domicile et le lieu de travail (en km)            |
| niveau_education                      | Niveau d'éducation de l'employé                                    |
| domaine_etude                          | Domaine d'études de l'employé                                      |
| ayant_enfants                          | Indique si l'employé a des enfants (Oui/Non)                        |
| frequence_deplacement                 | Fréquence des déplacements professionnels de l'employé             |
| annees_depuis_la_derniere_promotion   | Nombre d'années écoulées depuis la dernière promotion              |
| annees_sous_responsable_actuel        | Nombre d'années durant lesquelles l'employé a été responsable actuellement |


## Analyse exploratoire

- Dans le fichier SIRH, chaque observation représente les informations de base sur l'employé
- Dans le fichier SI, chaque observation représente un ensemble de métrique sur un employé du fichier SIRH
- Dans le fichier SONDAGE, chaque observation représente, l'avis d'un employé en général dans son cadre professionel

In [190]:
functions.count_row_col(sirh_df, "sirh_df")
functions.count_row_col(eval_df, "eval_df")
functions.count_row_col(survey_df, "survey_df")

Pour sirh_df on a 1470 lignes et 12 colonnes
Pour eval_df on a 1470 lignes et 10 colonnes
Pour survey_df on a 1470 lignes et 12 colonnes


In [191]:
survey_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   a_quitte_l_entreprise                1470 non-null   object
 1   nombre_participation_pee             1470 non-null   int64 
 2   nb_formations_suivies                1470 non-null   int64 
 3   nombre_employee_sous_responsabilite  1470 non-null   int64 
 4   code_sondage                         1470 non-null   int64 
 5   distance_domicile_travail            1470 non-null   int64 
 6   niveau_education                     1470 non-null   int64 
 7   domaine_etude                        1470 non-null   object
 8   ayant_enfants                        1470 non-null   object
 9   frequence_deplacement                1470 non-null   object
 10  annees_depuis_la_derniere_promotion  1470 non-null   int64 
 11  annes_sous_responsable_actuel        1470 n

#### Trouver les valeurs manquantes et leur nombre

In [192]:
print("SIRH")
for column in sirh_df.columns:
    print(f"{column}: {functions.count_na(sirh_df, column)} NaN")

print("\nEVAL")
for column in eval_df.columns:
    print(f"{column}: {functions.count_na(eval_df, column)} NaN")

print("\nSURVEY")
for column in survey_df.columns:
    print(f"{column}: {functions.count_na(survey_df, column)} NaN")

SIRH
id_employee: 0 NaN
age: 0 NaN
genre: 0 NaN
revenu_mensuel: 0 NaN
statut_marital: 0 NaN
departement: 0 NaN
poste: 0 NaN
nombre_experiences_precedentes: 0 NaN
nombre_heures_travailless: 0 NaN
annee_experience_totale: 0 NaN
annees_dans_l_entreprise: 0 NaN
annees_dans_le_poste_actuel: 0 NaN

EVAL
satisfaction_employee_environnement: 0 NaN
note_evaluation_precedente: 0 NaN
niveau_hierarchique_poste: 0 NaN
satisfaction_employee_nature_travail: 0 NaN
satisfaction_employee_equipe: 0 NaN
satisfaction_employee_equilibre_pro_perso: 0 NaN
eval_number: 0 NaN
note_evaluation_actuelle: 0 NaN
heure_supplementaires: 0 NaN
augementation_salaire_precedente: 0 NaN

SURVEY
a_quitte_l_entreprise: 0 NaN
nombre_participation_pee: 0 NaN
nb_formations_suivies: 0 NaN
nombre_employee_sous_responsabilite: 0 NaN
code_sondage: 0 NaN
distance_domicile_travail: 0 NaN
niveau_education: 0 NaN
domaine_etude: 0 NaN
ayant_enfants: 0 NaN
frequence_deplacement: 0 NaN
annees_depuis_la_derniere_promotion: 0 NaN
annes_sous

`Nous n'avons donc pas le valeurs manquantes pour ces 3 datasets`

#### Trouver les valeurs dupliquées

Pour le dataset sirh les features pouvants être considérés comme non duplicables sont:
> id_employee

Pour le dataset eval les features pouvants être considérés comme non duplicables sont:
> combo de tous les champs

Pour le dataset survey les éléments pouvants être considérés comme non duplicables sont:
> combo de tous les champs

In [193]:
sirh_duplicated = sirh_df.duplicated(subset=["id_employee"]).sum()
eval_duplicated = eval_df.duplicated(subset=list(eval_df.columns)).sum()
survey_duplicated = survey_df.duplicated(subset=list(survey_df.columns)).sum()
print(sirh_duplicated)
print(eval_duplicated)
print(survey_duplicated)

0
0
0


***Nous n’avons donc `aucune ligne dupliquée` dans les trois datasets, ce qui est logique puisque chacun contient le même nombre d’observations et qu’`une observation correspond nécessairement à un employé unique`.***

#### Classer les colonnes par type

In [194]:
#SIRH
sirh_numeric_columns = [
    "age",
    "revenu_mensuel",
]
sirh_categorical_columns = [
    "genre",
    "statut_marital",
    "departement",
    "poste",
    "nombre_experiences_precedentes",
    "nombre_heures_travailless",
    "annees_dans_l_entreprise",
    "annees_dans_le_poste_actuel",
    "annee_experience_totale",
]

#EVAL
eval_categorical_columns = [
    "satisfaction_employee_environnement",
    "note_evaluation_precedente",
    "niveau_hierarchique_poste",
    "satisfaction_employee_nature_travail",
    "satisfaction_employee_equipe",
    "satisfaction_employee_equilibre_pro_perso",
    "note_evaluation_actuelle",
    "heure_supplementaires",
    "augementation_salaire_precedente"
]

#Survey
survey_categorical_columns = [
    "a_quitte_l_entreprise",
    "nombre_participation_pee",
    "nb_formations_suivies",
    "nombre_employee_sous_responsabilite",
    "distance_domicile_travail",
    "niveau_education",
    "domaine_etude",
    "ayant_enfants",
    "frequence_deplacement",
    "annees_depuis_la_derniere_promotion",
    "annes_sous_responsable_actuel"
]

### Nombre d'occurence de chaque feature catégorielle

In [195]:
functions.category_descriptive_stat(sirh_df, sirh_categorical_columns)
print("---------------------------------------------------------------")
functions.category_descriptive_stat(eval_df, eval_categorical_columns)
print("---------------------------------------------------------------")
functions.category_descriptive_stat(survey_df, survey_categorical_columns)

Pour la colonne genre


Unnamed: 0_level_0,Effectif,Fréquence
genre,Unnamed: 1_level_1,Unnamed: 2_level_1
M,882,60.0
F,588,40.0


Pour la colonne statut_marital


Unnamed: 0_level_0,Effectif,Fréquence
statut_marital,Unnamed: 1_level_1,Unnamed: 2_level_1
Marié(e),673,45.78
Célibataire,470,31.97
Divorcé(e),327,22.24


Pour la colonne departement


Unnamed: 0_level_0,Effectif,Fréquence
departement,Unnamed: 1_level_1,Unnamed: 2_level_1
Consulting,961,65.37
Commercial,446,30.34
Ressources Humaines,63,4.29


Pour la colonne poste


Unnamed: 0_level_0,Effectif,Fréquence
poste,Unnamed: 1_level_1,Unnamed: 2_level_1
Cadre Commercial,326,22.18
Assistant de Direction,292,19.86
Consultant,259,17.62
Tech Lead,145,9.86
Manager,131,8.91
Senior Manager,102,6.94
Représentant Commercial,83,5.65
Directeur Technique,80,5.44
Ressources Humaines,52,3.54


Pour la colonne nombre_experiences_precedentes


Unnamed: 0_level_0,Effectif,Fréquence
nombre_experiences_precedentes,Unnamed: 1_level_1,Unnamed: 2_level_1
1,521,35.44
0,197,13.4
3,159,10.82
2,146,9.93
4,139,9.46
7,74,5.03
6,70,4.76
5,63,4.29
9,52,3.54
8,49,3.33


Pour la colonne nombre_heures_travailless


Unnamed: 0_level_0,Effectif,Fréquence
nombre_heures_travailless,Unnamed: 1_level_1,Unnamed: 2_level_1
80,1470,100.0


Pour la colonne annees_dans_l_entreprise


Unnamed: 0_level_0,Effectif,Fréquence
annees_dans_l_entreprise,Unnamed: 1_level_1,Unnamed: 2_level_1
5,196,13.33
1,171,11.63
3,128,8.71
2,127,8.64
10,120,8.16
4,110,7.48
7,90,6.12
9,82,5.58
8,80,5.44
6,76,5.17


Pour la colonne annees_dans_le_poste_actuel


Unnamed: 0_level_0,Effectif,Fréquence
annees_dans_le_poste_actuel,Unnamed: 1_level_1,Unnamed: 2_level_1
2,372,25.31
0,244,16.6
7,222,15.1
3,135,9.18
4,104,7.07
8,89,6.05
9,67,4.56
1,57,3.88
6,37,2.52
5,36,2.45


Pour la colonne annee_experience_totale


Unnamed: 0_level_0,Effectif,Fréquence
annee_experience_totale,Unnamed: 1_level_1,Unnamed: 2_level_1
10,202,13.74
6,125,8.5
8,103,7.01
9,96,6.53
5,88,5.99
7,81,5.51
1,81,5.51
4,63,4.29
12,48,3.27
3,42,2.86


---------------------------------------------------------------
Pour la colonne satisfaction_employee_environnement


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_environnement,Unnamed: 1_level_1,Unnamed: 2_level_1
3,453,30.82
4,446,30.34
2,287,19.52
1,284,19.32


Pour la colonne note_evaluation_precedente


Unnamed: 0_level_0,Effectif,Fréquence
note_evaluation_precedente,Unnamed: 1_level_1,Unnamed: 2_level_1
3,868,59.05
2,375,25.51
4,144,9.8
1,83,5.65


Pour la colonne niveau_hierarchique_poste


Unnamed: 0_level_0,Effectif,Fréquence
niveau_hierarchique_poste,Unnamed: 1_level_1,Unnamed: 2_level_1
1,543,36.94
2,534,36.33
3,218,14.83
4,106,7.21
5,69,4.69


Pour la colonne satisfaction_employee_nature_travail


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_nature_travail,Unnamed: 1_level_1,Unnamed: 2_level_1
4,459,31.22
3,442,30.07
1,289,19.66
2,280,19.05


Pour la colonne satisfaction_employee_equipe


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_equipe,Unnamed: 1_level_1,Unnamed: 2_level_1
3,459,31.22
4,432,29.39
2,303,20.61
1,276,18.78


Pour la colonne satisfaction_employee_equilibre_pro_perso


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_equilibre_pro_perso,Unnamed: 1_level_1,Unnamed: 2_level_1
3,893,60.75
2,344,23.4
4,153,10.41
1,80,5.44


Pour la colonne note_evaluation_actuelle


Unnamed: 0_level_0,Effectif,Fréquence
note_evaluation_actuelle,Unnamed: 1_level_1,Unnamed: 2_level_1
3,1244,84.63
4,226,15.37


Pour la colonne heure_supplementaires


Unnamed: 0_level_0,Effectif,Fréquence
heure_supplementaires,Unnamed: 1_level_1,Unnamed: 2_level_1
Non,1054,71.7
Oui,416,28.3


Pour la colonne augementation_salaire_precedente


Unnamed: 0_level_0,Effectif,Fréquence
augementation_salaire_precedente,Unnamed: 1_level_1,Unnamed: 2_level_1
11 %,210,14.29
13 %,209,14.22
14 %,201,13.67
12 %,198,13.47
15 %,101,6.87
18 %,89,6.05
17 %,82,5.58
16 %,78,5.31
19 %,76,5.17
22 %,56,3.81


---------------------------------------------------------------
Pour la colonne a_quitte_l_entreprise


Unnamed: 0_level_0,Effectif,Fréquence
a_quitte_l_entreprise,Unnamed: 1_level_1,Unnamed: 2_level_1
Non,1233,83.88
Oui,237,16.12


Pour la colonne nombre_participation_pee


Unnamed: 0_level_0,Effectif,Fréquence
nombre_participation_pee,Unnamed: 1_level_1,Unnamed: 2_level_1
0,631,42.93
1,596,40.54
2,158,10.75
3,85,5.78


Pour la colonne nb_formations_suivies


Unnamed: 0_level_0,Effectif,Fréquence
nb_formations_suivies,Unnamed: 1_level_1,Unnamed: 2_level_1
2,547,37.21
3,491,33.4
4,123,8.37
5,119,8.1
1,71,4.83
6,65,4.42
0,54,3.67


Pour la colonne nombre_employee_sous_responsabilite


Unnamed: 0_level_0,Effectif,Fréquence
nombre_employee_sous_responsabilite,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1470,100.0


Pour la colonne distance_domicile_travail


Unnamed: 0_level_0,Effectif,Fréquence
distance_domicile_travail,Unnamed: 1_level_1,Unnamed: 2_level_1
2,211,14.35
1,208,14.15
10,86,5.85
9,85,5.78
3,84,5.71
7,84,5.71
8,80,5.44
5,65,4.42
4,64,4.35
6,59,4.01


Pour la colonne niveau_education


Unnamed: 0_level_0,Effectif,Fréquence
niveau_education,Unnamed: 1_level_1,Unnamed: 2_level_1
3,572,38.91
4,398,27.07
2,282,19.18
1,170,11.56
5,48,3.27


Pour la colonne domaine_etude


Unnamed: 0_level_0,Effectif,Fréquence
domaine_etude,Unnamed: 1_level_1,Unnamed: 2_level_1
Infra & Cloud,606,41.22
Transformation Digitale,464,31.56
Marketing,159,10.82
Entrepreunariat,132,8.98
Autre,82,5.58
Ressources Humaines,27,1.84


Pour la colonne ayant_enfants


Unnamed: 0_level_0,Effectif,Fréquence
ayant_enfants,Unnamed: 1_level_1,Unnamed: 2_level_1
Y,1470,100.0


Pour la colonne frequence_deplacement


Unnamed: 0_level_0,Effectif,Fréquence
frequence_deplacement,Unnamed: 1_level_1,Unnamed: 2_level_1
Occasionnel,1043,70.95
Frequent,277,18.84
Aucun,150,10.2


Pour la colonne annees_depuis_la_derniere_promotion


Unnamed: 0_level_0,Effectif,Fréquence
annees_depuis_la_derniere_promotion,Unnamed: 1_level_1,Unnamed: 2_level_1
0,581,39.52
1,357,24.29
2,159,10.82
7,76,5.17
4,61,4.15
3,52,3.54
5,45,3.06
6,32,2.18
11,24,1.63
8,18,1.22


Pour la colonne annes_sous_responsable_actuel


Unnamed: 0_level_0,Effectif,Fréquence
annes_sous_responsable_actuel,Unnamed: 1_level_1,Unnamed: 2_level_1
2,344,23.4
0,263,17.89
7,216,14.69
3,142,9.66
8,107,7.28
4,98,6.67
1,76,5.17
9,64,4.35
5,31,2.11
6,29,1.97


### Trouver les colonnes de jointures

Nous avons trois datasets qui ont chacun des observations réprésentant des infos sur un seul et même employé.
Pour joindre les trois nous allons utiliser les features de liaison qui sont:

>`id_employee` dans ***sirh_df***

>`eval_number` dans ***eval_df***

>`code_sondage` dans ***survey_df***

*Nous allons donc produire un dataframe central* `central_df`.

>*Avant cela, nous constatons que dans ***eval_df*** ce que nous allons appeler la clé étrangère de sirh_df`(eval_number)` est matérialisé par des E_identifiant_sirh nous allons y remedier en isolant les entiers*

In [196]:
eval_df["eval_code"] = eval_df["eval_number"].str.extract(r'(\d+)').astype(int)
eval_df.drop(columns=["eval_number"], inplace=True)

In [197]:
display(eval_df)

Unnamed: 0,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,note_evaluation_actuelle,heure_supplementaires,augementation_salaire_precedente,eval_code
0,2,3,2,4,1,1,3,Oui,11 %,1
1,3,2,2,2,4,3,4,Non,23 %,2
2,4,2,1,3,2,3,3,Oui,15 %,4
3,4,3,1,3,3,3,3,Oui,11 %,5
4,1,3,1,2,4,3,3,Non,12 %,7
...,...,...,...,...,...,...,...,...,...,...
1465,3,4,2,4,3,3,3,Non,17 %,2061
1466,4,2,3,1,1,3,3,Non,15 %,2062
1467,2,4,2,2,2,3,4,Oui,20 %,2064
1468,4,2,2,2,4,2,3,Non,14 %,2065


In [198]:
#Le dataframe central
central_df = sirh_df.merge(
    eval_df, 
    left_on="id_employee", 
    right_on="eval_code", 
    how="inner").merge(
    survey_df, 
    left_on="id_employee", 
    right_on="code_sondage", 
    how="inner"
)

display(central_df)

Unnamed: 0,id_employee,age,genre,revenu_mensuel,statut_marital,departement,poste,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,note_evaluation_actuelle,heure_supplementaires,augementation_salaire_precedente,eval_code,a_quitte_l_entreprise,nombre_participation_pee,nb_formations_suivies,nombre_employee_sous_responsabilite,code_sondage,distance_domicile_travail,niveau_education,domaine_etude,ayant_enfants,frequence_deplacement,annees_depuis_la_derniere_promotion,annes_sous_responsable_actuel
0,1,41,F,5993,Célibataire,Commercial,Cadre Commercial,8,80,8,6,4,2,3,2,4,1,1,3,Oui,11 %,1,Oui,0,0,1,1,1,2,Infra & Cloud,Y,Occasionnel,0,5
1,2,49,M,5130,Marié(e),Consulting,Assistant de Direction,1,80,10,10,7,3,2,2,2,4,3,4,Non,23 %,2,Non,1,3,1,2,8,1,Infra & Cloud,Y,Frequent,1,7
2,4,37,M,2090,Célibataire,Consulting,Consultant,6,80,7,0,0,4,2,1,3,2,3,3,Oui,15 %,4,Oui,0,3,1,4,2,2,Autre,Y,Occasionnel,0,0
3,5,33,F,2909,Marié(e),Consulting,Assistant de Direction,1,80,8,8,7,4,3,1,3,3,3,3,Oui,11 %,5,Non,0,3,1,5,3,4,Infra & Cloud,Y,Frequent,3,0
4,7,27,M,3468,Marié(e),Consulting,Consultant,9,80,6,2,2,1,3,1,2,4,3,3,Non,12 %,7,Non,1,3,1,7,2,1,Transformation Digitale,Y,Occasionnel,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1465,2061,36,M,2571,Marié(e),Consulting,Consultant,4,80,17,5,2,3,4,2,4,3,3,3,Non,17 %,2061,Non,1,3,1,2061,23,2,Transformation Digitale,Y,Frequent,0,3
1466,2062,39,M,9991,Marié(e),Consulting,Manager,4,80,9,7,7,4,2,3,1,1,3,3,Non,15 %,2062,Non,1,5,1,2062,6,1,Transformation Digitale,Y,Occasionnel,1,7
1467,2064,27,M,6142,Marié(e),Consulting,Tech Lead,1,80,6,6,2,2,4,2,2,2,3,4,Oui,20 %,2064,Non,1,0,1,2064,4,3,Infra & Cloud,Y,Occasionnel,0,3
1468,2065,49,M,5390,Marié(e),Commercial,Cadre Commercial,2,80,17,9,6,4,2,2,2,4,2,3,Non,14 %,2065,Non,0,3,1,2065,2,3,Transformation Digitale,Y,Frequent,0,8


### Traitement statistique

In [204]:
#Séparation des colonnes en fonction du type
numeric_features, categorical_features = functions.type_separator(central_df, exception=["id_employee", "eval_code", "code_sondage"])

#### Statistiques descriptives des colonnes numériques

In [208]:
for column in numeric_features:
    print(f"---{column}---")
    display(central_df[column].describe())
    print("\n")

---age---


count    1470.000000
mean       36.923810
std         9.135373
min        18.000000
25%        30.000000
50%        36.000000
75%        43.000000
max        60.000000
Name: age, dtype: float64



---revenu_mensuel---


count     1470.000000
mean      6502.931293
std       4707.956783
min       1009.000000
25%       2911.000000
50%       4919.000000
75%       8379.000000
max      19999.000000
Name: revenu_mensuel, dtype: float64



---nombre_experiences_precedentes---


count    1470.000000
mean        2.693197
std         2.498009
min         0.000000
25%         1.000000
50%         2.000000
75%         4.000000
max         9.000000
Name: nombre_experiences_precedentes, dtype: float64



---nombre_heures_travailless---


count    1470.0
mean       80.0
std         0.0
min        80.0
25%        80.0
50%        80.0
75%        80.0
max        80.0
Name: nombre_heures_travailless, dtype: float64



---annee_experience_totale---


count    1470.000000
mean       11.279592
std         7.780782
min         0.000000
25%         6.000000
50%        10.000000
75%        15.000000
max        40.000000
Name: annee_experience_totale, dtype: float64



---annees_dans_l_entreprise---


count    1470.000000
mean        7.008163
std         6.126525
min         0.000000
25%         3.000000
50%         5.000000
75%         9.000000
max        40.000000
Name: annees_dans_l_entreprise, dtype: float64



---annees_dans_le_poste_actuel---


count    1470.000000
mean        4.229252
std         3.623137
min         0.000000
25%         2.000000
50%         3.000000
75%         7.000000
max        18.000000
Name: annees_dans_le_poste_actuel, dtype: float64



---satisfaction_employee_environnement---


count    1470.000000
mean        2.721769
std         1.093082
min         1.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         4.000000
Name: satisfaction_employee_environnement, dtype: float64



---note_evaluation_precedente---


count    1470.000000
mean        2.729932
std         0.711561
min         1.000000
25%         2.000000
50%         3.000000
75%         3.000000
max         4.000000
Name: note_evaluation_precedente, dtype: float64



---niveau_hierarchique_poste---


count    1470.000000
mean        2.063946
std         1.106940
min         1.000000
25%         1.000000
50%         2.000000
75%         3.000000
max         5.000000
Name: niveau_hierarchique_poste, dtype: float64



---satisfaction_employee_nature_travail---


count    1470.000000
mean        2.728571
std         1.102846
min         1.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         4.000000
Name: satisfaction_employee_nature_travail, dtype: float64



---satisfaction_employee_equipe---


count    1470.000000
mean        2.712245
std         1.081209
min         1.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         4.000000
Name: satisfaction_employee_equipe, dtype: float64



---satisfaction_employee_equilibre_pro_perso---


count    1470.000000
mean        2.761224
std         0.706476
min         1.000000
25%         2.000000
50%         3.000000
75%         3.000000
max         4.000000
Name: satisfaction_employee_equilibre_pro_perso, dtype: float64



---note_evaluation_actuelle---


count    1470.000000
mean        3.153741
std         0.360824
min         3.000000
25%         3.000000
50%         3.000000
75%         3.000000
max         4.000000
Name: note_evaluation_actuelle, dtype: float64



---nombre_participation_pee---


count    1470.000000
mean        0.793878
std         0.852077
min         0.000000
25%         0.000000
50%         1.000000
75%         1.000000
max         3.000000
Name: nombre_participation_pee, dtype: float64



---nb_formations_suivies---


count    1470.000000
mean        2.799320
std         1.289271
min         0.000000
25%         2.000000
50%         3.000000
75%         3.000000
max         6.000000
Name: nb_formations_suivies, dtype: float64



---nombre_employee_sous_responsabilite---


count    1470.0
mean        1.0
std         0.0
min         1.0
25%         1.0
50%         1.0
75%         1.0
max         1.0
Name: nombre_employee_sous_responsabilite, dtype: float64



---distance_domicile_travail---


count    1470.000000
mean        9.192517
std         8.106864
min         1.000000
25%         2.000000
50%         7.000000
75%        14.000000
max        29.000000
Name: distance_domicile_travail, dtype: float64



---niveau_education---


count    1470.000000
mean        2.912925
std         1.024165
min         1.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         5.000000
Name: niveau_education, dtype: float64



---annees_depuis_la_derniere_promotion---


count    1470.000000
mean        2.187755
std         3.222430
min         0.000000
25%         0.000000
50%         1.000000
75%         3.000000
max        15.000000
Name: annees_depuis_la_derniere_promotion, dtype: float64



---annes_sous_responsable_actuel---


count    1470.000000
mean        4.123129
std         3.568136
min         0.000000
25%         2.000000
50%         3.000000
75%         7.000000
max        17.000000
Name: annes_sous_responsable_actuel, dtype: float64





### Feature engenering

Pour le dataset ***SIRH*** nous pouvons:
> Réorganiser les `salaires`et les `ages` en valeurs catégorielles ordinales.

Pour ce faire nous allons calculer les statistiques descriptives de ces features afin d'avoir leur distribution

In [177]:
sirh_df["revenu_mensuel"].describe()

count     1470.000000
mean      6502.931293
std       4707.956783
min       1009.000000
25%       2911.000000
50%       4919.000000
75%       8379.000000
max      19999.000000
Name: revenu_mensuel, dtype: float64

In [178]:
sirh_df["age"].describe()

count    1470.000000
mean       36.923810
std         9.135373
min        18.000000
25%        30.000000
50%        36.000000
75%        43.000000
max        60.000000
Name: age, dtype: float64

`revenu_mensuel`, nous avons:
> Une médiane de 4919 euros `(entre 2911 et 8379 euros on a un revenu moyen)`

> un premier quartile de 2911 euros `( moins de 2911 euros on a un revenu bas )`

> un troisième quartile de 8379 euros `( plus de 8379 euros on a un revenu élevé)`

`age`, nous avons:
> Une médiane de 36 ans `( entre 30 et 43 ans on est adulte )`

> un premier quartile 30 ans `(moins de 30 ans on est jeune)`

> un troisième quartile 43 ans `( plus de 43 ans on est senior)`

In [179]:
sirh_df["category_revenu_mensuel"] = sirh_df["revenu_mensuel"].apply(functions.categorize_revenu)
sirh_df["category_age"] = sirh_df["age"].apply(functions.categorize_age)

sirh_categorical_columns.extend(["category_revenu_mensuel", "category_age"])

In [102]:
display(sirh_df.head(10))

Unnamed: 0,id_employee,age,genre,revenu_mensuel,statut_marital,departement,poste,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel,category_revenu_mensuel,category_age
0,1,41,F,5993,Célibataire,Commercial,Cadre Commercial,8,80,8,6,4,Moyen,Adulte
1,2,49,M,5130,Marié(e),Consulting,Assistant de Direction,1,80,10,10,7,Moyen,Senior
2,4,37,M,2090,Célibataire,Consulting,Consultant,6,80,7,0,0,Bas,Adulte
3,5,33,F,2909,Marié(e),Consulting,Assistant de Direction,1,80,8,8,7,Bas,Adulte
4,7,27,M,3468,Marié(e),Consulting,Consultant,9,80,6,2,2,Moyen,Jeune
5,8,32,M,3068,Célibataire,Consulting,Consultant,0,80,8,7,7,Moyen,Adulte
6,10,59,F,2670,Marié(e),Consulting,Consultant,4,80,12,1,0,Bas,Senior
7,11,30,M,2693,Divorcé(e),Consulting,Consultant,1,80,1,1,0,Bas,Jeune
8,12,38,M,9526,Célibataire,Consulting,Tech Lead,0,80,10,9,7,Élevé,Adulte
9,13,36,M,5237,Marié(e),Consulting,Manager,6,80,17,7,7,Moyen,Adulte


#### Notre objectif est de `prédire les démissions`, notre `target` est donc `a_quitte_l_entreprise` qui se trouve dans le dataset `survey_df`