`Importer les packages de base au traitement de data`

In [59]:
import importlib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from packages import functions

importlib.reload(functions)

<module 'packages.functions' from '/Users/cheick/Documents/repository/openclassrooms/Projet-4-Classifiez-automatiquement-des-informations/packages/functions.py'>

### Importation des différents datasets

In [28]:
eval_df = pd.read_csv("./data/extrait_eval.csv")
sirh_df = pd.read_csv("./data/extrait_sirh.csv")
survey_df = pd.read_csv("./data/extrait_sondage.csv")

print("Extrait du système SIRH")
display(eval_df.head(3))
print("\nExtrait du système d'évaluation de performance")
display(sirh_df.head(3))
print("\nSondage effectué sur la satisfaction des employés")
display(survey_df.head(3))

Extrait du système SIRH


Unnamed: 0,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,eval_number,note_evaluation_actuelle,heure_supplementaires,augementation_salaire_precedente
0,2,3,2,4,1,1,E_1,3,Oui,11 %
1,3,2,2,2,4,3,E_2,4,Non,23 %
2,4,2,1,3,2,3,E_4,3,Oui,15 %



Extrait du système d'évaluation de performance


Unnamed: 0,id_employee,age,genre,revenu_mensuel,statut_marital,departement,poste,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel
0,1,41,F,5993,Célibataire,Commercial,Cadre Commercial,8,80,8,6,4
1,2,49,M,5130,Marié(e),Consulting,Assistant de Direction,1,80,10,10,7
2,4,37,M,2090,Célibataire,Consulting,Consultant,6,80,7,0,0



Sondage effectué sur la satisfaction des employés


Unnamed: 0,a_quitte_l_entreprise,nombre_participation_pee,nb_formations_suivies,nombre_employee_sous_responsabilite,code_sondage,distance_domicile_travail,niveau_education,domaine_etude,ayant_enfants,frequence_deplacement,annees_depuis_la_derniere_promotion,annes_sous_responsable_actuel
0,Oui,0,0,1,1,1,2,Infra & Cloud,Y,Occasionnel,0,5
1,Non,1,3,1,2,8,1,Infra & Cloud,Y,Frequent,1,7
2,Oui,0,3,1,4,2,2,Autre,Y,Occasionnel,0,0


## Définition des différentes features

#### Fichier SIRH
***informations sur la fonction qu’occupe un employé, son âge, salaire, ancienneté***

| Feature                        | Description                                                         |
|--------------------------------|---------------------------------------------------------------------|
| id_employee                     | Identifiant unique de l'employé                                     |
| age                             | Âge de l'employé                                                    |
| genre                           | Sexe de l'employé (F pour femme, M pour homme)                     |
| revenu_mensuel                  | Salaire mensuel de l'employé                                        |
| statut_marital                  | Statut marital de l'employé                                         |
| departement                     | Département ou service auquel appartient l'employé                  |
| poste                           | Poste occupé par l'employé dans l'entreprise                        |
| nombre_experiences_precedentes  | Nombre d'années d'expérience professionnelle avant l'entreprise    |
| nombre_heures_travailless       | Nombre d'heures travaillées par l'employé                           |
| annee_experience_totale         | Nombre total d'années d'expérience professionnelle                  |
| annees_dans_l_entreprise        | Durée d'ancienneté de l'employé dans l'entreprise                  |
| annees_dans_le_poste_actuel     | Durée pendant laquelle l'employé occupe son poste actuel            |


#### Ficier SI
***spécifiquement pour les évaluations annuelles de performance***

| Feature                                 | Description                                                         |
|----------------------------------------|---------------------------------------------------------------------|
| satisfaction_employee_environnement    | Niveau de satisfaction de l'employé vis-à-vis de l'environnement de travail |
| note_evaluation_precedente              | Note obtenue lors de l'évaluation annuelle précédente               |
| niveau_hierarchique_poste               | Niveau hiérarchique du poste occupé par l'employé                  |
| satisfaction_employee_nature_travail   | Satisfaction de l'employé concernant la nature de son travail       |
| satisfaction_employee_equipe            | Satisfaction de l'employé vis-à-vis de son équipe                  |
| satisfaction_employee_equilibre_pro_perso | Satisfaction de l'employé concernant l'équilibre vie professionnelle / vie personnelle |
| eval_number                             | Numéro ou identifiant de l'évaluation                               |
| note_evaluation_actuelle                | Note obtenue lors de l'évaluation annuelle actuelle                 |
| heure_supplementaires                   | Nombre d'heures supplémentaires effectuées                          |
| augementation_salaire_precedente        | Montant ou taux d'augmentation de salaire lors de la dernière évaluation |


### Fichier sondage

***Utiliser pour mettre en place des actions pour le bien-être des employés***

| Feature                               | Description                                                         |
|---------------------------------------|---------------------------------------------------------------------|
| a_quitte_l_entreprise                 | Indique si l'employé a quitté l'entreprise (Oui/Non)               |
| nombre_participation_pee              | Nombre de participations à un plan d'épargne entreprise (PEE)       |
| nb_formations_suivies                 | Nombre de formations suivies par l'employé                          |
| nombre_employee_sous_responsabilite   | Nombre d'employés dont l'employé est responsable                   |
| code_sondage                           | Identifiant du sondage                                             |
| distance_domicile_travail             | Distance entre le domicile et le lieu de travail (en km)            |
| niveau_education                      | Niveau d'éducation de l'employé                                    |
| domaine_etude                          | Domaine d'études de l'employé                                      |
| ayant_enfants                          | Indique si l'employé a des enfants (Oui/Non)                        |
| frequence_deplacement                 | Fréquence des déplacements professionnels de l'employé             |
| annees_depuis_la_derniere_promotion   | Nombre d'années écoulées depuis la dernière promotion              |
| annees_sous_responsable_actuel        | Nombre d'années durant lesquelles l'employé a été responsable actuellement |


## Analyse exploratoire

- Dans le fichier SIRH, chaque observation représente les informations de base sur l'employé
- Dans le fichier SI, chaque observation représente un ensemble de métrique sur un employé du fichier SIRH
- Dans le fichier SONDAGE, chaque observation représente, l'avis d'un employé en général dans son cadre professionel

In [37]:
functions.count_row_col(sirh_df, "sirh_df")
functions.count_row_col(eval_df, "eval_df")
functions.count_row_col(survey_df, "survey_df")

Pour sirh_df on a 1470 lignes et 12 colonnes
Pour eval_df on a 1470 lignes et 10 colonnes
Pour survey_df on a 1470 lignes et 12 colonnes


In [31]:
survey_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   a_quitte_l_entreprise                1470 non-null   object
 1   nombre_participation_pee             1470 non-null   int64 
 2   nb_formations_suivies                1470 non-null   int64 
 3   nombre_employee_sous_responsabilite  1470 non-null   int64 
 4   code_sondage                         1470 non-null   int64 
 5   distance_domicile_travail            1470 non-null   int64 
 6   niveau_education                     1470 non-null   int64 
 7   domaine_etude                        1470 non-null   object
 8   ayant_enfants                        1470 non-null   object
 9   frequence_deplacement                1470 non-null   object
 10  annees_depuis_la_derniere_promotion  1470 non-null   int64 
 11  annes_sous_responsable_actuel        1470 n

#### Trouver les valeurs manquantes et leur nombre

In [33]:
print("SIRH")
for column in sirh_df.columns:
    print(f"{column}: {functions.count_na(sirh_df, column)} NaN")

print("\nEVAL")
for column in eval_df.columns:
    print(f"{column}: {functions.count_na(eval_df, column)} NaN")

print("\nSURVEY")
for column in survey_df.columns:
    print(f"{column}: {functions.count_na(survey_df, column)} NaN")

SIRH
id_employee: 0 NaN
age: 0 NaN
genre: 0 NaN
revenu_mensuel: 0 NaN
statut_marital: 0 NaN
departement: 0 NaN
poste: 0 NaN
nombre_experiences_precedentes: 0 NaN
nombre_heures_travailless: 0 NaN
annee_experience_totale: 0 NaN
annees_dans_l_entreprise: 0 NaN
annees_dans_le_poste_actuel: 0 NaN

EVAL
satisfaction_employee_environnement: 0 NaN
note_evaluation_precedente: 0 NaN
niveau_hierarchique_poste: 0 NaN
satisfaction_employee_nature_travail: 0 NaN
satisfaction_employee_equipe: 0 NaN
satisfaction_employee_equilibre_pro_perso: 0 NaN
eval_number: 0 NaN
note_evaluation_actuelle: 0 NaN
heure_supplementaires: 0 NaN
augementation_salaire_precedente: 0 NaN

SURVEY
a_quitte_l_entreprise: 0 NaN
nombre_participation_pee: 0 NaN
nb_formations_suivies: 0 NaN
nombre_employee_sous_responsabilite: 0 NaN
code_sondage: 0 NaN
distance_domicile_travail: 0 NaN
niveau_education: 0 NaN
domaine_etude: 0 NaN
ayant_enfants: 0 NaN
frequence_deplacement: 0 NaN
annees_depuis_la_derniere_promotion: 0 NaN
annes_sous

`Nous n'avons donc pas le valeurs manquantes pour ces 3 datasets`

#### Trouver les valeurs dupliquées

Pour le dataset sirh les features pouvants être considérés comme non duplicables sont:
> id_employee

Pour le dataset eval les features pouvants être considérés comme non duplicables sont:
> combo de tous les champs

Pour le dataset survey les éléments pouvants être considérés comme non duplicables sont:
> combo de tous les champs

In [52]:
sirh_duplicated = sirh_df.duplicated(subset=["id_employee"]).sum()
eval_duplicated = eval_df.duplicated(subset=list(eval_df.columns)).sum()
survey_duplicated = survey_df.duplicated(subset=list(survey_df.columns)).sum()
print(sirh_duplicated)
print(eval_duplicated)
print(survey_duplicated)

0
0
0


***Nous n’avons donc `aucune ligne dupliquée` dans les trois datasets, ce qui est logique puisque chacun contient le même nombre d’observations et qu’`une observation correspond nécessairement à un employé unique`.***

#### Classer les colonnes par type

In [57]:
#SIRH
sirh_numeric_columns = [
    "age",
    "revenu_mensuel",
]
sirh_categorical_columns = [
    "genre",
    "statut_marital",
    "departement",
    "poste",
    "nombre_experiences_precedentes",
    "nombre_heures_travailless",
    "annees_dans_l_entreprise",
    "annees_dans_le_poste_actuel",
    "annee_experience_totale",
]

#EVAL
eval_categorical_columns = [
    "satisfaction_employee_environnement",
    "note_evaluation_precedente",
    "niveau_hierarchique_poste",
    "satisfaction_employee_nature_travail",
    "satisfaction_employee_equipe",
    "satisfaction_employee_equilibre_pro_perso",
    "note_evaluation_actuelle",
    "heure_supplementaires",
    "augementation_salaire_precedente"
]

#Survey
survey_categorical_columns = [
    "a_quitte_l_entreprise",
    "nombre_participation_pee",
    "nb_formations_suivies",
    "nombre_employee_sous_responsabilite",
    "distance_domicile_travail",
    "niveau_education",
    "domaine_etude",
    "ayant_enfants",
    "frequence_deplacement",
    "annees_depuis_la_derniere_promotion",
    "annes_sous_responsable_actuel"
]

Nombre d'occurence de chaque feature catégorielle

In [61]:
functions.category_descriptive_stat(sirh_df, sirh_categorical_columns)
print("---------------------------------------------------------------")
functions.category_descriptive_stat(eval_df, eval_categorical_columns)
print("---------------------------------------------------------------")
functions.category_descriptive_stat(survey_df, survey_categorical_columns)

Pour la colonne genre


Unnamed: 0_level_0,Effectif,Fréquence
genre,Unnamed: 1_level_1,Unnamed: 2_level_1
M,882,60.0
F,588,40.0


Pour la colonne statut_marital


Unnamed: 0_level_0,Effectif,Fréquence
statut_marital,Unnamed: 1_level_1,Unnamed: 2_level_1
Marié(e),673,45.782313
Célibataire,470,31.972789
Divorcé(e),327,22.244898


Pour la colonne departement


Unnamed: 0_level_0,Effectif,Fréquence
departement,Unnamed: 1_level_1,Unnamed: 2_level_1
Consulting,961,65.37415
Commercial,446,30.340136
Ressources Humaines,63,4.285714


Pour la colonne poste


Unnamed: 0_level_0,Effectif,Fréquence
poste,Unnamed: 1_level_1,Unnamed: 2_level_1
Cadre Commercial,326,22.176871
Assistant de Direction,292,19.863946
Consultant,259,17.619048
Tech Lead,145,9.863946
Manager,131,8.911565
Senior Manager,102,6.938776
Représentant Commercial,83,5.646259
Directeur Technique,80,5.442177
Ressources Humaines,52,3.537415


Pour la colonne nombre_experiences_precedentes


Unnamed: 0_level_0,Effectif,Fréquence
nombre_experiences_precedentes,Unnamed: 1_level_1,Unnamed: 2_level_1
1,521,35.442177
0,197,13.401361
3,159,10.816327
2,146,9.931973
4,139,9.455782
7,74,5.034014
6,70,4.761905
5,63,4.285714
9,52,3.537415
8,49,3.333333


Pour la colonne nombre_heures_travailless


Unnamed: 0_level_0,Effectif,Fréquence
nombre_heures_travailless,Unnamed: 1_level_1,Unnamed: 2_level_1
80,1470,100.0


Pour la colonne annees_dans_l_entreprise


Unnamed: 0_level_0,Effectif,Fréquence
annees_dans_l_entreprise,Unnamed: 1_level_1,Unnamed: 2_level_1
5,196,13.333333
1,171,11.632653
3,128,8.707483
2,127,8.639456
10,120,8.163265
4,110,7.482993
7,90,6.122449
9,82,5.578231
8,80,5.442177
6,76,5.170068


Pour la colonne annees_dans_le_poste_actuel


Unnamed: 0_level_0,Effectif,Fréquence
annees_dans_le_poste_actuel,Unnamed: 1_level_1,Unnamed: 2_level_1
2,372,25.306122
0,244,16.598639
7,222,15.102041
3,135,9.183673
4,104,7.07483
8,89,6.054422
9,67,4.557823
1,57,3.877551
6,37,2.517007
5,36,2.44898


Pour la colonne annee_experience_totale


Unnamed: 0_level_0,Effectif,Fréquence
annee_experience_totale,Unnamed: 1_level_1,Unnamed: 2_level_1
10,202,13.741497
6,125,8.503401
8,103,7.006803
9,96,6.530612
5,88,5.986395
7,81,5.510204
1,81,5.510204
4,63,4.285714
12,48,3.265306
3,42,2.857143


---------------------------------------------------------------
Pour la colonne satisfaction_employee_environnement


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_environnement,Unnamed: 1_level_1,Unnamed: 2_level_1
3,453,30.816327
4,446,30.340136
2,287,19.52381
1,284,19.319728


Pour la colonne note_evaluation_precedente


Unnamed: 0_level_0,Effectif,Fréquence
note_evaluation_precedente,Unnamed: 1_level_1,Unnamed: 2_level_1
3,868,59.047619
2,375,25.510204
4,144,9.795918
1,83,5.646259


Pour la colonne niveau_hierarchique_poste


Unnamed: 0_level_0,Effectif,Fréquence
niveau_hierarchique_poste,Unnamed: 1_level_1,Unnamed: 2_level_1
1,543,36.938776
2,534,36.326531
3,218,14.829932
4,106,7.210884
5,69,4.693878


Pour la colonne satisfaction_employee_nature_travail


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_nature_travail,Unnamed: 1_level_1,Unnamed: 2_level_1
4,459,31.22449
3,442,30.068027
1,289,19.659864
2,280,19.047619


Pour la colonne satisfaction_employee_equipe


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_equipe,Unnamed: 1_level_1,Unnamed: 2_level_1
3,459,31.22449
4,432,29.387755
2,303,20.612245
1,276,18.77551


Pour la colonne satisfaction_employee_equilibre_pro_perso


Unnamed: 0_level_0,Effectif,Fréquence
satisfaction_employee_equilibre_pro_perso,Unnamed: 1_level_1,Unnamed: 2_level_1
3,893,60.748299
2,344,23.401361
4,153,10.408163
1,80,5.442177


Pour la colonne note_evaluation_actuelle


Unnamed: 0_level_0,Effectif,Fréquence
note_evaluation_actuelle,Unnamed: 1_level_1,Unnamed: 2_level_1
3,1244,84.62585
4,226,15.37415


Pour la colonne heure_supplementaires


Unnamed: 0_level_0,Effectif,Fréquence
heure_supplementaires,Unnamed: 1_level_1,Unnamed: 2_level_1
Non,1054,71.70068
Oui,416,28.29932


Pour la colonne augementation_salaire_precedente


Unnamed: 0_level_0,Effectif,Fréquence
augementation_salaire_precedente,Unnamed: 1_level_1,Unnamed: 2_level_1
11 %,210,14.285714
13 %,209,14.217687
14 %,201,13.673469
12 %,198,13.469388
15 %,101,6.870748
18 %,89,6.054422
17 %,82,5.578231
16 %,78,5.306122
19 %,76,5.170068
22 %,56,3.809524


---------------------------------------------------------------
Pour la colonne a_quitte_l_entreprise


Unnamed: 0_level_0,Effectif,Fréquence
a_quitte_l_entreprise,Unnamed: 1_level_1,Unnamed: 2_level_1
Non,1233,83.877551
Oui,237,16.122449


Pour la colonne nombre_participation_pee


Unnamed: 0_level_0,Effectif,Fréquence
nombre_participation_pee,Unnamed: 1_level_1,Unnamed: 2_level_1
0,631,42.92517
1,596,40.544218
2,158,10.748299
3,85,5.782313


Pour la colonne nb_formations_suivies


Unnamed: 0_level_0,Effectif,Fréquence
nb_formations_suivies,Unnamed: 1_level_1,Unnamed: 2_level_1
2,547,37.210884
3,491,33.401361
4,123,8.367347
5,119,8.095238
1,71,4.829932
6,65,4.421769
0,54,3.673469


Pour la colonne nombre_employee_sous_responsabilite


Unnamed: 0_level_0,Effectif,Fréquence
nombre_employee_sous_responsabilite,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1470,100.0


Pour la colonne distance_domicile_travail


Unnamed: 0_level_0,Effectif,Fréquence
distance_domicile_travail,Unnamed: 1_level_1,Unnamed: 2_level_1
2,211,14.353741
1,208,14.14966
10,86,5.85034
9,85,5.782313
3,84,5.714286
7,84,5.714286
8,80,5.442177
5,65,4.421769
4,64,4.353741
6,59,4.013605


Pour la colonne niveau_education


Unnamed: 0_level_0,Effectif,Fréquence
niveau_education,Unnamed: 1_level_1,Unnamed: 2_level_1
3,572,38.911565
4,398,27.07483
2,282,19.183673
1,170,11.564626
5,48,3.265306


Pour la colonne domaine_etude


Unnamed: 0_level_0,Effectif,Fréquence
domaine_etude,Unnamed: 1_level_1,Unnamed: 2_level_1
Infra & Cloud,606,41.22449
Transformation Digitale,464,31.564626
Marketing,159,10.816327
Entrepreunariat,132,8.979592
Autre,82,5.578231
Ressources Humaines,27,1.836735


Pour la colonne ayant_enfants


Unnamed: 0_level_0,Effectif,Fréquence
ayant_enfants,Unnamed: 1_level_1,Unnamed: 2_level_1
Y,1470,100.0


Pour la colonne frequence_deplacement


Unnamed: 0_level_0,Effectif,Fréquence
frequence_deplacement,Unnamed: 1_level_1,Unnamed: 2_level_1
Occasionnel,1043,70.952381
Frequent,277,18.843537
Aucun,150,10.204082


Pour la colonne annees_depuis_la_derniere_promotion


Unnamed: 0_level_0,Effectif,Fréquence
annees_depuis_la_derniere_promotion,Unnamed: 1_level_1,Unnamed: 2_level_1
0,581,39.52381
1,357,24.285714
2,159,10.816327
7,76,5.170068
4,61,4.14966
3,52,3.537415
5,45,3.061224
6,32,2.176871
11,24,1.632653
8,18,1.22449


Pour la colonne annes_sous_responsable_actuel


Unnamed: 0_level_0,Effectif,Fréquence
annes_sous_responsable_actuel,Unnamed: 1_level_1,Unnamed: 2_level_1
2,344,23.401361
0,263,17.891156
7,216,14.693878
3,142,9.659864
8,107,7.278912
4,98,6.666667
1,76,5.170068
9,64,4.353741
5,31,2.108844
6,29,1.972789
