---
## 1. Importation des librairies

In [1]:
# Data manipulation
import pandas as pd
import numpy as np
from pathlib import Path

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Configuration
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)
pd.set_option("display.float_format", "{:.2f}".format)

# Style des graphiques
plt.style.use("seaborn-v0_8-whitegrid")
sns.set_palette("husl")

# Ignorer les warnings
import warnings

warnings.filterwarnings("ignore")

print("‚úÖ Librairies import√©es avec succ√®s !")

‚úÖ Librairies import√©es avec succ√®s !


---
## 2. Chargement des donn√©es

Chargeons les 3 fichiers CSV et examinons leur structure.

In [2]:
# Chargement des fichiers
df_sirh = pd.read_csv("data/extrait_sirh.csv")
df_eval = pd.read_csv("data/extrait_eval.csv")
df_sondage = pd.read_csv("data/extrait_sondage.csv")

print(f"üìä Fichier SIRH : {df_sirh.shape[0]} lignes, {df_sirh.shape[1]} colonnes")
print(
    f"üìä Fichier √âvaluations : {df_eval.shape[0]} lignes, {df_eval.shape[1]} colonnes"
)
print(
    f"üìä Fichier Sondage : {df_sondage.shape[0]} lignes, {df_sondage.shape[1]} colonnes"
)

üìä Fichier SIRH : 1470 lignes, 12 colonnes
üìä Fichier √âvaluations : 1470 lignes, 10 colonnes
üìä Fichier Sondage : 1470 lignes, 12 colonnes


---
## 3. Exploration initiale de chaque fichier

Avant de fusionner, comprenons le contenu et la structure de chaque fichier.

### 3.1 Fichier SIRH (extrait_sirh.csv)

In [3]:
# Aper√ßu des premi√®res lignes
print("üîπ Aper√ßu des donn√©es SIRH :")
df_sirh.head(10)

üîπ Aper√ßu des donn√©es SIRH :


Unnamed: 0,id_employee,age,genre,revenu_mensuel,statut_marital,departement,poste,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel
0,1,41,F,5993,C√©libataire,Commercial,Cadre Commercial,8,80,8,6,4
1,2,49,M,5130,Mari√©(e),Consulting,Assistant de Direction,1,80,10,10,7
2,4,37,M,2090,C√©libataire,Consulting,Consultant,6,80,7,0,0
3,5,33,F,2909,Mari√©(e),Consulting,Assistant de Direction,1,80,8,8,7
4,7,27,M,3468,Mari√©(e),Consulting,Consultant,9,80,6,2,2
5,8,32,M,3068,C√©libataire,Consulting,Consultant,0,80,8,7,7
6,10,59,F,2670,Mari√©(e),Consulting,Consultant,4,80,12,1,0
7,11,30,M,2693,Divorc√©(e),Consulting,Consultant,1,80,1,1,0
8,12,38,M,9526,C√©libataire,Consulting,Tech Lead,0,80,10,9,7
9,13,36,M,5237,Mari√©(e),Consulting,Manager,6,80,17,7,7


In [4]:
# Informations sur les colonnes
print("üîπ Structure du fichier SIRH :")
df_sirh.info()

üîπ Structure du fichier SIRH :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   id_employee                     1470 non-null   int64 
 1   age                             1470 non-null   int64 
 2   genre                           1470 non-null   object
 3   revenu_mensuel                  1470 non-null   int64 
 4   statut_marital                  1470 non-null   object
 5   departement                     1470 non-null   object
 6   poste                           1470 non-null   object
 7   nombre_experiences_precedentes  1470 non-null   int64 
 8   nombre_heures_travailless       1470 non-null   int64 
 9   annee_experience_totale         1470 non-null   int64 
 10  annees_dans_l_entreprise        1470 non-null   int64 
 11  annees_dans_le_poste_actuel     1470 non-null   int64 
dtypes: int64(8), ob

In [5]:
# Statistiques descriptives
print("üîπ Statistiques descriptives SIRH (variables num√©riques) :")
df_sirh.describe()

üîπ Statistiques descriptives SIRH (variables num√©riques) :


Unnamed: 0,id_employee,age,revenu_mensuel,nombre_experiences_precedentes,nombre_heures_travailless,annee_experience_totale,annees_dans_l_entreprise,annees_dans_le_poste_actuel
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,1024.87,36.92,6502.93,2.69,80.0,11.28,7.01,4.23
std,602.02,9.14,4707.96,2.5,0.0,7.78,6.13,3.62
min,1.0,18.0,1009.0,0.0,80.0,0.0,0.0,0.0
25%,491.25,30.0,2911.0,1.0,80.0,6.0,3.0,2.0
50%,1020.5,36.0,4919.0,2.0,80.0,10.0,5.0,3.0
75%,1555.75,43.0,8379.0,4.0,80.0,15.0,9.0,7.0
max,2068.0,60.0,19999.0,9.0,80.0,40.0,40.0,18.0


In [6]:
# Valeurs uniques des colonnes cat√©gorielles
print("üîπ Valeurs uniques des colonnes cat√©gorielles SIRH :")
for col in df_sirh.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_sirh[col].nunique()} valeurs uniques")
    print(df_sirh[col].value_counts())

üîπ Valeurs uniques des colonnes cat√©gorielles SIRH :

genre: 2 valeurs uniques
genre
M    882
F    588
Name: count, dtype: int64

statut_marital: 3 valeurs uniques
statut_marital
Mari√©(e)       673
C√©libataire    470
Divorc√©(e)     327
Name: count, dtype: int64

departement: 3 valeurs uniques
departement
Consulting             961
Commercial             446
Ressources Humaines     63
Name: count, dtype: int64

poste: 9 valeurs uniques
poste
Cadre Commercial           326
Assistant de Direction     292
Consultant                 259
Tech Lead                  145
Manager                    131
Senior Manager             102
Repr√©sentant Commercial     83
Directeur Technique         80
Ressources Humaines         52
Name: count, dtype: int64


### 3.2 Fichier √âvaluations (extrait_eval.csv)

In [7]:
# Aper√ßu des premi√®res lignes
print("üîπ Aper√ßu des donn√©es √âvaluations :")
df_eval.head(10)

üîπ Aper√ßu des donn√©es √âvaluations :


Unnamed: 0,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,eval_number,note_evaluation_actuelle,heure_supplementaires,augementation_salaire_precedente
0,2,3,2,4,1,1,E_1,3,Oui,11 %
1,3,2,2,2,4,3,E_2,4,Non,23 %
2,4,2,1,3,2,3,E_4,3,Oui,15 %
3,4,3,1,3,3,3,E_5,3,Oui,11 %
4,1,3,1,2,4,3,E_7,3,Non,12 %
5,4,3,1,4,3,2,E_8,3,Non,13 %
6,3,4,1,1,1,2,E_10,4,Oui,20 %
7,4,3,1,3,2,3,E_11,4,Non,22 %
8,4,2,3,3,2,3,E_12,4,Non,21 %
9,3,3,2,3,2,2,E_13,3,Non,13 %


In [8]:
# Informations sur les colonnes
print("üîπ Structure du fichier √âvaluations :")
df_eval.info()

üîπ Structure du fichier √âvaluations :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 10 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   satisfaction_employee_environnement        1470 non-null   int64 
 1   note_evaluation_precedente                 1470 non-null   int64 
 2   niveau_hierarchique_poste                  1470 non-null   int64 
 3   satisfaction_employee_nature_travail       1470 non-null   int64 
 4   satisfaction_employee_equipe               1470 non-null   int64 
 5   satisfaction_employee_equilibre_pro_perso  1470 non-null   int64 
 6   eval_number                                1470 non-null   object
 7   note_evaluation_actuelle                   1470 non-null   int64 
 8   heure_supplementaires                      1470 non-null   object
 9   augementation_salaire_precedente           1470 non-null   object


In [9]:
# Statistiques descriptives
print("üîπ Statistiques descriptives √âvaluations (variables num√©riques) :")
df_eval.describe()

üîπ Statistiques descriptives √âvaluations (variables num√©riques) :


Unnamed: 0,satisfaction_employee_environnement,note_evaluation_precedente,niveau_hierarchique_poste,satisfaction_employee_nature_travail,satisfaction_employee_equipe,satisfaction_employee_equilibre_pro_perso,note_evaluation_actuelle
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,2.72,2.73,2.06,2.73,2.71,2.76,3.15
std,1.09,0.71,1.11,1.1,1.08,0.71,0.36
min,1.0,1.0,1.0,1.0,1.0,1.0,3.0
25%,2.0,2.0,1.0,2.0,2.0,2.0,3.0
50%,3.0,3.0,2.0,3.0,3.0,3.0,3.0
75%,4.0,3.0,3.0,4.0,4.0,3.0,3.0
max,4.0,4.0,5.0,4.0,4.0,4.0,4.0


In [10]:
# Valeurs uniques des colonnes cat√©gorielles
print("üîπ Valeurs uniques des colonnes cat√©gorielles √âvaluations :")
for col in df_eval.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_eval[col].nunique()} valeurs uniques")
    print(df_eval[col].value_counts())

üîπ Valeurs uniques des colonnes cat√©gorielles √âvaluations :

eval_number: 1470 valeurs uniques
eval_number
E_1       1
E_2       1
E_4       1
E_5       1
E_7       1
         ..
E_2061    1
E_2062    1
E_2064    1
E_2065    1
E_2068    1
Name: count, Length: 1470, dtype: int64

heure_supplementaires: 2 valeurs uniques
heure_supplementaires
Non    1054
Oui     416
Name: count, dtype: int64

augementation_salaire_precedente: 15 valeurs uniques
augementation_salaire_precedente
11 %    210
13 %    209
14 %    201
12 %    198
15 %    101
18 %     89
17 %     82
16 %     78
19 %     76
22 %     56
20 %     55
21 %     48
23 %     28
24 %     21
25 %     18
Name: count, dtype: int64


### 3.3 Fichier Sondage (extrait_sondage.csv)

In [11]:
# Aper√ßu des premi√®res lignes
print("üîπ Aper√ßu des donn√©es Sondage :")
df_sondage.head(10)

üîπ Aper√ßu des donn√©es Sondage :


Unnamed: 0,a_quitte_l_entreprise,nombre_participation_pee,nb_formations_suivies,nombre_employee_sous_responsabilite,code_sondage,distance_domicile_travail,niveau_education,domaine_etude,ayant_enfants,frequence_deplacement,annees_depuis_la_derniere_promotion,annes_sous_responsable_actuel
0,Oui,0,0,1,1,1,2,Infra & Cloud,Y,Occasionnel,0,5
1,Non,1,3,1,2,8,1,Infra & Cloud,Y,Frequent,1,7
2,Oui,0,3,1,4,2,2,Autre,Y,Occasionnel,0,0
3,Non,0,3,1,5,3,4,Infra & Cloud,Y,Frequent,3,0
4,Non,1,3,1,7,2,1,Transformation Digitale,Y,Occasionnel,2,2
5,Non,0,2,1,8,2,2,Infra & Cloud,Y,Frequent,3,6
6,Non,3,3,1,10,3,3,Transformation Digitale,Y,Occasionnel,0,0
7,Non,1,2,1,11,24,1,Infra & Cloud,Y,Occasionnel,0,0
8,Non,0,2,1,12,23,3,Infra & Cloud,Y,Frequent,1,8
9,Non,2,3,1,13,27,3,Transformation Digitale,Y,Occasionnel,7,7


In [12]:
# Informations sur les colonnes
print("üîπ Structure du fichier Sondage :")
df_sondage.info()

üîπ Structure du fichier Sondage :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 12 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   a_quitte_l_entreprise                1470 non-null   object
 1   nombre_participation_pee             1470 non-null   int64 
 2   nb_formations_suivies                1470 non-null   int64 
 3   nombre_employee_sous_responsabilite  1470 non-null   int64 
 4   code_sondage                         1470 non-null   int64 
 5   distance_domicile_travail            1470 non-null   int64 
 6   niveau_education                     1470 non-null   int64 
 7   domaine_etude                        1470 non-null   object
 8   ayant_enfants                        1470 non-null   object
 9   frequence_deplacement                1470 non-null   object
 10  annees_depuis_la_derniere_promotion  1470 non-null   int64 
 11  annes_s

In [13]:
# Statistiques descriptives
print("üîπ Statistiques descriptives Sondage (variables num√©riques) :")
df_sondage.describe()

üîπ Statistiques descriptives Sondage (variables num√©riques) :


Unnamed: 0,nombre_participation_pee,nb_formations_suivies,nombre_employee_sous_responsabilite,code_sondage,distance_domicile_travail,niveau_education,annees_depuis_la_derniere_promotion,annes_sous_responsable_actuel
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,0.79,2.8,1.0,1024.87,9.19,2.91,2.19,4.12
std,0.85,1.29,0.0,602.02,8.11,1.02,3.22,3.57
min,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0
25%,0.0,2.0,1.0,491.25,2.0,2.0,0.0,2.0
50%,1.0,3.0,1.0,1020.5,7.0,3.0,1.0,3.0
75%,1.0,3.0,1.0,1555.75,14.0,4.0,3.0,7.0
max,3.0,6.0,1.0,2068.0,29.0,5.0,15.0,17.0


In [14]:
# Valeurs uniques des colonnes cat√©gorielles
print("üîπ Valeurs uniques des colonnes cat√©gorielles Sondage :")
for col in df_sondage.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_sondage[col].nunique()} valeurs uniques")
    print(df_sondage[col].value_counts())

üîπ Valeurs uniques des colonnes cat√©gorielles Sondage :

a_quitte_l_entreprise: 2 valeurs uniques
a_quitte_l_entreprise
Non    1233
Oui     237
Name: count, dtype: int64

domaine_etude: 6 valeurs uniques
domaine_etude
Infra & Cloud              606
Transformation Digitale    464
Marketing                  159
Entrepreunariat            132
Autre                       82
Ressources Humaines         27
Name: count, dtype: int64

ayant_enfants: 1 valeurs uniques
ayant_enfants
Y    1470
Name: count, dtype: int64

frequence_deplacement: 3 valeurs uniques
frequence_deplacement
Occasionnel    1043
Frequent        277
Aucun           150
Name: count, dtype: int64


---
## 4. Identification des cl√©s de jointure

Pour fusionner les 3 fichiers, nous devons identifier les colonnes qui permettent de faire le lien entre eux.

In [15]:
# Examinons les colonnes qui pourraient servir de cl√©s
print("üîë Colonnes SIRH :")
print(df_sirh.columns.tolist())
print(
    f"\nCl√© potentielle 'id_employee' : {df_sirh['id_employee'].nunique()} valeurs uniques sur {len(df_sirh)} lignes"
)

print("\n" + "=" * 60)
print("\nüîë Colonnes √âvaluations :")
print(df_eval.columns.tolist())
print(
    f"\nCl√© potentielle 'eval_number' : {df_eval['eval_number'].nunique()} valeurs uniques sur {len(df_eval)} lignes"
)

print("\n" + "=" * 60)
print("\nüîë Colonnes Sondage :")
print(df_sondage.columns.tolist())
print(
    f"\nCl√© potentielle 'code_sondage' : {df_sondage['code_sondage'].nunique()} valeurs uniques sur {len(df_sondage)} lignes"
)

üîë Colonnes SIRH :
['id_employee', 'age', 'genre', 'revenu_mensuel', 'statut_marital', 'departement', 'poste', 'nombre_experiences_precedentes', 'nombre_heures_travailless', 'annee_experience_totale', 'annees_dans_l_entreprise', 'annees_dans_le_poste_actuel']

Cl√© potentielle 'id_employee' : 1470 valeurs uniques sur 1470 lignes


üîë Colonnes √âvaluations :
['satisfaction_employee_environnement', 'note_evaluation_precedente', 'niveau_hierarchique_poste', 'satisfaction_employee_nature_travail', 'satisfaction_employee_equipe', 'satisfaction_employee_equilibre_pro_perso', 'eval_number', 'note_evaluation_actuelle', 'heure_supplementaires', 'augementation_salaire_precedente']

Cl√© potentielle 'eval_number' : 1470 valeurs uniques sur 1470 lignes


üîë Colonnes Sondage :
['a_quitte_l_entreprise', 'nombre_participation_pee', 'nb_formations_suivies', 'nombre_employee_sous_responsabilite', 'code_sondage', 'distance_domicile_travail', 'niveau_education', 'domaine_etude', 'ayant_enfants', 'f

In [16]:
# Analysons le format des cl√©s pour comprendre comment les relier
print("üîç Exemples de cl√©s :")
print(f"\nSIRH - id_employee (premiers) : {df_sirh['id_employee'].head(10).tolist()}")
print(f"\nEval - eval_number (premiers) : {df_eval['eval_number'].head(10).tolist()}")
print(
    f"\nSondage - code_sondage (premiers) : {df_sondage['code_sondage'].head(10).tolist()}"
)

üîç Exemples de cl√©s :

SIRH - id_employee (premiers) : [1, 2, 4, 5, 7, 8, 10, 11, 12, 13]

Eval - eval_number (premiers) : ['E_1', 'E_2', 'E_4', 'E_5', 'E_7', 'E_8', 'E_10', 'E_11', 'E_12', 'E_13']

Sondage - code_sondage (premiers) : [1, 2, 4, 5, 7, 8, 10, 11, 12, 13]


In [17]:
# V√©rification du nombre de lignes dans chaque fichier
print("üìä Comparaison du nombre de lignes :")
print(f"  - SIRH : {len(df_sirh)} lignes")
print(f"  - √âvaluations : {len(df_eval)} lignes")
print(f"  - Sondage : {len(df_sondage)} lignes")

# Si tous les fichiers ont le m√™me nombre de lignes,
# ils correspondent probablement aux m√™mes employ√©s

üìä Comparaison du nombre de lignes :
  - SIRH : 1470 lignes
  - √âvaluations : 1470 lignes
  - Sondage : 1470 lignes
