# Analyse des données RH d’une entreprise

### Objectifs de la mission
#### 1. Charger les données avec Pandas

#### 2. Nettoyer les données (valeurs manquantes, doublons, formats)

#### 3. Analyser la structure de l’entreprise :

 - Nombre total d’employés

 - Répartition par département

 - Répartition H/F

 - Répartition par statut (CDI, CDD, Freelance, etc.)

#### 4. Statistiques descriptives :

 - Salaire moyen, médian, min, max

 - Âge moyen et ancienneté moyenne

 - Répartition des salaires par département

####  Chargement des librairies

In [66]:
import pandas as pd
import matplotlib.pyplot as mt
from datetime import datetime

#### 1. Charger les données avec Pandas

In [67]:
employees = pd.read_csv("/Users/Lenovo/Downloads/employes.csv")
employees.index = range(1, 101)
employees

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02
2,Françoise,59,M,IT,CDI,3161,2024-02-21
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29
...,...,...,...,...,...,...,...
96,Dominique,56,F,Marketing,CDI,2366,2016-07-01
97,Vincent,25,F,RH,CDD,5256,2023-09-28
98,Thibault,26,F,Finance,Stagiaire,5118,2021-04-14
99,Maggie,22,F,Marketing,CDI,3841,2023-01-17


In [68]:
De = list(employees["Date entrée"])
type(De[0])
#créer une colonne ancienneté

str

### Nous constatons que la colonne 'Date entrée' a toutes ses entrées en str( c'est à dire en chaîne de caractères), ce qui ne nous serait pas très utile pour ntre Analyse. Nous créerons donc une nouvelle colonne par la suite nommée "Ancienneté" qui contiendra l'âge de chaque employé.

#### 2. Nettoyer les données (valeurs manquantes, doublons, formats)

In [69]:
# ÉCRITURE DE LA FONCTION POUR LA COLONNE À AJOUTER
def transforming(Col) : 
    date_format = '%Y-%m-%d'
    new_Col = []
    for col in Col : 
        new_Col.append(datetime.strptime(col, date_format))
    return new_Col

In [70]:
#liste à utiliser
Date_entrée = transforming(employees['Date entrée'])
employees['Date entrée'] = Date_entrée

In [71]:
employees

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02
2,Françoise,59,M,IT,CDI,3161,2024-02-21
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29
...,...,...,...,...,...,...,...
96,Dominique,56,F,Marketing,CDI,2366,2016-07-01
97,Vincent,25,F,RH,CDD,5256,2023-09-28
98,Thibault,26,F,Finance,Stagiaire,5118,2021-04-14
99,Maggie,22,F,Marketing,CDI,3841,2023-01-17


#### Nous procédons maintenant à la créeation de la colonne "Ancienneté"

In [72]:
Date_act = datetime.now()
employees["Ancienneté (en jours)"] = [(Date_act - Date_en).days for Date_en in employees["Date entrée"]]
employees

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02,3598
2,Françoise,59,M,IT,CDI,3161,2024-02-21,504
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26,2052
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17,570
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29,3358
...,...,...,...,...,...,...,...,...
96,Dominique,56,F,Marketing,CDI,2366,2016-07-01,3295
97,Vincent,25,F,RH,CDD,5256,2023-09-28,650
98,Thibault,26,F,Finance,Stagiaire,5118,2021-04-14,1547
99,Maggie,22,F,Marketing,CDI,3841,2023-01-17,904


In [73]:
employees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 1 to 100
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Nom                    100 non-null    object        
 1   Âge                    100 non-null    int64         
 2   Sexe                   100 non-null    object        
 3   Département            100 non-null    object        
 4   Statut                 100 non-null    object        
 5   Salaire (€)            100 non-null    int64         
 6   Date entrée            100 non-null    datetime64[ns]
 7   Ancienneté (en jours)  100 non-null    int64         
dtypes: datetime64[ns](1), int64(3), object(4)
memory usage: 6.4+ KB


### Nous constatons que notre fichier ne contient aucune colonne sans valeur.

#### 3. Analyser la structure de l’entreprise :

 - Nombre total d’employés

In [74]:
taille = list(employees.shape)
effectif = taille[0]
print(f" Il y a excatement {effectif} employés.")

 Il y a excatement 100 employés.


- Répartition par département

In [75]:
# on veut connaître les noms des différents départements dans l'entreprise
départements = list(set(employees["Département"]))
count = 0
for dep in départements : 
    print(f" Département N°{count + 1} : {départements[count]}")
    count += 1

 Département N°1 : RH
 Département N°2 : Marketing
 Département N°3 : Finance
 Département N°4 : IT
 Département N°5 : Commercial


In [76]:
# Pour la répartition par département, nous créerons des sous data Frames en utilisant les différents noms
employees_finance = employees[employees.Département == "Finance"]
employees_Rh = employees[employees.Département == "RH"]
employees_Com = employees[employees.Département == "Commercial"]
employees_marketing = employees[employees.Département == "Marketing"]
employees_IT = employees[employees.Département == "IT"]

In [77]:
#Département Finance
employees_finance

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
6,Marguerite,40,M,Finance,Stagiaire,4896,2018-03-05,2683
9,Frédérique,58,M,Finance,Stagiaire,3106,2025-04-09,91
13,Philippe,57,M,Finance,Freelance,4267,2022-07-23,1082
20,William,44,F,Finance,Stagiaire,3014,2018-11-15,2428
26,Adélaïde,48,M,Finance,Stagiaire,1949,2017-06-07,2954
30,Alfred,45,F,Finance,Freelance,1977,2018-07-31,2535
33,Geneviève,46,M,Finance,CDD,4586,2017-01-12,3100
35,Élodie,55,M,Finance,CDD,3610,2022-11-02,980
37,Émilie,27,F,Finance,Freelance,2489,2017-11-22,2786
44,Alix,43,M,Finance,CDD,5191,2022-11-27,955


In [78]:
#Département RH
employees_Rh

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
8,Julie,43,F,RH,CDI,4754,2023-10-31,617
14,Philippe,23,F,RH,CDI,4774,2023-01-07,914
17,Julien,24,M,RH,Freelance,2517,2023-04-21,810
19,Arnaude,41,F,RH,Freelance,5381,2023-06-22,748
21,Michel,52,M,RH,Stagiaire,4329,2021-02-04,1616
32,Amélie,34,F,RH,Freelance,4215,2018-05-30,2597
36,Diane,28,M,RH,Stagiaire,5270,2017-05-27,2965
42,Martin,60,M,RH,Stagiaire,3398,2016-11-25,3148
45,Guy,35,F,RH,CDD,2621,2020-11-14,1698
46,Pierre,22,F,RH,Freelance,2263,2019-12-08,2040


In [79]:
#Département Commercial
employees_Com

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26,2052
27,Diane,43,M,Commercial,CDD,5431,2017-07-19,2912
31,Vincent,54,M,Commercial,CDI,5651,2019-01-19,2363
38,Jean,57,M,Commercial,Freelance,5530,2020-01-25,1992
51,Christine,24,M,Commercial,Stagiaire,4857,2022-07-23,1082
60,Thérèse,24,M,Commercial,CDI,2180,2018-06-04,2592
61,Zacharie,30,F,Commercial,Stagiaire,3612,2016-07-20,3276
63,Anaïs,24,F,Commercial,CDI,1888,2022-01-17,1269
68,Brigitte,32,F,Commercial,CDI,2297,2020-09-02,1771
72,Marc,42,F,Commercial,Stagiaire,2473,2024-02-20,505


In [80]:
#Département Marketing
employees_marketing

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17,570
7,Laetitia,24,F,Marketing,Freelance,5004,2018-10-19,2455
12,Frédérique,33,F,Marketing,CDI,4616,2023-11-08,609
18,Anaïs,44,M,Marketing,CDD,2550,2022-06-25,1110
23,Andrée,41,M,Marketing,Stagiaire,4093,2021-05-31,1500
34,Antoinette,43,F,Marketing,Freelance,1867,2016-06-04,3322
40,Hugues,37,M,Marketing,CDD,2876,2020-02-22,1964
43,Bertrand,27,F,Marketing,CDI,5562,2018-01-24,2723
48,Victoire,29,F,Marketing,CDI,5861,2018-02-11,2705
54,Benoît,57,F,Marketing,Stagiaire,2628,2020-01-16,2001


In [81]:
#Département IT
employees_IT

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02,3598
2,Françoise,59,M,IT,CDI,3161,2024-02-21,504
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29,3358
10,Antoinette,36,F,IT,CDI,2415,2017-08-31,2869
11,Odette,60,F,IT,CDD,3591,2017-01-30,3082
15,Renée,42,F,IT,Freelance,2566,2021-01-05,1646
16,Lorraine,46,F,IT,CDD,3520,2024-10-23,259
22,Mathilde,41,F,IT,Freelance,4232,2025-05-16,54
24,Stéphane,56,F,IT,CDD,1935,2021-06-24,1476
25,Joseph,26,F,IT,Freelance,1957,2024-01-28,528


- Répartition H/F

In [82]:
employees_hommes = employees[employees.Sexe == "M"]
employees_femmes = employees[employees.Sexe == "F"]

In [83]:
# Les hommes
employees_hommes

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
2,Françoise,59,M,IT,CDI,3161,2024-02-21,504
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17,570
6,Marguerite,40,M,Finance,Stagiaire,4896,2018-03-05,2683
9,Frédérique,58,M,Finance,Stagiaire,3106,2025-04-09,91
13,Philippe,57,M,Finance,Freelance,4267,2022-07-23,1082
17,Julien,24,M,RH,Freelance,2517,2023-04-21,810
18,Anaïs,44,M,Marketing,CDD,2550,2022-06-25,1110
21,Michel,52,M,RH,Stagiaire,4329,2021-02-04,1616
23,Andrée,41,M,Marketing,Stagiaire,4093,2021-05-31,1500
26,Adélaïde,48,M,Finance,Stagiaire,1949,2017-06-07,2954


In [84]:
#Les femmes
employees_femmes

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02,3598
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26,2052
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29,3358
7,Laetitia,24,F,Marketing,Freelance,5004,2018-10-19,2455
8,Julie,43,F,RH,CDI,4754,2023-10-31,617
10,Antoinette,36,F,IT,CDI,2415,2017-08-31,2869
11,Odette,60,F,IT,CDD,3591,2017-01-30,3082
12,Frédérique,33,F,Marketing,CDI,4616,2023-11-08,609
14,Philippe,23,F,RH,CDI,4774,2023-01-07,914
15,Renée,42,F,IT,Freelance,2566,2021-01-05,1646


- Répartition par statut (CDI, CDD, Freelance, etc.)

In [85]:
# Voyons quels sont les différents statuts
statuts = list(set(employees.Statut))
counting = 0
for statut in statuts : 
    print(f"Statut N°{counting + 1} : {statuts[counting]}")
    counting += 1

Statut N°1 : CDD
Statut N°2 : CDI
Statut N°3 : Freelance
Statut N°4 : Stagiaire


In [86]:
#Nous avons ainsi 4 statuts dans l'entreprise
#Procédons maintenant à la répartition sous forme de différents tableaux
employees_Freelance = employees[employees.Statut == "Freelance"]
employees_Sta = employees[employees.Statut == "Stagiaire"]
employees_CDD = employees[employees.Statut == "CDD"]
employees_CDI = employees[employees.Statut == "CDI"]

In [87]:
#Freelance
employees_Freelance

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
7,Laetitia,24,F,Marketing,Freelance,5004,2018-10-19,2455
13,Philippe,57,M,Finance,Freelance,4267,2022-07-23,1082
15,Renée,42,F,IT,Freelance,2566,2021-01-05,1646
17,Julien,24,M,RH,Freelance,2517,2023-04-21,810
19,Arnaude,41,F,RH,Freelance,5381,2023-06-22,748
22,Mathilde,41,F,IT,Freelance,4232,2025-05-16,54
25,Joseph,26,F,IT,Freelance,1957,2024-01-28,528
30,Alfred,45,F,Finance,Freelance,1977,2018-07-31,2535
32,Amélie,34,F,RH,Freelance,4215,2018-05-30,2597
34,Antoinette,43,F,Marketing,Freelance,1867,2016-06-04,3322


In [88]:
#Stagiaire
employees_Sta

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
1,Tristan,24,F,IT,Stagiaire,3977,2015-09-02,3598
4,Marcelle,53,M,Marketing,Stagiaire,3918,2023-12-17,570
5,Andrée,59,F,IT,Stagiaire,2445,2016-04-29,3358
6,Marguerite,40,M,Finance,Stagiaire,4896,2018-03-05,2683
9,Frédérique,58,M,Finance,Stagiaire,3106,2025-04-09,91
20,William,44,F,Finance,Stagiaire,3014,2018-11-15,2428
21,Michel,52,M,RH,Stagiaire,4329,2021-02-04,1616
23,Andrée,41,M,Marketing,Stagiaire,4093,2021-05-31,1500
26,Adélaïde,48,M,Finance,Stagiaire,1949,2017-06-07,2954
36,Diane,28,M,RH,Stagiaire,5270,2017-05-27,2965


In [89]:
#CDD
employees_CDD

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
11,Odette,60,F,IT,CDD,3591,2017-01-30,3082
16,Lorraine,46,F,IT,CDD,3520,2024-10-23,259
18,Anaïs,44,M,Marketing,CDD,2550,2022-06-25,1110
24,Stéphane,56,F,IT,CDD,1935,2021-06-24,1476
27,Diane,43,M,Commercial,CDD,5431,2017-07-19,2912
28,Lorraine,48,M,IT,CDD,5621,2024-08-21,322
29,Alex,32,M,IT,CDD,2743,2021-02-10,1610
33,Geneviève,46,M,Finance,CDD,4586,2017-01-12,3100
35,Élodie,55,M,Finance,CDD,3610,2022-11-02,980
40,Hugues,37,M,Marketing,CDD,2876,2020-02-22,1964


In [90]:
#CDI
employees_CDI

Unnamed: 0,Nom,Âge,Sexe,Département,Statut,Salaire (€),Date entrée,Ancienneté (en jours)
2,Françoise,59,M,IT,CDI,3161,2024-02-21,504
3,Margaud,27,F,Commercial,CDI,3601,2019-11-26,2052
8,Julie,43,F,RH,CDI,4754,2023-10-31,617
10,Antoinette,36,F,IT,CDI,2415,2017-08-31,2869
12,Frédérique,33,F,Marketing,CDI,4616,2023-11-08,609
14,Philippe,23,F,RH,CDI,4774,2023-01-07,914
31,Vincent,54,M,Commercial,CDI,5651,2019-01-19,2363
43,Bertrand,27,F,Marketing,CDI,5562,2018-01-24,2723
48,Victoire,29,F,Marketing,CDI,5861,2018-02-11,2705
58,Rémy,49,F,RH,CDI,2496,2016-04-28,3359


#### 4. Statistiques descriptives :

 - Salaire moyen, médian, min, max

In [91]:
salaires_df = employees[['Nom', 'Salaire (€)']]
salaires_df

Unnamed: 0,Nom,Salaire (€)
1,Tristan,3977
2,Françoise,3161
3,Margaud,3601
4,Marcelle,3918
5,Andrée,2445
...,...,...
96,Dominique,2366
97,Vincent,5256
98,Thibault,5118
99,Maggie,3841


In [92]:
salaires_df.describe() # ce tableau contient toutes les informations demandées.

Unnamed: 0,Salaire (€)
count,100.0
mean,3855.68
std,1284.486942
min,1802.0
25%,2607.25
50%,3912.0
75%,5013.5
max,5865.0


- Âge moyen et ancienneté moyenne

In [93]:
age = list(employees['Âge'])
ancienneté = list(employees['Ancienneté (en jours)'])

In [94]:
#Âge moyen
print(f"L'âge moyen est de {round(sum(age)/len(age), 2)} ans")

L'âge moyen est de 39.63 ans


In [95]:
print(f"L'ancienneté moyenne est de {round(sum(ancienneté)/len(ancienneté), 2)} jours")

L'ancienneté moyenne est de 1902.36 jours


- Répartition des salaires par département

In [96]:
#Département Finance
pd.DataFrame(employees_finance['Salaire (€)'])

Unnamed: 0,Salaire (€)
6,4896
9,3106
13,4267
20,3014
26,1949
30,1977
33,4586
35,3610
37,2489
44,5191


In [97]:
#Département IT
pd.DataFrame(employees_IT['Salaire (€)'])

Unnamed: 0,Salaire (€)
1,3977
2,3161
5,2445
10,2415
11,3591
15,2566
16,3520
22,4232
24,1935
25,1957


In [98]:
#Département Commercial
pd.DataFrame(employees_Com['Salaire (€)'])

Unnamed: 0,Salaire (€)
3,3601
27,5431
31,5651
38,5530
51,4857
60,2180
61,3612
63,1888
68,2297
72,2473


In [99]:
#département RH
pd.DataFrame(employees_Rh['Salaire (€)'])

Unnamed: 0,Salaire (€)
8,4754
14,4774
17,2517
19,5381
21,4329
32,4215
36,5270
42,3398
45,2621
46,2263


In [100]:
#département Marketing
pd.DataFrame(employees_marketing['Salaire (€)'])

Unnamed: 0,Salaire (€)
4,3918
7,5004
12,4616
18,2550
23,4093
34,1867
40,2876
43,5562
48,5861
54,2628


### Nous constatons que le département avec le salaire le plus élevé est le département marketing, un salaire de 5865 €
### Une analyse bien plus profonde peut être faite, mais nous nous arrêterons à cette analyse purement descriptive.