
# 📊 Projet : Explorer et comprendre les performances des employés (Python)

---

## 🎯 Introduction

Une entreprise souhaite analyser la répartition des performances des employés afin de comprendre les écarts et identifier les **outliers**.  
L'objectif est d'étudier les distributions des **scores de performance** et des **heures travaillées** pour détecter les facteurs d'amélioration RH.

**Dataset utilisé** : [HR Analytics Dataset (Kaggle)](https://www.kaggle.com/datasets/rhuebner/human-resources-data-set)
    

## 1. Importation des librairies

In [1]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
    

## 2. Importation et aperçu des données

In [3]:
data = pd.read_csv('HRDataset_v14.csv')
data.head()
    

FileNotFoundError: [Errno 2] No such file or directory: 'HRDataset_v14.csv'

### Aperçu global

In [None]:

data.info()
    

In [None]:

data.describe(include="all")
    

In [None]:

data.isnull().sum()
    

## 3. Statistiques descriptives

In [None]:

# Statistiques globales pour les variables numériques
stats_globales = data.describe().T

# Statistiques par catégorie de performance
stats_perf = data.groupby("PerformanceScore").agg({
    "EmpSatisfaction": ["mean", "median", "std"],
    "Absences": ["mean", "median", "std"],
    "PayRate": ["mean", "median", "std"]
})

stats_globales, stats_perf
    

## 4. Visualisations des distributions

### Distribution des scores de performance

In [None]:

plt.figure(figsize=(8, 5))
sns.countplot(x="PerformanceScore", data=data, palette="Set2")
plt.title("Répartition des scores de performance")
plt.show()
    

### Histogramme avec densité

In [None]:

plt.figure(figsize=(8, 5))
sns.histplot(data["PayRate"], bins=20, kde=True, color="skyblue")
plt.title("Distribution des salaires (PayRate)")
plt.show()
    

### Boxplots par catégorie de performance

In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(x="PerformanceScore", y="PayRate", data=data, palette="Set3")
plt.title("Distribution du salaire par score de performance")
plt.show()
    

### Heatmap des corrélations

In [None]:

plt.figure(figsize=(10, 6))
sns.heatmap(data.corr(numeric_only=True), annot=True, cmap="coolwarm", center=0)
plt.title("Matrice de corrélations")
plt.show()
    

## 5. Détection des outliers (méthode 1.5 * IQR)

In [None]:

def detect_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    return outliers

outliers_payrate = detect_outliers_iqr(data, "PayRate")
outliers_payrate[["PerformanceScore", "PayRate"]].head()
    

In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(x=data["PayRate"], color="lightcoral")
plt.title("Détection des outliers sur PayRate")
plt.show()
    


## 6. Conclusion et recommandations

- La majorité des employés ont un score de performance **"Fully Meets"**.  
- Les boxplots révèlent des **outliers** dans les salaires et potentiellement dans les absences.  
- Une analyse plus fine pourrait relier les heures travaillées, la satisfaction et la performance pour cibler les axes d'amélioration RH.  

👉 **Recommandation** : L’entreprise devrait surveiller les employés identifiés comme outliers (faible performance malgré de nombreuses heures, ou inversement).  
Ces cas méritent une analyse qualitative (formation, motivation, management).
    