
# üìä Projet : Explorer et comprendre les performances des employ√©s (Python)

---

## üéØ Introduction

Une entreprise souhaite analyser la r√©partition des performances des employ√©s afin de comprendre les √©carts et identifier les **outliers**.  
L'objectif est d'√©tudier les distributions des **scores de performance** et des **heures travaill√©es** pour d√©tecter les facteurs d'am√©lioration RH.

**Dataset utilis√©** : [HR Analytics Dataset (Kaggle)](https://www.kaggle.com/datasets/rhuebner/human-resources-data-set)
    

## 1. Importation des librairies

In [1]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")
    

## 2. Importation et aper√ßu des donn√©es

In [3]:
data = pd.read_csv('HRDataset_v14.csv')
data.head()
    

FileNotFoundError: [Errno 2] No such file or directory: 'HRDataset_v14.csv'

### Aper√ßu global

In [None]:

data.info()
    

In [None]:

data.describe(include="all")
    

In [None]:

data.isnull().sum()
    

## 3. Statistiques descriptives

In [None]:

# Statistiques globales pour les variables num√©riques
stats_globales = data.describe().T

# Statistiques par cat√©gorie de performance
stats_perf = data.groupby("PerformanceScore").agg({
    "EmpSatisfaction": ["mean", "median", "std"],
    "Absences": ["mean", "median", "std"],
    "PayRate": ["mean", "median", "std"]
})

stats_globales, stats_perf
    

## 4. Visualisations des distributions

### Distribution des scores de performance

In [None]:

plt.figure(figsize=(8, 5))
sns.countplot(x="PerformanceScore", data=data, palette="Set2")
plt.title("R√©partition des scores de performance")
plt.show()
    

### Histogramme avec densit√©

In [None]:

plt.figure(figsize=(8, 5))
sns.histplot(data["PayRate"], bins=20, kde=True, color="skyblue")
plt.title("Distribution des salaires (PayRate)")
plt.show()
    

### Boxplots par cat√©gorie de performance

In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(x="PerformanceScore", y="PayRate", data=data, palette="Set3")
plt.title("Distribution du salaire par score de performance")
plt.show()
    

### Heatmap des corr√©lations

In [None]:

plt.figure(figsize=(10, 6))
sns.heatmap(data.corr(numeric_only=True), annot=True, cmap="coolwarm", center=0)
plt.title("Matrice de corr√©lations")
plt.show()
    

## 5. D√©tection des outliers (m√©thode 1.5 * IQR)

In [None]:

def detect_outliers_iqr(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    return outliers

outliers_payrate = detect_outliers_iqr(data, "PayRate")
outliers_payrate[["PerformanceScore", "PayRate"]].head()
    

In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(x=data["PayRate"], color="lightcoral")
plt.title("D√©tection des outliers sur PayRate")
plt.show()
    


## 6. Conclusion et recommandations

- La majorit√© des employ√©s ont un score de performance **"Fully Meets"**.  
- Les boxplots r√©v√®lent des **outliers** dans les salaires et potentiellement dans les absences.  
- Une analyse plus fine pourrait relier les heures travaill√©es, la satisfaction et la performance pour cibler les axes d'am√©lioration RH.  

üëâ **Recommandation** : L‚Äôentreprise devrait surveiller les employ√©s identifi√©s comme outliers (faible performance malgr√© de nombreuses heures, ou inversement).  
Ces cas m√©ritent une analyse qualitative (formation, motivation, management).
    