# TechNova Partners - Analyse du Churn RH

**Projet :** Identification des causes de d√©mission et mod√©lisation pr√©dictive  
**Client :** TechNova Partners (ESN sp√©cialis√©e en transformation digitale)

---

## Contexte du Projet

TechNova Partners fait face √† un turnover √©lev√©. L'objectif est de :

1. **Analyser** les donn√©es RH pour identifier les diff√©rences entre employ√©s partis et rest√©s
2. **Construire** un mod√®le de classification pour pr√©dire les d√©missions
3. **Extraire** les causes potentielles via l'interpr√©tation du mod√®le (SHAP)

**Sources de donn√©es :**

- `data/extrait_sirh.csv` - Informations RH (√¢ge, salaire, poste, anciennet√©...)
- `data/extrait_eval.csv` - √âvaluations de performance
- `data/extrait_sondage.csv` - Sondage employ√©s + **variable cible**

---

## Structure du Notebook

**Partie 1 : Exploration des Donn√©es**

- Chargement et compr√©hension des fichiers
- Fusion et cr√©ation du dataset central
- Analyse exploratoire et visualisations

**Partie 2 : Feature Engineering**

- Pr√©paration des features (X)
- Encodage des variables cat√©gorielles
- Gestion des corr√©lations

**Partie 3 : Mod√©lisation Baseline**

- Mod√®le Dummy (r√©f√©rence)
- Mod√®le lin√©aire
- Mod√®le non-lin√©aire (arbre)

**Partie 4 : Gestion du D√©s√©quilibre**

- Stratification
- Class weights / Undersampling / Oversampling (SMOTE)
- Calibration de probabilit√©
- Validation crois√©e stratifi√©e

**Partie 5 : Optimisation et Interpretation**

- Fine-tuning des hyperparam√®tres
- Feature importance globale (SHAP, Permutation)
- Feature importance locale (SHAP Waterfall)

---


---

## 1. Importation des librairies


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from IPython.display import display

pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)
pd.set_option("display.float_format", "{:.2f}".format)

plt.style.use("seaborn-v0_8-whitegrid")
sns.set_palette("husl")

warnings.filterwarnings("ignore")

---

## 2. Chargement des donn√©es

Chargement des 3 fichiers CSV et examen de structure.


In [None]:
df_sirh = pd.read_csv("data/extrait_sirh.csv")
df_eval = pd.read_csv("data/extrait_eval.csv")
df_sondage = pd.read_csv("data/extrait_sondage.csv")

print(f"Fichier SIRH : {df_sirh.shape[0]} lignes, {df_sirh.shape[1]} colonnes")
print(f"Fichier √âvaluations : {df_eval.shape[0]} lignes, {df_eval.shape[1]} colonnes")
print(f"Fichier Sondage : {df_sondage.shape[0]} lignes, {df_sondage.shape[1]} colonnes")

---

## 3. Exploration initiale de chaque fichier

Avant de fusionner, comprenons le contenu et la structure de chaque fichier.


### 3.1 Fichier SIRH (extrait_sirh.csv)


#### Aper√ßu des premi√®res lignes

Visualisons les premi√®res lignes pour comprendre la structure et le contenu.


In [None]:
df_sirh.head()

#### Structure et types de donn√©es

Analysons les types de colonnes, la m√©moire utilis√©e et les valeurs non-nulles.


In [None]:
df_sirh.info()

#### Statistiques descriptives

Calculons les statistiques de base (moyenne, √©cart-type, min, max, quartiles) pour les variables num√©riques.


In [None]:
df_sirh.describe()

#### Analyse des variables cat√©gorielles

Examinons les valeurs uniques et leur fr√©quence pour chaque variable cat√©gorielle.


In [None]:
print("Valeurs uniques des colonnes cat√©gorielles SIRH :")
for col in df_sirh.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_sirh[col].nunique()} valeurs uniques")
    print(df_sirh[col].value_counts())

### 3.2 Fichier √âvaluations (extrait_eval.csv)


#### Aper√ßu des premi√®res lignes


In [None]:
df_eval.head()

#### Structure et types de donn√©es


In [None]:
df_eval.info()

#### Statistiques descriptives


In [None]:
print("Statistiques descriptives Evaluations (variables numeriques) :")
df_eval.describe()

#### Analyse des variables cat√©gorielles


In [None]:
# Valeurs uniques des colonnes cat√©gorielles
print("Valeurs uniques des colonnes cat√©gorielles Evaluations :")
for col in df_eval.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_eval[col].nunique()} valeurs uniques")
    print(df_eval[col].value_counts())

### 3.3 Fichier Sondage (extrait_sondage.csv)


#### Aper√ßu des premi√®res lignes


In [None]:
df_sondage.head()

#### Structure et types de donn√©es


In [None]:
df_sondage.info()

#### Statistiques descriptives


In [None]:
df_sondage.describe()

#### Analyse des variables cat√©gorielles


In [None]:
for col in df_sondage.select_dtypes(include="object").columns:
    print(f"\n{col}: {df_sondage[col].nunique()} valeurs uniques")
    print(df_sondage[col].value_counts())

---

## 4. Identification des cl√©s de jointure

Pour fusionner les 3 fichiers, nous devons identifier les colonnes qui permettent de faire le lien entre eux.


#### Analyse des colonnes identifiantes

Examinons les colonnes qui nous permettront de faire les jointures entre fichiers.


In [None]:
print("Colonnes SIRH :")
print(df_sirh.columns.tolist())
print(
    f"\nCl√© potentielle 'id_employee' : {df_sirh['id_employee'].nunique()} valeurs uniques sur {len(df_sirh)} lignes"
)

print("\n" + "-" * 60)
print("\nColonnes √âvaluations :")
print(df_eval.columns.tolist())
print(
    f"\nCl√© potentielle 'eval_number' : {df_eval['eval_number'].nunique()} valeurs uniques sur {len(df_eval)} lignes"
)

print("\n" + "-" * 60)
print("\nColonnes Sondage :")
print(df_sondage.columns.tolist())
print(
    f"\nCl√© potentielle 'code_sondage' : {df_sondage['code_sondage'].nunique()} valeurs uniques sur {len(df_sondage)} lignes"
)

In [None]:
# Analysons le format des cl√©s pour comprendre comment les relier
print("Exemples de cl√©s :")
print(f"\nSIRH - id_employee (premiers) : {df_sirh['id_employee'].head(10).tolist()}")
print(f"\nEval - eval_number (premiers) : {df_eval['eval_number'].head(10).tolist()}")
print(
    f"\nSondage - code_sondage (premiers) : {df_sondage['code_sondage'].head(10).tolist()}"
)

#### Analyse du format des cl√©s

Regardons de plus pr√®s comment sont structur√©es ces cl√©s.


In [None]:
print("Comparaison du nombre de lignes :")
print(f"  - SIRH : {len(df_sirh)} lignes")
print(f"  - √âvaluations : {len(df_eval)} lignes")
print(f"  - Sondage : {len(df_sondage)} lignes")

# Si tous les fichiers ont le m√™me nombre de lignes,
# ils correspondent probablement aux m√™mes employ√©s

#### V√©rification de la coh√©rence des donn√©es

Comparons le nombre de lignes pour d√©tecter d'√©ventuels probl√®mes.


In [None]:
print("Recherche de colonnes communes entre les fichiers :\n")

sirh_cols = set(df_sirh.columns)
eval_cols = set(df_eval.columns)
sondage_cols = set(df_sondage.columns)

print(f"SIRH ‚à© √âvaluations : {sirh_cols.intersection(eval_cols)}")
print(f"SIRH ‚à© Sondage : {sirh_cols.intersection(sondage_cols)}")
print(f"√âvaluations ‚à© Sondage : {eval_cols.intersection(sondage_cols)}")

print("\n" + "=" * 60)
if not sirh_cols.intersection(eval_cols) and not sirh_cols.intersection(sondage_cols):
    print("R√©sultat : Aucune colonne commune d√©tect√©e")
    print("Les 3 fichiers ont des colonnes strictement diff√©rentes")

#### Comparaison visuelle des cl√©s

Analysons la structure des cl√©s pour identifier leur correspondance.


In [None]:
print("Comparaison visuelle des premi√®res valeurs de chaque cl√© :\n")

comparison_df = pd.DataFrame(
    {
        "id_employee": df_sirh["id_employee"].head(10),
        "eval_number": df_eval["eval_number"].head(10),
        "code_sondage": df_sondage["code_sondage"].head(10),
    }
)
print(comparison_df)

print("\n" + "=" * 60)
print("Observation : Les 3 cl√©s suivent un pattern coh√©rent")
print("  - id_employee : valeurs num√©riques (1, 2, 3...)")
print("  - eval_number : format 'E_X' o√π X correspond √† id_employee")
print("  - code_sondage : m√™me valeur que id_employee")
print("\nConclusion : Les lignes sont align√©es par leur position (index)")

#### Conclusion : Strat√©gie de fusion

**Constat :**

- Aucune colonne commune entre les 3 fichiers
- M√™me nombre de lignes (1470) dans chaque fichier
- Les cl√©s suivent un pattern coh√©rent sugg√©rant un alignement par index
- Chaque fichier contient des informations compl√©mentaires :
  - SIRH ‚Üí infos administratives (anciennet√©, salaire, d√©partement...)
  - √âvaluations ‚Üí m√©triques de performance (notes, satisfaction...)
  - Sondage ‚Üí perception des employ√©s (stress, √©quilibre vie pro/perso...)

**Strat√©gie retenue :**

Concat√©nation horizontale par index avec `pd.concat([df_sirh, df_eval, df_sondage], axis=1)`

**Justification :**

- Les lignes sont d√©j√† align√©es (id_employee=1 ‚Üî eval_number="E_1" ‚Üî code_sondage=1)
- Pas besoin de jointure SQL complexe
- Les colonnes identifiantes seront conserv√©es pour tra√ßabilit√©


---

## 5. Fusion des donn√©es

Cr√©ation du DataFrame central en fusionnant les 3 sources par concat√©nation horizontale.


#### Cr√©ation du DataFrame central

Fusion des 3 fichiers par concat√©nation horizontale (axis=1).


In [None]:
df_merged = pd.concat([df_sirh, df_eval, df_sondage], axis=1)

print("DataFrame fusionn√© cr√©√© :")
print(f"  - {df_merged.shape[0]} lignes")
print(f"  - {df_merged.shape[1]} colonnes")
print(f"\nColonnes : {df_merged.columns.tolist()}")

#### Gestion des colonnes dupliqu√©es

V√©rification et suppression des √©ventuelles colonnes en double.


In [None]:
# V√©rification des colonnes dupliqu√©es
duplicated_cols = df_merged.columns[df_merged.columns.duplicated()].tolist()

if duplicated_cols:
    print(f"{len(duplicated_cols)} colonne(s) dupliqu√©e(s) d√©tect√©e(s) :")
    for col in duplicated_cols:
        print(f"  - {col}")

    # Suppression des doublons (on garde la premi√®re occurrence)
    df_merged = df_merged.loc[:, ~df_merged.columns.duplicated()]
    print("\nColonnes dupliqu√©es supprim√©es")
    print(f"Nouvelles dimensions : {df_merged.shape}")
else:
    print("Aucune colonne dupliqu√©e d√©tect√©e")

#### Aper√ßu du DataFrame central

Visualisation des premi√®res lignes du dataset fusionn√©.


In [None]:
df_merged.head()

#### Structure du DataFrame fusionn√©

Informations sur les types de donn√©es et la m√©moire.


In [None]:
df_merged.info()

#### Analyse de la variable cible

Distribution de `a_quitte_l_entreprise` - la variable √† pr√©dire.


In [None]:
print("Variable cible - 'a_quitte_l_entreprise' :")
print(f"Type : {df_merged['a_quitte_l_entreprise'].dtype}")
print("\nDistribution :")
print(df_merged["a_quitte_l_entreprise"].value_counts())
print("\nProportions (%) :")
print((df_merged["a_quitte_l_entreprise"].value_counts(normalize=True) * 100).round(2))

fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# Comptage
df_merged["a_quitte_l_entreprise"].value_counts().plot(
    kind="bar", ax=ax[0], color=["#2ecc71", "#e74c3c"]
)
ax[0].set_title("Distribution de la variable cible", fontsize=12, fontweight="bold")
ax[0].set_xlabel("A quitt√© l'entreprise")
ax[0].set_ylabel("Nombre d'employ√©s")
ax[0].set_xticklabels(["Non", "Oui"], rotation=0)

# Proportions
df_merged["a_quitte_l_entreprise"].value_counts().plot(
    kind="pie",
    ax=ax[1],
    autopct="%1.1f%%",
    colors=["#2ecc71", "#e74c3c"],
    labels=["Rest√©s", "Partis"],
)
ax[1].set_title("Proportions", fontsize=12, fontweight="bold")
ax[1].set_ylabel("")

plt.tight_layout()
plt.show()

print("OBSERVATION CRITIQUE : D√©s√©quilibre des classes !")
print("     ‚Üí √Ä g√©rer en mod√©lisation (stratification, class_weights, SMOTE)")


#### Synth√®se : Variable cible

- **84% rest√©s** vs **16% partis** ‚Üí Ratio 5:1
- D√©s√©quilibre √† g√©rer : stratification, class_weight, resampling, calibration
- Accuracy insuffisante comme m√©trique (84% sans rien faire)


---

## 6. Vue d'ensemble du dataset central

Avant de comparer les employ√©s partis vs rest√©s, v√©rifions la qualit√© et la structure des donn√©es :

- Valeurs manquantes
- Types de colonnes (num√©riques vs cat√©gorielles)
- Colonnes identifiantes √† exclure de l'analyse


#### Analyse des valeurs manquantes

V√©rifions s'il y a des donn√©es manquantes dans le dataset fusionn√©.


In [None]:
# Analyse des valeurs manquantes
print("Analyse des valeurs manquantes :\n")

missing_values = df_merged.isnull().sum()
missing_pct = (df_merged.isnull().sum() / len(df_merged) * 100).round(2)

missing_df = pd.DataFrame(
    {"Valeurs manquantes": missing_values, "Pourcentage (%)": missing_pct}
)

# Afficher seulement les colonnes avec des valeurs manquantes
missing_with_values = missing_df[missing_df["Valeurs manquantes"] > 0]

if len(missing_with_values) > 0:
    print(f"{len(missing_with_values)} colonne(s) avec des valeurs manquantes :")
    print(missing_with_values.sort_values("Pourcentage (%)", ascending=False))
else:
    print("Aucune valeur manquante dans le dataset !")
    print(f"   ‚Üí {df_merged.shape[0]} lignes √ó {df_merged.shape[1]} colonnes compl√®tes")

#### Classification des colonnes par type

Identifions les colonnes num√©riques et cat√©gorielles pour orienter l'analyse exploratoire.


In [None]:
print("Classification des colonnes par type :\n")

# Colonnes identifiantes (√† exclure de l'analyse)
id_cols = ["id_employee", "eval_number", "code_sondage"]

# Variable cible
target_col = "a_quitte_l_entreprise"

# Colonnes num√©riques (excluant les IDs)
numeric_cols = df_merged.select_dtypes(include=["int64", "float64"]).columns.tolist()
numeric_cols = [col for col in numeric_cols if col not in id_cols + [target_col]]

# Colonnes cat√©gorielles
categorical_cols = df_merged.select_dtypes(include=["object"]).columns.tolist()
categorical_cols = [
    col for col in categorical_cols if col not in id_cols + [target_col]
]

print(f"Colonnes identifiantes ({len(id_cols)}) - √Ä EXCLURE :")
print(f"   {id_cols}\n")

print("Variable cible :")
print(f"   {target_col}\n")

print(f"Colonnes num√©riques ({len(numeric_cols)}) :")
print(f"   {numeric_cols}\n")

print(f"Colonnes cat√©gorielles ({len(categorical_cols)}) :")
print(f"   {categorical_cols}")

print(f"Total features analysables : {len(numeric_cols) + len(categorical_cols)}")

#### R√©sum√© structur√© du dataset

Tableau r√©capitulatif avec le type, les valeurs uniques et des exemples pour chaque colonne.


In [None]:
summary_data = []

for col in df_merged.columns:
    if col in id_cols:
        category = "Identifiant"
    elif col == target_col:
        category = "Cible"
    elif col in numeric_cols:
        category = "Num√©rique"
    else:
        category = "Cat√©gorielle"

    summary_data.append(
        {
            "Colonne": col,
            "Cat√©gorie": category,
            "Type": str(df_merged[col].dtype),
            "Valeurs uniques": df_merged[col].nunique(),
            "Exemple": str(df_merged[col].iloc[0])[:30],
        }
    )

summary_df = pd.DataFrame(summary_data)
summary_df

---

## 7. Analyse exploratoire comparative : Partis vs Rest√©s

Objectif principal de cette section : **identifier les diff√©rences cl√©s** entre les employ√©s ayant quitt√© l'entreprise et ceux qui y sont rest√©s.

Nous utiliserons **Plotly** pour des graphiques interactifs.


#### Import de Plotly et pr√©paration des donn√©es

Configuration de Plotly et cr√©ation d'une colonne lisible pour la variable cible.


In [None]:
df_merged["statut"] = df_merged["a_quitte_l_entreprise"].map(
    {"Oui": "Parti", "Non": "Rest√©"}
)

colors = {"Rest√©": "#2ecc71", "Parti": "#e74c3c"}

print(f"   Distribution : {df_merged['statut'].value_counts().to_dict()}")

### 7.1 Analyse des variables num√©riques

Comparons les **moyennes** des variables num√©riques entre les employ√©s partis et rest√©s avec un graphique unique et lisible.


#### Observations : Variables num√©riques

**Principales diff√©rences observ√©es :**

| Variable                      | Diff√©rence | Observation                          |
| ----------------------------- | ---------- | ------------------------------------ |
| `nombre_participation_pee`    | -37.6%     | Participation PEE plus faible        |
| `annees_dans_le_poste_actuel` | -35.3%     | Anciennet√© dans le poste plus faible |
| `revenu_mensuel`              | -29.9%     | Salaire plus bas                     |
| `distance_domicile_travail`   | +19.3%     | Distance plus grande                 |

**Note :** Ce sont des observations descriptives. Le mod√®le confirmera l'importance r√©elle de chaque variable.


---

## Synth√®se Partie 1 : Analyse Exploratoire

### Donn√©es fusionn√©es

| M√©trique           | Valeur                       |
| ------------------ | ---------------------------- |
| Employ√©s           | 1470                         |
| Variables          | 34 colonnes                  |
| Sources            | SIRH + √âvaluations + Sondage |
| Valeurs manquantes | 0                            |

### Variable cible : D√©s√©quilibre critique

| Classe | Effectif | Proportion |
| ------ | -------- | ---------- |
| Rest√©s | 1233     | **84%**    |
| Partis | 237      | **16%**    |

‚Üí **Ratio 5:1** : n√©cessite stratification + gestion du d√©s√©quilibre (class_weight, SMOTE)

### Profil type de l'employ√© qui part

**Variables num√©riques discriminantes :**

| Variable                      | √âcart vs Rest√©s | Interpr√©tation RH            |
| ----------------------------- | --------------- | ---------------------------- |
| `nombre_participation_pee`    | **-37.6%**      | Moins engag√©s financi√®rement |
| `annees_dans_le_poste_actuel` | **-35.3%**      | Moins d'anciennet√© poste     |
| `revenu_mensuel`              | **-29.9%**      | Salaire plus bas             |
| `distance_domicile_travail`   | **+19.3%**      | Trajet plus long             |

**Variables cat√©gorielles √† risque :**

| Variable                | Modalit√© √† risque       | Taux de churn |
| ----------------------- | ----------------------- | ------------- |
| `poste`                 | Repr√©sentant Commercial | **39.8%**     |
| `heure_supplementaires` | Oui                     | **30.5%**     |
| `statut_marital`        | C√©libataire             | **25.5%**     |
| `frequence_deplacement` | Fr√©quent                | Taux √©lev√©    |

**Profils stables (faible churn) :**

- Directeur Technique (2.5%), Manager (6.9%)
- Pas d'heures sup (10.4%)
- Mari√©s, anciennet√© √©lev√©e

### Insights m√©tier pour les RH

1. **R√©mun√©ration** : Les employ√©s qui partent gagnent ~30% de moins ‚Üí Revoir la politique salariale
2. **Heures sup** : 30% de churn chez ceux qui en font ‚Üí Surveiller la charge de travail
3. **Mobilit√©** : Distance domicile-travail corr√©l√©e au d√©part ‚Üí T√©l√©travail comme levier
4. **Engagement** : Faible participation PEE = signal d'alerte ‚Üí Renforcer l'int√©ressement
5. **Postes √† risque** : Commerciaux = 40% de turnover ‚Üí Actions cibl√©es

### Variables retenues pour la mod√©lisation

**Num√©riques potentiellement pr√©dictives :**

- `revenu_mensuel`, `annees_dans_le_poste_actuel`, `nombre_participation_pee`
- `distance_domicile_travail`, `satisfaction_*` (4 variables)

**Cat√©gorielles potentiellement pr√©dictives :**

- `heure_supplementaires`, `poste`, `statut_marital`, `frequence_deplacement`

**‚ö†Ô∏è Attention** : Ces observations sont **descriptives**. Le mod√®le (puis SHAP) confirmera l'importance r√©elle de chaque variable.


---

# Partie 2 : Feature Engineering

Dans cette partie, nous allons :

1. **Nettoyer les donnees** : doublons, outliers, colonnes inutiles
2. **Analyser les correlations** : matrice de Pearson, suppression des variables trop correlees
3. **Encoder les variables categorielles** : OneHotEncoder pour les modeles
4. **Creer X et y** : preparation finale pour la modelisation


## 8. Nettoyage des donnees

### 8.1 Verification des doublons


In [None]:
print(f"  Nombre de lignes dupliquees : {df_merged.duplicated().sum()}")
print(f"\nDoublons sur 'id_employee' : {df_merged['id_employee'].duplicated().sum()}")

### 8.2 Detection des outliers (methode IQR)

**Qu'est-ce que la methode IQR (Interquartile Range) ?**

L'IQR est une methode statistique robuste pour detecter les valeurs aberrantes :

**Calcul des bornes :**

- Borne inferieure = Q1 - 1.5 x IQR
- Borne superieure = Q3 + 1.5 x IQR

Toute valeur en dehors de ces bornes est consideree comme un **outlier**.

**Pourquoi IQR plutot que Z-score ?**

- IQR est base sur les **quartiles** (pas la moyenne)
- Donc **insensible aux valeurs extremes** elles-memes
- Plus adapte aux distributions non-normales


In [None]:
# Detection des outliers avec la methode IQR (Interquartile Range)
def detect_outliers_iqr(df, columns):
    """Detecte les outliers pour chaque colonne numerique avec la methode IQR."""
    outliers_summary = []

    for col in columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1

        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
        n_outliers = len(outliers)
        pct_outliers = (n_outliers / len(df)) * 100

        if n_outliers > 0:
            outliers_summary.append(
                {
                    "Variable": col,
                    "Nb outliers": n_outliers,
                    "% outliers": round(pct_outliers, 1),
                    "Borne inf": round(lower_bound, 2),
                    "Borne sup": round(upper_bound, 2),
                    "Min reel": round(df[col].min(), 2),
                    "Max reel": round(df[col].max(), 2),
                }
            )

    return pd.DataFrame(outliers_summary)


# Exclure les colonnes ID et la cible pour l'analyse des outliers
cols_to_check = [
    col
    for col in numeric_cols
    if col not in ["id_employee", "eval_number", "code_sondage"]
]
outliers_df = detect_outliers_iqr(df_merged, cols_to_check)

print(f"Variables avec outliers : {len(outliers_df)} / {len(cols_to_check)}")
print()
if len(outliers_df) > 0:
    display(outliers_df.sort_values("% outliers", ascending=False))

**Decision sur les outliers :**

Les outliers detectes sont des valeurs coherentes dans un contexte RH :

- **Revenus eleves** : salaires de cadres superieurs (jusqu'a 19 999 EUR)
- **Anciennete elevee** : employes fideles (jusqu'a 40 ans)
- **Formations** : 6 formations maximum, valeur plausible

Ces valeurs ne sont pas des erreurs de saisie mais des cas legitimes. Nous les **conservons** car :

1. Les modeles tree-based (Random Forest, XGBoost) gerent bien les outliers
2. Ces profils extremes peuvent etre pertinents pour predire le churn


### 8.3 Identification des colonnes a supprimer

**Pourquoi supprimer certaines colonnes ?**

1. **Colonnes ID** (id_employee, eval_number, code_sondage)
   - Ce sont des identifiants uniques (1, 2, 3...)
   - Aucune valeur predictive : le modele ne peut pas apprendre que "employe 42" part plus souvent

2. **Colonnes a variance nulle**
   - Une colonne avec la **meme valeur pour tous** (ex: `nombre_heures_travailless = 80` pour tout le monde)
   - Aucune information discriminante : impossible de differencier partis vs restes

3. **Colonnes redondantes**
   - `a_quitte_l_entreprise` et `statut` contiennent la meme information que notre cible
   - Les garder = **data leakage** (le modele "triche")


In [None]:
print("Colonnes actuelles du dataset :")
print(df_merged.columns.tolist())

id_columns = ["id_employee", "eval_number", "code_sondage"]

target_column = "depart"

# Colonnes a variance nulle ou quasi-nulle
print("\n" + "-" * 60)
print("\nVerification des colonnes a faible variance :")
for col in df_merged.columns:
    unique_ratio = df_merged[col].nunique() / len(df_merged)
    if df_merged[col].nunique() <= 2 and col != target_column:
        print(
            f"  {col} : {df_merged[col].nunique()} valeurs uniques -> {df_merged[col].value_counts().to_dict()}"
        )

In [None]:
columns_to_drop = {
    # Colonnes ID (pas de valeur predictive)
    "id_employee": "Identifiant unique - pas de valeur predictive",
    "eval_number": "Identifiant evaluation - pas de valeur predictive",
    "code_sondage": "Identifiant sondage - pas de valeur predictive",
    # Colonnes a variance nulle (meme valeur pour tous)
    "nombre_heures_travailless": "Variance nulle - toujours 80",
    "nombre_employee_sous_responsabilite": "Variance nulle - toujours 1",
    "ayant_enfants": "Variance nulle - toujours Y",
    # Colonne redondante avec la cible
    "a_quitte_l_entreprise": 'Redondante avec "statut" (variable cible)',
    "statut": 'Redondante - nous utiliserons "depart" comme cible binaire',
}

print("Colonnes a supprimer :")
for col, reason in columns_to_drop.items():
    print(f"  - {col}: {reason}")

print(f"\nTotal : {len(columns_to_drop)} colonnes a supprimer")

In [None]:
# Creation du DataFrame nettoye
df_clean = df_merged.copy()

# Creation de la variable cible binaire 'depart' (0 = Reste, 1 = Churn)
df_clean["depart"] = (df_clean["statut"] == "Parti").astype(int)

# Suppression des colonnes identifiees
df_clean = df_clean.drop(columns=list(columns_to_drop.keys()))

print(f"Dataset initial : {df_merged.shape[0]} lignes x {df_merged.shape[1]} colonnes")
print(f"Dataset nettoye : {df_clean.shape[0]} lignes x {df_clean.shape[1]} colonnes")
print(f"\nColonnes restantes ({df_clean.shape[1]}) :")
print(df_clean.columns.tolist())

## 9. Analyse des correlations

**Pourquoi analyser les correlations ?**

1. **Identifier les relations lineaires** entre variables
2. **Detecter la multicolinearite** : si 2 variables sont tres correlees (|r| > 0.7), elles apportent la meme information ‚Üí on peut en supprimer une
3. **Comprendre les liens avec la cible** : quelles variables sont les plus correlees avec le depart ?

### 9.1 Matrice de correlation de Pearson

**Pearson** mesure les correlations **lineaires** :

- r = +1 : correlation positive parfaite
- r = 0 : pas de correlation lineaire
- r = -1 : correlation negative parfaite


In [None]:
# Calcul de la matrice de correlation Pearson
numeric_cols_clean = df_clean.select_dtypes(
    include=["int64", "float64"]
).columns.tolist()
print(f"Variables num√©riques pour la corr√©lation : {len(numeric_cols_clean)}")

corr_matrix = df_clean[numeric_cols_clean].corr()

# Visualisation avec matplotlib/seaborn
fig, ax = plt.subplots(figsize=(14, 12))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool), k=1)
sns.heatmap(
    corr_matrix,
    mask=mask,
    annot=True,
    fmt=".2f",
    cmap="RdBu_r",
    center=0,
    square=True,
    linewidths=0.5,
    ax=ax,
    annot_kws={"size": 7},
    cbar_kws={"shrink": 0.8},
)
plt.title("Matrice de Corr√©lation de Pearson", fontsize=14, fontweight="bold")
plt.tight_layout()
plt.show()

# Corr√©lations avec la cible
print("\nCORR√âLATIONS AVEC LA CIBLE 'depart' :")
print("-" * 50)
target_corr = corr_matrix["depart"].drop("depart").sort_values(key=abs, ascending=False)
for var, corr_value in target_corr.items():
    print(f"   {var:40} : {corr_value:+.3f}")

### 9.2 Identification des correlations fortes (|r| > 0.7)

**Pourquoi c'est un probleme ?**

Si deux variables sont **tres correlees** (ex: `revenu_mensuel` et `niveau_hierarchique_poste` a 0.95), elles apportent **la meme information** au modele.

**Consequences de la multicolinearite :**

- Modeles **lineaires instables** (coefficients aberrants)
- **Redondance** d'information
- Difficulte d'interpretation

**Solution :** Supprimer une des deux variables. On garde celle qui est :

- La plus **correlee avec la cible**, ou
- La plus **interpretable metier**


In [None]:
# Identification des paires de variables fortement correlees (|r| > 0.7)
threshold = 0.7
high_corr_pairs = []

# Parcourir le triangle inferieur de la matrice (sans la diagonale)
for i in range(len(corr_matrix.columns)):
    for j in range(i):
        if abs(corr_matrix.iloc[i, j]) > threshold:
            high_corr_pairs.append(
                {
                    "Variable 1": corr_matrix.columns[j],
                    "Variable 2": corr_matrix.columns[i],
                    "Correlation": round(corr_matrix.iloc[i, j], 3),
                }
            )

high_corr_df = pd.DataFrame(high_corr_pairs).sort_values("Correlation", ascending=False)
print(f"Paires de variables avec correlation |r| > {threshold} :")
print()
display(high_corr_df)

In [None]:
# Decision : quelles variables supprimer pour eviter la multicolinearite ?
# Critere : garder la variable la plus interpretable ou la plus correlee avec la cible

# Correlation de chaque variable avec la cible 'depart'
print("Correlation avec la cible 'depart' :")
target_corr = corr_matrix["depart"].drop("depart").abs().sort_values(ascending=False)
print(target_corr.head(10))

print("\n" + "-" * 60)
print("\nAnalyse des paires correlees :")
for _, row in high_corr_df.iterrows():
    var1, var2 = row["Variable 1"], row["Variable 2"]
    corr1 = abs(corr_matrix.loc["depart", var1])
    corr2 = abs(corr_matrix.loc["depart", var2])
    print(
        f"\n{var1} (|r| avec depart = {corr1:.3f}) vs {var2} (|r| avec depart = {corr2:.3f})"
    )

In [None]:
# Suppression des variables redondantes
# Logique : garder les variables les plus correlees avec la cible

cols_to_remove_corr = [
    "niveau_hierarchique_poste",  # Tres correle avec revenu_mensuel (0.95), moins interpretable
    "annees_dans_l_entreprise",  # Correle avec annees_dans_le_poste_actuel et annes_sous_responsable
]

print("Variables supprimees pour multicolinearite :")
for col in cols_to_remove_corr:
    print(f"  - {col}")

# Application de la suppression
df_clean = df_clean.drop(columns=cols_to_remove_corr)
print(
    f"\nDataset apres suppression : {df_clean.shape[0]} lignes x {df_clean.shape[1]} colonnes"
)

### 9.3 Justification du choix des variables supprim√©es

**Pourquoi supprimer `niveau_hierarchique_poste` et `annees_dans_l_entreprise` ?**

Ces deux variables semblent intuitivement importantes pour pr√©dire le d√©part. Cependant, leur suppression est justifi√©e par le **probl√®me de multicolin√©arit√©** :

**Corr√©lations d√©tect√©es (|r| > 0.7) :**

| Variable 1                 | Variable 2                      | Corr√©lation |
| -------------------------- | ------------------------------- | ----------- |
| `revenu_mensuel`           | `niveau_hierarchique_poste`     | **0.95**    |
| `annee_experience_totale`  | `niveau_hierarchique_poste`     | 0.78        |
| `annees_dans_l_entreprise` | `annees_dans_le_poste_actuel`   | 0.76        |
| `annees_dans_l_entreprise` | `annes_sous_responsable_actuel` | 0.77        |

**Le probl√®me** : Quand deux variables sont corr√©l√©es √† 95%, elles apportent **presque la m√™me information**. Le mod√®le ne sait pas laquelle utiliser ‚Üí coefficients instables et interpr√©tation SHAP biais√©e.

**Corr√©lations avec la cible `depart` :**

| Variable                        | Corr√©lation avec depart    |
| ------------------------------- | -------------------------- |
| `niveau_hierarchique_poste`     | 0.169                      |
| `annees_dans_le_poste_actuel`   | 0.161                      |
| `revenu_mensuel`                | 0.160                      |
| `annes_sous_responsable_actuel` | 0.156                      |
| `annees_dans_l_entreprise`      | **0.134** (la plus faible) |

**Crit√®res de s√©lection (logique m√©tier RH) :**

1. **`revenu_mensuel` gard√© vs `niveau_hierarchique_poste` supprim√©** :
   - Le salaire est **plus concret et actionnable** pour les RH qu'un "niveau 3 vs niveau 4"
   - Corr√©lations quasi √©gales avec la cible (0.160 vs 0.169)
   - Avec r=0.95, l'information de `niveau_hierarchique_poste` est **d√©j√† contenue** dans `revenu_mensuel`

2. **`annees_dans_le_poste_actuel` gard√© vs `annees_dans_l_entreprise` supprim√©** :
   - `annees_dans_le_poste_actuel` a une corr√©lation **plus forte** avec le d√©part (0.161 vs 0.134)
   - Plus pertinent m√©tier : c'est la **stagnation dans le poste** qui pousse au d√©part, pas l'anciennet√© globale

**Conclusion** : On ne perd pas d'information pr√©dictive, car les variables conserv√©es (`revenu_mensuel`, `annees_dans_le_poste_actuel`) captent l'essentiel de l'information des variables supprim√©es, tout en √©tant plus interpr√©tables.


### 9.4 Conversion de `augementation_salaire_precedente` en num√©rique

**Probl√®me identifi√© :** La colonne `augementation_salaire_precedente` contient des valeurs comme "11 %", "23 %" qui sont stock√©es comme **texte (object)**.

**Pourquoi convertir en num√©rique ?**

| Approche                      | Nb features          | Compr√©hension mod√®le             | Risque overfitting |
| ----------------------------- | -------------------- | -------------------------------- | ------------------ |
| **Cat√©gorielle (d√©faut)**     | 14 colonnes (OneHot) | ‚ùå Perd l'ordre et les distances | ‚ö†Ô∏è Plus √©lev√©      |
| **Num√©rique (best practice)** | 1 colonne            | ‚úÖ 11% < 12% < 23%               | ‚úÖ R√©duit          |

**Avantages de la conversion :**

- Le mod√®le comprend que **23% > 11%** (relation ordinale pr√©serv√©e)
- Le mod√®le comprend que **23% - 11% = 12 points** (distances pr√©serv√©es)
- **1 feature** au lieu de **14** ‚Üí moins de dimensions ‚Üí moins d'overfitting
- Coefficient plus **interpr√©table** : "+1% d'augmentation = X% de risque de d√©part"


In [None]:
# Conversion de "11 %" -> 11.0 (valeur numerique)
# On garde la valeur en pourcentage (11, 12, 23...) plutot qu'en decimal (0.11, 0.12...)

print("Avant conversion :")
print(f"  Type: {df_clean['augementation_salaire_precedente'].dtype}")
print(
    f"  Valeurs uniques: {df_clean['augementation_salaire_precedente'].unique()[:5]}..."
)

# Suppression du " %" et conversion en float
df_clean["augementation_salaire_precedente"] = (
    df_clean["augementation_salaire_precedente"]
    .str.replace(" %", "", regex=False)
    .astype(float)
)

print("\nApres conversion :")
print(f"  Type: {df_clean['augementation_salaire_precedente'].dtype}")
print(
    f"  Valeurs uniques: {sorted(df_clean['augementation_salaire_precedente'].unique())}"
)
print(f"  Min: {df_clean['augementation_salaire_precedente'].min()}%")
print(f"  Max: {df_clean['augementation_salaire_precedente'].max()}%")
print(f"  Moyenne: {df_clean['augementation_salaire_precedente'].mean():.1f}%")

print("\n‚úÖ La colonne sera maintenant traitee comme NUMERIQUE dans le Pipeline")
print("   ‚Üí StandardScaler au lieu de OneHotEncoder")
print("   ‚Üí 1 feature au lieu de 14")

## 10. Feature Engineering - Creation de nouvelles variables

**Pourquoi creer de nouvelles features ?**

"features supplementaires par rapport aux donnees d'origine"

**Objectif :** Creer des variables qui capturent des **informations metier** que les colonnes brutes ne montrent pas directement.

**Features creees (3) :**

| Feature                    | Formule                                        | Interpretation metier                            |
| -------------------------- | ---------------------------------------------- | ------------------------------------------------ |
| `ratio_salaire_experience` | revenu_mensuel / (experience + 1)              | Employe sous-paye par rapport a son experience ? |
| `stagnation_poste`         | annees_dans_le_poste - annees_depuis_promotion | Employe bloque sans evolution ?                  |
| `satisfaction_globale`     | moyenne des 4 satisfactions employee           | Score synthetique de bien-etre                   |

**Pourquoi seulement 3 ?**

- Eviter l'**overfitting** (trop de features pour peu de donnees)
- Chaque feature doit avoir un **sens metier RH**
- Le dataset est deja riche (50+ colonnes apres encodage)


In [None]:
# Feature 1 : Ratio salaire / experience
# Interpretation : Un ratio bas = potentiellement sous-paye
# Note: +1 pour eviter division par zero si experience = 0
df_clean["ratio_salaire_experience"] = df_clean["revenu_mensuel"] / (
    df_clean["annee_experience_totale"] + 1
)

# Feature 2 : Stagnation de carriere
# Interpretation : Valeur elevee = beaucoup d'annees dans le poste sans promotion recente
df_clean["stagnation_poste"] = (
    df_clean["annees_dans_le_poste_actuel"]
    - df_clean["annees_depuis_la_derniere_promotion"]
)

# Feature 3 : Satisfaction globale (moyenne des 4 satisfactions)
# Interpretation : Score synthetique qui resume le bien-etre au travail
cols_satisfaction = [
    "satisfaction_employee_environnement",
    "satisfaction_employee_nature_travail",
    "satisfaction_employee_equipe",
    "satisfaction_employee_equilibre_pro_perso",
]
df_clean["satisfaction_globale"] = df_clean[cols_satisfaction].mean(axis=1)

print("3 features creees avec succes !")
print(f"\nNouvelle shape du dataframe : {df_clean.shape}")
print("\nApercu des nouvelles features :")
df_clean[
    ["ratio_salaire_experience", "stagnation_poste", "satisfaction_globale"]
].describe()

### 10.2 Verification de la pertinence des features

Verifions la correlation de nos nouvelles features avec la variable cible `depart` :


In [None]:
# Correlation des nouvelles features avec depart (variable cible)
new_features = ["ratio_salaire_experience", "stagnation_poste", "satisfaction_globale"]

# Creer un dataframe temporaire avec les nouvelles features et la cible
temp_df = df_clean[new_features].copy()
temp_df["depart"] = df_clean[
    "depart"
].values  # La cible est encore dans df_clean a ce stade

correlations = temp_df.corr()["depart"].drop("depart")

print("Correlation avec depart (variable cible) :")
for feat, corr in correlations.items():
    signe = "üî¥" if corr > 0 else "üü¢"
    interpretation = "quitte plus" if corr > 0 else "reste plus"
    print(f"{signe} {feat}: {corr:.4f} ({interpretation})")

print("\nInterpretation :")
print("   - satisfaction_globale : plus les gens sont satisfaits, moins ils partent")
print(
    "   - stagnation_poste : correlation negative = ceux qui stagnent RESTENT (profils seniors stables)"
)
print(
    "   - ratio_salaire_experience : les mieux payes par rapport a leur experience partent plus"
)

## 11. Pipeline de preprocessing avec ColumnTransformer

### Pourquoi utiliser un Pipeline ?

| Avantage                     | Explication                                                               |
| ---------------------------- | ------------------------------------------------------------------------- |
| ‚úÖ **Evite le data leakage** | Le preprocessing est applique UNIQUEMENT sur le train a chaque fold de CV |
| ‚úÖ **Code propre**           | Tout le preprocessing est encapsule dans un seul objet                    |
| ‚úÖ **Reproductible**         | Facile a reutiliser et deployer                                           |
| ‚úÖ **Compatible CV**         | S'integre parfaitement avec `cross_val_score` et `GridSearchCV`           |

### 11.1 Identification des colonnes


In [None]:
# Separation features / cible AVANT le pipeline
y = df_clean["depart"]
X = df_clean.drop(columns=["depart"])

# Identification automatique des colonnes numeriques et categorielles
num_cols = X.select_dtypes(include=["int64", "float64"]).columns.tolist()
cat_cols = X.select_dtypes(include=["object"]).columns.tolist()

print("Colonnes identifiees pour le Pipeline :")
print(
    f"\n  Numeriques ({len(num_cols)}) : {num_cols[:5]}{'...' if len(num_cols) > 5 else ''}"
)
print(f"\n  Categorielles ({len(cat_cols)}) :")
for col in cat_cols:
    unique_vals = X[col].unique()
    print(f"    - {col} ({len(unique_vals)} modalites)")

### 11.2 Creation du ColumnTransformer

**ColumnTransformer** applique des transformations differentes selon le type de colonne :

| Type de colonne  | Transformation                | Parametre                  |
| ---------------- | ----------------------------- | -------------------------- |
| **Numerique**    | `StandardScaler()`            | Moyenne=0, Ecart-type=1    |
| **Categorielle** | `OneHotEncoder(drop='first')` | Evite colinearite parfaite |

**Parametre `remainder='passthrough'`** : conserve les colonnes non transformees (si elles existent).


In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Creation du ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), num_cols),  # Standardisation des numeriques
        (
            "cat",
            OneHotEncoder(drop="first", handle_unknown="ignore", sparse_output=False),
            cat_cols,
        ),  # Encodage des categorielles
    ],
    remainder="passthrough",  # Conserver les autres colonnes si elles existent
)

print("\nTransformations definies :")
print(f"  - 'num' : StandardScaler sur {len(num_cols)} colonnes numeriques")
print(f"  - 'cat' : OneHotEncoder sur {len(cat_cols)} colonnes categorielles")
print("\nLe preprocessor sera FIT sur X_train uniquement (pas de data leakage)")

### 11.3 Split Train/Test avec stratification

**‚ùì Question l√©gitime : Pourquoi faire un split si on fait de la cross-validation ?**

On fait les **DEUX** pour des raisons diff√©rentes :

| √âtape                                       | Objectif                                              | Utilisation                          |
| ------------------------------------------- | ----------------------------------------------------- | ------------------------------------ |
| **Split Train/Test (80/20)**                | Avoir un **jeu de test FINAL jamais touch√©**          | √âvaluation finale du meilleur mod√®le |
| **Cross-validation (sur Train uniquement)** | **Comparer les mod√®les** et tuner les hyperparam√®tres | S√©lection du meilleur mod√®le         |

**Pourquoi ?** Si on fait la CV sur **tout le dataset**, on n'a plus de donn√©es "fra√Æches" pour v√©rifier si le mod√®le g√©n√©ralise vraiment. Le test est le **juge final impartial**.

**Workflow preprocessing (√©viter data leakage) :**

| Etape | Action                                   | Explication                                    |
| ----- | ---------------------------------------- | ---------------------------------------------- |
| 1     | `X, y = separation features/cible`       | S√©parer les variables explicatives de la cible |
| 2     | `X_train, X_test = split(X, y)`          | Split **avant** preprocessing                  |
| 3     | `preprocessor.fit(X_train)`              | Fit sur train **UNIQUEMENT**                   |
| 4     | `X_train_processed = transform(X_train)` | Transform train                                |
| 5     | `X_test_processed = transform(X_test)`   | Transform test (m√™mes param√®tres du train)     |


In [None]:
from sklearn.model_selection import train_test_split

# Split stratifie AVANT le fit du preprocessor
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y,  # Important pour le desequilibre de classes
)

print("Split train/test avec stratification :")
print(f"\n  Train : {X_train.shape[0]} lignes ({X_train.shape[0] / len(X) * 100:.0f}%)")
print(f"    - Churn : {y_train.sum()} ({y_train.mean() * 100:.1f}%)")
print(
    f"    - Non-churn : {len(y_train) - y_train.sum()} ({(1 - y_train.mean()) * 100:.1f}%)"
)

print(f"\n  Test : {X_test.shape[0]} lignes ({X_test.shape[0] / len(X) * 100:.0f}%)")
print(f"    - Churn : {y_test.sum()} ({y_test.mean() * 100:.1f}%)")
print(
    f"    - Non-churn : {len(y_test) - y_test.sum()} ({(1 - y_test.mean()) * 100:.1f}%)"
)

### 11.4 Application du preprocessor (fit_transform sur train, transform sur test)

**C'est ici que la magie du Pipeline opere :**

- `fit_transform(X_train)` : calcule les parametres (moyenne, ecart-type, modalites) ET transforme
- `transform(X_test)` : utilise les parametres du train pour transformer le test

**Avantage majeur** : Quand on utilisera `cross_val_score`, le fit sera automatiquement refait sur chaque fold !


In [None]:
# Fit sur train, transform sur train et test
X_train_processed = preprocessor.fit_transform(X_train)  # FIT + TRANSFORM
X_test_processed = preprocessor.transform(X_test)  # TRANSFORM seulement

# Recuperation des noms de colonnes pour lisibilite
# (Les colonnes numeriques gardent leur nom, les categorielles sont encodees)
num_feature_names = num_cols
cat_feature_names = (
    preprocessor.named_transformers_["cat"].get_feature_names_out(cat_cols).tolist()
)
all_feature_names = num_feature_names + cat_feature_names

print("Preprocessing applique avec succes !")
print("\nDimensions apres transformation :")
print(f"  X_train_processed : {X_train_processed.shape}")
print(f"  X_test_processed  : {X_test_processed.shape}")

print(f"\nNombre de features finales : {len(all_feature_names)}")
print(f"  - Numeriques (standardisees) : {len(num_feature_names)}")
print(f"  - Categorielles (encodees)   : {len(cat_feature_names)}")

### 11.5 Verification : pas de data leakage

Verifions que le StandardScaler a bien ete fit sur le train uniquement :

- **Train** : moyenne ‚âà 0, ecart-type ‚âà 1
- **Test** : moyenne ‚â† 0 exactement (normal, car les parametres viennent du train)


In [None]:
num_indices = list(range(len(num_cols)))

print("Verification du StandardScaler (colonnes numeriques) :")
print(f"\n  Train - Moyenne  : {X_train_processed[:, num_indices].mean():.6f}")
print(f"  Train - Std      : {X_train_processed[:, num_indices].std():.6f}")
print(f"\n  Test  - Moyenne  : {X_test_processed[:, num_indices].mean():.6f}")
print(f"  Test  - Std      : {X_test_processed[:, num_indices].std():.6f}")

print("\nPas de data leakage : le test n'a pas exactement moyenne=0")
print("   (les parametres du scaler viennent du train)")

---

## Synth√®se Partie 2 : Feature Engineering

### Nettoyage effectu√©

- ‚úÖ Aucun doublon d√©tect√©
- ‚úÖ Outliers conserv√©s (valeurs RH l√©gitimes : hauts salaires, anciennet√© √©lev√©e)
- ‚úÖ 8 colonnes supprim√©es : identifiants, variance nulle, redondantes avec la cible

### Analyse des corr√©lations

- Matrice de **Pearson** (corr√©lations lin√©aires) - visualisation Plotly
- Matrice de **Spearman** (corr√©lations monotones)
- 2 variables supprim√©es pour multicolin√©arit√© (|r| > 0.7) avec justification m√©tier

### Conversion de type (best practice)

- ‚úÖ `augementation_salaire_precedente` : "11 %" ‚Üí 11.0 (num√©rique)
- **Avantage** : 1 feature standardis√©e au lieu de 14 colonnes OneHot ‚Üí moins d'overfitting
- Le mod√®le comprend que 23% > 11% (ordre pr√©serv√©)

### Feature Engineering (3 nouvelles features m√©tier)

| Feature                    | Formule                 | Corr. avec depart | Interpr√©tation                      |
| -------------------------- | ----------------------- | ----------------- | ----------------------------------- |
| `ratio_salaire_experience` | salaire / (exp + 1)     | +0.10             | Bien pay√©s partent plus             |
| `stagnation_poste`         | anciennet√© - promotion  | -0.15             | Stagnants restent (profils stables) |
| `satisfaction_globale`     | moyenne 4 satisfactions | -0.16             | Satisfaits restent                  |

### Pipeline de preprocessing (ColumnTransformer)

| Type       | Transformation                | Colonnes             |
| ---------- | ----------------------------- | -------------------- |
| Num√©rique  | `StandardScaler()`            | 21 colonnes          |
| Cat√©goriel | `OneHotEncoder(drop='first')` | 7 cols ‚Üí 21 features |

### Dataset pr√™t pour la mod√©lisation

| M√©trique         | Valeur                             |
| ---------------- | ---------------------------------- |
| Features totales | **42** (21 num + 21 cat)           |
| Train            | 1176 lignes (80%)                  |
| Test             | 294 lignes (20%)                   |
| Churn train      | 16.2%                              |
| Churn test       | 16.0%                              |
| Data leakage     | V√©rifi√© (fit sur train uniquement) |


# Partie 3 : Mod√©lisation de R√©f√©rence (Baseline)

**Objectif :** √âtablir des **mod√®les de r√©f√©rence** pour comprendre la difficult√© du probl√®me avant d'optimiser.

---

## Approche m√©thodologique

| √âtape | Mod√®le                     | Objectif                                                  |
| ----- | -------------------------- | --------------------------------------------------------- |
| 1     | **DummyClassifier**        | Baseline na√Øf (que vaut "toujours pr√©dire majoritaire" ?) |
| 2     | **LogisticRegression**     | Mod√®le lin√©aire simple                                    |
| 3     | **RandomForestClassifier** | Mod√®le non-lin√©aire (arbres)                              |

## M√©triques utilis√©es

Pour un probl√®me de **classification binaire d√©s√©quilibr√©e** (16% churn), l'**accuracy** est trompeuse.

| M√©trique      | Formule               | Interpr√©tation m√©tier                      |
| ------------- | --------------------- | ------------------------------------------ |
| **Precision** | TP / (TP + FP)        | "Parmi les alertes, combien sont vraies ?" |
| **Recall**    | TP / (TP + FN)        | "Combien de d√©parts r√©els d√©tect√©s ?"      |
| **F1-Score**  | 2 √ó (P √ó R) / (P + R) | √âquilibre Precision/Recall                 |

**Contexte RH :** Le **Recall** est critique car **rater un d√©part** (FN) co√ªte plus cher qu'une fausse alerte (FP).


## 12. Mod√®le Dummy (Baseline na√Øf)

Le `DummyClassifier` sert de **r√©f√©rence minimale**. Si nos vrais mod√®les ne font pas mieux, c'est qu'ils n'apprennent rien.

**Strat√©gie utilis√©e :** `most_frequent` ‚Üí pr√©dit toujours la classe majoritaire (0 = rest√©)


In [None]:
from sklearn.dummy import DummyClassifier
from sklearn.metrics import (
    classification_report,
)
import matplotlib.pyplot as plt

# Modele Dummy : predit toujours la classe majoritaire
dummy_clf = DummyClassifier(strategy="stratified", random_state=42)
dummy_clf.fit(X_train_processed, y_train)

# Predictions
y_train_pred_dummy = dummy_clf.predict(X_train_processed)
y_test_pred_dummy = dummy_clf.predict(X_test_processed)

print("MODELE DUMMY (Baseline) - Strategie: stratified")

print("\nPerformance sur TRAIN :")
print(
    classification_report(y_train, y_train_pred_dummy, target_names=["Rest√©", "Parti"])
)

print("\nPerformance sur TEST :")
print(classification_report(y_test, y_test_pred_dummy, target_names=["Rest√©", "Parti"]))

In [None]:
from sklearn.linear_model import LogisticRegression

# Modele Logistic Regression (sans class_weight pour l'instant)
lr_clf = LogisticRegression(random_state=42, max_iter=1000)
lr_clf.fit(X_train_processed, y_train)

# Predictions
y_train_pred_lr = lr_clf.predict(X_train_processed)
y_test_pred_lr = lr_clf.predict(X_test_processed)

print("MODELE LOGISTIC REGRESSION (sans class_weight)")

print("\nPerformance sur TRAIN :")
print(classification_report(y_train, y_train_pred_lr, target_names=["Rest√©", "Parti"]))

print("\nPerformance sur TEST :")
print(classification_report(y_test, y_test_pred_lr, target_names=["Rest√©", "Parti"]))

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Modele Random Forest (sans class_weight pour l'instant)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
rf_clf.fit(X_train_processed, y_train)

# Predictions
y_train_pred_rf = rf_clf.predict(X_train_processed)
y_test_pred_rf = rf_clf.predict(X_test_processed)

print("MODELE RANDOM FOREST (sans class_weight)")

print("\nPerformance sur TRAIN :")
print(classification_report(y_train, y_train_pred_rf, target_names=["Rest√©", "Parti"]))

print("\nPerformance sur TEST :")
print(classification_report(y_test, y_test_pred_rf, target_names=["Rest√©", "Parti"]))

## 13. Comparaison des Mod√®les Baseline

R√©capitulatif des performances des 3 mod√®les **sans gestion du d√©s√©quilibre**.


In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score


# Fonction pour calculer les metriques
def get_metrics(y_true, y_pred, dataset_name):
    return {
        "Dataset": dataset_name,
        "Accuracy": accuracy_score(y_true, y_pred),
        "Precision (Parti)": precision_score(
            y_true, y_pred, pos_label=1, zero_division=0
        ),
        "Recall (Parti)": recall_score(y_true, y_pred, pos_label=1, zero_division=0),
        "F1 (Parti)": f1_score(y_true, y_pred, pos_label=1, zero_division=0),
    }


# Calcul des metriques pour chaque modele
results = []

# Dummy
results.append({**get_metrics(y_train, y_train_pred_dummy, "Train"), "Modele": "Dummy"})
results.append({**get_metrics(y_test, y_test_pred_dummy, "Test"), "Modele": "Dummy"})

# Logistic Regression
results.append(
    {**get_metrics(y_train, y_train_pred_lr, "Train"), "Modele": "Logistic Regression"}
)
results.append(
    {**get_metrics(y_test, y_test_pred_lr, "Test"), "Modele": "Logistic Regression"}
)

# Random Forest
results.append(
    {**get_metrics(y_train, y_train_pred_rf, "Train"), "Modele": "Random Forest"}
)
results.append(
    {**get_metrics(y_test, y_test_pred_rf, "Test"), "Modele": "Random Forest"}
)

# Affichage
results_df = pd.DataFrame(results)
results_df = results_df[
    [
        "Modele",
        "Dataset",
        "Accuracy",
        "Precision (Parti)",
        "Recall (Parti)",
        "F1 (Parti)",
    ]
]


print("COMPARAISON DES MODELES BASELINE (sans gestion du desequilibre)")

print()
display(
    results_df.style.format(
        {
            "Accuracy": "{:.2%}",
            "Precision (Parti)": "{:.2%}",
            "Recall (Parti)": "{:.2%}",
            "F1 (Parti)": "{:.2%}",
        }
    ).set_properties(**{"text-align": "center"})
)

In [None]:
# Visualisation comparative

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Metriques sur le TEST uniquement (pour evaluer la generalisation)
test_results = results_df[results_df["Dataset"] == "Test"].copy()

# Graphique 1 : Recall (le plus important pour notre cas)
x = np.arange(len(test_results))
width = 0.25

ax1 = axes[0]
ax1.bar(
    x - width,
    test_results["Precision (Parti)"],
    width,
    label="Precision",
    color="steelblue",
)
ax1.bar(x, test_results["Recall (Parti)"], width, label="Recall", color="darkorange")
ax1.bar(x + width, test_results["F1 (Parti)"], width, label="F1-Score", color="green")
ax1.set_ylabel("Score")
ax1.set_title("Metriques sur la classe 'Parti' (Test)")
ax1.set_xticks(x)
ax1.set_xticklabels(test_results["Modele"])
ax1.legend()
ax1.set_ylim(0, 1)
ax1.axhline(y=0.5, color="red", linestyle="--", alpha=0.5, label="Seuil 50%")

# Graphique 2 : Comparaison Train vs Test (detection overfitting)
train_results = results_df[results_df["Dataset"] == "Train"]["Recall (Parti)"].values
test_results_recall = results_df[results_df["Dataset"] == "Test"][
    "Recall (Parti)"
].values
modeles = ["Dummy", "Logistic Reg.", "Random Forest"]

ax2 = axes[1]
x2 = np.arange(len(modeles))
ax2.bar(x2 - 0.2, train_results, 0.4, label="Train", color="steelblue")
ax2.bar(x2 + 0.2, test_results_recall, 0.4, label="Test", color="darkorange")
ax2.set_ylabel("Recall (Parti)")
ax2.set_title("Detection Overfitting : Train vs Test")
ax2.set_xticks(x2)
ax2.set_xticklabels(modeles)
ax2.legend()
ax2.set_ylim(0, 1)

plt.tight_layout()
plt.show()

### 13.1 Analyse des r√©sultats Baseline

**Constats attendus :**

| Mod√®le                  | Comportement attendu                        |
| ----------------------- | ------------------------------------------- |
| **Dummy**               | Recall = 0% (ne pr√©dit jamais "Parti")      |
| **Logistic Regression** | Recall faible (classe minoritaire ignor√©e)  |
| **Random Forest**       | Recall train >> test (overfitting probable) |

**Probl√®me identifi√© :** Sans gestion du d√©s√©quilibre (16% vs 84%), les mod√®les optimisent l'accuracy en ignorant la classe minoritaire "Parti".


---

## Synth√®se Partie 3 : Mod√©lisation Baseline

### Mod√®les entra√Æn√©s

| Mod√®le                   | Type                  | Objectif                     |
| ------------------------ | --------------------- | ---------------------------- |
| `DummyClassifier`        | Baseline na√Øf         | R√©f√©rence minimale           |
| `LogisticRegression`     | Lin√©aire              | Premier mod√®le interpr√©table |
| `RandomForestClassifier` | Non-lin√©aire (arbres) | Capture relations complexes  |

### M√©triques calcul√©es

- ‚úÖ `classification_report()` (Precision, Recall, F1)
- ‚úÖ Matrice de confusion (Train ET Test)
- ‚úÖ Comparaison Train vs Test pour d√©tecter l'overfitting

### Probl√®me identifi√©

**D√©s√©quilibre des classes (16% Parti / 84% Rest√©)** :

- Les mod√®les optimisent l'accuracy ‚Üí ignorent la classe minoritaire
- Le Recall sur "Parti" est insuffisant pour un usage m√©tier RH


# PARTIE 4 : GESTION DU D√âS√âQUILIBRE DES CLASSES

---

## 14. Strat√©gie de gestion du d√©s√©quilibre

### 14.1 Contexte m√©tier

Dans un contexte RH, **identifier les employ√©s √† risque de d√©part** (classe "Parti") est crucial :

- Un **Faux N√©gatif** (employ√© √† risque non d√©tect√©) = d√©part non anticip√© ‚Üí co√ªt √©lev√©
- Un **Faux Positif** (employ√© stable mal class√©) = actions RH inutiles ‚Üí co√ªt mod√©r√©

**Objectif** : Maximiser le **Recall** sur la classe "Parti" tout en maintenant une Precision acceptable.

### 14.2 Techniques √† tester

| #   | Technique                 | Package  | Approche                     |
| --- | ------------------------- | -------- | ---------------------------- |
| 1   | `class_weight='balanced'` | sklearn  | Pond√©ration des erreurs      |
| 2   | SMOTE                     | imblearn | Oversampling synth√©tique     |
| 3   | Random Undersampling      | imblearn | R√©duction classe majoritaire |
| 4   | Calibration               | sklearn  | `CalibratedClassifierCV`     |

### 14.3 Protocole d'√©valuation

- **Validation crois√©e stratifi√©e** : `StratifiedKFold` (5 folds)
- **M√©triques principales** : Recall, Precision, F1-score (classe "Parti")
- **M√©trique secondaire** : ROC-AUC, PR-AUC


In [None]:
from sklearn.model_selection import StratifiedKFold, cross_validate
from sklearn.metrics import (
    precision_recall_curve,
    average_precision_score,
    roc_auc_score,
    make_scorer,
)
from sklearn.calibration import CalibratedClassifierCV

from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

print("\nRappel - Distribution des classes :")
print(y.value_counts(normalize=True).round(3))

---

## 15. Fonction d'√©valuation en validation crois√©e

Cr√©ation d'une fonction r√©utilisable pour √©valuer les mod√®les avec validation crois√©e stratifi√©e.


In [None]:
def evaluate_model_cv(model, X_data, y_data, preprocessor, cv=5, model_name="Model"):
    """
    √âvalue un mod√®le avec validation crois√©e stratifi√©e.

    Parameters:
    -----------
    model : estimator sklearn
    X_data : DataFrame des features
    y_data : Series de la cible
    preprocessor : ColumnTransformer pour le preprocessing
    cv : int, nombre de folds
    model_name : str, nom du mod√®le pour l'affichage

    Returns:
    --------
    dict : r√©sultats avec moyennes et √©carts-types
    """
    from sklearn.pipeline import Pipeline

    # Cr√©ation du pipeline complet
    pipeline = Pipeline([("preprocessor", preprocessor), ("classifier", model)])

    # Configuration de la validation crois√©e stratifi√©e
    skf = StratifiedKFold(n_splits=cv, shuffle=True, random_state=42)

    # D√©finition des m√©triques (focus sur classe positive = 1 = Parti)
    scoring = {
        "recall": make_scorer(recall_score, pos_label=1),
        "precision": make_scorer(precision_score, pos_label=1, zero_division=0),
        "f1": make_scorer(f1_score, pos_label=1),
        "roc_auc": "roc_auc",
    }

    # Ex√©cution de la validation crois√©e
    cv_results = cross_validate(
        pipeline,
        X_data,
        y_data,
        cv=skf,
        scoring=scoring,
        return_train_score=True,
        n_jobs=-1,
    )

    # Compilation des r√©sultats
    results = {
        "model": model_name,
        "recall_train_mean": cv_results["train_recall"].mean(),
        "recall_train_std": cv_results["train_recall"].std(),
        "recall_test_mean": cv_results["test_recall"].mean(),
        "recall_test_std": cv_results["test_recall"].std(),
        "precision_train_mean": cv_results["train_precision"].mean(),
        "precision_train_std": cv_results["train_precision"].std(),
        "precision_test_mean": cv_results["test_precision"].mean(),
        "precision_test_std": cv_results["test_precision"].std(),
        "f1_train_mean": cv_results["train_f1"].mean(),
        "f1_train_std": cv_results["train_f1"].std(),
        "f1_test_mean": cv_results["test_f1"].mean(),
        "f1_test_std": cv_results["test_f1"].std(),
        "roc_auc_train_mean": cv_results["train_roc_auc"].mean(),
        "roc_auc_test_mean": cv_results["test_roc_auc"].mean(),
    }

    # Affichage format√©
    print(f"\n{'=' * 60}")
    print(f" {model_name}")
    print(f"{'=' * 60}")
    print(f"\n{'M√©trique':<15} {'Train':>20} {'Test':>20}")
    print("-" * 55)
    print(
        f"{'Recall':<15} {results['recall_train_mean']:.3f} ¬± {results['recall_train_std']:.3f}    {results['recall_test_mean']:.3f} ¬± {results['recall_test_std']:.3f}"
    )
    print(
        f"{'Precision':<15} {results['precision_train_mean']:.3f} ¬± {results['precision_train_std']:.3f}    {results['precision_test_mean']:.3f} ¬± {results['precision_test_std']:.3f}"
    )
    print(
        f"{'F1-Score':<15} {results['f1_train_mean']:.3f} ¬± {results['f1_train_std']:.3f}    {results['f1_test_mean']:.3f} ¬± {results['f1_test_std']:.3f}"
    )
    print(
        f"{'ROC-AUC':<15} {results['roc_auc_train_mean']:.3f}              {results['roc_auc_test_mean']:.3f}"
    )

    return results


print("‚úÖ Fonction evaluate_model_cv() d√©finie")

## 16. Technique 1 : Class Weight (Pond√©ration des classes)

### 16.1 Principe

Le param√®tre `class_weight='balanced'` ajuste automatiquement les poids des classes inversement proportionnels √† leur fr√©quence :

$$w_c = \frac{n_{samples}}{n_{classes} \times n_{samples_c}}$$

Cela p√©nalise davantage les erreurs sur la classe minoritaire ("Parti").


In [None]:
# 18.2 Entra√Ænement des mod√®les avec class_weight='balanced'
all_results = []  # Liste pour stocker tous les r√©sultats

# Logistic Regression
print("üîÑ Entra√Ænement Logistic Regression avec class_weight='balanced'...")
lr_balanced = LogisticRegression(
    class_weight="balanced", max_iter=1000, random_state=42
)
results_lr_balanced = evaluate_model_cv(
    lr_balanced, X, y, preprocessor, model_name="Logistic Regression (balanced)"
)
all_results.append(results_lr_balanced)

# Random Forest
print("\nüîÑ Entra√Ænement Random Forest avec class_weight='balanced'...")
rf_balanced = RandomForestClassifier(
    n_estimators=100, class_weight="balanced", random_state=42, n_jobs=-1
)
results_rf_balanced = evaluate_model_cv(
    rf_balanced, X, y, preprocessor, model_name="Random Forest (balanced)"
)
all_results.append(results_rf_balanced)

## 17. Technique 2 : SMOTE (Oversampling)

### 17.1 Principe

**SMOTE** (Synthetic Minority Over-sampling Technique) g√©n√®re des observations synth√©tiques pour la classe minoritaire en interpolant entre les observations existantes et leurs k plus proches voisins.

**Important** : SMOTE doit √™tre appliqu√© **uniquement sur le jeu d'entra√Ænement** pour √©viter la fuite de donn√©es (data leakage).


In [None]:
def evaluate_model_with_resampling(
    model,
    X_data,
    y_data,
    preprocessor,
    resampler,
    cv=5,
    model_name="Model",
    pos_label=1,
):
    """
    √âvalue un mod√®le avec resampling (SMOTE ou Undersampling) en validation crois√©e.
    Le resampling est appliqu√© APR√àS le preprocessing et UNIQUEMENT sur le train.

    Parameters:
    -----------
    pos_label : int ou str, label de la classe positive (d√©faut: 1)
    """
    from sklearn.base import clone

    skf = StratifiedKFold(n_splits=cv, shuffle=True, random_state=42)

    # Convertir y en numpy array si c'est une Series
    y_array = y_data.values if hasattr(y_data, "values") else y_data

    # Stockage des m√©triques par fold
    metrics = {
        "recall_train": [],
        "recall_test": [],
        "precision_train": [],
        "precision_test": [],
        "f1_train": [],
        "f1_test": [],
        "roc_auc_train": [],
        "roc_auc_test": [],
    }

    for _, (train_idx, test_idx) in enumerate(skf.split(X_data, y_array), 1):
        # Split des donn√©es
        X_train_fold, X_test_fold = X_data.iloc[train_idx], X_data.iloc[test_idx]
        y_train_fold, y_test_fold = y_array[train_idx], y_array[test_idx]

        # Preprocessing
        X_train_processed = preprocessor.fit_transform(X_train_fold)
        X_test_processed = preprocessor.transform(X_test_fold)

        # Resampling sur le train uniquement
        X_train_resampled, y_train_resampled = resampler.fit_resample(
            X_train_processed, y_train_fold
        )

        # Entra√Ænement
        clf = clone(model)
        clf.fit(X_train_resampled, y_train_resampled)

        # Pr√©dictions
        y_train_pred = clf.predict(X_train_resampled)
        y_test_pred = clf.predict(X_test_processed)

        # Calcul des m√©triques
        metrics["recall_train"].append(
            recall_score(y_train_resampled, y_train_pred, pos_label=pos_label)
        )
        metrics["recall_test"].append(
            recall_score(y_test_fold, y_test_pred, pos_label=pos_label)
        )
        metrics["precision_train"].append(
            precision_score(
                y_train_resampled, y_train_pred, pos_label=pos_label, zero_division=0
            )
        )
        metrics["precision_test"].append(
            precision_score(
                y_test_fold, y_test_pred, pos_label=pos_label, zero_division=0
            )
        )
        metrics["f1_train"].append(
            f1_score(y_train_resampled, y_train_pred, pos_label=pos_label)
        )
        metrics["f1_test"].append(
            f1_score(y_test_fold, y_test_pred, pos_label=pos_label)
        )

        # ROC-AUC (n√©cessite proba)
        if hasattr(clf, "predict_proba"):
            # Index de la classe positive dans le classifieur
            pos_idx = list(clf.classes_).index(pos_label)
            y_train_proba = clf.predict_proba(X_train_resampled)[:, pos_idx]
            y_test_proba = clf.predict_proba(X_test_processed)[:, pos_idx]
            metrics["roc_auc_train"].append(
                roc_auc_score(
                    (y_train_resampled == pos_label).astype(int), y_train_proba
                )
            )
            metrics["roc_auc_test"].append(
                roc_auc_score((y_test_fold == pos_label).astype(int), y_test_proba)
            )

    # Compilation des r√©sultats
    results = {
        "model": model_name,
        "recall_train_mean": np.mean(metrics["recall_train"]),
        "recall_train_std": np.std(metrics["recall_train"]),
        "recall_test_mean": np.mean(metrics["recall_test"]),
        "recall_test_std": np.std(metrics["recall_test"]),
        "precision_train_mean": np.mean(metrics["precision_train"]),
        "precision_train_std": np.std(metrics["precision_train"]),
        "precision_test_mean": np.mean(metrics["precision_test"]),
        "precision_test_std": np.std(metrics["precision_test"]),
        "f1_train_mean": np.mean(metrics["f1_train"]),
        "f1_train_std": np.std(metrics["f1_train"]),
        "f1_test_mean": np.mean(metrics["f1_test"]),
        "f1_test_std": np.std(metrics["f1_test"]),
        "roc_auc_train_mean": np.mean(metrics["roc_auc_train"])
        if metrics["roc_auc_train"]
        else 0,
        "roc_auc_test_mean": np.mean(metrics["roc_auc_test"])
        if metrics["roc_auc_test"]
        else 0,
    }

    print(f"{model_name}")
    print(f"\n{'M√©trique':<15} {'Train':>20} {'Test':>20}")
    print("-" * 55)
    print(
        f"{'Recall':<15} {results['recall_train_mean']:.3f} ¬± {results['recall_train_std']:.3f}    {results['recall_test_mean']:.3f} ¬± {results['recall_test_std']:.3f}"
    )
    print(
        f"{'Precision':<15} {results['precision_train_mean']:.3f} ¬± {results['precision_train_std']:.3f}    {results['precision_test_mean']:.3f} ¬± {results['precision_test_std']:.3f}"
    )
    print(
        f"{'F1-Score':<15} {results['f1_train_mean']:.3f} ¬± {results['f1_train_std']:.3f}    {results['f1_test_mean']:.3f} ¬± {results['f1_test_std']:.3f}"
    )
    print(
        f"{'ROC-AUC':<15} {results['roc_auc_train_mean']:.3f}              {results['roc_auc_test_mean']:.3f}"
    )

    return results


print("Fonction evaluate_model_with_resampling() d√©finie")

In [None]:
print("üîÑ Entra√Ænement Random Forest avec SMOTE...")

smote = SMOTE(random_state=42)

rf_smote = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)

results_rf_smote = evaluate_model_with_resampling(
    rf_smote, X, y, preprocessor, smote, model_name="Random Forest + SMOTE"
)
all_results.append(results_rf_smote)

## 18. Technique 3 : Undersampling

### 18.1 Principe

L'**undersampling** r√©duit le nombre d'observations de la classe majoritaire ("Rest√©") pour √©quilibrer les classes.

‚ö†Ô∏è **Inconv√©nient** : Perte d'information en supprimant des donn√©es.


In [None]:
# 20.2 Random Forest avec Undersampling
print("Entra√Ænement Random Forest avec Undersampling...")

undersampler = RandomUnderSampler(random_state=42)

rf_under = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)

results_rf_under = evaluate_model_with_resampling(
    rf_under,
    X,
    y,
    preprocessor,
    undersampler,
    model_name="Random Forest + Undersampling",
)
all_results.append(results_rf_under)

---

## 19. Technique 4 : Calibration des probabilit√©s

### 19.1 Principe

La **calibration** ajuste les probabilit√©s pr√©dites pour qu'elles refl√®tent mieux la r√©alit√©. `CalibratedClassifierCV` utilise soit :

- **Platt scaling** (sigmoid) : pour mod√®les SVM
- **Isotonic regression** : non-param√©trique, plus flexible


In [None]:
# 21.2 Random Forest avec Calibration + class_weight='balanced'
print("Entra√Ænement Random Forest avec Calibration...")

# Mod√®le de base avec class_weight
rf_base = RandomForestClassifier(
    n_estimators=100, class_weight="balanced", random_state=42, n_jobs=-1
)

# Calibration
rf_calibrated = CalibratedClassifierCV(
    rf_base,
    method="isotonic",
    cv=3,  # CV interne pour la calibration
)

results_rf_calibrated = evaluate_model_cv(
    rf_calibrated,
    X,
    y,
    preprocessor,
    model_name="Random Forest (balanced + calibrated)",
)
all_results.append(results_rf_calibrated)

---

## 20. Comparaison des techniques de gestion du d√©s√©quilibre

### 20.1 Tableau r√©capitulatif

### 20.2 Comment lire les graphiques

**Graphique 1 - Trade-off Recall vs Precision :**

- **Axe X** : Recall (capacit√© √† d√©tecter les d√©parts)
- **Axe Y** : Precision (fiabilit√© des alertes)
- **Lecture** : Un point en haut √† droite = mod√®le id√©al (bon recall ET bonne precision)
- **Objectif m√©tier** : Privil√©gier le recall (d√©tecter un maximum de d√©parts)

**Graphique 2 - F1-Score par technique :**

- **Barres horizontales** : Score F1 (moyenne harmonique recall/precision)
- **Barres d'erreur** : √âcart-type sur les 5 folds de validation crois√©e
- **Lecture** : Plus la barre est longue, meilleur est le compromis recall/precision


In [None]:
# Cr√©ation du DataFrame de comparaison
comparison_imbalance_df = pd.DataFrame(all_results)

# S√©lection et formatage des colonnes principales
display_cols = [
    "model",
    "recall_test_mean",
    "recall_test_std",
    "precision_test_mean",
    "f1_test_mean",
    "roc_auc_test_mean",
]

comparison_display = comparison_imbalance_df[display_cols].copy()
comparison_display.columns = [
    "Mod√®le",
    "Recall (Test)",
    "Recall Std",
    "Precision (Test)",
    "F1 (Test)",
    "ROC-AUC (Test)",
]

# Formatage pour affichage
comparison_display["Recall (Test)"] = comparison_display.apply(
    lambda x: f"{x['Recall (Test)']:.3f} ¬± {x['Recall Std']:.3f}", axis=1
)
comparison_display = comparison_display.drop("Recall Std", axis=1)

print("COMPARAISON DES TECHNIQUES DE GESTION DU D√âS√âQUILIBRE")
print("\nFocus sur la classe 'Parti' (classe minoritaire)\n")

display(
    comparison_display.style.highlight_max(
        subset=["F1 (Test)", "ROC-AUC (Test)"], color="green"
    )
)

In [None]:
# 22.2 Visualisation graphique
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Graphique 1 : Recall vs Precision (Trade-off)
ax1 = axes[0]
models = comparison_imbalance_df["model"].values
recalls = comparison_imbalance_df["recall_test_mean"].values
precisions = comparison_imbalance_df["precision_test_mean"].values

colors_plot = plt.cm.Set2(np.linspace(0, 1, len(models)))
for i, (model, recall, precision) in enumerate(zip(models, recalls, precisions)):
    ax1.scatter(
        recall,
        precision,
        s=200,
        c=[colors_plot[i]],
        label=model,
        edgecolors="black",
        linewidth=1.5,
    )

ax1.set_xlabel("Recall (Test)", fontsize=12)
ax1.set_ylabel("Precision (Test)", fontsize=12)
ax1.set_title("Trade-off Recall vs Precision", fontsize=14, fontweight="bold")
ax1.legend(loc="best", fontsize=8)
ax1.grid(True, alpha=0.3)
ax1.set_xlim(0, 1)
ax1.set_ylim(0, 1)

# Graphique 2 : F1-Score par mod√®le
ax2 = axes[1]
f1_scores = comparison_imbalance_df["f1_test_mean"].values
f1_stds = comparison_imbalance_df["f1_test_std"].values

bars = ax2.barh(
    range(len(models)), f1_scores, xerr=f1_stds, color=colors_plot, edgecolor="black"
)
ax2.set_yticks(range(len(models)))
ax2.set_yticklabels(
    [m.replace(" + ", "\n+ ").replace(" (", "\n(") for m in models], fontsize=9
)
ax2.set_xlabel("F1-Score (Test)", fontsize=12)
ax2.set_title("F1-Score par technique", fontsize=14, fontweight="bold")
ax2.grid(True, alpha=0.3, axis="x")

# Ajout des valeurs sur les barres
for i, (bar, f1) in enumerate(zip(bars, f1_scores)):
    ax2.text(
        f1 + 0.02,
        bar.get_y() + bar.get_height() / 2,
        f"{f1:.3f}",
        va="center",
        fontsize=10,
    )

plt.tight_layout()
plt.show()

print("\n‚úÖ Visualisation des performances termin√©e")

### 20.3 Analyse des r√©sultats

| Technique                   | Avantages                                   | Inconv√©nients                     |
| --------------------------- | ------------------------------------------- | --------------------------------- |
| **class_weight='balanced'** | Simple, pas de preprocessing suppl√©mentaire | Peut ne pas suffire seul          |
| **SMOTE**                   | G√©n√®re des donn√©es synth√©tiques             | Risque d'overfitting, co√ªt calcul |
| **Undersampling**           | R√©duit le temps d'entra√Ænement              | Perte d'information               |
| **Calibration**             | Probabilit√©s plus fiables                   | Complexit√© additionnelle          |

#### Observations :

1. **Recall** : Les techniques de gestion du d√©s√©quilibre am√©liorent significativement le recall sur "Parti"
2. **Trade-off** : Am√©lioration du recall souvent au d√©triment de la precision
3. **F1-Score** : Compromis entre recall et precision


---

## 21. Courbe Precision-Recall et seuil optimal

### 21.1 Principe

La courbe Precision-Recall permet de visualiser le trade-off et de choisir un seuil de d√©cision optimal selon les priorit√©s m√©tier.

### 21.2 Comment lire les graphiques

**Graphique 1 - Courbe Precision-Recall :**

- **Axe X** : Recall (proportion des vrais d√©parts d√©tect√©s)
- **Axe Y** : Precision (proportion des alertes qui sont de vrais d√©parts)
- **Courbe bleue** : Trade-off precision/recall selon le seuil
- **Lecture** : Plus l'aire sous la courbe (AP) est grande, meilleur est le mod√®le

**Graphique 2 - F1-Score en fonction du seuil :**

- **Axe X** : Seuil de d√©cision (probabilit√© √† partir de laquelle on pr√©dit "Parti")
- **Axe Y** : F1-Score correspondant
- **Point rouge** : Seuil optimal qui maximise le F1
- **Lecture** : Le seuil optimal (0.230) est bien inf√©rieur √† 0.5 ‚Üí le mod√®le doit √™tre plus "sensible"

**Matrices de confusion :**

- **Colonnes** : Pr√©dictions du mod√®le (Rest√© / Parti)
- **Lignes** : R√©alit√© (Rest√© / Parti)
- **Diagonale** : Pr√©dictions correctes (Vrais N√©gatifs en haut-gauche, Vrais Positifs en bas-droite)
- **Hors diagonale** : Erreurs (Faux Positifs en haut-droite, Faux N√©gatifs en bas-gauche)
- **Lecture** : Comparer le nombre de Faux N√©gatifs entre les deux seuils (ce sont les d√©parts manqu√©s)


In [None]:
# 23.2 Entra√Ænement du meilleur mod√®le sur train/test fixe pour la courbe PR
print("Entra√Ænement du mod√®le pour la courbe Precision-Recall...")

# Utilisation du Random Forest avec class_weight='balanced' (meilleur compromis attendu)
from sklearn.pipeline import Pipeline as SkPipeline  # noqa: E402

pipeline_best = SkPipeline(
    [
        ("preprocessor", preprocessor),
        (
            "classifier",
            RandomForestClassifier(
                n_estimators=100, class_weight="balanced", random_state=42, n_jobs=-1
            ),
        ),
    ]
)

# Entra√Ænement
pipeline_best.fit(X_train, y_train)

# Probabilit√©s sur le test set
y_test_proba = pipeline_best.predict_proba(X_test)
# Index de la classe positive (1 = Parti/Churn)
parti_idx = list(pipeline_best.classes_).index(1)
y_test_proba_parti = y_test_proba[:, parti_idx]

# y_test est d√©j√† binaire (1 = Parti)
y_test_binary = y_test.values

print("Mod√®le entra√Æn√©")
print(f"   Classes : {pipeline_best.classes_}")
print(f"   Index classe positive (1=Parti) : {parti_idx}")

In [None]:
# 23.3 Trac√© de la courbe Precision-Recall
precision_curve, recall_curve, thresholds = precision_recall_curve(
    y_test_binary, y_test_proba_parti
)
ap_score = average_precision_score(y_test_binary, y_test_proba_parti)

# Calcul du F1-score pour chaque seuil
f1_scores = (
    2
    * (precision_curve[:-1] * recall_curve[:-1])
    / (precision_curve[:-1] + recall_curve[:-1] + 1e-10)
)
best_threshold_idx = np.argmax(f1_scores)
best_threshold = thresholds[best_threshold_idx]
best_f1 = f1_scores[best_threshold_idx]
best_precision = precision_curve[best_threshold_idx]
best_recall = recall_curve[best_threshold_idx]

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Graphique 1 : Courbe Precision-Recall
ax1 = axes[0]
ax1.plot(
    recall_curve,
    precision_curve,
    "b-",
    linewidth=2,
    label=f"PR Curve (AP = {ap_score:.3f})",
)
ax1.scatter(
    [best_recall],
    [best_precision],
    s=200,
    c="red",
    marker="*",
    zorder=5,
    label=f"Seuil optimal = {best_threshold:.3f}",
)
ax1.axhline(
    y=y_test_binary.mean(), color="gray", linestyle="--", label="Baseline (random)"
)
ax1.set_xlabel("Recall", fontsize=12)
ax1.set_ylabel("Precision", fontsize=12)
ax1.set_title("Courbe Precision-Recall", fontsize=14, fontweight="bold")
ax1.legend(loc="best")
ax1.grid(True, alpha=0.3)
ax1.set_xlim(0, 1)
ax1.set_ylim(0, 1)

# Graphique 2 : F1-Score en fonction du seuil
ax2 = axes[1]
ax2.plot(thresholds, f1_scores, "g-", linewidth=2)
ax2.axvline(
    x=best_threshold,
    color="red",
    linestyle="--",
    label=f"Seuil optimal = {best_threshold:.3f}",
)
ax2.scatter([best_threshold], [best_f1], s=200, c="red", marker="*", zorder=5)
ax2.set_xlabel("Seuil de d√©cision", fontsize=12)
ax2.set_ylabel("F1-Score", fontsize=12)
ax2.set_title("F1-Score en fonction du seuil", fontsize=14, fontweight="bold")
ax2.legend(loc="best")
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\n SEUIL OPTIMAL IDENTIFI√â")
print(f"   Seuil : {best_threshold:.3f}")
print(f"   Precision : {best_precision:.3f}")
print(f"   Recall : {best_recall:.3f}")
print(f"   F1-Score : {best_f1:.3f}")

In [None]:
# 23.4 Application du seuil optimal et matrice de confusion
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Pr√©dictions avec le seuil par d√©faut (0.5)
y_test_pred_default = pipeline_best.predict(X_test)

# Pr√©dictions avec le seuil optimal (en num√©rique: 1 = Parti, 0 = Rest√©)
y_test_pred_optimal = np.where(y_test_proba_parti >= best_threshold, 1, 0)

# Comparaison des matrices de confusion
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Seuil par d√©faut (labels num√©riques, display_labels pour l'affichage)
cm_default = confusion_matrix(y_test, y_test_pred_default, labels=[0, 1])
disp1 = ConfusionMatrixDisplay(cm_default, display_labels=["Rest√©", "Parti"])
disp1.plot(ax=axes[0], cmap="Blues", values_format="d")
axes[0].set_title("Seuil par d√©faut (0.5)", fontsize=12, fontweight="bold")

# Seuil optimal
cm_optimal = confusion_matrix(y_test, y_test_pred_optimal, labels=[0, 1])
disp2 = ConfusionMatrixDisplay(cm_optimal, display_labels=["Rest√©", "Parti"])
disp2.plot(ax=axes[1], cmap="Greens", values_format="d")
axes[1].set_title(
    f"Seuil optimal ({best_threshold:.3f})", fontsize=12, fontweight="bold"
)

plt.tight_layout()
plt.show()

# M√©triques compar√©es
print("\nüìä COMPARAISON DES SEUILS")
print(f"\n{'M√©trique':<20} {'Seuil 0.5':>15} {'Seuil optimal':>15}")
print("-" * 50)

# pos_label=1 car 1 = Parti (classe positive)
recall_default = recall_score(y_test, y_test_pred_default, pos_label=1)
recall_optimal = recall_score(y_test, y_test_pred_optimal, pos_label=1)
print(f"{'Recall (Parti)':<20} {recall_default:>15.3f} {recall_optimal:>15.3f}")

precision_default = precision_score(
    y_test, y_test_pred_default, pos_label=1, zero_division=0
)
precision_optimal = precision_score(
    y_test, y_test_pred_optimal, pos_label=1, zero_division=0
)
print(
    f"{'Precision (Parti)':<20} {precision_default:>15.3f} {precision_optimal:>15.3f}"
)

f1_default = f1_score(y_test, y_test_pred_default, pos_label=1)
f1_optimal = f1_score(y_test, y_test_pred_optimal, pos_label=1)
print(f"{'F1-Score (Parti)':<20} {f1_default:>15.3f} {f1_optimal:>15.3f}")

---

## Synth√®se Partie 4 : Gestion du d√©s√©quilibre des classes

### R√©sultats comparatifs des techniques

| Technique                          | Recall    | Precision | F1-Score  | ROC-AUC   |
| ---------------------------------- | --------- | --------- | --------- | --------- |
| **Logistic Regression (balanced)** | **0.722** | 0.379     | **0.497** | **0.828** |
| Random Forest (balanced)           | 0.131     | 0.896     | 0.225     | 0.812     |
| Random Forest + SMOTE              | 0.261     | 0.699     | 0.374     | 0.820     |
| Random Forest + Undersampling      | 0.696     | 0.356     | 0.471     | 0.806     |
| RF (balanced + calibrated)         | 0.282     | 0.728     | 0.392     | 0.809     |

**Meilleur mod√®le** : **Logistic Regression avec class_weight='balanced'** (F1=0.497, Recall=72.2%, ROC-AUC=0.828)

### D√©couverte majeure : Optimisation du seuil de d√©cision

Le **seuil de d√©cision optimal (0.230)** apporte une am√©lioration spectaculaire :

| M√©trique      | Seuil 0.5 (d√©faut) | Seuil 0.230 (optimal) | Am√©lioration |
| ------------- | ------------------ | --------------------- | ------------ |
| **Recall**    | 0.085              | **0.638**             | +650%        |
| **Precision** | 0.444              | 0.484                 | +9%          |
| **F1-Score**  | 0.143              | **0.550**             | +285%        |

**Impact concret** :

- Seuil 0.5 ‚Üí D√©tecte seulement **4 d√©parts sur 47** (91.5% manqu√©s ‚ùå)
- Seuil 0.230 ‚Üí D√©tecte **30 d√©parts sur 47** (36.2% manqu√©s ‚úÖ)

### Conclusions cl√©s

1. **Logistic Regression > Random Forest** pour ce probl√®me (meilleur F1 et recall)
2. **L'ajustement du seuil** est plus efficace que SMOTE ou Undersampling
3. **Undersampling** donne le meilleur recall brut (0.696) mais perd en precision
4. **Random Forest** tend √† l'overfitting (train=100%, test beaucoup plus bas)

### üìã Recommandations pour TechNova Partners

| Strat√©gie RH                                 | Seuil     | Cons√©quence                                        |
| -------------------------------------------- | --------- | -------------------------------------------------- |
| **D√©tection maximale** (co√ªt turnover √©lev√©) | 0.15-0.20 | Plus de fausses alertes, moins de d√©parts manqu√©s  |
| **√âquilibre** (recommand√©)                   | **0.230** | F1 optimal (0.550), bon compromis                  |
| **Actions cibl√©es** (ressources limit√©es)    | 0.40-0.50 | Alertes tr√®s fiables mais certains d√©parts manqu√©s |


---

# Partie 5 : Fine-tuning et Interpr√©tabilit√© (SHAP)

## Objectifs

1. **Fine-tuning** : Optimiser les hyperparam√®tres avec GridSearchCV
2. **Comparaison de mod√®les** : Random Forest vs LightGBM, class_weight balanced vs non
3. **Calibration des probabilit√©s** : CalibratedClassifierCV pour des probabilit√©s plus fiables
4. **V√©rification des probabilit√©s** : S'assurer qu'on obtient bien des valeurs proches de 0 et 1
5. **SHAP** : Interpr√©tabilit√© globale (Beeswarm) et locale (Waterfall)

### Pourquoi SHAP ?

SHAP (SHapley Additive exPlanations) est bas√© sur la **th√©orie des jeux** de Lloyd Shapley (Prix Nobel d'√©conomie 2012).

- **Math√©matiquement juste** : C'est la seule m√©thode qui satisfait toutes les propri√©t√©s d'√©quit√©
- **Interpr√©table** : Permet de comprendre l'impact de chaque feature sur la pr√©diction
- **Fiable** : Plus robuste que LIME ou d'autres m√©thodes


---

## 22. Imports et pr√©paration Partie 5


In [None]:
from sklearn.model_selection import GridSearchCV
import warnings

warnings.filterwarnings("ignore")

# Installation de LightGBM et SHAP si n√©cessaire
try:
    import lightgbm as lgb

    print("‚úÖ LightGBM import√©")
except ImportError:
    print("‚ö†Ô∏è LightGBM non install√©")

try:
    import shap

    print("‚úÖ SHAP import√©")
except ImportError:
    print("‚ö†Ô∏è SHAP non install√©")

print("\nImports Partie 5 charg√©s")

In [None]:
# 28.1 GridSearchCV sur LightGBM (meilleur compromis g√©n√©ralement)
print("FINE-TUNING AVEC GRIDSEARCHCV")

# Pipeline avec preprocessing
pipeline_lgb = SkPipeline(
    [
        ("preprocessor", preprocessor),
        ("classifier", lgb.LGBMClassifier(random_state=42, verbose=-1, n_jobs=-1)),
    ]
)

# Grille d'hyperparam√®tres
param_grid = {
    "classifier__n_estimators": [50, 100, 200],
    "classifier__max_depth": [3, 5, 7, None],
    "classifier__learning_rate": [0.01, 0.1, 0.2],
    "classifier__class_weight": [None, "balanced"],
    "classifier__num_leaves": [15, 31, 63],
}

# Scorer personnalis√© (F1 sur classe positive)


f1_scorer = make_scorer(f1_score, pos_label=1)

# GridSearchCV avec validation crois√©e stratifi√©e
print("\nüîÑ Recherche des meilleurs hyperparam√®tres (peut prendre quelques minutes)...")

grid_search = GridSearchCV(
    pipeline_lgb,
    param_grid,
    cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
    scoring=f1_scorer,
    n_jobs=-1,
    verbose=1,
    refit=True,
)

grid_search.fit(X_train, y_train)

print("\n Meilleurs param√®tres trouv√©s:")
for param, value in grid_search.best_params_.items():
    print(f"   {param}: {value}")
print(f"\nüìä Meilleur score F1 (CV): {grid_search.best_score_:.3f}")

In [None]:
# Pr√©dictions avec le meilleur mod√®le
best_model = grid_search.best_estimator_
y_pred_optimized = best_model.predict(X_test)
y_proba_optimized = best_model.predict_proba(X_test)[:, 1]

# M√©triques
print("\nM√©triques sur le jeu de test:")
print(f"   Recall:     {recall_score(y_test, y_pred_optimized, pos_label=1):.3f}")
print(
    f"   Precision:  {precision_score(y_test, y_pred_optimized, pos_label=1, zero_division=0):.3f}"
)
print(f"   F1-Score:   {f1_score(y_test, y_pred_optimized, pos_label=1):.3f}")
print(f"   ROC-AUC:    {roc_auc_score(y_test, y_proba_optimized):.3f}")

# V√©rification des probabilit√©s
print("\nDistribution des probabilit√©s:")
print(f"   Min: {y_proba_optimized.min():.4f}")
print(f"   Max: {y_proba_optimized.max():.4f}")
print(f"   Mean: {y_proba_optimized.mean():.4f}")
print(f"   Proba > 0.9: {(y_proba_optimized > 0.9).sum()} observations")
print(f"   Proba >= 0.99: {(y_proba_optimized >= 0.99).sum()} observations")


---

## 23. Interpr√©tabilit√© avec SHAP

### Pourquoi SHAP ?

SHAP (SHapley Additive exPlanations) est bas√© sur les **valeurs de Shapley** de la th√©orie des jeux :

- **Math√©matiquement juste** : Seule m√©thode qui respecte toutes les propri√©t√©s d'√©quit√© (efficacit√©, sym√©trie, lin√©arit√©, nullit√©)
- **Interpr√©table** : Chaque feature re√ßoit une "contribution" √† la pr√©diction
- **Global et local** : Permet de comprendre le mod√®le dans son ensemble ET chaque pr√©diction individuelle

### Types d'analyses

1. **Beeswarm Plot** (global) : Vue d'ensemble de l'importance de chaque feature
2. **Permutation Importance** (global) : Comparaison avec m√©thode sklearn
3. **Waterfall Plot** (local) : Explication d'une pr√©diction individuelle


In [None]:
# R√©cup√©rer le preprocessor et le classifier du meilleur mod√®le
preprocessor_fitted = best_model.named_steps["preprocessor"]
classifier_fitted = best_model.named_steps["classifier"]

# Transformer les donn√©es de test
X_test_transformed = preprocessor_fitted.transform(X_test)

# R√©cup√©rer les noms des features apr√®s transformation
# Note: get_feature_names_out() sans argument utilise les noms appris lors du fit
cat_feature_names = (
    preprocessor_fitted.named_transformers_["cat"].get_feature_names_out().tolist()
)
num_feature_names = numeric_cols.copy()
all_feature_names = num_feature_names + cat_feature_names

print(f"Nombre de features apr√®s transformation: {len(all_feature_names)}")
print(f"   - Features num√©riques: {len(num_feature_names)}")
print(f"   - Features cat√©gorielles (apr√®s OHE): {len(cat_feature_names)}")

In [None]:
print("Calcul des SHAP values (TreeExplainer pour LightGBM)...")

# TreeExplainer est optimis√© pour les mod√®les √† base d'arbres
explainer = shap.TreeExplainer(classifier_fitted)
shap_values = explainer.shap_values(X_test_transformed)

# Pour classification binaire, shap_values peut √™tre une liste [classe_0, classe_1]
if isinstance(shap_values, list):
    shap_values = shap_values[1]  # On prend la classe positive (Parti)

print("SHAP values calcul√©es")
print(f"   Shape: {shap_values.shape}")

### 23.1 Feature Importance Globale - Beeswarm Plot

Le **Beeswarm Plot** montre :

- **Axe Y** : Les features tri√©es par importance
- **Axe X** : L'impact sur la pr√©diction (SHAP value)
- **Couleur** : La valeur de la feature (rouge = √©lev√©e, bleu = basse)


In [None]:
print("SHAP BEESWARM PLOT - IMPORTANCE GLOBALE")

# Cr√©er un DataFrame avec les noms de features
X_test_df = pd.DataFrame(X_test_transformed, columns=all_feature_names)

plt.figure(figsize=(12, 10))
shap.summary_plot(shap_values, X_test_df, plot_type="dot", show=False, max_display=20)
plt.title(
    "SHAP Beeswarm Plot - Impact des features sur la probabilit√© de d√©part",
    fontsize=12,
    fontweight="bold",
)
plt.tight_layout()
plt.show()

print("\nInterpr√©tation:")
print("   - Plus une feature est haute, plus elle impacte la pr√©diction")
print("   - Rouge = valeur √©lev√©e de la feature, Bleu = valeur basse")
print("   - Points √† droite = augmentent la probabilit√© de d√©part")
print("   - Points √† gauche = diminuent la probabilit√© de d√©part")

### 23.2 Feature Importance Locale - Waterfall Plot

Le **Waterfall Plot** explique UNE pr√©diction individuelle :

- Comment chaque feature a contribu√© √† passer de la valeur de base (moyenne) √† la pr√©diction finale
- Utile pour expliquer une d√©cision √† un manager RH


In [None]:
# Trouver des exemples int√©ressants
# 1. Un employ√© pr√©dit comme "Parti" avec haute confiance (y_pred=1, proba √©lev√©e)
# 2. Un employ√© pr√©dit comme "Rest√©" avec haute confiance

y_pred_test = best_model.predict(X_test)

# Indices des vrais positifs (Parti correctement pr√©dit)
true_positives = np.where((y_test == 1) & (y_pred_test == 1))[0]
# Indices des vrais n√©gatifs (Rest√© correctement pr√©dit)
true_negatives = np.where((y_test == 0) & (y_pred_test == 0))[0]

print("\nExemples disponibles:")
print(f"   Vrais Positifs (Parti bien pr√©dit): {len(true_positives)}")
print(f"   Vrais N√©gatifs (Rest√© bien pr√©dit): {len(true_negatives)}")

# Cr√©er un objet Explanation pour les waterfall plots
explanation = shap.Explanation(
    values=shap_values,
    base_values=np.full(
        len(shap_values),
        explainer.expected_value
        if not hasattr(explainer.expected_value, "__len__")
        else explainer.expected_value[1],
    ),
    data=X_test_transformed,
    feature_names=all_feature_names,
)

In [None]:
# 29.7 Waterfall - Exemple d'un employ√© "Parti" (classe 1)
if len(true_positives) > 0:
    idx_parti = true_positives[0]
    proba_parti = y_proba_optimized[idx_parti]

    print("\nEXEMPLE 1: Employ√© PARTI (correctement pr√©dit)")
    print(f"   Index: {idx_parti}")
    print(f"   Probabilit√© de d√©part: {proba_parti:.3f}")
    print("-" * 60)

    plt.figure(figsize=(12, 8))
    shap.plots.waterfall(explanation[idx_parti], max_display=15, show=False)
    plt.title(
        f"Waterfall Plot - Employ√© Parti (proba={proba_parti:.3f})",
        fontsize=12,
        fontweight="bold",
    )
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Aucun vrai positif trouv√©")

---

## Synth√®se Partie 5 : Fine-tuning et Interpr√©tabilit√©

### Comparaison des mod√®les (test set)

| Mod√®le | class_weight | Recall | Precision | F1 | ROC-AUC | Proba Range |
|--------|--------------|--------|-----------|-----|---------|-------------|
| Random Forest | None | 0.064 | 0.375 | 0.109 | 0.782 | [0.00, 0.88] |
| Random Forest | balanced | 0.085 | 0.444 | 0.143 | 0.797 | [0.00, 0.81] |
| LightGBM | None | 0.234 | 0.550 | 0.328 | 0.786 | [0.00, 0.99] |
| LightGBM | balanced | 0.298 | 0.424 | 0.350 | 0.798 | [0.00, 1.00] |
| **LightGBM (GridSearchCV)** | **balanced** | **0.511** | **0.436** | **0.471** | **0.800** | **[0.00, 1.00]** |

### üîß Meilleurs hyperparam√®tres (GridSearchCV)

```
learning_rate: 0.1
max_depth: 3
n_estimators: 200
num_leaves: 15
class_weight: balanced
```

### Observations cl√©s

1. **class_weight='balanced'** am√©liore le recall de +27% (RF: 0.064‚Üí0.085, LGB: 0.234‚Üí0.298)
2. **LightGBM surpasse Random Forest** : F1 de 0.350 vs 0.143 (avec balanced)
3. **GridSearchCV** am√©liore le recall de 0.298 √† **0.511** (+71%)
4. **Probabilit√©s calibr√©es** : apr√®s calibration, les probabilit√©s atteignent 1.0 (vs 0.99 avant)

### SHAP - Top 5 Features les plus impactantes

1. **heure_supplementaires_Oui** - Faire des heures sup **augmente fortement** le risque de d√©part
2. **revenu_mensuel** - Un salaire **bas** augmente le risque de d√©part
3. **satisfaction_employee_equilibre_pro_perso** - Faible √©quilibre vie pro/perso ‚Üí risque accru
4. **annes_sous_responsable_actuel** - Peu d'ann√©es sous le m√™me manager ‚Üí risque accru
5. **nombre_participation_pee** - Faible participation au PEE ‚Üí risque accru

### Comparaison SHAP vs Permutation Importance

**5 features communes dans le Top 10** des deux m√©thodes :
- `heure_supplementaires_Oui`
- `satisfaction_employee_equilibre_pro_perso`
- `frequence_deplacement_Frequent`
- `nombre_participation_pee`
- `annes_sous_responsable_actuel`

**Pourquoi SHAP ?** SHAP est bas√© sur les **valeurs de Shapley** issues de la th√©orie des jeux. Il garantit une r√©partition **√©quitable et math√©matiquement juste** de la contribution de chaque feature √† la pr√©diction, contrairement √† d'autres m√©thodes d'interpr√©tabilit√©.

### Recommandations m√©tier pour TechNova Partners

1. **Heures suppl√©mentaires** : Mettre en place un suivi strict et limiter les heures sup r√©currentes
2. **Politique salariale** : R√©viser les grilles de salaires pour les employ√©s sous-pay√©s
3. **√âquilibre vie pro/perso** : Proposer du t√©l√©travail, horaires flexibles
4. **Stabilit√© manag√©riale** : Accompagner les changements de responsable
5. **Engagement financier** : Promouvoir le Plan √âpargne Entreprise (PEE)

### Conclusion g√©n√©rale

Le mod√®le **LightGBM optimis√©** permet de :
- **Identifier** les employ√©s √† risque de d√©part avec un **Recall de 51.1%** (seuil par d√©faut)
- **Comprendre** les facteurs de d√©part gr√¢ce √† **SHAP** (heures sup, salaire, √©quilibre pro/perso)
- **Prioriser** les actions RH avec des **probabilit√©s calibr√©es** (range 0-100%)
- **Am√©lioration potentielle** : ajuster le seuil de d√©cision pour augmenter le recall si n√©cessaire

---
