# Analyse des causes d'attrition chez TechNova Partners
## √âtape 3 : Feature Engineering - Pr√©paration des donn√©es pour la mod√©lisation

**Objectif** : Pr√©parer les donn√©es (X et y) pour l'entra√Ænement de mod√®les de Machine Learning

## 1. Importation des biblioth√®ques

In [1]:
# 1. Importation des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import shap

#biblioth√®que Python
from sklearn.preprocessing import OneHotEncoder

# Configuration
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

ModuleNotFoundError: No module named 'shap'

## 2. Chargement du Dataset de l'analyse Exploratoire.

In [None]:
# 2. Chargement des donn√©es compl√®tes
df = pd.read_csv('data_complete.csv')

print(f"üìä Dataset charg√© : {df.shape[0]} lignes, {df.shape[1]} colonnes")
df.info()

#### 2.1 Affichage de variables quantitatives et qualitatives

In [None]:
variables_quantitatives =df.select_dtypes(include=['int64', 'float64']).columns.tolist()
variables_qualitatives = df.select_dtypes(include=['object']).columns.tolist()

print("üî¢ VARIABLES QUANTITATIVES (num√©riques) :\n")
for i, col in enumerate(variables_quantitatives, 1):
    print(f"{i:2d}. {col}")

print(f"\nüìù VARIABLES QUALITATIVES (cat√©gorielles) :\n")
for i, col in enumerate(variables_qualitatives, 1):
    print(f"{i:2d}. {col}")

## 3 .Encoding des variables qualitative , methode : OneHotEncoder

### 3.1 Analyse des variables cat√©gorielles

In [None]:
print("="*80)
print("√âTAPE 1 : ANALYSE DES VARIABLES CAT√âGORIELLES")
print("="*80)

# Lister toutes les variables cat√©gorielles (object)
variables_qualitatives = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nüìù Variables cat√©gorielles d√©tect√©es : {len(variables_qualitatives)}\n")

# Analyser chaque variable
for col in variables_qualitatives:
    print(f"\n{'='*70}")
    print(f"üìå Variable : {col}")
    print(f"{'='*70}")
    
    # Valeurs uniques
    valeurs_uniques = df[col].dropna().unique()
    nb_valeurs = len(valeurs_uniques)
    
    print(f"Nombre de valeurs uniques : {nb_valeurs}")
    print(f"Valeurs : {list(valeurs_uniques)}")
    
    # Distribution
    print(f"\nDistribution :")
    distribution = df[col].value_counts()
    for val, count in distribution.items():
        pourcentage = (count / len(df)) * 100
        print(f"  - {val:30s} : {count:4d} ({pourcentage:5.2f}%)")
    
    # Valeurs manquantes
    nb_missing = df[col].isnull().sum()
    if nb_missing > 0:
        print(f"\n‚ö†Ô∏è  Valeurs manquantes : {nb_missing} ({(nb_missing/len(df)*100):.2f}%)")
    else :
        print("pas de valeurs manquantes sur l'ensemble de Dataset")

---

On a 8 variables cat√©gorielles.  
On observe aucune valeur aberrante.

---

### 3.2 Encodage des variables cat√©gorielles

#### a/ encodage de la variable 'ordre_deplacement' en OrdinaleEncoder

In [None]:
print("\n" + "="*80)
print("√âTAPE 2.2 : ENCODAGE DES VARIABLES ORDINALES")
print("="*80)

from sklearn.preprocessing import OrdinalEncoder

# D√©finir les ordres logiques pour chaque variable ordinale

# 1. Fr√©quence de d√©placement
ordre_deplacement = ['Aucun', 'Occasionnel', 'Frequent']

print("\nüìä Variables ordinales √† encoder :\n")
print("1. frequence_deplacement")
print(f"   Ordre : {' < '.join(ordre_deplacement)}")
print(f"   Encodage : {dict(zip(ordre_deplacement, range(len(ordre_deplacement))))}")


# V√©rifier que toutes les valeurs sont bien pr√©sentes
print("\nüîç V√©rification des valeurs :")
print(f"\nfrequence_deplacement - Valeurs dans les donn√©es :")
print(df['frequence_deplacement'].unique())


# Encoder fr√©quence de d√©placement
encoder_deplacement = OrdinalEncoder(categories=[ordre_deplacement])
df['frequence_deplacement_encoded'] = encoder_deplacement.fit_transform(
    df[['frequence_deplacement']]
).astype(int)


print("\n‚úÖ Encodage ordinal termin√© !")

#### b/ Encodage simple
Pour les variables qui ont 2 cat√©gories :
- genre
- heures suppl√©mentaire
- a_quitte_l_entreprise (variable cible)

In [None]:
# ============================================================================
# √âTAPE 2.4 : ENCODAGE DES VARIABLES BINAIRES
# ============================================================================

print("\n" + "="*80)
print("√âTAPE 2.4 : ENCODAGE DES VARIABLES BINAIRES")
print("="*80)

# 1. heure_supplementaires : Oui ‚Üí 1, Non ‚Üí 0
df['heure_supplementaires_encoded'] = (df['heure_supplementaires'] == 'Oui').astype(int)
df['target'] = (df['a_quitte_l_entreprise'] == 'Oui').astype(int)
df['genre_encoded'] = (df['genre'] == 'M').astype(int)

print("\n‚úÖ Variables binaires encod√©es :")
print(df[['heure_supplementaires', 'heure_supplementaires_encoded']].value_counts().sort_index())
print(df[['a_quitte_l_entreprise', 'target']].value_counts().sort_index())
print(df[['genre', 'genre_encoded']].value_counts().sort_index())

#### b/ Encodage des autres variables OneHotEncoder

In [None]:
print("\n" + "="*80)
print("√âTAPE 2.3 : ENCODAGE DES VARIABLES NOMINALES")
print("="*80)

# Variables nominales √† encoder
variables_nominales = [
    'statut_marital',
    'departement',
    'poste',
    'domaine_etude'
]

print(f"\nüìù Variables nominales √† encoder : {len(variables_nominales)}\n")
for var in variables_nominales:
    nb_categories = df[var].nunique()
    print(f"  - {var:25s} : {nb_categories} cat√©gories")

# Cr√©er l'encoder avec drop='first' pour √©viter la multicolin√©arit√©
encoder_nominal = OneHotEncoder(drop='first', sparse_output=False)

# Encoder
encoded_array = encoder_nominal.fit_transform(df[variables_nominales])

# R√©cup√©rer les noms des colonnes
feature_names = encoder_nominal.get_feature_names_out(variables_nominales)

# Cr√©er un DataFrame avec les variables encod√©es
df_encoded = pd.DataFrame(
    encoded_array, 
    columns=feature_names,
    index=df.index
)

print(f"\n‚úÖ OneHotEncoding termin√© !")
print(f"   Nombre de nouvelles colonnes cr√©√©es : {df_encoded.shape[1]}")
print(f"\nüìã Aper√ßu des colonnes cr√©√©es :")
for i, col in enumerate(df_encoded.columns, 1):
    print(f"  {i:2d}. {col}")

## 5. Cr√©ation de la variable cible

In [None]:
y = (df['target'])
reste = (y == 0).sum()
parti = (y == 1).sum()
pct_parti= parti/len(y)*100
pct_reste = reste/len(y)*100

print("\n‚úÖ Variable cible 'y' cr√©√©e avec succ√®s")
print(f"\nType : {type(y)}")
print(f"Shape : {y.shape}")
print(f"\nüìä Distribution de y :")
print(f"  - Rest√©s (0) : {pct_reste:.2f}%")
print(f"  - Partis (1) : {pct_parti:.2f}%")

---

On voit qu'il y a une disparit√© entre les valeurs de la Target avec une pr√©pond√©rance pour "rest√©s"

---

## 6. Analyse des variables QUANTITATIVES

### 6.1. Exclusion des features non utilis√©s

In [None]:
print("="*80)
print("√âTAPE 3 : CR√âATION DU DATAFRAME X")
print("="*80)

# 1. Lister les colonnes √† EXCLURE de X
colonnes_a_exclure = [
    'id_employee',                          # Identifiant (pas pr√©dictif)
    'a_quitte_l_entreprise',                # Variable cible
    
    # Variables cat√©gorielles ORIGINALES (avant encodage)
    'genre',
    'statut_marital',
    'departement',
    'poste',
    'domaine_etude',
    'heure_supplementaires',
    'frequence_deplacement',

    #la target
    'target',
]


print(f"\n‚ùå Colonnes √† EXCLURE de X ({len(colonnes_a_exclure)}) :")
for col in colonnes_a_exclure:
    print(f"   - {col}")

# 2. Cr√©er X en concat√©nant :
#    - Variables num√©riques (sauf celles √† exclure)
#    - Variables encod√©es (ordinales + nominales + binaires)

# Variables num√©riques √† garder
variables_numeriques = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
variables_numeriques_a_garder = [col for col in variables_numeriques 
                                  if col not in colonnes_a_exclure]

print(f"\n‚úÖ Variables NUM√âRIQUES √† garder ({len(variables_numeriques_a_garder)}) :")
for i, col in enumerate(variables_numeriques_a_garder, 1):
    print(f"  {i:2d}. {col}")

# Cr√©er X_numeriques
X_numeriques = df[variables_numeriques_a_garder]

print(f"\nüìä X_numeriques : {X_numeriques.shape}")

### 6.2. Fusion des features pour nouveau Dataset

In [None]:
# Concat√©ner toutes les features
X = pd.concat([
    X_numeriques,           # Variables num√©riques originales
    df_encoded,             # Variables nominales encod√©es (OneHot)
], axis=1)

print(f"\n‚úÖ DataFrame X cr√©√© avec succ√®s !")
print(f"\nüìä Dimensions de X : {X.shape}")
print(f"   - {X.shape[0]} lignes (employ√©s)")
print(f"   - {X.shape[1]} colonnes (features)")

display(X.columns.tolist()) 
print("="*80)


---

On a bien exclus les features cat√©gorielles originales et la target

---

## 7. Matrice de Corr√©lation de Pearson

In [None]:
# ============================================================================
# √âTAPE 4.2 : VISUALISATION DE LA MATRICE DE CORR√âLATION
# ============================================================================

print("\n" + "="*80)
print("VISUALISATION DE LA MATRICE DE CORR√âLATION")
print("="*80)

correlation_matrix = X.corr(method='pearson')

# Cr√©er la heatmap
plt.figure(figsize=(20, 16))
sns.heatmap(
    correlation_matrix, 
    annot=False,           # Pas d'annotation (trop de features)
    fmt='.2f', 
    cmap='RdYlBu_r',       # Rouge = corr√©lation positive, Bleu = n√©gative
    center=0,              # Centre sur 0
    square=True, 
    linewidths=0.5,
    cbar_kws={"shrink": 0.8}
)
plt.title('Matrice de corr√©lation de Pearson (toutes les features)', 
          fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()

print("\nüí° Interpr√©tation des couleurs :")
print("   üî¥ Rouge fonc√©   : Corr√©lation positive forte (proche de +1)")
print("   üîµ Bleu fonc√©    : Corr√©lation n√©gative forte (proche de -1)")
print("   ‚ö™ Blanc/Jaune   : Pas de corr√©lation (proche de 0)")

In [None]:
correlation_spearman = X.corr(method='spearman')
plt.figure(figsize=(20, 16))
sns.heatmap(
    correlation_spearman, 
    annot=True,           # Afficher les valeurs
    fmt='.2f',            # Format 2 d√©cimales
    cmap='coolwarm',      # Palette de couleurs (bleu=n√©gatif, rouge=positif)
    center=0,             # Centrer sur 0
    vmin=-1, vmax=1,      # √âchelle de -1 √† 1
    square=True,          # Cases carr√©es
    linewidths=0.5,       # Lignes entre cases
    cbar_kws={"shrink": 0.8}  # Taille de la barre de couleur
)
plt.title('Matrice de Corr√©lation de Spearman', fontsize=16, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(rotation=0, fontsize=10)
plt.tight_layout()
plt.show()

### identification des corr√©lations fortes

In [None]:
# ============================================================================
# √âTAPE 4.3 : IDENTIFICATION DES CORR√âLATIONS FORTES
# ============================================================================

print("\n" + "="*80)
print("IDENTIFICATION DES PAIRES FORTEMENT CORR√âL√âES")
print("="*80)

# Seuil de corr√©lation √† consid√©rer comme "forte"
seuil = 0.7

# Trouver les paires de features fortement corr√©l√©es
correlations_fortes = []

for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        
        if abs(corr_value) >= seuil:
            correlations_fortes.append({
                'Feature_1': correlation_matrix.columns[i],
                'Feature_2': correlation_matrix.columns[j],
                'Correlation': corr_value
            })

# Cr√©er un DataFrame pour affichage
df_corr_fortes = pd.DataFrame(correlations_fortes)

if len(df_corr_fortes) > 0:
    # Trier par valeur absolue de corr√©lation (d√©croissant)
    df_corr_fortes['Abs_Correlation'] = df_corr_fortes['Correlation'].abs()
    df_corr_fortes = df_corr_fortes.sort_values('Abs_Correlation', ascending=False)
    
    print(f"\n‚ö†Ô∏è  {len(df_corr_fortes)} paires de features avec corr√©lation ‚â• {seuil} :\n")
    print("="*80)
    
    
    # Afficher le DataFrame
    display(df_corr_fortes[['Feature_1', 'Feature_2', 'Correlation']].reset_index(drop=True))
    
else:
    print(f"\n‚úÖ Aucune paire de features avec corr√©lation ‚â• {seuil}")
    print("   ‚Üí Pas de multicolin√©arit√© importante d√©tect√©e !")

### analyse des corr√©lations moyennes

In [None]:
# ============================================================================
# √âTAPE 4.4 : CORR√âLATIONS MOYENNES (seuil 0.5 - 0.8)
# ============================================================================

print("\n" + "="*80)
print("CORR√âLATIONS MOYENNES (0.5 ‚â§ |r| < 0.8)")
print("="*80)

# Trouver les paires avec corr√©lation moyenne
seuil_min = 0.5
seuil_max = 0.8

correlations_moyennes = []

for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        
        if seuil_min <= abs(corr_value) < seuil_max:
            correlations_moyennes.append({
                'Feature_1': correlation_matrix.columns[i],
                'Feature_2': correlation_matrix.columns[j],
                'Correlation': corr_value
            })

df_corr_moyennes = pd.DataFrame(correlations_moyennes)

if len(df_corr_moyennes) > 0:
    df_corr_moyennes['Abs_Correlation'] = df_corr_moyennes['Correlation'].abs()
    df_corr_moyennes = df_corr_moyennes.sort_values('Abs_Correlation', ascending=False)
    
    print(f"\nüìä {len(df_corr_moyennes)} paires avec corr√©lation moyenne ({seuil_min} ‚â§ |r| < {seuil_max})")
    
    # Afficher les 10 plus fortes
    print(f"\nüîù Top 10 des corr√©lations moyennes les plus fortes :")
    print("="*80)
    display(df_corr_moyennes[['Feature_1', 'Feature_2', 'Correlation']].head(10).reset_index(drop=True))
else:
    print(f"\n‚úÖ Aucune corr√©lation moyenne d√©tect√©e")

## 8. Mod√©lisation

In [None]:
# ============================================================================
# √âTAPE 3.1 : S√âPARATION TRAIN/TEST
# ============================================================================

from sklearn.model_selection import train_test_split
import pandas as pd

print("="*80)
print("√âTAPE 3.1 : S√âPARATION TRAIN/TEST")
print("="*80)

# V√©rifier qu'on a bien X et y
print(f"\nüìä V√©rification des donn√©es :")
print(f"  ‚Ä¢ X (features) : {X.shape}")
print(f"  ‚Ä¢ y (target) : {y.shape}")
print(f"  ‚Ä¢ M√™me nombre de lignes ? {X.shape[0] == y.shape[0]} ‚úì")

# Distribution de y
print(f"\nüìä Distribution de la variable cible y :")
print(y.value_counts())
print(f"\n  ‚Ä¢ Classe 0 (Rest√©s) : {(y==0).sum()} employ√©s ({(y==0).sum()/len(y)*100:.2f}%)")
print(f"  ‚Ä¢ Classe 1 (Partis) : {(y==1).sum()} employ√©s ({(y==1).sum()/len(y)*100:.2f}%)")

ratio_desequilibre = (y==0).sum() / (y==1).sum()
print(f"  ‚Ä¢ Ratio de d√©s√©quilibre : {ratio_desequilibre:.1f}:1")

# S√©paration train/test
print(f"\n‚è≥ S√©paration des donn√©es en cours...")
print(f"  ‚Ä¢ 80% pour l'entra√Ænement (TRAIN)")
print(f"  ‚Ä¢ 20% pour le test (TEST)")
print(f"  ‚Ä¢ Stratification : OUI (pour garder les m√™mes proportions)")

X_train, X_test, y_train, y_test = train_test_split(
    X,                      # Features
    y,                      # Target
    test_size=0.2,          # 20% pour le test
    random_state=42,        # Pour la reproductibilit√©
    stratify=y              # IMPORTANT : garde la m√™me proportion 0/1
)

print("\n‚úÖ S√©paration effectu√©e avec succ√®s !")

# Afficher les dimensions
print(f"\nüìä Dimensions des jeux de donn√©es :")
print(f"{'‚îÄ'*80}")
print(f"  JEU D'ENTRA√éNEMENT (TRAIN) :")
print(f"    ‚Ä¢ X_train : {X_train.shape} ‚Üí {X_train.shape[0]} employ√©s, {X_train.shape[1]} features")
print(f"    ‚Ä¢ y_train : {y_train.shape}")
print(f"\n  JEU DE TEST (TEST) :")
print(f"    ‚Ä¢ X_test  : {X_test.shape} ‚Üí {X_test.shape[0]} employ√©s, {X_test.shape[1]} features")
print(f"    ‚Ä¢ y_test  : {y_test.shape}")

# V√©rifier la stratification (tr√®s important !)
print(f"\n‚úÖ V√©rification de la STRATIFICATION :")
print(f"{'‚îÄ'*80}")

print(f"\n  TRAIN :")
print(f"    ‚Ä¢ Rest√©s (0) : {(y_train==0).sum()} ({(y_train==0).sum()/len(y_train)*100:.2f}%)")
print(f"    ‚Ä¢ Partis (1) : {(y_train==1).sum()} ({(y_train==1).sum()/len(y_train)*100:.2f}%)")

print(f"\n  TEST :")
print(f"    ‚Ä¢ Rest√©s (0) : {(y_test==0).sum()} ({(y_test==0).sum()/len(y_test)*100:.2f}%)")
print(f"    ‚Ä¢ Partis (1) : {(y_test==1).sum()} ({(y_test==1).sum()/len(y_test)*100:.2f}%)")

print(f"\n  ORIGINAL :")
print(f"    ‚Ä¢ Rest√©s (0) : {(y==0).sum()} ({(y==0).sum()/len(y)*100:.2f}%)")
print(f"    ‚Ä¢ Partis (1) : {(y==1).sum()} ({(y==1).sum()/len(y)*100:.2f}%)")

print(f"\nüí° Les proportions sont identiques dans train, test et original ‚Üí Stratification OK !")

print(f"\n" + "="*80)
print("‚úÖ √âTAPE 3.1 TERMIN√âE : Donn√©es pr√™tes pour la mod√©lisation")
print("="*80)

In [None]:
# ============================================================================
# PIPELINE COMPLET : TEST DE PLUSIEURS MOD√àLES
# ============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (
    accuracy_score, precision_score, recall_score, f1_score,
    confusion_matrix, classification_report, roc_auc_score
)
import warnings
warnings.filterwarnings('ignore')

print("="*80)
print("PIPELINE DE MOD√âLISATION - TEST DE PLUSIEURS ALGORITHMES")
print("="*80)

# ============================================================================
# 1. D√âFINIR LES MOD√àLES √Ä TESTER
# ============================================================================

print("\nüìã Mod√®les √† tester :")
print("‚îÄ"*80)

modeles = {
    'Dummy (Baseline)': DummyClassifier(strategy='most_frequent', random_state=42),
    'Logistic Regression': LogisticRegression(max_iter=1000, random_state=42),
    'Decision Tree': DecisionTreeClassifier(max_depth=10, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42),
}

for i, nom in enumerate(modeles.keys(), 1):
    print(f"  {i}. {nom}")

print(f"\n‚úÖ Total : {len(modeles)} mod√®les")

# ============================================================================
# 2. ENTRA√éNER ET √âVALUER TOUS LES MOD√àLES
# ============================================================================

print("\n" + "="*80)
print("ENTRA√éNEMENT ET √âVALUATION DES MOD√àLES")
print("="*80)

resultats = []
matrices_confusion = {}
predictions = {}

for nom_modele, modele in modeles.items():
    print(f"\n{'‚îÄ'*80}")
    print(f"üîÑ Mod√®le en cours : {nom_modele}")
    print(f"{'‚îÄ'*80}")
    
    # Entra√Ænement
    print("  ‚è≥ Entra√Ænement...")
    modele.fit(X_train, y_train)
    print("  ‚úÖ Entra√Æn√©")
    
    # Pr√©dictions
    print("  ‚è≥ Pr√©dictions...")
    y_pred_train = modele.predict(X_train)
    y_pred_test = modele.predict(X_test)
    
    # Probabilit√©s (pour ROC-AUC)
    try:
        y_proba_test = modele.predict_proba(X_test)[:, 1]
    except:
        y_proba_test = y_pred_test  # Pour Dummy qui n'a pas predict_proba
    
    # M√©triques sur TRAIN
    acc_train = accuracy_score(y_train, y_pred_train)
    
    # M√©triques sur TEST
    acc_test = accuracy_score(y_test, y_pred_test)
    precision_test = precision_score(y_test, y_pred_test, zero_division=0)
    recall_test = recall_score(y_test, y_pred_test, zero_division=0)
    f1_test = f1_score(y_test, y_pred_test, zero_division=0)
    
    try:
        roc_auc_test = roc_auc_score(y_test, y_proba_test)
    except:
        roc_auc_test = 0.5  # Score al√©atoire pour Dummy
    
    # Matrice de confusion
    cm = confusion_matrix(y_test, y_pred_test)
    matrices_confusion[nom_modele] = cm
    predictions[nom_modele] = y_pred_test
    
    # Calculer overfitting
    overfitting = acc_train - acc_test
    
    # Stocker les r√©sultats
    resultats.append({
        'Mod√®le': nom_modele,
        'Accuracy_train': acc_train,
        'Accuracy_test': acc_test,
        'Precision': precision_test,
        'Recall': recall_test,
        'F1-Score': f1_test,
        'ROC-AUC': roc_auc_test,
        'Overfitting': overfitting
    })
    
    # Afficher r√©sum√©
    print(f"  ‚úÖ Termin√©")
    print(f"     ‚Ä¢ Accuracy (test) : {acc_test:.4f}")
    print(f"     ‚Ä¢ Recall (test) : {recall_test:.4f}")
    print(f"     ‚Ä¢ F1-Score (test) : {f1_test:.4f}")

print("\n" + "="*80)
print("‚úÖ TOUS LES MOD√àLES ONT √âT√â ENTRA√éN√âS ET √âVALU√âS")
print("="*80)

# ============================================================================
# 3. TABLEAU COMPARATIF DES PERFORMANCES
# ============================================================================

print("\n" + "="*80)
print("üìä TABLEAU COMPARATIF DES PERFORMANCES")
print("="*80)

df_resultats = pd.DataFrame(resultats)

# Trier par F1-Score (m√©trique √©quilibr√©e)
df_resultats = df_resultats.sort_values('F1-Score', ascending=False)

print("\n" + df_resultats.to_string(index=False))

# Identifier le meilleur mod√®le
meilleur_modele = df_resultats.iloc[0]['Mod√®le']
print(f"\nüèÜ MEILLEUR MOD√àLE (F1-Score) : {meilleur_modele}")

# Identifier le mod√®le avec le meilleur Recall
df_resultats_recall = df_resultats.sort_values('Recall', ascending=False)
meilleur_recall = df_resultats_recall.iloc[0]['Mod√®le']
print(f"üéØ MEILLEUR RECALL : {meilleur_recall} (Recall = {df_resultats_recall.iloc[0]['Recall']:.4f})")

# ============================================================================
# 4. VISUALISATIONS
# ============================================================================

print("\n" + "="*80)
print("üìä G√âN√âRATION DES VISUALISATIONS")
print("="*80)

# GRAPHIQUE 1 : Comparaison des m√©triques principales
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Accuracy
df_resultats.plot(x='Mod√®le', y='Accuracy_test', kind='barh', ax=axes[0, 0], 
                  color='steelblue', legend=False)
axes[0, 0].set_title('Accuracy (Test)', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Score', fontsize=12)
axes[0, 0].grid(axis='x', alpha=0.3)

# Precision
df_resultats.plot(x='Mod√®le', y='Precision', kind='barh', ax=axes[0, 1], 
                  color='green', legend=False)
axes[0, 1].set_title('Precision (Test)', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Score', fontsize=12)
axes[0, 1].grid(axis='x', alpha=0.3)

# Recall
df_resultats.plot(x='Mod√®le', y='Recall', kind='barh', ax=axes[1, 0], 
                  color='orange', legend=False)
axes[1, 0].set_title('Recall (Test) - D√©tection des d√©parts', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Score', fontsize=12)
axes[1, 0].grid(axis='x', alpha=0.3)

# F1-Score
df_resultats.plot(x='Mod√®le', y='F1-Score', kind='barh', ax=axes[1, 1], 
                  color='purple', legend=False)
axes[1, 1].set_title('F1-Score (Test)', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Score', fontsize=12)
axes[1, 1].grid(axis='x', alpha=0.3)

plt.suptitle('Comparaison des performances des mod√®les', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.show()

print("‚úÖ Graphique 1/3 : M√©triques principales")

# GRAPHIQUE 2 : Overfitting (Train vs Test)
fig, ax = plt.subplots(figsize=(12, 6))

x = np.arange(len(df_resultats))
width = 0.35

bars1 = ax.bar(x - width/2, df_resultats['Accuracy_train'], width, 
               label='Train', color='lightblue', edgecolor='black')
bars2 = ax.bar(x + width/2, df_resultats['Accuracy_test'], width, 
               label='Test', color='coral', edgecolor='black')

ax.set_xlabel('Mod√®les', fontsize=12)
ax.set_ylabel('Accuracy', fontsize=12)
ax.set_title('Overfitting : Accuracy Train vs Test', fontsize=14, fontweight='bold')
ax.set_xticks(x)
ax.set_xticklabels(df_resultats['Mod√®le'], rotation=45, ha='right')
ax.legend()
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Graphique 2/3 : Overfitting (Train vs Test)")

# GRAPHIQUE 3 : Matrices de confusion
n_modeles = len(modeles)
n_cols = 3
n_rows = (n_modeles + n_cols - 1) // n_cols

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 5*n_rows))
axes = axes.flatten()

for idx, (nom_modele, cm) in enumerate(matrices_confusion.items()):
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                ax=axes[idx], cbar=False,
                xticklabels=['Rest√©', 'Parti'],
                yticklabels=['Rest√©', 'Parti'])
    axes[idx].set_title(f'{nom_modele}', fontsize=12, fontweight='bold')
    axes[idx].set_xlabel('Pr√©dit', fontsize=10)
    axes[idx].set_ylabel('R√©el', fontsize=10)

# Masquer les subplots vides
for idx in range(len(modeles), len(axes)):
    axes[idx].axis('off')

plt.suptitle('Matrices de confusion - Tous les mod√®les', 
             fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.show()

print("‚úÖ Graphique 3/3 : Matrices de confusion")

# ============================================================================
# 5. ANALYSE D√âTAILL√âE DU MEILLEUR MOD√àLE
# ============================================================================

print("\n" + "="*80)
print(f"üèÜ ANALYSE D√âTAILL√âE : {meilleur_modele}")
print("="*80)

# Retrouver les pr√©dictions du meilleur mod√®le
y_pred_best = predictions[meilleur_modele]
cm_best = matrices_confusion[meilleur_modele]

# Classification report
print("\nüìã Classification Report :")
print("‚îÄ"*80)
print(classification_report(y_test, y_pred_best, 
                          target_names=['Rest√© (0)', 'Parti (1)'],
                          digits=4))

# D√©tail de la matrice de confusion
print("üìä Matrice de confusion d√©taill√©e :")
print("‚îÄ"*80)
print(f"  TN (Rest√©s bien pr√©dits) : {cm_best[0,0]}")
print(f"  FP (Fausses alertes) : {cm_best[0,1]}")
print(f"  FN (D√©parts manqu√©s) : {cm_best[1,0]}")
print(f"  TP (D√©parts d√©tect√©s) : {cm_best[1,1]}")

# Interpr√©tation m√©tier
meilleur_row = df_resultats[df_resultats['Mod√®le'] == meilleur_modele].iloc[0]

print("\n" + "="*80)
print("üí° INTERPR√âTATION POUR TECHNOVA")
print("="*80)

print(f"\n‚úÖ Le mod√®le {meilleur_modele} est le plus performant :")
print(f"   ‚Ä¢ F1-Score : {meilleur_row['F1-Score']:.2%}")
print(f"   ‚Ä¢ Recall : {meilleur_row['Recall']:.2%} ‚Üí D√©tecte {meilleur_row['Recall']:.0%} des d√©parts")
print(f"   ‚Ä¢ Precision : {meilleur_row['Precision']:.2%} ‚Üí {meilleur_row['Precision']:.0%} des alertes sont vraies")

print(f"\nüìä Sur {(y_test==1).sum()} employ√©s qui sont partis :")
print(f"   ‚Ä¢ {cm_best[1,1]} ont √©t√© D√âTECT√âS (TP)")
print(f"   ‚Ä¢ {cm_best[1,0]} ont √©t√© MANQU√âS (FN)")

print(f"\n‚ö†Ô∏è  Overfitting : {meilleur_row['Overfitting']:.4f}")
if meilleur_row['Overfitting'] > 0.1:
    print("     ‚Üí Attention : le mod√®le surappprend sur les donn√©es d'entra√Ænement")
else:
    print("     ‚Üí OK : le mod√®le g√©n√©ralise bien")

print("\n" + "="*80)
print("‚úÖ PIPELINE TERMIN√â")
print("="*80)

# ============================================================================
# 6. SAUVEGARDE DES R√âSULTATS
# ============================================================================

print("\nüíæ Sauvegarde des r√©sultats...")

# Sauvegarder le DataFrame des r√©sultats
df_resultats.to_csv('resultats_modeles.csv', index=False)
print("‚úÖ R√©sultats sauvegard√©s dans 'resultats_modeles.csv'")

print("\nüéØ PROCHAINES √âTAPES :")
print("  1. Optimiser le meilleur mod√®le (hyperparam√®tres)")
print("  2. G√©rer le d√©s√©quilibre des classes (class_weight, SMOTE)")
print("  3. Utiliser SHAP pour l'interpr√©tabilit√©")

### 8.1 optimisation avec le Recall

In [None]:
# ============================================================================
# √âTAPE 4.1 : OPTIMISATION AVEC CLASS_WEIGHT
# ============================================================================

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, recall_score, f1_score

print("="*80)
print("√âTAPE 4.1 : OPTIMISATION - GESTION DU D√âS√âQUILIBRE")
print("="*80)

print("\nüí° Probl√®me actuel :")
print("  ‚Ä¢ Le mod√®le est d√©s√©quilibr√© : 84% rest√©s vs 16% partis")
print("  ‚Ä¢ Il favorise la classe majoritaire (Rest√©s)")
print("  ‚Ä¢ R√©sultat : bon Accuracy mais mauvais Recall")

print("\nüéØ Solution : class_weight='balanced'")
print("  ‚Ä¢ Donne plus d'importance √† la classe minoritaire (Partis)")
print("  ‚Ä¢ Force le mod√®le √† mieux d√©tecter les d√©parts")

# ============================================================================
# 1. LOGISTIC REGRESSION avec class_weight
# ============================================================================

print("\n" + "‚îÄ"*80)
print("üîÑ Mod√®le 1 : Logistic Regression + class_weight='balanced'")
print("‚îÄ"*80)

log_balanced = LogisticRegression(
    max_iter=1000, 
    random_state=42,
    class_weight='balanced'  # ‚Üê IMPORTANT
)

log_balanced.fit(X_train, y_train)
y_pred_log_balanced = log_balanced.predict(X_test)

print("\nüìä R√©sultats :")
print(classification_report(y_test, y_pred_log_balanced, 
                          target_names=['Rest√©', 'Parti']))

cm_log = confusion_matrix(y_test, y_pred_log_balanced)
print(f"\nMatrice de confusion :")
print(cm_log)
print(f"\n  TP (D√©parts d√©tect√©s) : {cm_log[1,1]}/{(y_test==1).sum()}")
print(f"  FN (D√©parts manqu√©s) : {cm_log[1,0]}/{(y_test==1).sum()}")

recall_log = recall_score(y_test, y_pred_log_balanced)
f1_log = f1_score(y_test, y_pred_log_balanced)
print(f"\n  ‚Üí Recall : {recall_log:.2%}")
print(f"  ‚Üí F1-Score : {f1_log:.2%}")

# ============================================================================
# 2. RANDOM FOREST avec class_weight
# ============================================================================

print("\n" + "‚îÄ"*80)
print("üîÑ Mod√®le 2 : Random Forest + class_weight='balanced'")
print("‚îÄ"*80)

rf_balanced = RandomForestClassifier(
    n_estimators=100,
    random_state=42,
    class_weight='balanced',  # ‚Üê IMPORTANT
    n_jobs=-1
)

rf_balanced.fit(X_train, y_train)
y_pred_rf_balanced = rf_balanced.predict(X_test)

print("\nüìä R√©sultats :")
print(classification_report(y_test, y_pred_rf_balanced, 
                          target_names=['Rest√©', 'Parti']))

cm_rf = confusion_matrix(y_test, y_pred_rf_balanced)
print(f"\nMatrice de confusion :")
print(cm_rf)
print(f"\n  TP (D√©parts d√©tect√©s) : {cm_rf[1,1]}/{(y_test==1).sum()}")
print(f"  FN (D√©parts manqu√©s) : {cm_rf[1,0]}/{(y_test==1).sum()}")

recall_rf = recall_score(y_test, y_pred_rf_balanced)
f1_rf = f1_score(y_test, y_pred_rf_balanced)
print(f"\n  ‚Üí Recall : {recall_rf:.2%}")
print(f"  ‚Üí F1-Score : {f1_rf:.2%}")

# ============================================================================
# 3. COMPARAISON AVANT/APR√àS
# ============================================================================

print("\n" + "="*80)
print("üìä COMPARAISON : AVANT vs APR√àS class_weight")
print("="*80)

resultats_comparaison = pd.DataFrame([
    {
        'Mod√®le': 'Logistic Regression (sans class_weight)',
        'Recall': 0.3830,  # Votre r√©sultat pr√©c√©dent
        'F1-Score': 0.5294,
        'TP': 18,
        'FN': 29
    },
    {
        'Mod√®le': 'Logistic Regression (AVEC class_weight)',
        'Recall': recall_log,
        'F1-Score': f1_log,
        'TP': cm_log[1,1],
        'FN': cm_log[1,0]
    },
    {
        'Mod√®le': 'Random Forest (AVEC class_weight)',
        'Recall': recall_rf,
        'F1-Score': f1_rf,
        'TP': cm_rf[1,1],
        'FN': cm_rf[1,0]
    }
])

print("\n" + resultats_comparaison.to_string(index=False))

# Identifier le meilleur
meilleur_idx = resultats_comparaison['Recall'].idxmax()
meilleur = resultats_comparaison.iloc[meilleur_idx]

print("\n" + "="*80)
print(f"üèÜ MEILLEUR MOD√àLE : {meilleur['Mod√®le']}")
print("="*80)
print(f"\n  ‚Ä¢ Recall : {meilleur['Recall']:.2%} ‚Üí D√©tecte {meilleur['Recall']:.0%} des d√©parts")
print(f"  ‚Ä¢ F1-Score : {meilleur['F1-Score']:.2%}")
print(f"  ‚Ä¢ D√©parts d√©tect√©s : {int(meilleur['TP'])}/{(y_test==1).sum()}")
print(f"  ‚Ä¢ D√©parts manqu√©s : {int(meilleur['FN'])}/{(y_test==1).sum()}")

gain_recall = meilleur['Recall'] - 0.3830
print(f"\n‚úÖ Gain de Recall : +{gain_recall:.1%} par rapport au mod√®le initial")
print(f"   ‚Üí {int(meilleur['TP']) - 18} d√©parts suppl√©mentaires d√©tect√©s !")

print("\n" + "="*80)
print("‚úÖ √âTAPE 4.1 TERMIN√âE")
print("="*80)

## 9. Les features importances

In [None]:
# ============================================================================
# √âTAPE 5 : FEATURE IMPORTANCE (VERSION SIMPLE - SANS SHAP)
# ============================================================================

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import recall_score, f1_score, accuracy_score

print("="*80)
print("√âTAPE 5 : INTERPR√âTABILIT√â - FEATURE IMPORTANCE")
print("="*80)

print("\nüí° Objectif : Identifier les CAUSES d'attrition chez TechNova")

# ============================================================================
# 1. MOD√àLE FINAL
# ============================================================================

print("\n" + "‚îÄ"*80)
print("üîÑ Entra√Ænement du mod√®le final")
print("‚îÄ"*80)

modele_final = LogisticRegression(
    max_iter=1000,
    random_state=42,
    class_weight='balanced'
)

modele_final.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√©")

# Performance
y_pred_final = modele_final.predict(X_test)
print(f"\nüìä Performance (TEST) :")
print(f"  ‚Ä¢ Accuracy : {accuracy_score(y_test, y_pred_final):.2%}")
print(f"  ‚Ä¢ Recall : {recall_score(y_test, y_pred_final):.2%}")
print(f"  ‚Ä¢ F1-Score : {f1_score(y_test, y_pred_final):.2%}")

# ============================================================================
# 2. FEATURE IMPORTANCE (COEFFICIENTS)
# ============================================================================

print("\n" + "="*80)
print("üìä ANALYSE DES COEFFICIENTS DU MOD√àLE")
print("="*80)

# Extraire les coefficients
coefficients = modele_final.coef_[0]

feature_importance = pd.DataFrame({
    'Feature': X_train.columns,
    'Coefficient': coefficients,
    'Abs_Coefficient': np.abs(coefficients)
}).sort_values('Abs_Coefficient', ascending=False)

# TOP 20
print("\nüîù TOP 20 features les plus importantes :")
print("‚îÄ"*80)

for idx, (i, row) in enumerate(feature_importance.head(20).iterrows(), 1):
    feature = row['Feature']
    coef = row['Coefficient']
    
    # Interpr√©tation
    if coef > 0:
        impact = "‚Üó AUGMENTE le risque de d√©part"
        emoji = "üî¥"
    else:
        impact = "‚Üò DIMINUE le risque de d√©part (PROT√àGE)"
        emoji = "üü¢"
    
    print(f"{idx:2d}. {feature[:50]:50s}")
    print(f"    Coefficient : {coef:+.4f}  {emoji} {impact}")
    print()

# ============================================================================
# 3. VISUALISATION
# ============================================================================

print("üìä G√©n√©ration des graphiques...")

# GRAPHIQUE 1 : TOP 20 coefficients
fig, axes = plt.subplots(1, 2, figsize=(18, 10))

# Graphique 1a : Tous les coefficients (positifs et n√©gatifs)
top_20 = feature_importance.head(20).sort_values('Coefficient')
colors = ['#e74c3c' if x > 0 else '#2ecc71' for x in top_20['Coefficient']]

axes[0].barh(range(len(top_20)), top_20['Coefficient'], 
             color=colors, edgecolor='black', linewidth=1)
axes[0].set_yticks(range(len(top_20)))
axes[0].set_yticklabels(top_20['Feature'], fontsize=9)
axes[0].set_xlabel('Coefficient', fontsize=12)
axes[0].set_title('TOP 20 Features - Impact sur l\'attrition\nüî¥ Rouge = Favorise d√©parts | üü¢ Vert = Prot√®ge contre d√©parts', 
                  fontsize=12, fontweight='bold')
axes[0].axvline(x=0, color='black', linestyle='-', linewidth=1.5)
axes[0].grid(axis='x', alpha=0.3)

# Graphique 1b : Importance absolue
top_20_abs = feature_importance.head(20).sort_values('Abs_Coefficient')
axes[1].barh(range(len(top_20_abs)), top_20_abs['Abs_Coefficient'], 
             color='steelblue', edgecolor='black', linewidth=1)
axes[1].set_yticks(range(len(top_20_abs)))
axes[1].set_yticklabels(top_20_abs['Feature'], fontsize=9)
axes[1].set_xlabel('Importance absolue', fontsize=12)
axes[1].set_title('TOP 20 Features - Importance globale\n(sans tenir compte du sens)', 
                  fontsize=12, fontweight='bold')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Graphique 1/2 : Feature Importance")

# GRAPHIQUE 2 : Distribution des coefficients
fig, ax = plt.subplots(figsize=(12, 6))

ax.hist(coefficients, bins=30, color='steelblue', edgecolor='black', alpha=0.7)
ax.axvline(x=0, color='red', linestyle='--', linewidth=2, label='Coefficient = 0')
ax.set_xlabel('Coefficient', fontsize=12)
ax.set_ylabel('Nombre de features', fontsize=12)
ax.set_title('Distribution des coefficients du mod√®le', fontsize=14, fontweight='bold')
ax.legend()
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("‚úÖ Graphique 2/2 : Distribution des coefficients")

# ============================================================================
# 4. INTERPR√âTATION M√âTIER
# ============================================================================

print("\n" + "="*80)
print("üíº INTERPR√âTATION M√âTIER POUR TECHNOVA")
print("="*80)

print("\nüéØ TOP 5 CAUSES D'ATTRITION :")
print("‚îÄ"*80)

top_5 = feature_importance.head(5)

for idx, (i, row) in enumerate(top_5.iterrows(), 1):
    feature = row['Feature']
    coef = row['Coefficient']
    
    print(f"\n{idx}. {feature}")
    print(f"   Coefficient : {coef:+.4f}")
    
    if coef > 0:
        print(f"   üí° Plus cette variable augmente, plus le risque de d√©part AUGMENTE")
        print(f"   üéØ Action RH : Surveiller/am√©liorer ce facteur")
    else:
        print(f"   üí° Plus cette variable augmente, plus le risque de d√©part DIMINUE")
        print(f"   üéØ Action RH : Renforcer ce facteur protecteur")

# Facteurs de risque vs protecteurs
facteurs_risque = feature_importance[feature_importance['Coefficient'] > 0].head(5)
facteurs_protection = feature_importance[feature_importance['Coefficient'] < 0].head(5)

print("\n" + "="*80)
print("üìã SYNTH√àSE POUR LES RH")
print("="*80)

print("\nüî¥ TOP 5 FACTEURS DE RISQUE (augmentent les d√©parts) :")
for idx, (i, row) in enumerate(facteurs_risque.iterrows(), 1):
    print(f"  {idx}. {row['Feature'][:50]} (coef: {row['Coefficient']:+.4f})")

print("\nüü¢ TOP 5 FACTEURS PROTECTEURS (r√©duisent les d√©parts) :")
for idx, (i, row) in enumerate(facteurs_protection.iterrows(), 1):
    print(f"  {idx}. {row['Feature'][:50]} (coef: {row['Coefficient']:+.4f})")

print("\n" + "="*80)
print("‚úÖ √âTAPE 5 TERMIN√âE")
print("="*80)

print("\nüéâ MISSION ACCOMPLIE !")
print("  ‚úÖ Mod√®le optimis√© : Recall de 68%")
print("  ‚úÖ Causes d'attrition identifi√©es")
print("  ‚úÖ Recommandations pour les RH")
print("\n‚è≠Ô∏è  Il ne reste plus que la pr√©sentation PowerPoint !")