In [None]:
# √âtape 1 & 2 - Analyse exploratoire + Score m√©tier (projet Home Credit)
# Objectif : analyser les donn√©es et cr√©er une fonction m√©tier pour √©valuer un mod√®le de scoring cr√©dit

# ----------------------
# IMPORT DES LIBRAIRIES
# ----------------------
import pandas as pd  # gestion des donn√©es
import numpy as np  # calculs num√©riques
import matplotlib.pyplot as plt  # visualisation simple
import seaborn as sns  # visualisation plus avanc√©e
import missingno as msno  # visualisation des valeurs manquantes
import warnings  # pour cacher les avertissements
from sklearn.model_selection import train_test_split  # d√©couper les donn√©es
from sklearn.linear_model import LogisticRegression  # mod√®le simple et interpr√©table
from sklearn.metrics import confusion_matrix  # √©valuer les erreurs de pr√©diction

warnings.filterwarnings('ignore')  # √©viter d'afficher les messages de warning inutiles

# -------------------------------------
# CHARGEMENT DES DONN√âES
# -------------------------------------
file_path = "//content/drive/MyDrive/Master AI Engineer/Colab Notebooks/Projet 4/application_train.csv"

# On essaie d'abord avec une virgule, sinon on essaye avec point-virgule
try:
    df = pd.read_csv(file_path, sep=",", encoding="utf-8", low_memory=False)
    if df.shape[1] == 1:
        raise ValueError("Colonnes mal s√©par√©es")
except:
    df = pd.read_csv(file_path, sep=";", encoding="utf-8", low_memory=False)

# -------------------------------------
# ANALYSE EXPLORATOIRE
# -------------------------------------
print("Aper√ßu des donn√©es :")
print(df.head())
print("\nDimensions :", df.shape)
print("\nTypes de donn√©es :")
print(df.dtypes.value_counts())
print("\nInfos d√©taill√©es :")
df.info()

# Valeurs manquantes
missing = df.isnull().mean().sort_values(ascending=False) * 100
missing = missing[missing > 0]
if not missing.empty:
    plt.figure(figsize=(10, 12))
    missing.plot(kind="barh", title="Pourcentage de valeurs manquantes par colonne")
    plt.xlabel("Pourcentage de valeurs manquantes")
    plt.tight_layout()
    plt.show()
else:
    print("Aucune valeur manquante d√©tect√©e.")

# Statistiques globales
print("\nStatistiques g√©n√©rales :")
print(df.describe().T)

# Distribution de la cible (TARGET)
if 'TARGET' in df.columns:
    plt.figure(figsize=(6, 4))
    df['TARGET'].value_counts(normalize=True).plot(kind='bar', color=['skyblue', 'salmon'])
    plt.title("R√©partition de la variable cible (TARGET)")
    plt.xlabel("0 = Bon client, 1 = Mauvais client")
    plt.ylabel("Proportion")
    plt.show()

# -------------------------------------
# FEATURE ENGINEERING - NOUVELLES VARIABLES
# -------------------------------------
print("\nCr√©ation de nouvelles variables :")
if {'AMT_CREDIT', 'AMT_INCOME_TOTAL'}.issubset(df.columns):
    df['CREDIT_INCOME_RATIO'] = df['AMT_CREDIT'] / df['AMT_INCOME_TOTAL']
    print("CREDIT_INCOME_RATIO ajout√©.")

if {'AMT_ANNUITY', 'AMT_INCOME_TOTAL'}.issubset(df.columns):
    df['ANNUITY_INCOME_RATIO'] = df['AMT_ANNUITY'] / df['AMT_INCOME_TOTAL']
    print("ANNUITY_INCOME_RATIO ajout√©.")

if {'DAYS_EMPLOYED', 'DAYS_BIRTH'}.issubset(df.columns):
    df['EMPLOYED_AGE_RATIO'] = df['DAYS_EMPLOYED'] / df['DAYS_BIRTH']
    print("EMPLOYED_AGE_RATIO ajout√©.")

# -------------------------------------
# CORR√âLATION AVEC LA CIBLE
# -------------------------------------
if 'TARGET' in df.columns:
    correlations = df.corr(numeric_only=True)['TARGET'].sort_values(ascending=False)
    print("\nTop 10 variables les plus corr√©l√©es positivement avec le d√©faut :")
    print(correlations.head(10))
    print("\nTop 10 variables les plus corr√©l√©es n√©gativement avec le d√©faut :")
    print(correlations.tail(10))

# -------------------------------------
# EXPLORATION DES VARIABLES CAT√âGORIELLES
# -------------------------------------
print("\nExploration des variables cat√©gorielles :")
cat_cols = df.select_dtypes(include='object').columns
for col in cat_cols:
    print(f"\n{col} :")
    print(df[col].value_counts(dropna=False).head())

# -------------------------------------
# √âTAPE 2 : SCORING M√âTIER ET SEUIL OPTIMAL
# -------------------------------------
# Nettoyage simple : suppression des NaN, s√©lection des colonnes num√©riques uniquement
# (pour simplifier, on ne conserve ici que les colonnes sans NaN pour ce premier test)

df_model = df.dropna()
features = ['AMT_INCOME_TOTAL', 'AMT_CREDIT', 'AMT_ANNUITY', 'CREDIT_INCOME_RATIO', 'ANNUITY_INCOME_RATIO', 'EMPLOYED_AGE_RATIO']
X = df_model[features]
y = df_model['TARGET']

# D√©coupage des donn√©es en 80% train / 20% test
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)

# Mod√®le de r√©gression logistique (mod√®le simple et interpr√©table)
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Pr√©diction des probabilit√©s pour le test
y_proba = model.predict_proba(X_test)[:, 1]  # on r√©cup√®re les probabilit√©s d'appartenir √† la classe 1

# ------------------
# Fonction de co√ªt m√©tier
# ------------------
def cout_metier(y_true, y_pred, cost_fn=10, cost_fp=1):
    """Calcule le co√ªt total en fonction du nombre de faux n√©gatifs et faux positifs"""
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
    return cost_fn * fn + cost_fp * fp

# ------------------
# Fonction pour trouver le meilleur seuil
# ------------------
def trouver_seuil_optimal(y_true, y_proba, seuils=np.arange(0.1, 0.9, 0.01), cost_fn=10, cost_fp=1):
    meilleur_seuil = None
    meilleur_cout = float('inf')

    for seuil in seuils:
        y_pred = (y_proba >= seuil).astype(int)
        cout = cout_metier(y_true, y_pred, cost_fn, cost_fp)
        if cout < meilleur_cout:
            meilleur_cout = cout
            meilleur_seuil = seuil

    return {"seuil": meilleur_seuil, "co√ªt": meilleur_cout}

# Application sur les r√©sultats
resultat = trouver_seuil_optimal(y_test, y_proba)
print(f"\n‚úÖ Seuil optimal = {resultat['seuil']:.2f}, co√ªt total = {resultat['co√ªt']}")

# Affichage graphique du co√ªt selon le seuil choisi
seuils = np.arange(0.1, 0.9, 0.01)
costs = [cout_metier(y_test, (y_proba >= s).astype(int)) for s in seuils]

plt.figure(figsize=(8, 4))
plt.plot(seuils, costs, label="Co√ªt m√©tier")
plt.axvline(resultat['seuil'], color='red', linestyle='--', label='Seuil optimal')
plt.xlabel("Seuil de classification")
plt.ylabel("Co√ªt total (pond√©r√©)")
plt.title("Optimisation du seuil de d√©cision")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# ‚úÖ Fin de l'√©tape 2 : mod√®le interpr√©table + seuil optimis√© selon le co√ªt m√©tier



# ---------------------------------------------------------------
# √âTAPE 3 ‚Äì Benchmark de mod√®les : R√©gression Logistique vs Random Forest
# Objectif : tester plusieurs mod√®les et les comparer en tenant compte :
# - du d√©s√©quilibre entre bons et mauvais clients
# - du co√ªt m√©tier (FN plus grave que FP)
# ---------------------------------------------------------------

# Import de biblioth√®ques suppl√©mentaires pour cette √©tape
from sklearn.ensemble import RandomForestClassifier  # un mod√®le plus complexe que la r√©gression
from sklearn.model_selection import cross_val_score  # pour faire de la validation crois√©e
from sklearn.pipeline import Pipeline  # permet d‚Äôencha√Æner plusieurs √©tapes dans un m√™me objet
from sklearn.preprocessing import StandardScaler  # pour normaliser les donn√©es
from sklearn.metrics import roc_auc_score, roc_curve  # m√©triques de performance
from imblearn.over_sampling import SMOTE  # technique pour √©quilibrer les classes
from imblearn.pipeline import Pipeline as ImbPipeline  # pipeline compatible avec SMOTE

# On refait un d√©coupage 80/20 pour bien s√©parer l'entra√Ænement et le test
# stratify permet de garder le m√™me % de mauvais clients dans chaque groupe
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.2, random_state=42)

# Liste des mod√®les qu'on veut comparer
# Un mod√®le simple (logistique) et un plus puissant (for√™t al√©atoire)
modeles = [
    ("R√©gression Logistique", LogisticRegression(max_iter=1000)),
    ("Random Forest", RandomForestClassifier(n_estimators=100, random_state=42))
]

# On pr√©pare une liste pour stocker les r√©sultats de chaque mod√®le
resultats = []

# On teste chaque mod√®le un par un
for nom_modele, modele in modeles:
    # On cr√©e un "pipeline" : c‚Äôest un encha√Ænement d‚Äô√©tapes automatiques
    # 1. StandardScaler : normalise les donn√©es (utile pour la r√©gression logistique)
    # 2. SMOTE : augmente artificiellement les exemples de mauvais clients (classe minoritaire)
    # 3. Le mod√®le choisi
    pipeline = ImbPipeline(steps=[
        ('scaler', StandardScaler()),
        ('smote', SMOTE(random_state=42)),
        ('model', modele)
    ])

    # On √©value la performance du mod√®le via une validation crois√©e (5 parties du jeu d'entra√Ænement)
    # Cela √©vite de tirer des conclusions trop h√¢tives sur un seul d√©coupage
    scores_auc = cross_val_score(pipeline, X_train, y_train, scoring='roc_auc', cv=5)
    moyenne_auc = np.mean(scores_auc)  # moyenne des AUC obtenues

    # On entra√Æne le pipeline sur tout le jeu d'entra√Ænement
    pipeline.fit(X_train, y_train)

    # On pr√©dit les probabilit√©s pour chaque client du jeu de test
    y_proba = pipeline.predict_proba(X_test)[:, 1]  # on garde la proba d‚Äô√™tre un mauvais client (classe 1)

    # On cherche le seuil de proba qui minimise notre score m√©tier (FN = 10x FP)
    resultat_seuil = trouver_seuil_optimal(y_test, y_proba)

    # On transforme les proba en pr√©diction 0 ou 1 avec le bon seuil
    y_pred = (y_proba >= resultat_seuil['seuil']).astype(int)

    # On mesure la qualit√© globale via l‚ÄôAUC (plus c‚Äôest proche de 1, mieux c‚Äôest)
    auc_test = roc_auc_score(y_test, y_proba)

    # On enregistre les r√©sultats
    resultats.append({
        "Mod√®le": nom_modele,
        "AUC Test": round(auc_test, 3),
        "Seuil M√©tier": round(resultat_seuil['seuil'], 2),
        "Co√ªt M√©tier": resultat_seuil['co√ªt']
    })

# On affiche un tableau r√©capitulatif des performances
resultats_df = pd.DataFrame(resultats)
print("\nüìä R√©sum√© des performances par mod√®le :")
print(resultats_df)

# BONUS : on trace la courbe ROC pour le meilleur mod√®le (ici Random Forest)
# ROC = Receiver Operating Characteristic
# C‚Äôest une courbe qui montre le compromis entre :
# - vrai positifs (clients mal class√©s d√©tect√©s)
# - faux positifs (bons clients √† qui on refuse √† tort)
# 3. On r√©entra√Æne un mod√®le Random Forest sur tout l'ensemble d'entra√Ænement pour l'analyse SHAP
# On enl√®ve StandardScaler ici car RandomForest n'en a pas besoin
best_model = RandomForestClassifier(n_estimators=100, random_state=42)
best_pipeline = ImbPipeline([
    ('smote', SMOTE(random_state=42)),  # on garde SMOTE pour √©quilibrer les classes
    ('model', best_model)
])
best_pipeline.fit(X_train, y_train)

y_proba_best = best_pipeline.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_proba_best)  # fpr = faux positifs, tpr = vrais positifs

plt.figure(figsize=(6, 4))
plt.plot(fpr, tpr, label="ROC - Random Forest")
plt.plot([0, 1], [0, 1], linestyle='--', color='gray')  # diagonale : tirage au sort
plt.xlabel("Taux de faux positifs")
plt.ylabel("Taux de vrais positifs")
plt.title("Courbe ROC - Random Forest")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# ‚úÖ √âtape 3 termin√©e : on a compar√© 2 mod√®les, g√©r√© le d√©s√©quilibre, mesur√© l‚ÄôAUC et le score m√©tier

# ---------------------------------------------------------------
# √âTAPE 4 ‚Äì Interpr√©tation du mod√®le avec SHAP (importance globale et locale)
# Objectif : expliquer comment le mod√®le prend ses d√©cisions
# ---------------------------------------------------------------

# 1. On importe la librairie SHAP (permet d‚Äôinterpr√©ter comment le mod√®le raisonne)
import shap

# 2. On r√©entra√Æne un mod√®le Random Forest tout seul, sans pipeline ni SMOTE
# Pourquoi ? Parce que SHAP a besoin du mod√®le brut (pas d‚Äôun pipeline) et des donn√©es originales
modele_shap = RandomForestClassifier(n_estimators=100, random_state=42)
modele_shap.fit(X_train, y_train)  # entra√Ænement sur les donn√©es d'entra√Ænement d'origine

# 3. On cr√©e un "explainer" SHAP adapt√© aux mod√®les d‚Äôarbres (comme RandomForest)
explainer = shap.TreeExplainer(modele_shap)

# -------------------------------
# √©chantillonnage pour acc√©l√©rer le calcul SHAP
# On s√©lectionne 200 clients du jeu de test, √ßa suffit pour l‚Äôanalyse globale
# Cela √©vite que SHAP prenne plusieurs minutes √† tout calculer
X_test_sample_df = X_test.sample(n=200, random_state=42).copy()  # on prend un sous-√©chantillon du test

# 4. On calcule les valeurs SHAP avec la nouvelle API
shap_values = explainer(X_test_sample_df)

# 5. Affichage global des variables les plus influentes
shap.summary_plot(shap_values.values, X_test_sample_df, plot_type="bar")

#Interpretation locale


# Besoin d'aide ici @Gred

# ---------------------------------------------------------------
# √âTAPE 5 ‚Äì DummyClassifier + Optimisation Random Forest avec GridSearchCV
# Objectif : r√©pondre aux attentes restantes du mentor :
# - Ajouter un mod√®le de r√©f√©rence (tr√®s basique) appel√© "DummyClassifier"
# - Utiliser GridSearchCV pour tester plusieurs combinaisons de param√®tres
# - Optimiser le mod√®le en fonction de notre score m√©tier
# - Mesurer aussi l'AUC (qualit√© globale) et le temps d'ex√©cution
# ---------------------------------------------------------------

from sklearn.dummy import DummyClassifier  # mod√®le tr√®s simple pour √©tablir une baseline
from sklearn.metrics import make_scorer  # pour cr√©er une m√©trique personnalis√©e
from sklearn.model_selection import GridSearchCV  # outil pour tester plusieurs r√©glages automatiques
import time  # pour chronom√©trer l'entra√Ænement

# ‚ûú On commence par un mod√®le de base (Dummy) qui pr√©dit toujours la majorit√©
dummy = DummyClassifier(strategy="most_frequent")  # toujours pr√©dire 0
dummy.fit(X_train, y_train)
y_pred_dummy = dummy.predict(X_test)
cout_dummy = cout_metier(y_test, y_pred_dummy)
print(f"\nüìå Co√ªt m√©tier DummyClassifier (baseline na√Øve) : {cout_dummy}")

# ‚ûú On va maintenant d√©finir une fonction personnalis√©e pour que GridSearch comprenne notre score m√©tier
def scoring_metier(y_true, y_proba):
    y_pred = (y_proba >= 0.5).astype(int)  # on garde un seuil fixe ici (comme demand√©)
    return -cout_metier(y_true, y_pred)  # on inverse car GridSearch cherche √† *maximiser* le score

# make_scorer transforme notre fonction en objet compatible avec sklearn
scorer = make_scorer(scoring_metier, needs_proba=True)

# ‚ûú On d√©finit les param√®tres qu'on veut tester pour la Random Forest
param_grid = {
    'model__n_estimators': [50, 100],  # nombre d‚Äôarbres dans la for√™t
    'model__max_depth': [5, 10, None]  # profondeur maximale des arbres
}

# ‚ûú Pipeline avec normalisation + SMOTE + RandomForest (comme √† l‚Äô√©tape 3)
pipeline = ImbPipeline([
    ('scaler', StandardScaler()),
    ('smote', SMOTE(random_state=42)),
    ('model', RandomForestClassifier(random_state=42))
])

# ‚ûú On lance GridSearchCV en demandant :
# - d‚Äôoptimiser √† la fois notre score m√©tier et l‚ÄôAUC
# - de choisir le mod√®le avec le *meilleur score m√©tier*
grid = GridSearchCV(
    estimator=pipeline,
    param_grid=param_grid,
    scoring={'metier': scorer, 'auc': 'roc_auc'},
    refit='metier',
    cv=5,
    return_train_score=True
)

# ‚ûú On lance l'entra√Ænement complet avec chronom√®tre
start = time.time()
grid.fit(X_train, y_train)
end = time.time()

# ‚ûú Affichage des meilleurs param√®tres et scores associ√©s
print("\n‚úÖ Meilleurs param√®tres trouv√©s par GridSearch :")
print(grid.best_params_)
print(f"Score m√©tier moyen (sur le train cross-valid√©) : {-grid.best_score_:.0f}")
print(f"Temps total d'entra√Ænement : {end - start:.1f} secondes")

# ‚ûú V√©rification du mod√®le obtenu sur le jeu de test
y_proba_grid = grid.predict_proba(X_test)[:, 1]
resultat_grid = trouver_seuil_optimal(y_test, y_proba_grid)

print(f"\nüîç V√©rification sur le test : seuil optimal = {resultat_grid['seuil']:.2f}")
print(f"Co√ªt m√©tier sur le test = {resultat_grid['co√ªt']}")



# ---------------------------------------------------------------
# BONUS ‚Äì Interpr√©tation locale avec LIME (alternative √† SHAP)
# Objectif : donner une explication simple et visuelle d‚Äôune pr√©diction
# ---------------------------------------------------------------

# 1. On installe la librairie LIME (si elle n‚Äôest pas d√©j√† install√©e)
# √Ä ex√©cuter une seule fois dans l‚Äôenvironnement Colab ou Jupyter
# !pip install lime

from lime.lime_tabular import LimeTabularExplainer  # outil d‚Äôexplication locale

# 2. On entra√Æne un mod√®le simple (sans pipeline) car LIME ne comprend pas les pipelines non plus
modele_lime = RandomForestClassifier(n_estimators=100, random_state=42)
modele_lime.fit(X_train, y_train)

# 3. On cr√©e un "explainer" LIME
# ‚ûú Il apprend √† expliquer les d√©cisions √† partir des donn√©es d‚Äôentra√Ænement
explainer_lime = LimeTabularExplainer(
    training_data=X_train.values,         # donn√©es d‚Äôentra√Ænement
    feature_names=X_train.columns,        # noms des colonnes pour l'affichage
    class_names=['Bon client', 'Mauvais client'],  # nom des classes
    mode='classification',                # on fait de la classification (pas de la r√©gression)
    verbose=True,                         # pour avoir des infos dans les logs
    random_state=42
)

# 4. On choisit un client √† expliquer dans le jeu de test
# ‚ûú Tu peux changer l‚Äôindex si tu veux un autre client
index_client = 0
client_data = X_test.iloc[index_client].values.reshape(1, -1)  # donn√©es du client

# 5. On g√©n√®re l‚Äôexplication LIME
explication = explainer_lime.explain_instance(
    data_row=X_test.iloc[index_client].values,   # donn√©es du client
    predict_fn=modele_lime.predict_proba,        # fonction de pr√©diction du mod√®le
    num_features=6                               # on limite √† 6 variables les plus influentes
)

# 6. On affiche l‚Äôexplication
explication.show_in_notebook(show_table=True)

# ‚ûú Ce graphique est tr√®s p√©dagogique :
# Il montre, pour un seul client, quelles sont les variables qui ont pouss√© le mod√®le √† pr√©dire "mauvais" ou "bon".
# Tr√®s utile √† montrer √† quelqu‚Äôun qui ne conna√Æt pas le machine learning.