In [12]:
# ==============================================================================
# PROJET SCORING CR√âDIT - MODE "AUTONOME" (Liens H2O.ai stables)
# ==============================================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Biblioth√®ques Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, roc_curve, auc, classification_report

# Configuration visuelle
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)
import warnings
warnings.filterwarnings('ignore')

print("üöÄ D√âMARRAGE DU PROGRAMME...")

# --- √âTAPE 1 : T√âL√âCHARGEMENT AUTOMATIQUE (SERVEURS STABLES) ---
# On utilise les liens de H2O.ai qui ne changent jamais
print("üì• T√©l√©chargement des donn√©es depuis les serveurs H2O.ai...")

# T√©l√©chargement Train
if not os.path.exists('cs-training.csv'):
    os.system('wget -q https://raw.githubusercontent.com/h2oai/h2o-2/master/smalldata/kaggle/GiveMeSomeCredit/cs-training.csv')

# T√©l√©chargement Test
if not os.path.exists('cs-test.csv'):
    os.system('wget -q https://raw.githubusercontent.com/h2oai/h2o-2/master/smalldata/kaggle/GiveMeSomeCredit/cs-test.csv')

print("‚úÖ Fichiers r√©cup√©r√©s avec succ√®s.")

# --- √âTAPE 2 : CHARGEMENT ET NETTOYAGE ---
print("‚öôÔ∏è Traitement des donn√©es...")

# Lecture
df_train = pd.read_csv("cs-training.csv")
df_test = pd.read_csv("cs-test.csv")

def clean_data(df, target_col='SeriousDlqin2yrs', is_train=True, imputer=None):
    # Suppression colonne index (souvent nomm√©e Unnamed: 0)
    cols_to_drop = [c for c in df.columns if 'Unnamed' in c]
    df = df.drop(cols_to_drop, axis=1)

    if is_train:
        X = df.drop(target_col, axis=1)
        y = df[target_col]
        # Imputation par la m√©diane (robuste aux salaires extr√™mes)
        imputer = SimpleImputer(strategy='median')
        X_imputed = imputer.fit_transform(X)
    else:
        # Pour le test, on enl√®ve la cible si elle est pr√©sente
        if target_col in df.columns:
            X = df.drop(target_col, axis=1)
        else:
            X = df
        y = None
        # On utilise le m√™me imputer
        X_imputed = imputer.transform(X)

    X_clean = pd.DataFrame(X_imputed, columns=X.columns)
    return X_clean, y, imputer

# Nettoyage
X, y, imputer_model = clean_data(df_train, is_train=True)
X_kaggle_test, _, _ = clean_data(df_test, is_train=False, imputer=imputer_model)

# Split (Train / Validation Interne)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# --- √âTAPE 3 : IA (RANDOM FOREST) ---
print("ü§ñ Entra√Ænement de l'IA (C'est la partie la plus longue)...")
# class_weight='balanced' est vital pour le cr√©dit scoring
model = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced', n_jobs=-1)
model.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√©.")

# --- √âTAPE 4 : VISUALISATION (Les 3 Graphes demand√©s) ---
print("\nüìä G√âN√âRATION DES GRAPHIQUES...")

# GRAPHE 1 : IMPORTANCE DES FEATURES
feature_importances = pd.Series(model.feature_importances_, index=X_train.columns).sort_values(ascending=False)
plt.figure(figsize=(10, 6))
sns.barplot(x=feature_importances, y=feature_importances.index, palette="viridis")
plt.title("üîç GRAPHE 1 : Crit√®res d√©cisifs pour accorder un cr√©dit", fontsize=14)
plt.xlabel("Importance (%)")
plt.tight_layout()
plt.show()

# GRAPHE 2 : MATRICE DE CONFUSION
y_pred = model.predict(X_val)
cm = confusion_matrix(y_val, y_pred)

plt.figure(figsize=(8, 6))
# On utilise des labels clairs pour le prof
group_names = ['Vrais Bons Payeurs', 'Faux D√©fauts (Erreur)', 'Faux Bons Payeurs (DANGER)', 'Vrais D√©fauts']
group_counts = ["{0:0.0f}".format(value) for value in cm.flatten()]
labels = [f"{v1}\n{v2}" for v1, v2 in zip(group_names, group_counts)]
labels = np.asarray(labels).reshape(2,2)

sns.heatmap(cm, annot=labels, fmt='', cmap='Blues', cbar=False, annot_kws={"size": 14})
plt.title('üìâ GRAPHE 2 : Matrice de Confusion (Performance R√©elle)', fontsize=16)
plt.ylabel('R√âALIT√â', fontsize=12)
plt.xlabel('PR√âDICTION DE L\'IA', fontsize=12)
plt.show()

# GRAPHE 3 : COURBE ROC
y_prob = model.predict_proba(X_val)[:, 1]
fpr, tpr, _ = roc_curve(y_val, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'AUC = {roc_auc:.2f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.title('üìà GRAPHE 3 : Courbe ROC', fontsize=14)
plt.xlabel('Taux de Faux Positifs')
plt.ylabel('Taux de Vrais Positifs')
plt.legend(loc="lower right")
plt.show()

# --- √âTAPE 5 : FICHIER DE SOUMISSION ---
print("üìù G√©n√©ration du fichier final...")
final_probs = model.predict_proba(X_kaggle_test)[:, 1]

submission = pd.DataFrame({
    "Id": range(1, len(final_probs) + 1),
    "Probability": final_probs
})

submission.to_csv("submission.csv", index=False)

print("\n" + "="*50)
print("‚úÖ TERMIN√â ! Tout est vert.")
print("1. Les donn√©es ont √©t√© t√©l√©charg√©es automatiquement.")
print("2. Les graphes sont affich√©s ci-dessus.")
print("3. Le fichier 'submission.csv' est disponible dans le dossier √† gauche.")
print("="*50)

üöÄ D√âMARRAGE DU PROGRAMME...
üì• T√©l√©chargement des donn√©es depuis les serveurs H2O.ai...
‚úÖ Fichiers r√©cup√©r√©s avec succ√®s.
‚öôÔ∏è Traitement des donn√©es...


ParserError: Error tokenizing data. C error: Expected 1 fields in line 42, saw 2
