In [None]:
import xgboost as xgb
import pandas as pd
import pickle
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# 1. Chargement du Parquet
df = pd.read_parquet("dataset_full.parquet")

# 2. Pr√©-processing identique (Types et ESS)
df['Cat√©gorie juridique de l\'unit√© l√©gale'] = df['Cat√©gorie juridique de l\'unit√© l√©gale'].astype(str)
df['age_estime'] = df['age_estime'].astype(float)
df['Tranche_effectif_num'] = df['Tranche_effectif_num'].fillna(0).astype(float)
df['is_ess'] = df['Economie sociale et solidaire unit√© l√©gale'].map({'O': 1, 'N': 0}).fillna(0).astype(int)

# 3. G√©ographie (R√©utilisation de la logique de risque)
df['Code du d√©partement de l\'√©tablissement'] = df['Code du d√©partement de l\'√©tablissement'].astype(str).str.zfill(2)
# Note : Pour √™tre parfait, il faudrait charger la 'dep_risk_map' sauvegard√©e du train
dep_risk_map = df.groupby("Code du d√©partement de l'√©tablissement")["fermeture"].mean()
df['risque_departemental'] = df['Code du d√©partement de l\'√©tablissement'].map(dep_risk_map)

# 4. One-Hot Encoding initial
df_final = pd.get_dummies(
    df, 
    columns=['libelle_section_ape', 'Cat√©gorie juridique de l\'unit√© l√©gale'], 
    prefix=['APE', 'CJ'],
    drop_first=True,
    dtype=int 
)

# --- 5. ALIGNEMENT DYNAMIQUE  ---

model = xgb.Booster()
model.load_model("xgboost_v2.json")
expected_features = model.feature_names

# On identifie ce qui est "Rare" pour CE nouveau dataset par rapport au mod√®le
current_cols = df_final.columns
rare_ape_to_merge = [c for c in current_cols if c.startswith('APE_') and c not in expected_features]
rare_cj_to_merge = [c for c in current_cols if c.startswith('CJ_') and c not in expected_features]

# Fusion dans "Autres" si n√©cessaire
if 'APE_Autres_Secteurs' in expected_features:
    df_final['APE_Autres_Secteurs'] = df_final[rare_ape_to_merge].any(axis=1).astype(int) if rare_ape_to_merge else 0

if 'CJ_Autres_Status' in expected_features:
    df_final['CJ_Autres_Status'] = df_final[rare_cj_to_merge].any(axis=1).astype(int) if rare_cj_to_merge else 0

# --- L'√âTAPE CL√â : REINDEX ---

X_inference = df_final.reindex(columns=expected_features, fill_value=0)

print(f"üìä Colonnes attendues : {len(expected_features)}")
print(f"üìä Colonnes finales : {X_inference.shape[1]}")

In [None]:
X_inference.head()

In [None]:
# 1. Cr√©ation de la DMatrix (obligatoire pour XGBoost)
dmatrix_inference = xgb.DMatrix(X_inference)

# 2. Pr√©diction du Mu (le score brut en log-time)
preds_mu = model.predict(dmatrix_inference)

# --- 2. FONCTION DE CALCUL DU RISQUE (MISE √Ä JOUR AVEC CALIBRATION) ---
def calculer_risque_calibre(mu, annees, sigma=1.5):
    calibration_factor = 2.5 
    # On applique le d√©calage de 2.5 comme dans ton train
    z = (np.log(annees) - (mu - calibration_factor)) / sigma
    
    # Formule Sigmo√Øde invers√©e pour le risque (1 / (1 + exp(-z)))
    return (1 / (1 + np.exp(-z))) * 100

# --- 3. G√âN√âRATION DES SCORES (AVEC LES PARAM√àTRES DU TRAIN) ---

df['Risque_1an'] = calculer_risque_calibre(preds_mu, 1, sigma=1.5)
df['Risque_2ans'] = calculer_risque_calibre(preds_mu, 2, sigma=1.5)
df['Risque_3ans'] = calculer_risque_calibre(preds_mu, 3, sigma=1.5)

# --- 4. DIAGNOSTIC EXPERT (Inchang√©) ---
def determiner_statut(row):
    if row['Risque_1an'] > 15:
        return "üî¥ CRITIQUE (Imm√©diat)"
    elif row['Risque_2ans'] > 25:
        return "üü† ALERTE (Moyen terme)"
    elif row['Risque_3ans'] > 35:
        return "üü° FRAGILE (Long terme)"
    else:
        return "üü¢ SOLIDE"

df['Diagnostic_Final'] = df.apply(determiner_statut, axis=1)

# --- 5. AFFICHAGE DES R√âSULTATS ---
colonnes_affichage = [
    'SIREN', 
    "D√©nomination de l'unit√© l√©gale", 
    'Risque_1an', 
    'Risque_2ans', 
    'Risque_3ans', 
    'Diagnostic_Final'
]

print("üìä Analyse de risque CALIBR√âE sur 3 ans termin√©e")
display(df[colonnes_affichage].round(2).tail(100))

In [None]:
# 1. Utilise le nom de l'objet que tu as charg√© au d√©but (probablement 'model')
preds_log_time = model.predict(dmatrix_inference)

# 2. Ta fonction de risque (sans le d√©calage de 2.5 qui faussait tout)
def calculer_risque_propre(mu, annees, sigma=1.5):
    # Formule AFT Logistique standard : Z = (log(t) - mu) / sigma
    z = (np.log(annees) - mu) / sigma
    # Risque = 1 / (1 + exp(-z))
    return (1 / (1 + np.exp(-z))) * 100

# 3. Application des calculs
df['Risque_1an'] = calculer_risque_propre(preds_log_time, 1)
df['Risque_2ans'] = calculer_risque_propre(preds_log_time, 2)
df['Risque_3ans'] = calculer_risque_propre(preds_log_time, 3)

# 4. Affichage pour v√©rification
display(df[['SIREN', 'D√©nomination de l\'unit√© l√©gale', 'Risque_1an', 'Risque_3ans']].head(20))

In [None]:


# Configuration du style
sns.set_theme(style="whitegrid")
plt.figure(figsize=(15, 6))

# --- GRAPHIQUE 1 : Distribution du Risque √† 1 an ---
plt.subplot(1, 2, 1)
sns.histplot(df['Risque_1an'], bins=30, kde=True, color='#2ecc71')
plt.axvline(df['Risque_1an'].mean(), color='red', linestyle='--', label=f"Moyenne: {df['Risque_1an'].mean():.1f}%")
plt.title('R√©partition du Risque √† 1 an')
plt.xlabel('% de Risque de fermeture')
plt.ylabel('Nombre d\'entreprises')
plt.legend()

# --- GRAPHIQUE 2 : Comparaison Risque 1 an vs 3 ans ---
plt.subplot(1, 2, 2)
sns.scatterplot(data=df, x='Risque_1an', y='Risque_3ans', alpha=0.5, hue='Risque_1an', palette='viridis')
plt.plot([0, 60], [0, 60], color='red', linestyle='--') # Ligne d'√©galit√©
plt.title('√âvolution du Risque (1 an vs 3 ans)')
plt.xlabel('Risque √† 1 an (%)')
plt.ylabel('Risque √† 3 ans (%)')

plt.tight_layout()
plt.show()

# --- R√âSUM√â STATISTIQUE ---
print("üìä R√âSUM√â DES PR√âDICTIONS :")
print(df[['Risque_1an', 'Risque_2ans', 'Risque_3ans']].describe().round(2))

---

##### Features importances

In [None]:
xgb.plot_importance(model, max_num_features=10)
plt.show()

#### Visu des gains

In [None]:
plt.figure(figsize=(10, 8))
xgb.plot_importance(model, max_num_features=15, importance_type='gain')
plt.show()

##### Test de r√©activit√©

In [None]:
# On prend une entreprise au hasard
test_row = X_inference.iloc[[0]].copy()

print(f"--- TEST DE R√âACTIVIT√â DU MOD√àLE (SIREN: {df.iloc[0]['SIREN']}) ---")

for age_test in [1.0, 5.0, 20.0]:
    test_row['age_au_diagnostic'] = age_test
    
    # Pr√©diction Mu
    mu_test = model.predict(xgb.DMatrix(test_row))[0]
    
    # Risque √† 1 an (avec notre fonction propre)
    risk = calculer_risque_propre(mu_test, 1, sigma=1.5)
    
    print(f"Pour un √¢ge de {age_test:2.0f} ans -> Risque √† 1 an : {risk:.2f}%")

In [None]:
# Test avec un Sigma plus serr√© pour forcer la nuance
def calculer_risque_nuance(mu, annees, sigma=0.7): # Sigma divis√© par 2
    z = (np.log(annees) - mu) / sigma
    return (1 / (1 + np.exp(-z))) * 100

# Test sur ton entreprise de 5 ans qui donnait 0%
mu_exemple = 5.2  # (Valeur hypoth√©tique proche de tes r√©sultats)
print(f"Risque √† 5 ans (Sigma 1.5) : {calculer_risque_propre(mu_exemple, 1, 1.5):.2f}%")
print(f"Risque √† 5 ans (Sigma 0.7) : {calculer_risque_nuance(mu_exemple, 1, 0.7):.2f}%")