In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import mlflow
import plotly.graph_objects as go
import plotly.express as px
import mlflow.sklearn

from sksurv.ensemble import RandomSurvivalForest
from sklearn.model_selection import train_test_split

In [None]:
df = pd.read_parquet('dataset_full.parquet')

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 10)
pd.set_option('display.float_format', '{:.4f}'.format)

print(f"Structure du dataset : {df.shape[0]} lignes et {df.shape[1]} colonnes")
display(df.head())

In [None]:
df.dtypes

---

##### Drop des colonnes inutiles au mod√®le

In [None]:
# 1. NETTOYAGE G√âOGRAPHIQUE & RISQUE D√âPARTEMENTAL

df['Code du d√©partement de l\'√©tablissement'] = df['Code du d√©partement de l\'√©tablissement'].astype(str).str.zfill(2)

dep_risk_map = df.groupby("Code du d√©partement de l'√©tablissement")["fermeture"].mean()
df['risque_departemental'] = df['Code du d√©partement de l\'√©tablissement'].map(dep_risk_map)

# 2. TRAITEMENT DES TYPES (Cat√©gories et Nullables)

df['Cat√©gorie juridique de l\'unit√© l√©gale'] = df['Cat√©gorie juridique de l\'unit√© l√©gale'].astype(str)
df['age_estime'] = df['age_estime'].astype(float)
df['Tranche_effectif_num'] = df['Tranche_effectif_num'].fillna(0).astype(float)

# 3. ENCODAGE DES VARIABLES

df['is_ess'] = df['Economie sociale et solidaire unit√© l√©gale'].map({'O': 1, 'N': 0}).fillna(0)

df_final = pd.get_dummies(
    df, 
    columns=['libelle_section_ape', 'Cat√©gorie juridique de l\'unit√© l√©gale'], 
    prefix=['APE', 'CJ'],
    drop_first=True
)

# 4. S√âLECTION FINALE ET NETTOYAGE DES COLONNES INUTILES
cols_to_drop = [
    'SIREN', 'Code postal de l\'√©tablissement', 'Code commune de l\'√©tablissement',
    'D√©nomination de l\'unit√© l√©gale', 'Activit√© principale de l\'unit√© l√©gale',
    'Date_fermeture_finale', 'latitude', 'longitude', 'code_ape',
    'Code du d√©partement de l\'√©tablissement', 'Code de la r√©gion de l\'√©tablissement',
    'Economie sociale et solidaire unit√© l√©gale'
]

df_final = df_final.drop(columns=[c for c in cols_to_drop if c in df_final.columns])

# 5. DERNIERS R√âGLAGES POUR LA SURVIE

df_final['fermeture'] = df_final['fermeture'].astype(bool)
df_final = df_final[df_final['age_estime'] > 0]

print(f"‚úÖ Dataset finalis√© : {df_final.shape[0]} lignes, {df_final.shape[1]} colonnes.")
display(df_final.head(10))

---

In [None]:
# 1. Calcul de la fr√©quence pour les colonnes binaires (APE et CJ)
binary_cols = [c for c in df_final.columns if c.startswith('APE_') or c.startswith('CJ_')]
frequencies = df_final[binary_cols].mean().sort_values(ascending=False) * 100

# 2. Visualisation des 30 cat√©gories les plus rares vs les plus fr√©quentes

# 3. Focus sur les "Micro-Cat√©gories"
rare_limit = 0.1 # Seuil de 0.1%
rare_cols = frequencies[frequencies < rare_limit]

print(f"--- üîç Analyse des colonnes rares (< {rare_limit}%) ---")
print(f"Il y a {len(rare_cols)} colonnes qui concernent moins de 0.1% du dataset.")
if len(rare_cols) > 0:
    print(rare_cols)

In [None]:
# 1. Identifier les colonnes √† fusionner par famille
rare_ape_cols = [c for c in rare_cols.index if c.startswith('APE_')]
rare_cj_cols = [c for c in rare_cols.index if c.startswith('CJ_')]

# 2. Cr√©er la colonne "Autres" pour les APE
if rare_ape_cols:
    df_final['APE_Autres_Secteurs'] = df_final[rare_ape_cols].any(axis=1)
    df_final.drop(columns=rare_ape_cols, inplace=True)

# 3. Cr√©er la colonne "Autres" pour les CJ
if rare_cj_cols:
    df_final['CJ_Autres_Status'] = df_final[rare_cj_cols].any(axis=1)
    df_final.drop(columns=rare_cj_cols, inplace=True)

print(f"‚úÖ Nettoyage termin√©. Nouveau nombre de colonnes : {len(df_final.columns)}")

In [None]:
# 1. Calcul des fr√©quences en nombre d'entreprises
binary_cols = [c for c in df_final.columns if c.startswith('APE_')]
counts = df_final[binary_cols].sum().sort_values(ascending=True)

niche_sectors = counts[counts < 6000] 

fig_niche = px.bar(
    x=niche_sectors.values, 
    y=niche_sectors.index,
    orientation='h',
    title=f"üîç Zoom sur les {len(niche_sectors)} secteurs de niche (< 0.5% du total)",
    labels={'x': 'Nombre total d\'√©tablissements', 'y': 'Secteur APE'},
    color=niche_sectors.values,
    color_continuous_scale='Reds_r'
)

fig_niche.update_layout(
    height=800, 
    margin=dict(l=400),
    xaxis_title="Nombre d'entreprises (Volume r√©el)"
)

fig_niche.show()

In [None]:
df_final.head()

---

##### Visu des facteurs d'influence

In [None]:
corr_target = df_final.corr()['fermeture'].sort_values(ascending=False).to_frame()

fig_corr = go.Figure(data=go.Heatmap(
    z=corr_target.values,
    x=['Corr√©lation'],
    y=corr_target.index,
    colorscale='RdBu_r',
    zmin=-0.15, zmax=0.15,
    text=corr_target.values.round(3),
    texttemplate="%{text}",
    showscale=True
))

fig_corr.update_layout(
    title="üéØ Focus : Impact des variables sur la Fermeture",
    height=1400,
    width=800,
    margin=dict(l=450, r=50, t=100, b=100),
    yaxis=dict(
        side='left',
        tickfont=dict(size=12),
        autorange="reversed"
    )
)

fig_corr.show()

---

In [None]:
# 1. Pr√©paration des matrices (X = features, y = structur√© pour la survie)
X = df_final.drop(columns=['fermeture', 'age_estime'])

# sksurv a besoin d'un format sp√©cifique : un tableau de tuples (Event, Time)
y = np.array([(bool(f), float(a)) for f, a in zip(df_final['fermeture'], df_final['age_estime'])],
             dtype=[('event', 'bool'), ('time', 'float')])

# 2. Split 80/20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Lancement du Run MLflow
mlflow.set_experiment("Survie_Entreprises_V1")

with mlflow.start_run(run_name="Baseline_RSF_57_cols"):
    # On commence "l√©ger" pour ne pas faire chauffer la machine
    rf_params = {
        "n_estimators": 50,
        "max_depth": 8,
        "min_samples_split": 100,
        "n_jobs": -1
    }
    mlflow.log_params(rf_params)
    
    rsf = RandomSurvivalForest(**rf_params)
    rsf.fit(X_train, y_train)
    
    # Score de concordance (C-index)
    c_index = rsf.score(X_test, y_test)
    mlflow.log_metric("c_index", c_index)
    
    # Sauvegarde
    mlflow.sklearn.log_model(rsf, "model_rsf")
    
    print(f"‚úÖ Entra√Ænement termin√© ! C-Index: {c_index:.3f}")

In [None]:
# 1. D√©finir les points temporels (en mois)
times = [12, 24, 36]

# 2. Pr√©dire les fonctions de survie sur le jeu de test

surv_funcs = rsf.predict_survival_function(X_test)

# 3. Extraire les probabilit√©s de FERMETURE (1 - Survie)

risques_data = []
for fn in surv_funcs:
    risques_data.append({
        "Risque_1_an": round((1 - fn(12)) * 100, 2),
        "Risque_2_ans": round((1 - fn(24)) * 100, 2),
        "Risque_3_ans": round((1 - fn(36)) * 100, 2)
    })

df_predictions = pd.DataFrame(risques_data, index=X_test.index)

# 4. Afficher un aper√ßu
print("üìã Aper√ßu des probabilit√©s de fermeture (%) :")
display(df_predictions.head(10))

# 5. Petite stat rapide pour voir si c'est coh√©rent
print("\nüìä Risque moyen par horizon :")
print(df_predictions.mean())

In [None]:
# 1. On fusionne les pr√©dictions avec les caract√©ristiques d'origine
df_analyse = df_predictions.merge(X_test, left_index=True, right_index=True)

# 2. On compare les moyennes des deux groupes
high_risk = df_analyse[df_analyse['Risque_3_ans'] > 90].mean()
low_risk = df_analyse[df_analyse['Risque_3_ans'] < 75].mean()

comparison = pd.DataFrame({'Ultra-Risque (>90%)': high_risk, 'Plus Solides (<75%)': low_risk})
print("üîç Comparaison des profils types :")
display(comparison.head(15))

In [None]:
# 1. On r√©cup√®re les lignes de test avec le risque_departemental d'origine
df_geo_check = df_analyse[['Risque_3_ans', 'risque_departemental']].copy()

# 2. On cr√©e des groupes de risque pour y voir plus clair
df_geo_check['Tranche_Risque'] = pd.qcut(df_geo_check['Risque_3_ans'], q=5, 
                                         labels=['Tr√®s Faible', 'Faible', 'Moyen', 'Fort', 'Critique'])

# 3. On regarde la valeur moyenne du score d√©partemental pour chaque tranche
geo_stats = df_geo_check.groupby('Tranche_Risque')['risque_departemental'].mean()

print("üìç Score de risque d√©partemental moyen par tranche de pr√©diction :")
print(geo_stats)

# 4. Visualisation
plt.figure(figsize=(10, 6))
sns.barplot(x=geo_stats.index, y=geo_stats.values, palette='OrRd')
plt.title('Validation : Le poids de la g√©ographie dans la pr√©diction finale')
plt.ylabel('Moyenne du Score Risque D√©partemental (Target Encoded)')
plt.show()

In [None]:
# On trie pour avoir les extr√™mes
top_solides = df_analyse.sort_values('Risque_3_ans', ascending=True).head(10)
top_fragiles = df_analyse.sort_values('Risque_3_ans', ascending=False).head(10)

print("üíé TOP 10 : Les Entreprises les plus robustes")
display(top_solides[['Risque_1_an', 'Risque_3_ans', 'Tranche_effectif_num', 'risque_departemental']])

print("\nüî• TOP 10 : Les Entreprises les plus fragiles")
display(top_fragiles[['Risque_1_an', 'Risque_3_ans', 'Tranche_effectif_num', 'risque_departemental']])

---