##### import dataset et mod√®le

In [None]:
import pandas as pd
import numpy as np
import xgboost as xgb
import pickle
import plotly.express as px

# 1. Chargement des donn√©es

X_full = pd.read_parquet("dataset_full.parquet") 

# 2. Chargement du mod√®le
loaded_model = xgb.Booster()
loaded_model.load_model("xgboost_v2.json")

print(f"‚úÖ Mod√®le et {len(X_full)} entreprises charg√©s.")

---

##### Test de pr√©dictions

In [None]:
# --- √âTAPE A : PR√âPARATION & PR√âDICTION ---

# 1. Copie pour ne pas modifier l'original
X_input = X_full.copy()

# 2. Feature Engineering (Recr√©ation des variables du mod√®le)
if "Economie sociale et solidaire unit√© l√©gale" in X_input.columns:
    X_input['is_ess'] = X_input["Economie sociale et solidaire unit√© l√©gale"].map({'O': 1, 'N': 0}).fillna(0)

# 3. One-Hot Encoding des secteurs
if 'libelle_section_ape' in X_input.columns:
    X_input = pd.get_dummies(X_input, columns=['libelle_section_ape'], prefix='APE')

# 4. Alignement strict avec les attentes du mod√®le (Colonnes manquantes et ordre)
for col in loaded_model.feature_names:
    if col not in X_input.columns:
        X_input[col] = 0

X_input = X_input[loaded_model.feature_names]

# 5. Calcul des pr√©dictions brutes
dmatrix_full = xgb.DMatrix(X_input)
raw_preds = loaded_model.predict(dmatrix_full)

# --- √âTAPE B : SCORING ET ANALYSE M√âTIER ---

# 1. Calcul de l'Indice de Risque Global (0-100)
risk_scores = pd.Series(raw_preds).rank(pct=True, ascending=False) * 100

# 2. Cr√©ation du DataFrame de r√©sultats consolid√©
df_resultats = pd.DataFrame({
    'SIREN': X_full["SIREN"],
    'D√©nomination': X_full["D√©nomination de l'unit√© l√©gale"],
    'Indice_Risque': risk_scores.values
}, index=X_full.index)

# 3. Fonction de calcul des probabilit√©s par horizon avec nettoyage
def calculer_probabilites_propres(score):

    p_1an = 1 / (1 + np.exp(-(score - 85) / 3))
    p_2ans = 1 / (1 + np.exp(-(score - 70) / 5))
    p_3ans = 1 / (1 + np.exp(-(score - 55) / 7))
    
    probas = []
    for p in [p_1an, p_2ans, p_3ans]:
        val = round(p * 100, 2)
        probas.append(val if val >= 0.01 else 0.0)
    return probas[0], probas[1], probas[2]

# 4. Application des calculs d'horizons
df_resultats['Prob_1an'], df_resultats['Prob_2ans'], df_resultats['Prob_3ans'] = zip(*df_resultats['Indice_Risque'].map(calculer_probabilites_propres))

# 5. Attribution du Statut Expert
df_resultats['Statut_Expert'] = pd.cut(
    df_resultats['Indice_Risque'], 
    bins=[0, 55, 70, 85, 100], 
    labels=['üü¢ SAIN', 'üü° OBSERVATION', 'üü† VIGILANCE', 'üî¥ CRITIQUE'],
    include_lowest=True
)

# 6. Affichage des r√©sultats prioritaires
print(f"‚úÖ Analyse termin√©e sur {len(df_resultats)} entreprises.")
cols_view = ['SIREN', 'D√©nomination', 'Indice_Risque', 'Prob_1an', 'Prob_2ans', 'Prob_3ans', 'Statut_Expert']
display(df_resultats[cols_view].sort_values('Indice_Risque', ascending=False).head(15))

In [None]:
# 6. Affichage final
print("‚úÖ Diagnostic de survie consolid√© termin√© (Chiffres nettoy√©s) !")
cols_view = ['SIREN', 'D√©nomination', 'Indice_Risque', 'Prob_1an', 'Prob_2ans', 'Prob_3ans', 'Statut_Expert']
display(df_resultats[cols_view].sort_values('Indice_Risque', ascending=False).tail(10))

In [None]:
df_resultats.shape

In [None]:
X_full.head()

---

#### Fusion des r√©sultats avec le dataset de d√©part

In [None]:
# On retire 'SIREN' et 'D√©nomination' de X_full lors de la fusion (d√©j√† pr√©sents dans df_resultat)

cols_brutes = X_full.drop(columns=["SIREN", "D√©nomination de l'unit√© l√©gale"])

# Fusion (Join utilise l'index par d√©faut)
df_final_complet = df_resultats.join(cols_brutes)

# R√©organisation pour avoir le SIREN et le Score en premier, puis le reste
cols = ['SIREN', 'D√©nomination', 'Statut_Expert', 'Indice_Risque', 'Prob_1an', 'Prob_2ans', 'Prob_3ans']
autres_cols = [c for c in df_final_complet.columns if c not in cols]
df_final_complet = df_final_complet[cols + autres_cols]

print(f"‚úÖ Fusion r√©ussie : {df_final_complet.shape[1]} colonnes disponibles.")

In [None]:
df_final_complet.head()

In [None]:
# 1. Pr√©paration des donn√©es pour le graph
df_plot = resume_risques.reset_index()
df_plot.columns = ['Statut', 'Nombre de soci√©t√©s', 'Pourcentage']

# 2. Cr√©ation du graphique interactif
fig = px.bar(
    df_plot, 
    x='Statut', 
    y='Nombre de soci√©t√©s',
    text='Pourcentage',
    color='Statut',
    color_discrete_map={
        'üü¢ SAIN': '#2ecc71',
        'üü° OBSERVATION': '#f1c40f',
        'üü† VIGILANCE': '#e67e22',
        'üî¥ CRITIQUE': '#e74c3c'
    },
    title="Analyse du Risque Portefeuille",
    labels={'Statut': 'Cat√©gorie de Risque', 'Nombre de soci√©t√©s': 'Nombre d\'entreprises'}
)

# 3. Personnalisation du style
fig.update_traces(
    texttemplate='%{text:.2f}%', 
    textposition='outside',
    hovertemplate="<b>%{x}</b><br>Effectif: %{y}<br>Part: %{text:.2f}%<extra></extra>"
)

fig.update_layout(
    showlegend=False,
    plot_bgcolor='rgba(0,0,0,0)',
    yaxis_title="Nombre d'entreprises",
    font=dict(size=14),
    height=600
)

fig.show()

In [None]:
df_final_complet.dtypes

In [None]:
# # Export au format Parquet
# df_final_complet.to_parquet("Reporting_Risques_Survie_2026.parquet", compression='snappy')

# print("üíæ Fichier Parquet sauvegard√© !")

In [None]:
# Taux de risque par d√©partement
stats_dep = df_final_complet.groupby('Code du d√©partement de l\'√©tablissement')['Statut_Expert'].value_counts(normalize=True).unstack()
stats_dep['Taux_Alerte'] = (stats_dep['üî¥ CRITIQUE'] + stats_dep['üü† VIGILANCE']) * 100
display(stats_dep.sort_values('Taux_Alerte', ascending=False).head(5))

In [None]:
# 1. On pr√©pare les donn√©es
df_map = stats_dep.reset_index()

# 2. Cr√©ation de la carte avec une √©chelle plus nuanc√©e (RdYlGn invers√© : Vert -> Jaune -> Rouge)
fig_map = px.choropleth(
    df_map,
    geojson='https://raw.githubusercontent.com/gregoiredavid/france-geojson/master/departements-version-simplifiee.geojson',
    locations='Code du d√©partement de l\'√©tablissement',
    featureidkey="properties.code",
    color='Taux_Alerte',
    color_continuous_scale="RdYlGn_r", 
    range_color=(df_map['Taux_Alerte'].min(), df_map['Taux_Alerte'].max()),
    scope='europe',
    title="Nuancier du Risque de D√©faillance par D√©partement",
    labels={'Taux_Alerte': 'Taux (%)'}
)

# 3. Optimisation du rendu
fig_map.update_geos(fitbounds="locations", visible=False)
fig_map.update_layout(
    margin={"r":0,"t":50,"l":0,"b":0},
    coloraxis_colorbar=dict(
        title="Niveau de Risque",
        ticksuffix="%",
        thicknessmode="pixels", thickness=15,
        lenmode="pixels", len=200,
    )
)

fig_map.show()