# ML Training - Pr√©diction de gravit√© des ACCIDENTS

## Contexte du projet

Ce notebook fait partie d'un projet de pr√©diction de la gravit√© des accidents routiers en France. L'objectif est de construire un mod√®le ML capable de pr√©dire si un accident sera **grave** ou **non grave** √† partir de caract√©ristiques contextuelles (lieu, moment, conditions, v√©hicules impliqu√©s).

## Objectif sp√©cifique

**Pr√©dire la gravit√© d'un ACCIDENT** (et non d'un usager individuel).  
La gravit√© d'un accident est d√©finie comme la **gravit√© maximale** parmi toutes les personnes impliqu√©es :
- Si au moins une personne est tu√©e ou hospitalis√©e ‚Üí accident **grave**
- Sinon ‚Üí accident **non grave**

## Crit√®res de s√©lection du mod√®le

| Crit√®re | M√©trique | Justification |
|---------|----------|---------------|
| **Principal** | F1-Score | √âquilibre entre pr√©cision et rappel, adapt√© aux classes d√©s√©quilibr√©es |
| **Secondaire** | AUC | D√©partage en cas d'√©galit√© sur F1, mesure la capacit√© discriminante |

**Pourquoi le F1 ?**  
Le F1-Score est la moyenne harmonique de la pr√©cision et du rappel. Il p√©nalise fortement les mod√®les qui sacrifient l'un pour l'autre, ce qui est crucial pour notre cas d'usage :
- **Faux n√©gatifs** (accident grave non d√©tect√©) : risque de sous-estimer les ressources de secours
- **Faux positifs** (fausse alerte) : mobilisation inutile des secours

## Workflow du notebook

```
1. Chargement des donn√©es
   ‚îî‚îÄ‚îÄ Dataset ACCIDENT (164k accidents)

2. Entra√Ænement initial (baseline)
   ‚îú‚îÄ‚îÄ Target binaire (grave/non-grave)
   ‚îî‚îÄ‚îÄ Target ordonn√© (4 niveaux de gravit√©)

3. Comparaison Binary vs Ordered
   ‚îî‚îÄ‚îÄ Justification du choix binaire

4. Feature Importance
   ‚îî‚îÄ‚îÄ Identification des variables cl√©s

5. Fine-tuning
   ‚îú‚îÄ‚îÄ GridSearchCV (hyperparam√®tres optimaux)
   ‚îú‚îÄ‚îÄ Comparaison algorithmes (RF, XGBoost, LightGBM, CatBoost)
   ‚îî‚îÄ‚îÄ S√©lection du meilleur mod√®le

6. Sauvegarde des mod√®les
   ‚îî‚îÄ‚îÄ Mod√®les pr√™ts pour l'API
```

## Targets disponibles

| Target | Type | Classes | Description |
|--------|------|---------|-------------|
| `grav_binary` | Binaire | 0, 1 | 0 = non grave, 1 = grave (hospitalis√© ou tu√©) |
| `grav_ordered` | Multiclasse | 0, 1, 2, 3 | Indemne, Bless√© l√©ger, Hospitalis√©, Tu√© |

---

## 1. Configuration et imports

### Biblioth√®ques utilis√©es

| Cat√©gorie | Biblioth√®ques | Usage |
|-----------|---------------|-------|
| **Data** | pandas, numpy | Manipulation des donn√©es |
| **Visualisation** | plotly | Graphiques interactifs (matrices de confusion, ROC, barres) |
| **ML - Preprocessing** | sklearn (StandardScaler, LabelEncoder, SimpleImputer) | Normalisation, encodage, imputation |
| **ML - Mod√®les** | RandomForest, XGBoost, LightGBM, CatBoost | Algorithmes de classification |
| **ML - √âvaluation** | sklearn.metrics | F1, AUC, confusion matrix, etc. |
| **Persistance** | joblib | Sauvegarde des mod√®les entra√Æn√©s |

In [1]:
# === IMPORTS ===
import os
import pandas as pd
import numpy as np
import joblib

from ml_config import nb_workers, base_estimators

# Visualisation
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Machine Learning
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    matthews_corrcoef,
    classification_report,
    confusion_matrix,
    roc_auc_score,
    roc_curve,
    auc,
)

# === CONFIGURATION ===
# Seed pour reproductibilit√© : garantit les m√™mes r√©sultats √† chaque ex√©cution
RANDOM_STATE = 42

print("Imports OK")

Imports OK


---

## 2. Chargement des donn√©es

### Source des donn√©es

Les donn√©es proviennent du fichier `dataset_accident.parquet` g√©n√©r√© par le notebook de pr√©paration (`2-data-segmentation.ipynb`).

**Caract√©ristiques du dataset ACCIDENT :**
- **Grain** : 1 ligne = 1 accident (identifi√© par `Num_Acc`)
- **Gravit√©** : Agr√©g√©e au niveau de l'accident (= gravit√© max des personnes impliqu√©es)
- **Features** : Contexte temporel, g√©ographique, m√©t√©o, v√©hicules impliqu√©s

In [2]:
# Fonction de chargement (supporte Parquet et CSV)
def load_dataset(name, base_path="data/output"):
    """
    Charge un dataset depuis Parquet.
    Parquet est pr√©f√©r√© car plus rapide et compact.
    """
    parquet_path = f"{base_path}/{name}.parquet"

    if os.path.exists(parquet_path):
        df = pd.read_parquet(parquet_path)
        print(f"{name}: charg√© depuis Parquet ({df.shape[0]:,} lignes, {df.shape[1]} colonnes)")
    else:
        raise FileNotFoundError(f"Dataset {name} non trouv√©")
    return df


# Chargement du dataset ACCIDENT
df_accident = load_dataset("dataset_accident")

# Aper√ßu des donn√©es
print(f"\nüìä Colonnes disponibles ({len(df_accident.columns)}):")
print(df_accident.columns.tolist())

dataset_accident: charg√© depuis Parquet (263,356 lignes, 11 colonnes)

üìä Colonnes disponibles (11):
['grav_ordered', 'grav_binary', 'est_nuit', 'est_heure_pointe', 'jour_semaine', 'est_weekend', 'agg', 'vma', 'impl_vehicule_leger', 'impl_poids_lourd', 'impl_pieton']


---

## 3. Fonctions utilitaires

### Pipeline de pr√©traitement

Le pipeline ML suit ces √©tapes :

```
Donn√©es brutes ‚Üí Imputation ‚Üí Scaling ‚Üí Mod√®le ‚Üí Pr√©dictions
```

1. **Imputation** (SimpleImputer) : Remplace les valeurs manquantes par la m√©diane
   - *Pourquoi la m√©diane ?* Robuste aux outliers, contrairement √† la moyenne
   
2. **Scaling** (StandardScaler) : Normalise les features (moyenne=0, √©cart-type=1)
   - *Pourquoi ?* Am√©liore la convergence des algorithmes √† base de gradient (XGBoost, etc.)

### Gestion des classes d√©s√©quilibr√©es

Les accidents **graves** sont minoritaires (~35%). Pour √©viter que le mod√®le favorise la classe majoritaire :
- RandomForest : `class_weight='balanced'`
- XGBoost : `scale_pos_weight` (ratio n√©gatifs/positifs)

In [3]:
# === FONCTIONS DE PR√âPARATION DES DONN√âES ===


def prepare_data(df, target_col, exclude_cols=None):
    """
    Pr√©pare les features (X) et la target (y) pour l'entra√Ænement.

    - Exclut automatiquement toutes les colonnes de gravit√© (pour √©viter le data leakage)
    - Encode les variables cat√©gorielles en entiers

    Returns: X (DataFrame), y (Series)
    """
    if exclude_cols is None:
        exclude_cols = []

    # Colonnes de gravit√© √† exclure (√©vite le data leakage)
    target_cols = ["grav_ordered", "grav_binary"]
    cols_to_drop = target_cols + exclude_cols
    cols_to_drop = [c for c in cols_to_drop if c in df.columns]

    X = df.drop(columns=cols_to_drop)
    y = df[target_col]

    # Encodage des variables cat√©gorielles
    for col in X.select_dtypes(include=["object"]).columns:
        le = LabelEncoder()
        X[col] = le.fit_transform(X[col].astype(str))

    return X, y


# === FONCTIONS DE MOD√âLISATION ===
class VerboseImputer(BaseEstimator, TransformerMixin):
    def __init__(self, strategy="median"):
        self.strategy = strategy
        self.imputer = SimpleImputer(strategy=strategy)
        self.feature_names_ = None

    def fit(self, X, y=None):
        # Stocker les noms de colonnes si disponibles
        if hasattr(X, "columns"):
            self.feature_names_ = X.columns.tolist()
        self.imputer.fit(X)
        return self

    def transform(self, X):
        if hasattr(X, "isna"):
            missing_per_col = X.isna().sum()
        else:
            missing_per_col = np.isnan(X).sum(axis=0)

        total = missing_per_col.sum() if hasattr(missing_per_col, "sum") else sum(missing_per_col)

        if total > 0:
            print(f"Valeurs imput√©es ({self.strategy}) : {total}")
            # D√©tail par colonne
            if hasattr(X, "columns"):
                for col in X.columns:
                    if X[col].isna().sum() > 0:
                        print(f"  - {col}: {X[col].isna().sum()}")
            elif self.feature_names_:
                for i, name in enumerate(self.feature_names_):
                    count = missing_per_col[i] if hasattr(missing_per_col, "__getitem__") else missing_per_col
                    if count > 0:
                        print(f"  - {name}: {count}")

        return self.imputer.transform(X)


def create_pipeline(model):
    """
    Cr√©e un pipeline sklearn : Imputation ‚Üí Scaling ‚Üí Mod√®le.
    Permet d'encapsuler tout le preprocessing avec le mod√®le.
    """
    return Pipeline([("imputer", VerboseImputer(strategy="median")), ("scaler", StandardScaler()), ("model", model)])


def evaluate_model(model, X_train, X_test, y_train, y_test, model_name):
    """
    Entra√Æne un mod√®le et calcule les m√©triques d'√©valuation.

    Returns:
        - results: dict avec accuracy, precision, recall, f1, auc
        - y_pred: pr√©dictions sur le test set
        - y_proba: probabilit√©s (pour ROC curve)
    """
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    # Probabilit√©s pour la courbe ROC
    y_proba = None
    if hasattr(model, "predict_proba"):
        y_proba = model.predict_proba(X_test)

    # Calcul des m√©triques
    results = {
        "model": model_name,
        "accuracy": accuracy_score(y_test, y_pred),
        "precision": precision_score(y_test, y_pred, average="weighted", zero_division=0),
        "recall": recall_score(y_test, y_pred, average="weighted", zero_division=0),
        "f1": f1_score(y_test, y_pred, average="weighted", zero_division=0),
    }

    # AUC uniquement pour la classification binaire
    if len(np.unique(y_test)) == 2 and y_proba is not None:
        results["auc"] = roc_auc_score(y_test, y_proba[:, 1])

    return results, y_pred, y_proba


def evaluate_catboost(catboost_model, X_train, X_test, y_train, y_test, model_name):
    """
    √âvalue CatBoost SANS Pipeline sklearn.

    Note: CatBoost est incompatible avec sklearn Pipeline depuis sklearn 1.6+
    (probl√®me de s√©rialisation). On applique donc le preprocessing manuellement.
    """
    # Preprocessing manuel
    imputer = SimpleImputer(strategy="median")
    X_train_imp = imputer.fit_transform(X_train)
    X_test_imp = imputer.transform(X_test)

    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train_imp)
    X_test_scaled = scaler.transform(X_test_imp)

    # Entra√Ænement et pr√©diction
    catboost_model.fit(X_train_scaled, y_train)
    y_pred = catboost_model.predict(X_test_scaled)

    y_proba = None
    if hasattr(catboost_model, "predict_proba"):
        y_proba = catboost_model.predict_proba(X_test_scaled)

    # M√©triques
    results = {
        "model": model_name,
        "accuracy": accuracy_score(y_test, y_pred),
        "precision": precision_score(y_test, y_pred, average="weighted", zero_division=0),
        "recall": recall_score(y_test, y_pred, average="weighted", zero_division=0),
        "f1": f1_score(y_test, y_pred, average="weighted", zero_division=0),
    }

    if len(np.unique(y_test)) == 2 and y_proba is not None:
        results["auc"] = roc_auc_score(y_test, y_proba[:, 1])

    return results, y_pred, y_proba


# === FONCTIONS DE VISUALISATION ===


def plot_confusion_matrix(y_true, y_pred, model_name, labels=None):
    """Affiche une matrice de confusion interactive avec Plotly."""
    cm = confusion_matrix(y_true, y_pred)

    if labels is None:
        labels = [str(i) for i in sorted(np.unique(y_true))]

    # Pourcentages par ligne (= par vraie classe)
    cm_percent = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] * 100

    # Annotations : valeur absolue + pourcentage
    text_annotations = []
    for i in range(len(cm)):
        row = []
        for j in range(len(cm[0])):
            row.append(f"{cm[i][j]}<br>({cm_percent[i][j]:.1f}%)")
        text_annotations.append(row)

    fig = go.Figure(
        data=go.Heatmap(
            z=cm, x=labels, y=labels, text=text_annotations, texttemplate="%{text}", colorscale="Blues", showscale=True
        )
    )

    fig.update_layout(
        title=f"Matrice de Confusion - {model_name}",
        xaxis_title="Pr√©diction",
        yaxis_title="R√©alit√©",
        width=500,
        height=450,
    )
    fig.show()
    return cm


def plot_roc_curve(y_true, y_proba, model_name):
    """Affiche la courbe ROC avec l'AUC (classification binaire uniquement)."""
    if len(np.unique(y_true)) != 2:
        print(f"ROC non disponible pour {model_name}: pas binaire")
        return None

    if y_proba is None:
        print(f"ROC non disponible pour {model_name}: pas de probabilit√©s")
        return None

    y_score = y_proba[:, 1] if len(y_proba.shape) > 1 else y_proba
    fpr, tpr, _ = roc_curve(y_true, y_score)
    roc_auc = auc(fpr, tpr)

    fig = go.Figure()
    fig.add_trace(
        go.Scatter(
            x=fpr, y=tpr, mode="lines", name=f"{model_name} (AUC = {roc_auc:.3f})", line=dict(color="blue", width=2)
        )
    )
    fig.add_trace(
        go.Scatter(
            x=[0, 1], y=[0, 1], mode="lines", name="Random (AUC = 0.5)", line=dict(color="gray", width=1, dash="dash")
        )
    )

    fig.update_layout(
        title=f"Courbe ROC - {model_name} (AUC = {roc_auc:.3f})",
        xaxis_title="Taux de Faux Positifs (FPR)",
        yaxis_title="Taux de Vrais Positifs (TPR)",
        width=550,
        height=450,
        showlegend=True,
    )
    fig.show()
    return roc_auc


print("Fonctions d√©finies")

Fonctions d√©finies


---

## 4. Entra√Ænement initial (Baseline)

### Objectif

√âtablir une **baseline** de performance avec des mod√®les standards (RandomForest, XGBoost) sur les deux types de targets :
- **Binary** : 2 classes (grave / non grave)
- **Ordered** : 4 classes (indemne, l√©ger, hospitalis√©, tu√©)

### Strat√©gie d'√©valuation

| Param√®tre | Valeur | Justification |
|-----------|--------|---------------|
| Split train/test | 80/20 | Standard pour ~160k √©chantillons |
| Stratification | Oui | Pr√©serve la distribution des classes |
| n_estimators | 100 | Baseline raisonnable (optimis√© plus tard) |

### Algorithmes test√©s

1. **RandomForest** : Ensemble de decision trees, robuste et interpr√©table
2. **XGBoost** : Gradient boosting, souvent plus performant mais moins interpr√©table

### 4.1 Target binaire (`grav_binary`)

**D√©finition :** 
- `0` = Accident non grave (indemne ou bless√© l√©ger)
- `1` = Accident grave (hospitalis√© ou tu√©)

**Pourquoi privil√©gier le target binaire ?**
- Plus simple √† pr√©dire (2 classes vs 4)
- D√©cision claire pour l'API (d√©clencher une alerte ou non)
- Meilleur √©quilibre des classes (~35% grave vs ~65% non grave)

In [4]:
# === PR√âPARATION DES DONN√âES ===
X_acc, y_acc_bin = prepare_data(df_accident, "grav_binary")

# Split stratifi√© : pr√©serve le ratio grave/non-grave dans train et test
X_train_acc, X_test_acc, y_train_acc, y_test_acc = train_test_split(
    X_acc,
    y_acc_bin,
    test_size=0.2,  # 20% pour le test
    random_state=RANDOM_STATE,  # Reproductibilit√©
    stratify=y_acc_bin,  # M√™me distribution de classes
)

print(f"Features utilis√©es ({len(X_acc.columns)}):")
print(f"{X_acc.columns.tolist()}")
print(f"\nTaille des ensembles:")
print(f"Train: {len(X_train_acc):,} | Test: {len(X_test_acc):,}")
print(f"\nDistribution de la target:")
print(f"Non grave (0): {(y_acc_bin == 0).sum():,} ({(y_acc_bin == 0).mean() * 100:.1f}%)")
print(f"Grave (1): {(y_acc_bin == 1).sum():,} ({(y_acc_bin == 1).mean() * 100:.1f}%)")

Features utilis√©es (9):
['est_nuit', 'est_heure_pointe', 'jour_semaine', 'est_weekend', 'agg', 'vma', 'impl_vehicule_leger', 'impl_poids_lourd', 'impl_pieton']

Taille des ensembles:
Train: 210,684 | Test: 52,672

Distribution de la target:
Non grave (0): 170,849 (64.9%)
Grave (1): 92,507 (35.1%)


In [5]:
# === ENTRA√éNEMENT DES MOD√àLES BASELINE ===
print(f"weight_scaling: {len(y_train_acc[y_train_acc == 0])} / {len(y_train_acc[y_train_acc == 1])}")

# D√©finition des mod√®les avec gestion du d√©s√©quilibre de classes
models_acc = {
    "RandomForest": create_pipeline(
        RandomForestClassifier(
            n_estimators=base_estimators,
            random_state=RANDOM_STATE,
            n_jobs=nb_workers,  # Utilise tous les CPU
            class_weight="balanced",  # Pond√®re les classes selon leur fr√©quence
        )
    ),
    "XGBoost": create_pipeline(
        XGBClassifier(
            n_estimators=base_estimators,
            random_state=RANDOM_STATE,
            n_jobs=nb_workers,
            # scale_pos_weight = ratio n√©gatifs/positifs pour √©quilibrer
            scale_pos_weight=len(y_train_acc[y_train_acc == 0]) / len(y_train_acc[y_train_acc == 1]),
        )
    ),
}

# Entra√Ænement et √©valuation
results_acc_bin = []
predictions_acc_bin = {}

print("üöÄ Entra√Ænement des mod√®les baseline...\n")
for name, model in models_acc.items():
    res, y_pred, y_proba = evaluate_model(model, X_train_acc, X_test_acc, y_train_acc, y_test_acc, name)
    results_acc_bin.append(res)
    predictions_acc_bin[name] = {"y_pred": y_pred, "y_proba": y_proba}
    print(f"   {name:15} ‚Üí F1={res['f1']:.3f} | AUC={res.get('auc', 0):.3f}")

# Tableau r√©capitulatif
print("\nüìä R√©sultats baseline (target binaire):")
pd.DataFrame(results_acc_bin).round(3)

# Sauvegarder les resultats pour le notebook de fine-tuning
joblib.dump(results_acc_bin, "models/results_acc_bin_baseline.pkl")
print("Resultats sauvegardes dans models/results_acc_bin_baseline.pkl")

weight_scaling: 136679 / 74005
üöÄ Entra√Ænement des mod√®les baseline...

   RandomForest    ‚Üí F1=0.683 | AUC=0.705
   XGBoost         ‚Üí F1=0.686 | AUC=0.709

üìä R√©sultats baseline (target binaire):
Resultats sauvegardes dans models/results_acc_bin_baseline.pkl


### 4.1.1 Visualisations des r√©sultats baseline

Pour chaque mod√®le, on affiche :
- **Matrice de confusion** : r√©partition des pr√©dictions (TP, TN, FP, FN)
- **Courbe ROC** : compromis entre sensibilit√© (TPR) et sp√©cificit√© (1-FPR)

**Lecture de la matrice de confusion :**
| Zone | Signification |
|------|---------------|
| Diagonale | Pr√©dictions correctes |
| Haut-droite (FP) | Fausses alertes |
| Bas-gauche (FN) | Cas graves manqu√©s |

In [6]:
# === VISUALISATIONS : Matrices de confusion et courbes ROC ===
labels_binary = ["Non grave (0)", "Grave (1)"]

for name, preds in predictions_acc_bin.items():
    print(f"\n{'=' * 60}")
    print(f"üìä {name} - Visualisations")
    print("=" * 60)

    # Matrice de confusion
    plot_confusion_matrix(y_test_acc, preds["y_pred"], f"{name}", labels_binary)

    # Courbe ROC
    plot_roc_curve(y_test_acc, preds["y_proba"], f"{name}")


üìä RandomForest - Visualisations



üìä XGBoost - Visualisations


### 4.2 Target ordonn√© (`grav_ordered`) - Multiclasse

**D√©finition :** 4 niveaux de gravit√©
- `0` = Indemne
- `1` = Bless√© l√©ger
- `2` = Hospitalis√©  
- `3` = Tu√©

**Probl√®me attendu :** Classes tr√®s d√©s√©quilibr√©es (Indemne < 1%, Tu√© ~6%)

*Ce mod√®le est entra√Æn√© pour comparaison, mais le target binaire sera privil√©gi√©.*

In [7]:
# === PR√âPARATION DES DONN√âES (target ordered) ===
X_acc_ord, y_acc_ord = prepare_data(df_accident, "grav_ordered")
X_tr_acc_ord, X_te_acc_ord, y_tr_acc_ord, y_te_acc_ord = train_test_split(
    X_acc_ord, y_acc_ord, test_size=0.2, random_state=RANDOM_STATE, stratify=y_acc_ord
)

# Afficher la distribution (d√©s√©quilibre visible)
print("‚öñÔ∏è  Distribution du target ordered:")
for val, count in y_acc_ord.value_counts().sort_index().items():
    labels = ["Indemne", "Bless√© l√©ger", "Hospitalis√©", "Tu√©"]
    pct = count / len(y_acc_ord) * 100
    bar = "‚ñà" * int(pct / 2)
    print(f"   {val} ({labels[val]:14}) : {count:6,} ({pct:5.1f}%) {bar}")

‚öñÔ∏è  Distribution du target ordered:
   0 (Indemne       ) :    627 (  0.2%) 
   1 (Bless√© l√©ger  ) : 170,222 ( 64.6%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2 (Hospitalis√©   ) : 78,023 ( 29.6%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   3 (Tu√©           ) : 14,484 (  5.5%) ‚ñà‚ñà


In [8]:
# === ENTRA√éNEMENT DES MOD√àLES (target ordered) ===
models_acc_ord = {
    "RandomForest": create_pipeline(
        RandomForestClassifier(
            n_estimators=base_estimators, random_state=RANDOM_STATE, n_jobs=nb_workers, class_weight="balanced"
        )
    ),
    "XGBoost": create_pipeline(
        XGBClassifier(
            n_estimators=base_estimators,
            random_state=RANDOM_STATE,
            n_jobs=nb_workers,
            objective="multi:softmax",  # Multiclasse
            num_class=4,
        )
    ),
}

results_acc_ord = []
predictions_acc_ord = {}

print("üöÄ Entra√Ænement des mod√®les (target ordered)...\n")
for name, model in models_acc_ord.items():
    res, y_pred, y_proba = evaluate_model(model, X_tr_acc_ord, X_te_acc_ord, y_tr_acc_ord, y_te_acc_ord, name)
    results_acc_ord.append(res)
    predictions_acc_ord[name] = {"y_pred": y_pred, "y_proba": y_proba}
    print(f"   {name:15} ‚Üí F1={res['f1']:.3f} | Accuracy={res['accuracy']:.3f}")

# Note: AUC non disponible pour multiclasse
print("\n‚ö†Ô∏è  Note: L'AUC n'est pas calcul√©e pour la classification multiclasse")
print("\nüìä R√©sultats baseline (target ordered):")
pd.DataFrame(results_acc_ord).round(3)

üöÄ Entra√Ænement des mod√®les (target ordered)...

   RandomForest    ‚Üí F1=0.491 | Accuracy=0.430
   XGBoost         ‚Üí F1=0.644 | Accuracy=0.693

‚ö†Ô∏è  Note: L'AUC n'est pas calcul√©e pour la classification multiclasse

üìä R√©sultats baseline (target ordered):


Unnamed: 0,model,accuracy,precision,recall,f1
0,RandomForest,0.43,0.605,0.43,0.491
1,XGBoost,0.693,0.657,0.693,0.644


In [9]:
# Matrices de confusion pour ACCIDENT ordered (multi-classes)
labels_ordered = ["Indemne (0)", "L√©ger (1)", "Hospitalis√© (2)", "Tu√© (3)"]

for name, preds in predictions_acc_ord.items():
    print(f"\n{'=' * 50}")
    print(f"MATRICE DE CONFUSION - ACCIDENT ordered - {name}")
    print("=" * 50)

    # Matrice de confusion
    plot_confusion_matrix(y_te_acc_ord, preds["y_pred"], f"ACCIDENT ordered - {name}", labels_ordered)


MATRICE DE CONFUSION - ACCIDENT ordered - RandomForest



MATRICE DE CONFUSION - ACCIDENT ordered - XGBoost


---

## 5. Comparaison Binary vs Ordered

### Objectif

Justifier le choix du target **binaire** sur le target **ordonn√©** en comparant :
- Les performances (F1, Accuracy, Precision, Recall)
- La distribution des classes
- L'exploitabilit√© des r√©sultats pour l'API

### Hypoth√®se

Le target binaire devrait obtenir de meilleures performances car :
1. Probl√®me plus simple (2 classes vs 4)
2. Classes moins d√©s√©quilibr√©es
3. Fronti√®re de d√©cision plus nette

In [10]:
# Comparaison des performances Binary vs Ordered - ACCIDENT uniquement
print("=" * 70)
print("COMPARAISON BINARY vs ORDERED - ACCIDENT - TOUTES LES METRIQUES")
print("=" * 70)


def get_all_metrics(y_true, y_pred, y_proba=None, is_binary=True):
    """Calcule toutes les metriques disponibles"""
    metrics = {
        "Accuracy": accuracy_score(y_true, y_pred),
        "Precision": precision_score(y_true, y_pred, average="weighted", zero_division=0),
        "Recall": recall_score(y_true, y_pred, average="weighted", zero_division=0),
        "F1": f1_score(y_true, y_pred, average="weighted", zero_division=0),
    }

    if is_binary:
        cm = confusion_matrix(y_true, y_pred)
        if cm.shape == (2, 2):
            tn, fp, fn, tp = cm.ravel()
            metrics["Specificity"] = tn / (tn + fp) if (tn + fp) > 0 else 0
        metrics["MCC"] = matthews_corrcoef(y_true, y_pred)
        if y_proba is not None:
            y_score = y_proba[:, 1] if len(y_proba.shape) > 1 else y_proba
            metrics["AUC"] = roc_auc_score(y_true, y_score)
    else:
        metrics["Specificity"] = "-"
        metrics["MCC"] = "-"
        metrics["AUC"] = "-"

    return metrics


# Calculer les metriques pour ACCIDENT
comparison_data = []

# ACCIDENT Binary
m = get_all_metrics(
    y_test_acc,
    predictions_acc_bin["RandomForest"]["y_pred"],
    predictions_acc_bin["RandomForest"]["y_proba"],
    is_binary=True,
)
m["Target"] = "Binary (2 classes)"
comparison_data.append(m)

# ACCIDENT Ordered
m = get_all_metrics(
    y_te_acc_ord,
    predictions_acc_ord["RandomForest"]["y_pred"],
    predictions_acc_ord["RandomForest"]["y_proba"],
    is_binary=False,
)
m["Target"] = "Ordered (4 classes)"
comparison_data.append(m)

df_comp = pd.DataFrame(comparison_data)
cols_order = ["Target", "Accuracy", "Precision", "Recall", "Specificity", "F1", "AUC", "MCC"]
print("\nTABLEAU COMPARATIF ACCIDENT:")
print(df_comp[cols_order].to_string(index=False))

# Calcul de la difference
print("\nDIFFERENCE DE PERFORMANCE (Binary - Ordered):")
print("-" * 60)
for metric in ["Accuracy", "Precision", "Recall", "F1"]:
    bin_val = df_comp[df_comp["Target"].str.contains("Binary")][metric].values[0]
    ord_val = df_comp[df_comp["Target"].str.contains("Ordered")][metric].values[0]
    diff = bin_val - ord_val
    print(f"  {metric:12}: Binary={bin_val:.3f} | Ordered={ord_val:.3f} | Delta={diff:+.3f}")

COMPARAISON BINARY vs ORDERED - ACCIDENT - TOUTES LES METRIQUES

TABLEAU COMPARATIF ACCIDENT:
             Target  Accuracy  Precision   Recall Specificity       F1       AUC       MCC
 Binary (2 classes)  0.683095   0.681950 0.683095    0.760082 0.682501  0.705464  0.302128
Ordered (4 classes)  0.430210   0.604949 0.430210           - 0.491267         -         -

DIFFERENCE DE PERFORMANCE (Binary - Ordered):
------------------------------------------------------------
  Accuracy    : Binary=0.683 | Ordered=0.430 | Delta=+0.253
  Precision   : Binary=0.682 | Ordered=0.605 | Delta=+0.077
  Recall      : Binary=0.683 | Ordered=0.430 | Delta=+0.253
  F1          : Binary=0.683 | Ordered=0.491 | Delta=+0.191


In [11]:
# Graphique comparatif Binary vs Ordered - ACCIDENT
all_metrics = ["Accuracy", "Precision", "Recall", "F1"]

# Barres groupees
acc_bin = df_comp[df_comp["Target"].str.contains("Binary")].iloc[0]
acc_ord = df_comp[df_comp["Target"].str.contains("Ordered")].iloc[0]

fig = go.Figure()

fig.add_trace(
    go.Bar(
        name="Binary (2 classes)",
        x=all_metrics,
        y=[acc_bin[m] for m in all_metrics],
        marker_color="#2ecc71",
        text=[f"{acc_bin[m]:.3f}" for m in all_metrics],
        textposition="outside",
    )
)

fig.add_trace(
    go.Bar(
        name="Ordered (4 classes)",
        x=all_metrics,
        y=[acc_ord[m] for m in all_metrics],
        marker_color="#e74c3c",
        text=[f"{acc_ord[m]:.3f}" for m in all_metrics],
        textposition="outside",
    )
)

fig.update_layout(
    title="Comparaison Binary vs Ordered - ACCIDENT",
    barmode="group",
    height=450,
    width=700,
    yaxis_range=[0, 1.1],
    xaxis_title="Metrique",
    yaxis_title="Score",
)
fig.show()

In [12]:
# Analyse des distributions de classes - ACCIDENT
print("=" * 70)
print("ANALYSE DES DISTRIBUTIONS DE CLASSES - ACCIDENT")
print("=" * 70)

print("\nDistribution ACCIDENT grav_ordered:")
dist_acc = y_acc_ord.value_counts().sort_index()
for idx, count in dist_acc.items():
    pct = count / len(y_acc_ord) * 100
    label = ["Indemne", "Blesse leger", "Hospitalise", "Tue"][idx]
    bar = "#" * int(pct / 2)
    print(f"  {idx} ({label:15}): {count:6} ({pct:5.1f}%) {bar}")

print("\nDistribution ACCIDENT grav_binary:")
dist_bin = y_acc_bin.value_counts().sort_index()
for idx, count in dist_bin.items():
    pct = count / len(y_acc_bin) * 100
    label = ["Non grave", "Grave"][idx]
    bar = "#" * int(pct / 2)
    print(f"  {idx} ({label:15}): {count:6} ({pct:5.1f}%) {bar}")

print("\nConstat:")
print("  - En ordered: classes tres desequilibrees (Indemne < 1%, Tue ~ 6%)")
print("  - En binary: meilleur equilibre (~35% grave)")
print("  - Le modele ordered a du mal a predire les classes minoritaires")

ANALYSE DES DISTRIBUTIONS DE CLASSES - ACCIDENT

Distribution ACCIDENT grav_ordered:
  0 (Indemne        ):    627 (  0.2%) 
  1 (Blesse leger   ): 170222 ( 64.6%) ################################
  2 (Hospitalise    ):  78023 ( 29.6%) ##############
  3 (Tue            ):  14484 (  5.5%) ##

Distribution ACCIDENT grav_binary:
  0 (Non grave      ): 170849 ( 64.9%) ################################
  1 (Grave          ):  92507 ( 35.1%) #################

Constat:
  - En ordered: classes tres desequilibrees (Indemne < 1%, Tue ~ 6%)
  - En binary: meilleur equilibre (~35% grave)
  - Le modele ordered a du mal a predire les classes minoritaires


### 5.5 Conclusion

### Conclusion : Pourquoi privil√©gier le target binaire ?

| Crit√®re | Binary (2 classes) | Ordered (4 classes) |
|---------|-------------------|---------------------|
| **F1-Score** | ~0.65-0.70 | ~0.45-0.55 |
| **Interpr√©tabilit√©** | Simple : Grave / Non grave | Complexe : 4 niveaux |
| **D√©s√©quilibre** | Mod√©r√© (30-40% grave) | S√©v√®re (classe "Tu√©" < 5%) |
| **Utilit√© API** | D√©cision claire | Nuance peu exploitable |
| **AUC disponible** | Oui | Non (multi-classes) |

**Raisons du choix binaire :**

1. **Performances nettement sup√©rieures** : F1 +15-20 points
2. **Classes tr√®s d√©s√©quilibr√©es** en ordered : le mod√®le pr√©dit mal "Hospitalis√©" et "Tu√©"
3. **Cas d'usage API** : la distinction Grave/Non-grave suffit pour d√©clencher les secours
4. **Matrices de confusion** : en ordered, confusion massive entre classes adjacentes

**Les mod√®les ordered restent disponibles** (`model_*_ordered.joblib`) pour des analyses plus fines si n√©cessaire.

---

---

## 6. Feature Importance

### Objectif

Identifier les **variables les plus pr√©dictives** de la gravit√© d'un accident.

### M√©thode

RandomForest calcule l'importance des features bas√©e sur la **r√©duction moyenne d'impuret√©** (Gini) apport√©e par chaque variable lors des splits.

### Interpr√©tation attendue

Les features les plus importantes devraient √™tre :
- **Localisation** (agg) : La g√©ographie influence fortement la gravit√©
- **Vitesse** (vma) : Plus la vitesse autoris√©e est √©lev√©e, plus le risque de gravit√© augmente
- **Type de v√©hicules** (impl_*) : Les pi√©tons et 2RM sont plus vuln√©rables

In [13]:
# Feature importance pour ACCIDENT - utilise le meilleur modele binary
# Le meilleur modele est stocke dans models_acc ou predictions_acc_bin

# Recuperer le modele RF entraine
best_model_key = "RandomForest"  # ou 'XGBoost' selon les resultats
if best_model_key in models_acc:
    best_acc_model = models_acc[best_model_key]

    # Extraire le modele du pipeline
    if hasattr(best_acc_model, "named_steps"):
        model = best_acc_model.named_steps.get("model")

        if hasattr(model, "feature_importances_"):
            importance = pd.DataFrame({"feature": X_acc.columns, "importance": model.feature_importances_}).sort_values(
                "importance", ascending=False
            )

            fig = px.bar(
                importance.head(15),
                x="importance",
                y="feature",
                orientation="h",
                title="Top Features - ACCIDENT (grav_binary)",
            )
            fig.update_layout(yaxis={"categoryorder": "total ascending"}, height=500, width=700)
            fig.show()
        else:
            print("Le modele n'a pas d'attribut feature_importances_")
    else:
        print("Le modele n'est pas un Pipeline")
else:
    print(f"Modele {best_model_key} non trouve dans models_acc")

---

## 7. Sauvegarde du mod√®le baseline

### Pourquoi sauvegarder maintenant ?

Avant le fine-tuning, on sauvegarde le mod√®les baseline pour :
1. Avoir un point de comparaison
2. Pouvoir revenir en arri√®re si le fine-tuning d√©grade les performances
3. Disposer d'un mod√®le fonctionnel rapidement

### Format de sauvegarde

- **joblib** : Format standard sklearn, rapide et compact
- **Pipeline complet** : Inclut preprocessing + mod√®le (pr√™t √† l'emploi)

In [None]:
os.makedirs("models", exist_ok=True)

# Modeles ACCIDENT de base (utiliser les modeles entraines en section 4)
# Sauvegarder le meilleur modele binary
if "models_acc" in dir() and "XGBoost" in models_acc:
    # XGBoost a de meilleures performances
    joblib.dump(models_acc["XGBoost"], "models/model_accident_binary.joblib")
    joblib.dump(X_acc.columns.tolist(), "models/features_accident.joblib")
    print("Sauvegarde: model_accident_binary.joblib (XGBoost)")
elif "models_acc" in dir() and "RandomForest" in models_acc:
    joblib.dump(models_acc["RandomForest"], "models/model_accident_binary.joblib")
    joblib.dump(X_acc.columns.tolist(), "models/features_accident.joblib")
    print("Sauvegarde: model_accident_binary.joblib (RandomForest)")

print("\n=== Modeles ACCIDENT de base sauvegardes ===")

Sauvegarde: model_accident_binary.joblib (XGBoost)

=== Modeles ACCIDENT de base sauvegardes ===


: 

---

## Suite

Le **fine-tuning** des mod√®les (HyperOpt, comparaison des algorithmes, s√©lection finale) se trouve dans le notebook **3-b-fine-tuning.ipynb**.