In [13]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt

In [10]:
scores_df = pd.read_csv("../data/scores_models.csv")
scores_df.head(10)

Unnamed: 0,model,f1,recall,accuracy
0,baseline,0.755998,0.675026,0.985347
1,lr,0.767505,0.689542,0.986524
2,best_rf_clf,0.807339,0.733333,0.9895
3,xgb,0.735849,0.619048,0.986


In [11]:
px.bar(scores_df, x="f1", y="model", orientation="h", text=scores_df["f1"].round(6), color_discrete_sequence=px.colors.qualitative.Pastel)

Récapitutalif des modéles:

Baseline : modèle de référence, F1 et Recall corrects mais limités, Accuracy élevée mais biaisée par le déséquilibre des classes.

Logistic Regression (LR) : légèrement meilleure que le baseline en F1 et Recall, Accuracy stable. Modèle simple, rapide et interprétable, gère correctement le déséquilibre via class_weight.

Random Forest : meilleur F1 (0.807) et Recall (0.733) sur le test, mais montre un léger overfitting (train F1 = 0.856). Capte beaucoup de vrais positifs, ce qui est crucial pour la conversion rare, mais sa complexité et le risque d’overfitting doivent être pris en compte.

XGBoost : F1 et Recall plus faibles, Accuracy correcte mais moins adaptée pour ce problème déséquilibré. Peut être amélioré avec plus de données ou un tuning plus fin.

Conclusion :

Pour maximiser la détection des conversions tout en limitant l’overfitting, LR reste un choix sûr et interprétable.

Random Forest est performant pour détecter les conversions, mais il faut surveiller l’overfitting et éventuellement ajuster ses hyperparamètres.

XGBoost n’apporte pas de gain notable dans le contexte actuel.

In [None]:
              Prédit Positif   Prédit Négatif
Réel Positif      TP              FN
Réel Négatif      FP              TN

### Accuracy (Exactitude)

Formule : (TP + TN) / (TP + TN + FP + FN)

Signification : % de bonnes prédictions (positives ou négatives) sur l’ensemble.

### Precision (Précision)

Formule : TP / (TP + FP)

Signification : parmi les prédictions positives, combien sont réellement positives.

Exemple : si tu annonces 100 conversions et que seulement 80 sont réelles → précision = 80%.

### Recall (Rappel ou Sensibilité)

Formule : TP / (TP + FN)

Signification : parmi les vrais positifs, combien sont détectés par le modèle.

Exemple : si 100 utilisateurs ont réellement converti et que le modèle en détecte 70 → recall = 70%.

### F1 Score

Formule : 2 * (Precision * Recall) / (Precision + Recall)

Signification : moyenne harmonique de precision et recall.

Pourquoi utile : combine fiabilité (precision) et capacité de détection (recall), surtout quand les classes sont déséquilibrées.

## Résumé visuel rapide :

Accuracy = globalement « juste » ou « faux »

Precision = « fiabilité quand je dis positif »

Recall = « je capture combien de vrais positifs »

F1 Score = compromis entre précision et rappel