# üß© Contr√¥le Qualit√© - Backtester Modifi√©

Ce notebook effectue une v√©rification rapide apr√®s les modifications apport√©es au `strategy_backtester.py` pour s'assurer que :

1. **P√©riode temporelle** : Les donn√©es couvrent bien ~5 ans (fin 2020 ‚Üí 2025-12-08)
2. **Volume de donn√©es** : ~68k courses et ~661k partants comme attendu
3. **Nombre de paris** : Largement sup√©rieur aux 2,953 paris de la p√©riode limit√©e
4. **Statistiques cl√©s** : Taux de victoire ~8-10%, distribution des cotes et EV

## 1. Chargement des donn√©es et configuration

In [1]:
import pandas as pd
import numpy as np
import sys
from pathlib import Path

# Ajouter le chemin du projet pour importer les modules
sys.path.append(".")

# Importer les fonctions du backtester modifi√©
from strategy_backtester import load_real_predictions, BacktestConfig

print("üì¶ Biblioth√®ques import√©es avec succ√®s")
print("‚úÖ Fonctions du backtester charg√©es")

üì¶ Biblioth√®ques import√©es avec succ√®s
‚úÖ Fonctions du backtester charg√©es


In [2]:
# Configuration pour le test - p√©riode compl√®te sur 5 ans
config = BacktestConfig(
    train_start="2020-11-27",
    train_end="2023-06-30",
    val_start="2023-07-01",
    val_end="2023-08-31",
    test_start="2020-11-27",  # Toute la p√©riode pour le contr√¥le
    test_end="2025-12-08",
    value_cutoff=0.05,
)

print("‚öôÔ∏è Configuration cr√©√©e:")
print(f"   Test p√©riode: {config.test_start} ‚Üí {config.test_end}")
print(f"   Value cutoff: {config.value_cutoff}")

‚öôÔ∏è Configuration cr√©√©e:
   Test p√©riode: 2020-11-27 ‚Üí 2025-12-08
   Value cutoff: 0.05


In [3]:
# Chargement des vraies pr√©dictions calibr√©es
print("üìÇ Chargement des pr√©dictions calibr√©es...")
df = load_real_predictions(config=config)

print("\n‚úÖ Donn√©es charg√©es avec succ√®s:")
print(f"   Shape: {df.shape}")
print(f"   Colonnes: {list(df.columns)}")

üìÇ Chargement des pr√©dictions calibr√©es...
üìÇ Chargement des pr√©dictions depuis: data/backtest_predictions_calibrated.csv
   Donn√©es brutes: 661,105 entr√©es
   Apr√®s filtre temporel 2020-11-27 ‚Üí 2025-12-08: 661,105 entr√©es
   Apr√®s nettoyage des NaN: 661,105 entr√©es
   P√©riode finale: 2020-11-27 00:00:00 ‚Üí 2025-12-08 00:00:00
   Courses: 68,216

‚úÖ Donn√©es charg√©es avec succ√®s:
   Shape: (661105, 12)
   Colonnes: ['race_key', 'id_cheval', 'date_course', 'p_model_win', 'p_model_norm', 'p_calibrated', 'p_final', 'is_win', 'place', 'position_arrivee', 'cote_sp', 'split']


## 2. V√©rification de la p√©riode temporelle

**Attendu :** 
- Min ‚âà fin 2020 (2020-11-27)
- Max ‚âà 2025-12-08
- P√©riode couvrant ~5 ann√©es compl√®tes

In [4]:
# V√©rification des dates
date_min = df["date_course"].min()
date_max = df["date_course"].max()
duree_jours = (date_max - date_min).days
duree_annees = duree_jours / 365.25

print("üìÖ P√âRIODE TEMPORELLE:")
print(f"   Date min: {date_min}")
print(f"   Date max: {date_max}")
print(f"   Dur√©e: {duree_jours:,} jours ({duree_annees:.1f} ann√©es)")

# Validation
print("\n‚úÖ VALIDATION:")
if date_min.year <= 2020 and date_max.year >= 2025:
    print("   ‚úì P√©riode couvre bien ~5 ans (2020-2025)")
else:
    print(f"   ‚ö†Ô∏è P√©riode inattendue: {date_min.year}-{date_max.year}")

if duree_annees >= 4.0:
    print(f"   ‚úì Dur√©e suffisante: {duree_annees:.1f} ann√©es")
else:
    print(f"   ‚ö†Ô∏è Dur√©e insuffisante: {duree_annees:.1f} ann√©es")

üìÖ P√âRIODE TEMPORELLE:
   Date min: 2020-11-27 00:00:00
   Date max: 2025-12-08 00:00:00
   Dur√©e: 1,837 jours (5.0 ann√©es)

‚úÖ VALIDATION:
   ‚úì P√©riode couvre bien ~5 ans (2020-2025)
   ‚úì Dur√©e suffisante: 5.0 ann√©es


## 3. Analyse du volume de courses et partants

**Attendu :** 
- ~68,000 courses uniques (race_key)
- ~661,000 partants total
- Coh√©rent avec l'audit AUDIT_SYSTEME_ANALYSE_V2

In [5]:
# Analyse des volumes
n_courses = df["race_key"].nunique()
n_partants = len(df)
moyenne_partants = df.groupby("race_key").size().mean()

print("üìä VOLUME DE DONN√âES:")
print(f"   Courses uniques: {n_courses:,}")
print(f"   Total partants: {n_partants:,}")
print(f"   Moyenne partants/course: {moyenne_partants:.1f}")

# Validation contre les valeurs attendues
print("\n‚úÖ VALIDATION:")
if 60_000 <= n_courses <= 80_000:
    print("   ‚úì Nombre de courses dans la plage attendue (~68k)")
else:
    print(f"   ‚ö†Ô∏è Nombre de courses inattendu: {n_courses:,} (attendu ~68k)")

if 600_000 <= n_partants <= 700_000:
    print("   ‚úì Nombre de partants dans la plage attendue (~661k)")
else:
    print(f"   ‚ö†Ô∏è Nombre de partants inattendu: {n_partants:,} (attendu ~661k)")

# R√©partition par ann√©e pour v√©rifier la couverture
print("\nüìà R√âPARTITION PAR ANN√âE:")
repartition = (
    df.groupby(df["date_course"].dt.year)
    .agg({"race_key": "nunique", "id_cheval": "count"})
    .rename(columns={"race_key": "courses", "id_cheval": "partants"})
)

for year, row in repartition.iterrows():
    print(f"   {year}: {row['courses']:,} courses, {row['partants']:,} partants")

üìä VOLUME DE DONN√âES:
   Courses uniques: 68,216
   Total partants: 661,105
   Moyenne partants/course: 9.7

‚úÖ VALIDATION:
   ‚úì Nombre de courses dans la plage attendue (~68k)
   ‚úì Nombre de partants dans la plage attendue (~661k)

üìà R√âPARTITION PAR ANN√âE:
   2020: 1,021 courses, 10,429 partants
   2021: 13,085 courses, 126,889 partants
   2022: 13,455 courses, 129,463 partants
   2023: 13,461 courses, 129,421 partants
   2024: 13,951 courses, 136,535 partants
   2025: 13,243 courses, 128,368 partants


## 4. V√©rification du nombre de paris potentiels

**Objectif :** V√©rifier que le nombre de paris potentiels est **largement sup√©rieur** aux 2,953 paris de la p√©riode limit√©e.

Calcul de l'EV et application du filtre value_cutoff.

In [6]:
# Calcul de l'Expected Value
df["ev"] = df["p_final"] * df["cote_sp"] - 1.0

# Statistiques sur l'EV
print("üí∞ EXPECTED VALUE (EV):")
print(f"   EV moyenne: {df['ev'].mean():.4f}")
print(f"   EV m√©diane: {df['ev'].median():.4f}")
print(f"   EV min: {df['ev'].min():.4f}")
print(f"   EV max: {df['ev'].max():.4f}")

# Nombre de value bets selon diff√©rents cutoffs
cutoffs = [0.03, 0.05, 0.08, 0.10]
print("\nüéØ VALUE BETS selon cutoff:")

for cutoff in cutoffs:
    n_value_bets = (df["ev"] >= cutoff).sum()
    pourcentage = (n_value_bets / len(df)) * 100
    print(f"   EV >= {cutoff:0.2f}: {n_value_bets:,} paris ({pourcentage:.1f}%)")

# Validation : doit √™tre >> 2,953 pour cutoff 0.05
n_value_default = (df["ev"] >= 0.05).sum()
print(f"\n‚úÖ VALIDATION (cutoff 0.05 = {n_value_default:,} paris):")
if n_value_default > 10000:
    print("   ‚úì Largement sup√©rieur aux 2,953 paris de la p√©riode limit√©e")
elif n_value_default > 2953:
    print(f"   ‚úì Sup√©rieur aux 2,953 paris (x{n_value_default/2953:.1f})")
else:
    print(f"   ‚ö†Ô∏è Pas assez de value bets: {n_value_default:,} <= 2,953")

üí∞ EXPECTED VALUE (EV):
   EV moyenne: -0.2125
   EV m√©diane: -0.3598
   EV min: -0.9295
   EV max: 82.1299

üéØ VALUE BETS selon cutoff:
   EV >= 0.03: 145,840 paris (22.1%)
   EV >= 0.05: 139,321 paris (21.1%)
   EV >= 0.08: 129,901 paris (19.6%)
   EV >= 0.10: 124,117 paris (18.8%)

‚úÖ VALIDATION (cutoff 0.05 = 139,321 paris):
   ‚úì Largement sup√©rieur aux 2,953 paris de la p√©riode limit√©e


## 5. Calcul des statistiques de performance rapides

**Validation :** Taux de victoire moyen ~8-10% selon AUDIT_SYSTEME_ANALYSE_V2

In [7]:
# Statistiques cl√©s de performance
taux_victoire_reel = df["is_win"].mean()
taux_victoire_predit = df["p_final"].mean()

print("üèÜ TAUX DE VICTOIRE:")
print(f"   R√©el (is_win): {taux_victoire_reel:.3f} ({taux_victoire_reel*100:.1f}%)")
print(f"   Pr√©dit (p_final): {taux_victoire_predit:.3f} ({taux_victoire_predit*100:.1f}%)")

# Validation contre les stats attendues
print("\n‚úÖ VALIDATION:")
if 0.08 <= taux_victoire_reel <= 0.12:
    print("   ‚úì Taux de victoire r√©el dans la plage attendue (8-12%)")
else:
    print(f"   ‚ö†Ô∏è Taux de victoire r√©el inattendu: {taux_victoire_reel*100:.1f}%")

if 0.08 <= taux_victoire_predit <= 0.12:
    print("   ‚úì Taux de victoire pr√©dit coh√©rent (8-12%)")
else:
    print(f"   ‚ö†Ô∏è Taux de victoire pr√©dit inattendu: {taux_victoire_predit*100:.1f}%")

# Calibration rapide
diff_calibration = abs(taux_victoire_reel - taux_victoire_predit)
print(f"   üìä √âcart calibration: {diff_calibration:.3f} ({diff_calibration*100:.1f}pp)")

if diff_calibration <= 0.005:
    print("   ‚úì Excellente calibration (√©cart <= 0.5pp)")
elif diff_calibration <= 0.01:
    print("   ‚úì Bonne calibration (√©cart <= 1.0pp)")
else:
    print("   ‚ö†Ô∏è Calibration √† am√©liorer (√©cart > 1.0pp)")

üèÜ TAUX DE VICTOIRE:
   R√©el (is_win): 0.103 (10.3%)
   Pr√©dit (p_final): 0.103 (10.3%)

‚úÖ VALIDATION:
   ‚úì Taux de victoire r√©el dans la plage attendue (8-12%)
   ‚úì Taux de victoire pr√©dit coh√©rent (8-12%)
   üìä √âcart calibration: 0.000 (0.0pp)
   ‚úì Excellente calibration (√©cart <= 0.5pp)


## 6. Analyse des cotes et Expected Value

Distribution compl√®te des cotes et EV pour v√©rifier la coh√©rence des donn√©es.

In [8]:
# Distribution des cotes
print("üìä DISTRIBUTION DES COTES (cote_sp):")
print(df["cote_sp"].describe())

print("\nüìä DISTRIBUTION DE L'EXPECTED VALUE:")
print(df["ev"].describe())

# V√©rifications de coh√©rence
print("\nüîç V√âRIFICATIONS DE COH√âRENCE:")

# Cotes dans des plages raisonnables
cotes_extremes = ((df["cote_sp"] < 1.1) | (df["cote_sp"] > 100)).sum()
print(f"   Cotes extr√™mes (<1.1 ou >100): {cotes_extremes:,} ({cotes_extremes/len(df)*100:.1f}%)")

# EV distribution
ev_positifs = (df["ev"] > 0).sum()
print(f"   EV positifs: {ev_positifs:,} ({ev_positifs/len(df)*100:.1f}%)")

# Probabilit√©s dans [0,1]
prob_invalides = ((df["p_final"] < 0) | (df["p_final"] > 1)).sum()
print(f"   Probabilit√©s invalides: {prob_invalides:,}")

if prob_invalides == 0 and cotes_extremes < len(df) * 0.01:  # < 1% de valeurs extr√™mes
    print("\n‚úÖ Donn√©es coh√©rentes pour le backtesting")
else:
    print("\n‚ö†Ô∏è Attention aux donn√©es extr√™mes avant backtesting")

üìä DISTRIBUTION DES COTES (cote_sp):
count    661105.000000
mean         18.868093
std          26.399332
min           1.050000
25%           5.000000
50%          10.000000
75%          22.000000
max         999.000000
Name: cote_sp, dtype: float64

üìä DISTRIBUTION DE L'EXPECTED VALUE:
count    661105.000000
mean         -0.212542
std           0.624214
min          -0.929515
25%          -0.591580
50%          -0.359774
75%          -0.024417
max          82.129920
Name: ev, dtype: float64

üîç V√âRIFICATIONS DE COH√âRENCE:
   Cotes extr√™mes (<1.1 ou >100): 11,604 (1.8%)
   EV positifs: 156,213 (23.6%)
   Probabilit√©s invalides: 0

‚ö†Ô∏è Attention aux donn√©es extr√™mes avant backtesting


## üí° R√©sum√© du contr√¥le qualit√©

Si tous les checks passent :
- ‚úÖ P√©riode : ~5 ans (2020-2025)  
- ‚úÖ Volume : ~68k courses, ~661k partants
- ‚úÖ Paris potentiels : >> 2,953 (largement sup√©rieur)
- ‚úÖ Taux de victoire : ~8-10% (coh√©rent)
- ‚úÖ Donn√©es calibr√©es pr√™tes pour backtest

‚û°Ô∏è **Le backtester est pr√™t pour tester sur 5 ann√©es compl√®tes !**