Ăvaluation probabiliste multi-domaine d'un LLM (GPT-5.2) : MĂ©tĂ©o · MarchĂ©s Financiers · Performance Sportive
Ce laboratoire compare les capacités de prédiction probabiliste d'un LLM avancé (GPT-5.2 avec reasoning) dans 3 domaines distincts, selon deux conditions expérimentales :
- Web OFF : prédiction basée uniquement sur les données fournies dans le prompt (pas d'accÚs internet)
- Web ON : mĂȘmes donnĂ©es + accĂšs aux connaissances externes (navigation web)
L'évaluation s'appuie sur des métriques probabilistes rigoureuses (Brier Score, MAE, Coverage P10-P90) comparées à des baselines spécialisées par domaine.
| Domaine | Prédictions | Baseline | Métrique principale |
|---|---|---|---|
| đŠïž MĂ©tĂ©o | 35 prĂ©dictions (5 villes Ă 7 jours) | Open-Meteo API | MAE (°C) + Brier Score |
| đ MarchĂ©s | 10 actifs europĂ©ens (horizon J+5) | StratĂ©gie alĂ©atoire (p=0.5) | Brier Score |
| đ Running | 7 mĂ©thodes, 1 marathon (Run In Lyon 2025) | Riegel, Coros, HRâPace | MAE (minutes) |
- â MĂ©tĂ©o : L'IA amĂ©liore la prĂ©cision de ~15-20% vs API professionnelle (MAE ~2°C)
- â MarchĂ©s : Brier Score ~0.22 (vs 0.25 pour le hasard pur) â compĂ©tence prĂ©dictive rĂ©elle
- â Running : Performance comparable aux formules physiologiques Ă©tablies (Riegel, Coros)
â ïž Biais identifiĂ© : Web ON tend Ă rendre les prĂ©dictions plus optimistes (+10-20% en finance)
ForecastingLLM/
âââ forecasting_llm_lab.py # Streamlit app (entrypoint)
âââ requirements.txt # DĂ©pendances Python
âââ protocol.md # Protocole expĂ©rimental dĂ©taillĂ©
â
âââ WEATHER/
â âââ weather_experiment_FINAL.xlsx # DonnĂ©es mĂ©tĂ©o (35 lignes)
â
âââ MARKETS/
â âââ markets_experiments_FINAL.xlsx # DonnĂ©es marchĂ©s (10 actifs)
â
âââ RUNNING/
âââ marathon_predictions_oneshot.csv # PrĂ©dictions toutes mĂ©thodes
âââ CSVs_transitions/
âââ marathon_snapshot_16w.csv # RĂ©sumĂ© 16 semaines
âââ marathon_weekly_16w.csv # AgrĂ©gats hebdomadaires
âââ marathon_runs_16w.csv # DĂ©tail des sĂ©ances
Prérequis : Python 3.10+
# 1. Cloner le repo
git clone https://github.com/BadreddineEK/ForecastingLLM.git
cd ForecastingLLM
# 2. Créer un environnement virtuel
python -m venv .venv
source .venv/bin/activate # macOS/Linux
# .venv\Scripts\activate # Windows
# 3. Installer les dépendances
pip install -r requirements.txt
# 4. Lancer l'app
streamlit run forecasting_llm_lab.py
â ïž Lancer depuis la racine du repo pour que les chemins relatifs vers les dossiersWEATHER/,MARKETS/,RUNNING/soient corrects.
- Aller sur share.streamlit.io
- Sélectionner le repo :
BadreddineEK/ForecastingLLM - Branche :
main - Main file path :
forecasting_llm_lab.py - Cliquer Deploy
Aucun secret ou variable d'environnement requis pour la V1 â les donnĂ©es sont bundlĂ©es dans le repo.
Le protocole complet (design expérimental, templates de prompts, rÚgles anti-leak, métriques) est disponible dans protocol.md.
RÚgles clés :
- J0 (prédictions générées) : 17 décembre 2025
- J+7 (résolution des outcomes) : 24 décembre 2025
- Anti-leak strict : aucune donnée post-J0 utilisée pour les prédictions
- 4 threads expérimentaux hermétiques (Weather OFF/ON, Markets OFF/ON)
- App : Streamlit
- Data : Pandas, NumPy, OpenPyXL
- Viz : Plotly Express / Graph Objects
- Stats : SciPy (t-tests, bootstrap CI)
- LLM évalué : GPT-5.2 (reasoning ON) via Perplexity Pro
- Baselines météo : Open-Meteo API
- Baselines running : Formule de Riegel, Coros, HRâPace regression
EL KHAMLICHI Badreddine â Data Scientist
Ingénieur Mathématiques Appliquées · Polytech Lyon (2024)
GitHub
V1 â Mars 2026