<img src="../img/f1pa_banner.png" alt="F1PA banner" height="600px">

# Formula 1 Predictive Assistant (F1PA)

Ce projet a pour objectif de concevoir un **assistant prédictif appliqué à la Formule 1**, capable d’estimer le **temps au tour potentiel** d’un pilote dans un contexte donné (circuit, conditions météo, session).

Le projet est réalisé dans un cadre **pédagogique et de certification Data / IA**, avec une attention particulière portée à :
- la structuration des données,
- la reproductibilité des pipelines,
- la traçabilité des décisions techniques et méthodologiques.

## Contexte et périmètre

Le projet couvre les saisons de Formule 1 **2022 à 2024** (avec extension possible à 2025 selon disponibilité des données).

Il ne s’agit pas d’un projet de prédiction temps réel en production, mais d’un **cas d’étude complet**, permettant de démontrer des compétences en :
- Data Engineering (ETL, orchestration, base de données),
- Machine Learning (feature engineering, entraînement, évaluation),
- MLOps (tracking, monitoring, tests).


## Problématique data et machine learning

La problématique centrale du projet est la suivante :

> *Comment estimer un temps au tour en Formule 1 à partir de données historiques, en tenant compte du circuit et des conditions environnementales ?*

Ce problème est formulé comme une **tâche de régression supervisée**, où la variable cible est le temps au tour (en millisecondes).


## Sources de données

Le projet repose sur trois sources de données distinctes et complémentaires :

1. **OpenF1 API**
   - Données sportives historiques
   - Courses, pilotes, circuits, résultats, temps au tour

2. **Meteostat**
   - Données météorologiques historiques
   - Température, précipitations, vent, pression

3. **Wikipedia**
   - Données descriptives des circuits
   - Longueur, nombre de virages, altitude


## Granularité des données

La granularité cible finale du projet est :

> **1 ligne = 1 tour chronométré d’un pilote dans une course donnée**

Cette granularité permet :
- une analyse fine des performances,
- un feature engineering riche,
- une approche ML réaliste et exploitable.


## Architecture des données

Le pipeline data est structuré selon une architecture en couches :

- **Bronze** : données brutes issues des sources, sans transformation métier
- **Silver** : données nettoyées, normalisées et enrichies
- **Gold** : données orientées machine learning et consommation applicative

Cette approche permet de garantir :
- la traçabilité des données,
- la reproductibilité des traitements,
- une séparation claire des responsabilités.


## Stack technique et contraintes

- Python : 3.10.10
- Base de données : PostgreSQL (local)
- Orchestration : Apache Airflow (LocalExecutor)
- ML tracking : MLflow (local)
- API : FastAPI
- Visualisation : Streamlit
- Conteneurisation : Docker / Docker Compose

Tous les services du projet sont exécutés localement et conteneurisés.


## Rôle des notebooks

Les notebooks Jupyter sont utilisés exclusivement pour :
- l’exploration des sources de données,
- la validation des schémas,
- le prototypage exploratoire.

Les traitements industrialisés sont implémentés sous forme de **scripts Python exécutés via Airflow**.


## Étapes suivantes

Les prochaines étapes du projet sont :
1. Exploration détaillée des sources de données (OpenF1 API, Meteostat, Wikipedia)
2. Définition des schémas de données Bronze
3. Implémentation des pipelines ETL via Airflow
4. Construction des couches Silver et Gold
5. Entraînement et suivi des modèles ML
