<img src="../img/f1pa_banner.png" alt="F1PA banner" height="600px">

# Formula 1 Predictive Assistant (F1PA)

Ce projet a pour objectif de concevoir un **assistant prédictif appliqué à la Formule 1**, capable d’estimer le **temps au tour potentiel** d’un pilote dans un contexte donné (circuit, conditions météo, session).

Le projet est réalisé dans un cadre **pédagogique et de certification Data / IA**, avec une attention particulière portée à :
- la structuration des données,
- la reproductibilité des traitements,
- la traçabilité des décisions techniques et méthodologiques.

## Contexte et périmètre

Le projet couvre les saisons de Formule 1 **2022 à 2024**, avec une **extension possible à 2025** selon la disponibilité et la qualité des données.

Il ne s’agit pas d’un système de prédiction temps réel en production, mais d’un **cas d’étude complet**, destiné à démontrer des compétences professionnelles en :
- **Data Engineering** (ETL, orchestration, bases de données),
- **Machine Learning** (feature engineering, entraînement, évaluation),
- **MLOps** (tracking des expériences, monitoring, tests).

## Problématique data et machine learning

La problématique centrale du projet est la suivante :

> *Comment estimer un temps au tour en Formule 1 à partir de données historiques, en tenant compte du circuit et des conditions environnementales ?*

Ce problème est formulé comme une **tâche de régression supervisée**, où la variable cible est le **temps au tour**, exprimé en millisecondes.

L’objectif n’est pas d’obtenir une prédiction parfaite, mais de construire un pipeline cohérent, explicable et reproductible, du jeu de données brut jusqu’au modèle.

## Sources de données

Le projet repose sur trois sources de données distinctes et complémentaires :

1. **OpenF1 API**
   - Données sportives historiques
   - Structure des saisons, sessions, pilotes et temps au tour

2. **Meteostat**
   - Données météorologiques historiques
   - Température, précipitations, vent, pression atmosphérique

3. **Wikipedia**
   - Données descriptives des circuits
   - Localisation, caractéristiques générales, contexte géographique

Chaque source joue un rôle spécifique dans la compréhension et l’enrichissement des performances en piste.

## Granularité des données

La granularité cible finale du projet est la suivante :

> **1 ligne = 1 tour chronométré d’un pilote lors d’une session donnée**

Cette granularité permet :
- une analyse fine des performances individuelles,
- un feature engineering riche et pertinent,
- une approche Machine Learning réaliste et exploitable.

## Architecture logique des données (ETL)

Le projet adopte une approche **ETL (Extract – Transform – Load)**, volontairement simple et progressive.

### Extract
- Récupération des données depuis les différentes sources :
  - OpenF1 (API)
  - Meteostat (fichiers CSV)
  - Wikipedia (scraping)
- Les données extraites sont conservées sous forme de fichiers afin de garantir la reproductibilité.

### Transform
- Nettoyage, normalisation et enrichissement des données :
  - harmonisation des schémas,
  - jointures entre sources (circuits, sessions, météo),
  - préparation des variables explicatives.

### Load
- Chargement des données transformées dans une **base PostgreSQL locale**
- Mise à disposition des datasets pour :
  - l’entraînement des modèles ML,
  - l’API et l’application de visualisation.

Cette architecture vise la lisibilité, la traçabilité et l’alignement avec les compétences attendues en Data Engineering.

## Stack technique et contraintes

- Python : **3.10.10**
- Base de données : **PostgreSQL (local)**
- Orchestration : **Apache Airflow (LocalExecutor)**
- Suivi des modèles : **MLflow (local)**
- API : **FastAPI**
- Visualisation : **Streamlit**
- Conteneurisation : **Docker / Docker Compose**

Tous les services du projet sont exécutés **localement** et conteneurisés.

## Rôle des notebooks

Les notebooks Jupyter sont utilisés exclusivement pour :
- l’exploration et la compréhension des sources de données,
- la validation des schémas et hypothèses,
- le prototypage exploratoire.

Les traitements destinés à être rejoués ou orchestrés sont implémentés sous forme de **scripts Python industrialisables**, exécutés via Airflow.

## Étapes suivantes

Les prochaines étapes du projet sont :

1. Exploration détaillée des sources de données (OpenF1, Meteostat, Wikipedia)
2. Stabilisation des données extraites (fichiers Extract)
3. Définition des transformations nécessaires à l’enrichissement des données
4. Implémentation progressive des pipelines ETL via Airflow
5. Chargement des données dans PostgreSQL
6. Entraînement, suivi et évaluation des modèles de Machine Learning