# F1 2025 - PrÃ©diction des classements finaux

Ce notebook a pour objectif de prÃ©dire les grilles de dÃ©part et les positions finales des pilotes pour la saison 2025 de Formule 1.

Pour cela, nous utilisons des donnÃ©es historiques des saisons 1950 Ã  2024, enrichies de variables spÃ©cifiques Ã  la saison 2025, telles que le type de circuit, les conditions mÃ©tÃ©orologiques prÃ©vues, ou encore le statut de course Ã  domicile pour chaque pilote.

Deux modÃ¨les de rÃ©gression distincts sont construits :
- Le premier vise Ã  prÃ©dire la **position sur la grille de dÃ©part** ;
- Le second anticipe la **position finale Ã  lâ€™arrivÃ©e**.

Ces modÃ¨les sont ensuite appliquÃ©s Ã  lâ€™ensemble du calendrier 2025, permettant dâ€™obtenir des prÃ©dictions dÃ©taillÃ©es pour chaque course.

## Table des matiÃ¨res

1. [Chargement des bibliothÃ¨ques](#chargement-des-bibliothÃ¨ques)  
2. [Chargement et filtrage des donnÃ©es historiques](#chargement-et-filtrage-des-donnÃ©es-historiques)  
3. [ModÃ©lisation de la grille de dÃ©part](#modÃ©lisation-de-la-grille-de-dÃ©part)  
4. [ModÃ©lisation de la position finale](#modÃ©lisation-de-la-position-finale)  
5. [PrÃ©paration des donnÃ©es de la saison 2025](#prÃ©paration-des-donnÃ©es-de-la-saison-2025)  
6. [PrÃ©dictions pour la saison 2025](#prÃ©dictions-pour-la-saison-2025)  
7. [Affichage des rÃ©sultats par course](#affichage-des-rÃ©sultats-par-course)  
8. [Sauvegarde des prÃ©dictions](#sauvegarde-des-prÃ©dictions)  
9. [Classement moyen pilotes / Ã©curies](#classement-moyen-pilotes--Ã©curies)  
10. [Conclusion](#conclusion)


## Chargement des bibliothÃ¨ques

In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.metrics import mean_absolute_error

## Chargement des donnÃ©es historiques rÃ©centes (â‰¥ 2020)

Afin dâ€™assurer une meilleure cohÃ©rence avec le contexte actuel de la Formule 1, nous filtrons les donnÃ©es historiques Ã  partir de la saison 2020. Cette pÃ©riode rÃ©cente reflÃ¨te mieux les conditions modernes du championnat, avec des changements significatifs dans les rÃ¨glements, lâ€™arrivÃ©e de nouveaux circuits et lâ€™Ã©volution des performances des Ã©curies.
Cela permet dâ€™entraÃ®ner des modÃ¨les plus adaptÃ©s aux caractÃ©ristiques de la saison 2025, en rÃ©duisant lâ€™influence de saisons trop anciennes et moins reprÃ©sentatives.

In [2]:
df_hist = pd.read_csv("../data/data_filter.csv")
df_hist = df_hist[df_hist["year"] >= 2020]  # ou >= 2018 ajuster selon les besoins

# Supprimer les colonnes manquantes attendues si elles n'existent pas
for col in ["circuit_type", "laps_mean_time", "weather_profile", "team_points_last_y"]:
    if col not in df_hist.columns:
        df_hist[col] = np.nan  # Valeur par dÃ©faut temporaire ou 0.0 si pertinent
        if col == "team_points_last_y":
            df_hist[col] = 0.0

  df_hist = pd.read_csv("../data/data_filter.csv")


## PrÃ©diction de la position sur la grille de dÃ©part

In [3]:
features_grid = [
    "driver_age", "constructor_name", "races_name", "driver_nationality_1",
    "circuit_type", "laps_mean_time", "weather_profile", "team_points_last_y",
    "is_home_race"
]
target_grid = "grid"

Xg = df_hist[features_grid]
yg = df_hist[target_grid]

categorical_cols_grid = ["constructor_name", "races_name", "driver_nationality_1", "circuit_type", "weather_profile"]
numeric_cols_grid = ["driver_age", "laps_mean_time", "team_points_last_y","is_home_race"]

preprocessor_grid = ColumnTransformer([
    ("num", StandardScaler(), numeric_cols_grid),
    ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), categorical_cols_grid),
])

pipeline_grid = Pipeline([
    ("preprocessor", preprocessor_grid),
    ("regressor", HistGradientBoostingRegressor())
])

Xg_train, Xg_val, yg_train, yg_val = train_test_split(Xg, yg, test_size=0.3, random_state=42)
pipeline_grid.fit(Xg_train, yg_train)

yg_pred = pipeline_grid.predict(Xg_val)
print("MAE grille de dÃ©part :", mean_absolute_error(yg_val, yg_pred))

  updated_mean = (last_sum + new_sum) / updated_sample_count
  T = new_sum / new_sample_count
  new_unnormalized_variance -= correction**2 / new_sample_count


MAE grille de dÃ©part : 3.3760708124475705


Ce bloc permet de prÃ©dire la position de dÃ©part (grid) dâ€™un pilote avant la course, Ã  partir de plusieurs informations connues en amont : Ã¢ge, Ã©curie, nom du circuit, mÃ©tÃ©o, etc.

Un pipeline est utilisÃ© pour :

- Standardiser les donnÃ©es numÃ©riques,

- Encoder les donnÃ©es catÃ©gorielles,

- EntraÃ®ner un modÃ¨le de type HistGradientBoostingRegressor.

Le modÃ¨le est Ã©valuÃ© avec une division entraÃ®nement/validation et lâ€™erreur moyenne absolue (MAE) est calculÃ©e.

## PrÃ©diction de la position finale Ã  lâ€™arrivÃ©e

In [4]:
features_final = features_grid.copy()
features_final.insert(0, "grid")  # On ajoute la grille comme premier facteur

Xf = df_hist[features_final]
yf = df_hist["positionOrder"]

categorical_cols_final = categorical_cols_grid.copy()
numeric_cols_final = numeric_cols_grid.copy()
numeric_cols_final.insert(0, "grid")

preprocessor_final = ColumnTransformer([
    ("num", StandardScaler(), numeric_cols_final),
    ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), categorical_cols_final),
])

pipeline_final = Pipeline([
    ("preprocessor", preprocessor_final),
    ("regressor", HistGradientBoostingRegressor())
])

Xf_train, Xf_val, yf_train, yf_val = train_test_split(Xf, yf, test_size=0.3, random_state=42)
pipeline_final.fit(Xf_train, yf_train)

yf_pred = pipeline_final.predict(Xf_val)
print("MAE position finale :", mean_absolute_error(yf_val, yf_pred))

  updated_mean = (last_sum + new_sum) / updated_sample_count
  T = new_sum / new_sample_count
  new_unnormalized_variance -= correction**2 / new_sample_count


MAE position finale : 3.3898347541657317


Ce bloc permet de prÃ©dire la position finale (positionOrder) dâ€™un pilote Ã  la fin de la course, en ajoutant la position sur la grille de dÃ©part comme nouvelle variable explicative.

Nous utilisons :

- Les mÃªmes variables que pour la prÃ©diction de la grille (features_grid),

- En y ajoutant la grille de dÃ©part (grid) comme facteur supplÃ©mentaire.

Le pipeline inclut :

- Un prÃ©traitement des variables numÃ©riques et catÃ©gorielles,

- Un modÃ¨le de rÃ©gression (HistGradientBoostingRegressor),

- Une Ã©valuation sur un jeu de validation Ã  lâ€™aide de la MAE.

Cette Ã©tape vise Ã  mesurer la capacitÃ© du modÃ¨le Ã  anticiper le classement final Ã  partir de donnÃ©es de dÃ©part.

## PrÃ©diction des rÃ©sultats pour la saison 2025

In [5]:
df_2025 = pd.read_csv("../data/season2025/data_2025.csv")
df_2025 = df_2025.drop_duplicates(subset=["circuit_name", "driver_name"], keep="first")
df_2025.rename(columns={"circuit_name": "races_name"}, inplace=True)

# PrÃ©dire la grille de dÃ©part
X_2025_grid = df_2025[features_grid]
df_2025["grid"] = pipeline_grid.predict(X_2025_grid)

# PrÃ©dire la position finale
X_2025_final = df_2025[features_final]
df_2025["predicted_positionOrder"] = pipeline_final.predict(X_2025_final)


Dans ce bloc, on applique les modÃ¨les entraÃ®nÃ©s pour prÃ©dire les performances des pilotes en 2025 :

- Chargement des donnÃ©es 2025, avec suppression des doublons pilotes/circuits.

- PrÃ©vision de la grille de dÃ©part avec le modÃ¨le pipeline_grid.

- La grille prÃ©dite est ensuite utilisÃ©e comme variable d'entrÃ©e pour prÃ©dire la position finale avec le modÃ¨le pipeline_final.

## Affichage des rÃ©sultats par course : grille vs position finale prÃ©dite

In [6]:
def afficher_resultats_course(df, course_name):
    df_course = df[df["races_name"] == course_name].copy()

    # Grille de dÃ©part
    df_grid = df_course.sort_values(by="grid").reset_index(drop=True)
    df_grid["grid_rank"] = df_grid.index + 1
    print(f"\n=== ðŸ‡«ðŸ‡· Grille de dÃ©part - {course_name} ===")
    for _, row in df_grid.iterrows():
        print(f"P{int(row['grid_rank']):>2} - {row['driver_name']} ({row['constructor_name']})")

    # Position finale
    df_sorted = df_course.sort_values(by="predicted_positionOrder").reset_index(drop=True)
    df_sorted["rang_final"] = df_sorted.index + 1
    print(f"\n=== Position finale prÃ©dite - {course_name} ===")
    for _, row in df_sorted.iterrows():
        print(f"P{int(row['rang_final']):>2} - {row['driver_name']} ({row['constructor_name']})")

## Choix manuel d'une course Ã  afficher

Ce bloc permet de sÃ©lectionner manuellement une course (par son nom) afin dâ€™afficher les rÃ©sultats prÃ©dits de la grille de dÃ©part et du classement final, calculer au dessus.

In [7]:
afficher_resultats_course(df_2025, "Monaco (Monte-Carlo)")


=== ðŸ‡«ðŸ‡· Grille de dÃ©part - Monaco (Monte-Carlo) ===
P 1 - George Russell (Mercedes)
P 2 - Charles Leclerc (Ferrari)
P 3 - Max Verstappen (Red Bull)
P 4 - Yuki Tsunoda (Red Bull)
P 5 - Andrea Kimi Antonelli (Mercedes)
P 6 - Lando Norris (McLaren)
P 7 - Lewis Hamilton (Ferrari)
P 8 - Oscar Piastri (McLaren)
P 9 - Pierre Gasly (Alpine)
P10 - Carlos Sainz (Williams)
P11 - Alexander Albon (Williams)
P12 - Liam Lawson (Racing Bulls)
P13 - Esteban Ocon (Haas F1 Team)
P14 - Lance Stroll (Aston Martin)
P15 - Fernando Alonso (Aston Martin)
P16 - Nico Hulkenberg (Kick Sauber)
P17 - Gabriel Bortoleto (Kick Sauber)
P18 - Isack Hadjar (Racing Bulls)
P19 - Franco Colapinto (Alpine)
P20 - Oliver Bearman (Haas F1 Team)

=== Position finale prÃ©dite - Monaco (Monte-Carlo) ===
P 1 - George Russell (Mercedes)
P 2 - Charles Leclerc (Ferrari)
P 3 - Max Verstappen (Red Bull)
P 4 - Yuki Tsunoda (Red Bull)
P 5 - Andrea Kimi Antonelli (Mercedes)
P 6 - Oscar Piastri (McLaren)
P 7 - Lewis Hamilton (Ferrari

On observe plusieurs changements notables entre la grille de dÃ©part et la position finale prÃ©dite :

- Yuki Tsunoda passe de la 3áµ‰ Ã  la 1Ê³áµ‰ place, suggÃ©rant une excellente performance en course.

- George Russell, parti en pole position, termine 4áµ‰.

- Charles Leclerc, bien placÃ© dÃ¨s le dÃ©part (4áµ‰), parvient Ã  monter sur le podium (2áµ‰).

- Certains pilotes comme Nico HÃ¼lkenberg ou Gabriel Bortoleto rÃ©alisent de belles remontÃ©es depuis le fond de grille.

- Ã€ lâ€™inverse, Alexander Albon (10áµ‰ sur la grille) et Esteban Ocon (11áµ‰) chutent significativement au classement final.

Ces rÃ©sultats traduisent des performances diffÃ©renciÃ©es selon les pilotes et les Ã©curies, et illustrent lâ€™intÃ©rÃªt dâ€™utiliser la grille de dÃ©part comme variable prÃ©dictive dans le modÃ¨le. Bien sur, les rÃ©sultats sont pas encore parfait mais c'est dÃ©ja un bon dÃ©but.

## Afficher toutes les grilles et positions finales prÃ©dictives de 2025

In [8]:
for gp in sorted(df_2025["races_name"].unique()):
    afficher_resultats_course(df_2025, gp)


=== ðŸ‡«ðŸ‡· Grille de dÃ©part - Abou Dhabi (Yas Marina) ===
P 1 - George Russell (Mercedes)
P 2 - Max Verstappen (Red Bull)
P 3 - Yuki Tsunoda (Red Bull)
P 4 - Charles Leclerc (Ferrari)
P 5 - Andrea Kimi Antonelli (Mercedes)
P 6 - Lando Norris (McLaren)
P 7 - Lewis Hamilton (Ferrari)
P 8 - Oscar Piastri (McLaren)
P 9 - Pierre Gasly (Alpine)
P10 - Carlos Sainz (Williams)
P11 - Liam Lawson (Racing Bulls)
P12 - Alexander Albon (Williams)
P13 - Lance Stroll (Aston Martin)
P14 - Esteban Ocon (Haas F1 Team)
P15 - Fernando Alonso (Aston Martin)
P16 - Nico Hulkenberg (Kick Sauber)
P17 - Isack Hadjar (Racing Bulls)
P18 - Gabriel Bortoleto (Kick Sauber)
P19 - Franco Colapinto (Alpine)
P20 - Oliver Bearman (Haas F1 Team)

=== Position finale prÃ©dite - Abou Dhabi (Yas Marina) ===
P 1 - George Russell (Mercedes)
P 2 - Max Verstappen (Red Bull)
P 3 - Charles Leclerc (Ferrari)
P 4 - Oscar Piastri (McLaren)
P 5 - Yuki Tsunoda (Red Bull)
P 6 - Lewis Hamilton (Ferrari)
P 7 - Lando Norris (McLaren)
P 

## Sauvegarde des prÃ©dictions

Les rÃ©sultats finaux, incluant la grille de dÃ©part et la position finale prÃ©dite pour chaque pilote, sont enregistrÃ©s dans un fichier CSV pour une consultation ou une analyse ultÃ©rieure.

In [9]:
df_2025.to_csv("../data/season2025/predictions_2025.csv", index=False)

## Classement moyen des pilotes et des Ã©curies

In [10]:
print("\n Moyenne des positions finales prÃ©dites par pilote :")
print(df_2025.groupby("driver_name")["predicted_positionOrder"].mean().sort_values())

print("\n Moyenne des positions finales prÃ©dites par Ã©curie :")
print(df_2025.groupby("constructor_name")["predicted_positionOrder"].mean().sort_values())


 Moyenne des positions finales prÃ©dites par pilote :
driver_name
George Russell            5.728057
Max Verstappen            6.943902
Charles Leclerc           7.331004
Yuki Tsunoda              7.779820
Oscar Piastri             7.859842
Lewis Hamilton            9.112231
Andrea Kimi Antonelli     9.215913
Lando Norris              9.370952
Pierre Gasly             10.535948
Nico Hulkenberg          11.693808
Liam Lawson              12.134502
Franco Colapinto         12.337693
Lance Stroll             12.458570
Gabriel Bortoleto        12.821764
Isack Hadjar             12.842612
Fernando Alonso          13.522693
Jack Doohan              14.486468
Carlos Sainz             15.212750
Alexander Albon          15.930598
Oliver Bearman           16.880674
Esteban Ocon             17.176581
Name: predicted_positionOrder, dtype: float64

 Moyenne des positions finales prÃ©dites par Ã©curie :
constructor_name
Red Bull         7.210097
Mercedes         7.471985
Ferrari          8.221618
M

Ce bloc calcule la moyenne des positions finales prÃ©dites sur lâ€™ensemble des courses :

- Par pilote, pour estimer la rÃ©gularitÃ© individuelle.

- Par Ã©curie, en prenant la moyenne des pilotes de chaque team.

Les valeurs les plus basses correspondent aux meilleures performances moyennes.

## Conclusion

Ce notebook prÃ©sente un pipeline complet de rÃ©gression visant Ã  prÃ©dire les rÃ©sultats de la saison 2025 de Formule 1.

Les principales Ã©tapes rÃ©alisÃ©es sont :

- L'entraÃ®nement de deux modÃ¨les distincts : lâ€™un pour estimer la position sur la grille de dÃ©part, lâ€™autre pour prÃ©dire le classement final.

- Lâ€™exploitation de donnÃ©es historiques enrichies pour simuler lâ€™ensemble de la saison Ã  venir.

- Lâ€™analyse comparative des performances moyennes des pilotes et des Ã©curies.

- Lâ€™observation des Ã©carts entre la grille et les rÃ©sultats finaux, course par course.

Ce modÃ¨le constitue une premiÃ¨re base de prÃ©vision des performances en F1, permettant dâ€™identifier les pilotes et Ã©curies les plus performants selon les simulations.
Des pistes d'amÃ©lioration incluent l'intÃ©gration dâ€™Ã©lÃ©ments dynamiques comme les abandons, les stratÃ©gies de course ou la mÃ©tÃ©o.
Enfin, lâ€™ajout progressif des rÃ©sultats rÃ©els de la saison 2025 permettra dâ€™affiner les prÃ©dictions tout au long de lâ€™annÃ©e.
