# Nettoyage des données de Formula 1

## 1. Objectifs du Notebook
Ce notebook a pour objectif principal de préparer les données de Formula 1 en vue d’analyses approfondies. Le dataset couvre une période allant de 1950 à 2024, incluant divers aspects tels que les circuits, les pilotes, les classements, les résultats, et bien plus. Pour garantir la fiabilité des analyses, plusieurs tâches de nettoyage des données seront effectuées :

#### Validation des types de données :

- Vérifier que chaque colonne utilise un type de données approprié (numérique, catégoriel, etc.).


#### Identification et gestion des valeurs manquantes :

- Repérer les colonnes ou lignes contenant des données manquantes et appliquer des stratégies adaptées (suppression ou imputation).
  
#### Traitement des doublons :

- Vérifier l’existence de doublons dans les fichiers et les éliminer pour éviter les biais dans les analyses.

#### Gestion des incohérences :

- Identifier et corriger les éventuelles incohérences dans les données (par exemple, une valeur qui sort du bon intervalle).

Le but final est de produire un jeu de données propre, structuré et prêt pour des analyses exploratoires ou la construction de modèles de machine learning.

## 2. Importation des packages

In [163]:
import pandas as pd
import numpy as np

## 3. Chargement des données

Pour analyser l'impact de la météo sur les performances des pilotes en Formule 1, plusieurs fichiers de données sont utilisés, chacun apportant des informations complémentaires :

- Weather(2018 - 2024).csv : Contient les données météorologiques pour chaque course, incluant des variables telles que la température, les précipitations et les conditions générales (pluie, soleil, etc.). C’est le fichier central pour l’analyse météo.
- races.csv : Fournit des informations contextuelles sur chaque course (lieu, date, etc.), nécessaires pour associer les données météo aux performances des pilotes.
- drivers.csv : Liste les pilotes, permettant d’identifier et d’évaluer leurs performances individuelles.
- results.csv : Contient les résultats détaillés des courses, notamment les positions finales, les points, les meilleurs tours, et les abandons, qui serviront à mesurer les impacts de la météo.
- lap_times.csv : Fournit des données détaillées sur les temps au tour, utiles pour analyser comment les conditions météo influencent la régularité et la vitesse.
- status.csv : Donne des informations sur les statuts des pilotes à la fin des courses (abandon, accident, etc.), souvent affectés par la météo.

In [3]:
# Chargement des données 
meteo = pd.read_csv('Data/Weather(2018 - 2024).csv')
courses = pd.read_csv('Data/races.csv')
pilotes = pd.read_csv('Data/drivers.csv')
resultat = pd.read_csv('Data/results.csv')
laps_times = pd.read_csv('Data/lap_times.csv')
status = pd.read_csv('Data/status.csv')

# Afficher les dimensions de chaque dataset
print("Dimensions de 'meteo' :", meteo.shape)
print("Dimensions de 'courses' :", courses.shape)
print("Dimensions de 'pilotes' :", pilotes.shape)
print("Dimensions de 'resultats' :", resultat.shape)
print("Dimensions de 'laps_times' :", laps_times.shape)
print("Dimensions de 'status' :", status.shape)

Dimensions de 'meteo' : (21859, 10)
Dimensions de 'courses' : (1125, 18)
Dimensions de 'pilotes' : (859, 9)
Dimensions de 'resultats' : (26519, 18)
Dimensions de 'laps_times' : (575029, 6)
Dimensions de 'status' : (139, 2)


## 4. Nettoyage de la base de données Météo

In [3]:
## Affichages des 5 premières lignes
meteo.head(5)

Unnamed: 0,Time,AirTemp,Humidity,Pressure,Rainfall,TrackTemp,WindDirection,WindSpeed,Round Number,Year
0,0 days 00:00:57.060000,24.1,36.2,997.1,False,38.2,294,3.0,1,2018
1,0 days 00:01:57.078000,24.0,36.3,997.1,False,38.6,273,1.4,1,2018
2,0 days 00:02:57.090000,24.0,36.3,997.1,False,38.6,273,1.4,1,2018
3,0 days 00:03:57.106000,23.9,37.2,997.0,False,38.7,287,2.3,1,2018
4,0 days 00:04:57.121000,24.2,35.8,997.1,False,38.7,309,3.5,1,2018


### Vérification des types des données

In [4]:
# Informations sur les colonnes
meteo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21859 entries, 0 to 21858
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Time           21859 non-null  object 
 1   AirTemp        21859 non-null  float64
 2   Humidity       21859 non-null  float64
 3   Pressure       21859 non-null  float64
 4   Rainfall       21859 non-null  bool   
 5   TrackTemp      21859 non-null  float64
 6   WindDirection  21859 non-null  int64  
 7   WindSpeed      21859 non-null  float64
 8   Round Number   21859 non-null  int64  
 9   Year           21859 non-null  int64  
dtypes: bool(1), float64(5), int64(3), object(1)
memory usage: 1.5+ MB


In [5]:
# Conversion de la colonne Time en timedelta
meteo['Time'] = pd.to_timedelta(meteo['Time'])

In [6]:
# Vérification des types des colonnes
meteo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21859 entries, 0 to 21858
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype          
---  ------         --------------  -----          
 0   Time           21859 non-null  timedelta64[ns]
 1   AirTemp        21859 non-null  float64        
 2   Humidity       21859 non-null  float64        
 3   Pressure       21859 non-null  float64        
 4   Rainfall       21859 non-null  bool           
 5   TrackTemp      21859 non-null  float64        
 6   WindDirection  21859 non-null  int64          
 7   WindSpeed      21859 non-null  float64        
 8   Round Number   21859 non-null  int64          
 9   Year           21859 non-null  int64          
dtypes: bool(1), float64(5), int64(3), timedelta64[ns](1)
memory usage: 1.5 MB


In [7]:
# Afficher les 5 premières lignes
meteo.head()

Unnamed: 0,Time,AirTemp,Humidity,Pressure,Rainfall,TrackTemp,WindDirection,WindSpeed,Round Number,Year
0,0 days 00:00:57.060000,24.1,36.2,997.1,False,38.2,294,3.0,1,2018
1,0 days 00:01:57.078000,24.0,36.3,997.1,False,38.6,273,1.4,1,2018
2,0 days 00:02:57.090000,24.0,36.3,997.1,False,38.6,273,1.4,1,2018
3,0 days 00:03:57.106000,23.9,37.2,997.0,False,38.7,287,2.3,1,2018
4,0 days 00:04:57.121000,24.2,35.8,997.1,False,38.7,309,3.5,1,2018


### Vérification des données manquantes

In [194]:
# Fonction qui vérifie s'il y a des valeurs manquantes dans un dataset
def check_missing_values(df, dataset_name="Dataset"):
    if df.isnull().sum().sum() == 0 :
        print(f'La base de données {dataset_name} ne contient pas des valeurs manquantes')
    else:
        print(f'La base de données {dataset_name} contient {df.isnull().sum().sum()} valeur(s) manquante(s)')

check_missing_values(meteo, 'Météo')

La base de données Météo ne contient pas des valeurs manquantes


### Vérification des doublons

In [9]:
# Fonction qui vérifie s'il y a des doublons dans un dataset
def check_duplicates(df, dataset_name="Dataset"):
    duplicates = df.duplicated().sum()  # Compter le nombre de doublons
    if duplicates > 0:
        print(f"{dataset_name} contient {duplicates} doublon(s).")
    else:
        print(f"{dataset_name} ne contient pas de doublons.")

check_duplicates(meteo, 'Météo')

Météo contient 481 doublon(s).


In [10]:
# Suppression des doublons
def remove_duplicates(df):
    return df.drop_duplicates()

meteo_cleaned = remove_duplicates(meteo)

In [11]:
# Vérification des la suppression des doublons
check_duplicates(meteo_cleaned, 'Météo')

Météo ne contient pas de doublons.


### Vérification des intervalles pour les colonnes numériques

In [12]:
meteo_cleaned.describe()

Unnamed: 0,Time,AirTemp,Humidity,Pressure,TrackTemp,WindDirection,WindSpeed,Round Number,Year
count,21378,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0
mean,0 days 01:17:08.355882308,23.471181,54.709664,986.793068,35.224815,173.404107,1.637702,11.524652,2021.365656
std,0 days 00:48:51.566875113,4.988278,17.379909,50.957704,9.251853,104.043864,1.148441,6.302429,1.96411
min,0 days 00:00:02.224000,8.9,5.0,778.5,13.8,0.0,0.0,1.0,2018.0
25%,0 days 00:36:56.954000,20.0,42.0,986.2,29.0,95.0,0.8,6.0,2020.0
50%,0 days 01:13:48.357000,23.2,55.0,1006.6,34.8,170.0,1.4,12.0,2022.0
75%,0 days 01:51:26.588250,27.3,65.775,1013.7,42.2,264.0,2.2,17.0,2023.0
max,0 days 04:49:16.818000,37.2,97.5,1023.5,67.0,359.0,10.1,24.0,2024.0


Toutes les variables du dataset sont comprises dans des intervalles réalistes, à l'exception de la variable Pressure. 

Cette dernière présente des valeurs comprises entre 778 et 1023, ce qui est incohérent avec les observations météorologiques réelles. En effet, la pression atmosphérique la plus faible jamais enregistrée est de 879 hPa (source : https://alarmemeteo.ch/blog/la-pression-atmospherique-la-declencheuse-des-vents-et-des-tempetes.html). 

Par conséquent, dans la suite de ce projet, seules les pressions atmosphériques égales ou supérieures à 900 hPa seront conservées pour garantir une analyse cohérente et fiable.

In [13]:
# Proportion des meteo qui ont une pression alterieur inferieur à 900
(meteo['Pressure'] < 900).sum() / len(meteo) * 100

4.336886408344389

Nous constatons que Environ 4% des courses ont une pression atmospherique inférieur à 900 hPa

In [14]:
# Suppression des valeurs de pression atmosphérique < 900
meteo_cleaned = meteo_cleaned[meteo_cleaned['Pressure'] >= 900]

# Afficher les 5 premières lignes pour vérifier
meteo_cleaned.describe()

Unnamed: 0,Time,AirTemp,Humidity,Pressure,TrackTemp,WindDirection,WindSpeed,Round Number,Year
count,20430,20430.0,20430.0,20430.0,20430.0,20430.0,20430.0,20430.0,20430.0
mean,0 days 01:16:59.700136025,23.515482,55.461659,996.283607,34.937327,171.141605,1.650255,11.176407,2021.365786
std,0 days 00:48:54.688692833,5.073526,17.25436,26.185476,9.288804,103.850886,1.160239,6.228851,1.959818
min,0 days 00:00:02.224000,8.9,5.0,921.9,13.8,0.0,0.0,1.0,2018.0
25%,0 days 00:36:49.892750,19.9,43.0,991.0,28.8,93.0,0.8,6.0,2020.0
50%,0 days 01:13:33.271500,23.3,56.0,1007.4,34.4,167.0,1.4,11.0,2022.0
75%,0 days 01:51:06.292750,27.5,66.0,1014.0,41.9,256.0,2.2,16.0,2023.0
max,0 days 04:49:16.818000,37.2,97.5,1023.5,67.0,359.0,10.1,24.0,2024.0


### Enregistrement des données nettoyés dans un fichier csv

In [95]:
# Fonction qui permet d'enregistrer un dataset dans un fichier csv
def dataset_to_csv(df, name):
    df.to_csv(f'Cleaned_Data/{name}.csv', index=False)

    print(f"Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/{name}.csv'.")

#dataset_to_csv(meteo_cleaned, 'meteo_cleaned')

## 5. Nettoyage de la base de données Courses

### 5.1 Vérification des types de données

In [15]:
# Affichage des 5 premières lignes
courses.head()
courses[courses['raceId'] == 918]

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
915,918,2014,19,24,Abu Dhabi Grand Prix,2014-11-23,13:00:00,http://en.wikipedia.org/wiki/2014_Abu_Dhabi_Gr...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N


### Échantillonage des courses du 1950-2024 à 2018-2024

* Les données météorologiques que nous avons à notre disposition sont de 2018 à 2024. Ce qui nous empêche de pouvoir mener une analyse météorologique avant 2018. 

* Par conséquent, Dans la suite de ce projet nous allons nous focaliser sur les années 2018-2024.

In [9]:
# Récuperer les courses de 2018 à 2024
courses_2018_2024 = courses[(courses['year'] >= 2018) & (courses['year'] <= 2024)]

# Reindexer le dataset
courses_2018_2024 = courses_2018_2024.reset_index(drop=True)

# Afficher les 5 premières lignes
courses_2018_2024.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00,http://en.wikipedia.org/wiki/2018_Australian_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00,http://en.wikipedia.org/wiki/2018_Bahrain_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00,http://en.wikipedia.org/wiki/2018_Chinese_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00,http://en.wikipedia.org/wiki/2018_Azerbaijan_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00,http://en.wikipedia.org/wiki/2018_Spanish_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N


### Analyse du pertinance des variables

- Les variables ['fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time', 'quali_date', 'quali_time', 'sprint_date', 'sprint_time'] se réfèrent principalement aux horaires des différentes sessions de la course (essais libres, qualifications, sprint, etc.), qui ne sont pas directement liées aux conditions météorologiques ayant un impact sur les performances des pilotes. Par conséquent, nous avons décidé de retirer ces variables pour simplifier l'analyse en nous concentrant sur les éléments les plus pertinents. La variable 'url' sera conservée, car elle peut être utile pour obtenir plus d'informations sur une course si nécessaire.

- En revanche, les variables 'date' et 'time' de la course restent pertinentes. Elles permettent de situer les données météorologiques dans le temps, ce qui est essentiel pour l'analyse des conditions climatiques et leur impact sur les performances des pilotes.
  
- Les variables 'year', 'round', 'circuitId' et 'name' sont également conservées car elles permettent d'identifier chaque course, la saison et le circuit associés. Ces informations sont essentielles pour relier les données météorologiques aux événements spécifiques de la compétition et pour étudier l'impact des conditions climatiques sur les performances des pilotes en fonction de l'année, du circuit et du tour de la compétition.


In [10]:
# Choix des variables pertinentes
courses_cleaned = courses_2018_2024[['raceId', 'year', 'round', 'circuitId', 'name', 'date', 'time', 'url']]
courses_cleaned.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00,http://en.wikipedia.org/wiki/2018_Australian_G...
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00,http://en.wikipedia.org/wiki/2018_Bahrain_Gran...
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00,http://en.wikipedia.org/wiki/2018_Chinese_Gran...
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00,http://en.wikipedia.org/wiki/2018_Azerbaijan_G...
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00,http://en.wikipedia.org/wiki/2018_Spanish_Gran...


### Vérification des types des données

In [20]:
# Afficher les informations sur les colonnes
courses_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   raceId     149 non-null    int64 
 1   year       149 non-null    int64 
 2   round      149 non-null    int64 
 3   circuitId  149 non-null    int64 
 4   name       149 non-null    object
 5   date       149 non-null    object
 6   time       149 non-null    object
 7   url        149 non-null    object
dtypes: int64(4), object(4)
memory usage: 9.4+ KB


In [11]:
# Fusionner les colonnes date et time et les convertir en datetime
courses_cleaned.loc[:, 'date & time'] = pd.to_datetime(courses_cleaned['date'] + ' ' + courses_cleaned['time'], format='%Y-%m-%d %H:%M:%S')

# Afficher les 5 premières lignes
courses_cleaned.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  courses_cleaned.loc[:, 'date & time'] = pd.to_datetime(courses_cleaned['date'] + ' ' + courses_cleaned['time'], format='%Y-%m-%d %H:%M:%S')


Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,date & time
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00,http://en.wikipedia.org/wiki/2018_Australian_G...,2018-03-25 05:10:00
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00,http://en.wikipedia.org/wiki/2018_Bahrain_Gran...,2018-04-08 15:10:00
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00,http://en.wikipedia.org/wiki/2018_Chinese_Gran...,2018-04-15 06:10:00
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00,http://en.wikipedia.org/wiki/2018_Azerbaijan_G...,2018-04-29 12:10:00
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00,http://en.wikipedia.org/wiki/2018_Spanish_Gran...,2018-05-13 13:10:00


In [59]:
# Supprimer les colonnes date et time
courses_cleaned = courses_cleaned.drop(columns=['date', 'time'])

# Afficher les 5 premières lignes
courses_cleaned.head()

KeyError: "['date', 'time'] not found in axis"

### Analyse des valeurs manquantes
        

In [23]:
check_missing_values(courses_cleaned, 'Courses')

La base de données Courses ne contient pas des valeurs manquantes


### Analyse des doublons        

In [24]:
check_duplicates(courses_cleaned, 'Courses')

Courses ne contient pas de doublons.


### Enregistrement des données nettoyés dans un fichier csv

In [25]:
dataset_to_csv(courses_cleaned, 'courses_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/courses_cleaned.csv'.


## 5. Nettoyage de la base de données des pilotes

### Analyse des types de données

In [26]:
# Afficher les 5 premieres lignes
pilotes.head(5)

Unnamed: 0,driverId,driverRef,number,code,forename,surname,dob,nationality,url
0,1,hamilton,44,HAM,Lewis,Hamilton,1985-01-07,British,http://en.wikipedia.org/wiki/Lewis_Hamilton
1,2,heidfeld,\N,HEI,Nick,Heidfeld,1977-05-10,German,http://en.wikipedia.org/wiki/Nick_Heidfeld
2,3,rosberg,6,ROS,Nico,Rosberg,1985-06-27,German,http://en.wikipedia.org/wiki/Nico_Rosberg
3,4,alonso,14,ALO,Fernando,Alonso,1981-07-29,Spanish,http://en.wikipedia.org/wiki/Fernando_Alonso
4,5,kovalainen,\N,KOV,Heikki,Kovalainen,1981-10-19,Finnish,http://en.wikipedia.org/wiki/Heikki_Kovalainen


### Choix des variables pertinantes

Pour le fichier drivers.csv, seules les colonnes driverId, code, forename, surname et url seront conservées :

- Les colonnes driverId, forename et surname permettent d'identifier clairement les pilotes, ce qui est essentiel pour relier leurs performances aux données météorologiques.
- La colonne url est également utile pour obtenir des informations supplémentaires sur un pilote, si nécessaire.

Les autres colonnes ont été jugées non pertinentes pour analyser l'impact des conditions météorologiques sur les performances des pilotes :

- code s'agit généralement d'un code à trois lettres pour identifier les pilotes, principalement utilisé dans les affichages et classements, mais sans impact direct pour analyser les effets de la météo.
- driverRef est une simple référence textuelle.
- number est utilisé pour le classement ou l'affichage des pilotes lors des courses, mais n'apporte pas d'information sur leurs performances liées à la météo.
- dob (date de naissance), bien qu'elle permette de calculer l'âge, n'est pas directement corrélée avec l'impact des conditions météorologiques dans ce contexte d'analyse.
- nationality, bien qu'intéressante sur le plan descriptif, n'a pas d'influence mesurable sur les performances des pilotes en fonction des conditions climatiques.

Ces colonnes seront donc supprimées pour simplifier l'analyse et se concentrer sur les variables directement utiles.

In [27]:
# Choix des variables pertinentes
pilotes_cleaned = pilotes[['driverId','forename','surname','url']]

# Afficher les 5 premières lignes
pilotes_cleaned.head()

Unnamed: 0,driverId,forename,surname,url
0,1,Lewis,Hamilton,http://en.wikipedia.org/wiki/Lewis_Hamilton
1,2,Nick,Heidfeld,http://en.wikipedia.org/wiki/Nick_Heidfeld
2,3,Nico,Rosberg,http://en.wikipedia.org/wiki/Nico_Rosberg
3,4,Fernando,Alonso,http://en.wikipedia.org/wiki/Fernando_Alonso
4,5,Heikki,Kovalainen,http://en.wikipedia.org/wiki/Heikki_Kovalainen


In [28]:
# Fusionner les colonnes forename et surname
pilotes_cleaned['fullname'] = pilotes_cleaned['forename'] + ' ' + pilotes_cleaned['surname']

# Afficher les 5 premières lignes 
pilotes_cleaned.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  pilotes_cleaned['fullname'] = pilotes_cleaned['forename'] + ' ' + pilotes_cleaned['surname']


Unnamed: 0,driverId,forename,surname,url,fullname
0,1,Lewis,Hamilton,http://en.wikipedia.org/wiki/Lewis_Hamilton,Lewis Hamilton
1,2,Nick,Heidfeld,http://en.wikipedia.org/wiki/Nick_Heidfeld,Nick Heidfeld
2,3,Nico,Rosberg,http://en.wikipedia.org/wiki/Nico_Rosberg,Nico Rosberg
3,4,Fernando,Alonso,http://en.wikipedia.org/wiki/Fernando_Alonso,Fernando Alonso
4,5,Heikki,Kovalainen,http://en.wikipedia.org/wiki/Heikki_Kovalainen,Heikki Kovalainen


In [29]:
# Supprimer les colonnes forename et surname
pilotes_cleaned = pilotes_cleaned.drop(columns=['forename', 'surname'])

# Afficher les 5 premières lignes
pilotes_cleaned.head()

Unnamed: 0,driverId,url,fullname
0,1,http://en.wikipedia.org/wiki/Lewis_Hamilton,Lewis Hamilton
1,2,http://en.wikipedia.org/wiki/Nick_Heidfeld,Nick Heidfeld
2,3,http://en.wikipedia.org/wiki/Nico_Rosberg,Nico Rosberg
3,4,http://en.wikipedia.org/wiki/Fernando_Alonso,Fernando Alonso
4,5,http://en.wikipedia.org/wiki/Heikki_Kovalainen,Heikki Kovalainen


### Vérification du type des données

In [52]:
pilotes_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 859 entries, 0 to 858
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   driverId  859 non-null    int64 
 1   url       859 non-null    object
 2   fullname  859 non-null    object
dtypes: int64(1), object(2)
memory usage: 20.3+ KB


### Analyse des valeurs manquantes

In [31]:
check_missing_values(pilotes_cleaned, 'pilotes_cleaned')

La base de données pilotes_cleaned ne contient pas des valeurs manquantes


### Analyse des doublons

In [32]:
check_duplicates(pilotes_cleaned, 'pilotes_cleaned')

pilotes_cleaned ne contient pas de doublons.


### Enregistrement des données nettoyés dans un fichier csv

In [33]:
dataset_to_csv(pilotes_cleaned, 'pilotes_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/pilotes_cleaned.csv'.


## 6. Nettoyae des données des resultats des courses

### Vérification des types de données

In [14]:
# Afficher les 5 premières ligne
resultat.head(5)

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,1,18,1,1,22,1,1,1,1,10.0,58,1:34:50.616,5690616,39,2,1:27.452,218.3,1
1,2,18,2,2,3,5,2,2,2,8.0,58,+5.478,5696094,41,3,1:27.739,217.586,1
2,3,18,3,3,7,7,3,3,3,6.0,58,+8.163,5698779,41,5,1:28.090,216.719,1
3,4,18,4,4,5,11,4,4,4,5.0,58,+17.181,5707797,58,7,1:28.603,215.464,1
4,5,18,5,1,23,3,5,5,5,4.0,58,+18.014,5708630,43,1,1:27.418,218.385,1


In [35]:
# Description des types de données
resultat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26519 entries, 0 to 26518
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   resultId         26519 non-null  int64  
 1   raceId           26519 non-null  int64  
 2   driverId         26519 non-null  int64  
 3   constructorId    26519 non-null  int64  
 4   number           26519 non-null  object 
 5   grid             26519 non-null  int64  
 6   position         26519 non-null  object 
 7   positionText     26519 non-null  object 
 8   positionOrder    26519 non-null  int64  
 9   points           26519 non-null  float64
 10  laps             26519 non-null  int64  
 11  time             26519 non-null  object 
 12  milliseconds     26519 non-null  object 
 13  fastestLap       26519 non-null  object 
 14  rank             26519 non-null  object 
 15  fastestLapTime   26519 non-null  object 
 16  fastestLapSpeed  26519 non-null  object 
 17  statusId    

### Échantillonage des resultats du 1950-2024 à 2018-2024

In [164]:
# Récuperer les résultats de 2018 à 2024
resultat_2018_2024 = resultat[(resultat['raceId'] >= courses_cleaned['raceId'].min()) & (resultat['raceId'] <= courses_cleaned['raceId'].max())]

# Reindexer le dataset
resultat_2018_2024 = resultat_2018_2024.reset_index(drop=True)

# Afficher les 5 premières lignes
resultat_2018_2024.head()

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,23782,989,20,6,5,3,1,1,1,25.0,58,1:29:33.283,5373283,53,4,1:26.469,220.782,1
1,23783,989,1,131,44,1,2,2,2,18.0,58,+5.036,5378319,50,3,1:26.444,220.845,1
2,23784,989,8,6,7,2,3,3,3,15.0,58,+6.309,5379592,57,2,1:26.373,221.027,1
3,23785,989,817,9,3,8,4,4,4,12.0,58,+7.069,5380352,54,1,1:25.945,222.128,1
4,23786,989,4,1,14,10,5,5,5,10.0,58,+27.886,5401169,57,7,1:26.978,219.489,1


### Analyse des valeurs prises par les differentes variables

#### Analyse des variables quantitatives

In [27]:
resultat_2018_2024.describe()

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionOrder,points,laps,statusId
count,2739.0,2739.0,2739.0,2739.0,2739.0,2739.0,2739.0,2739.0,2739.0
mean,25154.35962,1059.882074,689.560789,80.225265,10.07667,10.496532,5.071376,54.52939,9.26506
std,791.739487,42.226964,313.249402,87.702182,5.823302,5.765528,7.222459,17.428476,21.690966
min,23782.0,989.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0
25%,24470.5,1023.0,815.0,5.0,5.0,5.5,0.0,51.0,1.0
50%,25155.0,1060.0,832.0,15.0,10.0,10.0,0.5,56.0,1.0
75%,25839.5,1096.0,845.0,210.0,15.0,15.0,9.0,67.0,11.0
max,26524.0,1132.0,860.0,215.0,20.0,20.0,26.0,87.0,141.0


#### Analyse des variables catégorielles

In [28]:
resultat.describe(include = 'object')

Unnamed: 0,number,position,positionText,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed
count,26519,26519,26519,26519,26519,26519,26519,26519,26519
unique,130,34,39,7272,7493,81,26,7298,7514
top,4,\N,R,\N,\N,\N,\N,\N,\N
freq,1007,10928,8876,18986,18986,18499,18249,18499,18499


### Sélection des variables pertinantes

Pour analyser l’impact de la météo sur les performances des pilotes, seules les variables directement liées aux résultats et aux performances des courses seront retenues :

- resultId, raceId, driverId : Identifiants nécessaires pour relier les performances aux courses, pilotes, et conditions météo.
- positionOrder : Représente le classement final, indicateur clé de performance.
- points : Évalue le succès global des pilotes sous différentes conditions météorologiques.
- laps : Indique le nombre de tours complétés, utile pour détecter les abandons liés aux conditions.
- fastestLapTime, fastestLapSpeed : Mesures de performance maximale, permettant d'évaluer l'impact des conditions météo sur la vitesse.
- statusId : Permet de suivre les abandons ou incidents, souvent influencés par la météo.

Exclusion des autres variables : Les variables comme grid, milliseconds, ou rank sont redondantes ou moins pertinentes pour évaluer directement l’influence de la météo. Des colonnes purement techniques (ex. : number, constructorId) n’apportent pas de valeur analytique pour cet objectif spécifique.


In [186]:
resultat_cleaned = resultat_2018_2024[['resultId', 'raceId', 'driverId', 'positionOrder', 'points', 'time', 'milliseconds', 'laps', 'fastestLapTime', 'rank', 'fastestLapSpeed', 'statusId']]

resultat_cleaned.head()

Unnamed: 0,resultId,raceId,driverId,positionOrder,points,time,milliseconds,laps,fastestLapTime,rank,fastestLapSpeed,statusId
0,23782,989,20,1,25.0,1:29:33.283,5373283,58,1:26.469,4,220.782,1
1,23783,989,1,2,18.0,+5.036,5378319,58,1:26.444,3,220.845,1
2,23784,989,8,3,15.0,+6.309,5379592,58,1:26.373,2,221.027,1
3,23785,989,817,4,12.0,+7.069,5380352,58,1:25.945,1,222.128,1
4,23786,989,4,5,10.0,+27.886,5401169,58,1:26.978,7,219.489,1


### Formatage des types de colonnes

In [187]:
# Convertir la variable time en timedelta

# Créer une copie du DataFrame pour éviter le SettingWithCopyWarning
resultat_cleaned = resultat_cleaned.copy()

# Remplacer les '\N' par NaN (valeur manquante) dans la colonne 'milliseconds'
resultat_cleaned.loc[:, 'milliseconds'] = resultat_cleaned['milliseconds'].replace(r'\\N', np.nan, regex=True)

# Fonction pour convertir les millisecondes en timedelta
def convert_to_timedelta(ms_value):
    try:
        if pd.isna(ms_value):  # Vérifier si la valeur est NaN
            return np.nan
        
        # Vérifier si la valeur est une chaîne de caractères qui peut être convertie en entier
        ms_value = str(ms_value)  # Convertir la valeur en chaîne pour s'assurer qu'on peut la traiter
        if ms_value.isdigit():
            # Convertir les millisecondes en timedelta (valeur en ms)
            return pd.to_timedelta(int(ms_value), unit='ms')
        else:
            return np.nan  # Retourner NaN si la valeur ne peut pas être convertie en entier
    except Exception as e:
        return np.nan  # Si la conversion échoue, retourner NaN

# Appliquer la fonction de conversion à la colonne 'milliseconds' et créer une nouvelle colonne 'RaceTime'
resultat_cleaned.loc[:, 'time_'] = resultat_cleaned['milliseconds'].apply(convert_to_timedelta)

# Vérifier les premières lignes après la conversion
resultat_cleaned.head()

Unnamed: 0,resultId,raceId,driverId,positionOrder,points,time,milliseconds,laps,fastestLapTime,rank,fastestLapSpeed,statusId,time_
0,23782,989,20,1,25.0,1:29:33.283,5373283,58,1:26.469,4,220.782,1,0 days 01:29:33.283000
1,23783,989,1,2,18.0,+5.036,5378319,58,1:26.444,3,220.845,1,0 days 01:29:38.319000
2,23784,989,8,3,15.0,+6.309,5379592,58,1:26.373,2,221.027,1,0 days 01:29:39.592000
3,23785,989,817,4,12.0,+7.069,5380352,58,1:25.945,1,222.128,1,0 days 01:29:40.352000
4,23786,989,4,5,10.0,+27.886,5401169,58,1:26.978,7,219.489,1,0 days 01:30:01.169000


In [191]:
# Convertir la variable fastestLapTime en timedelta

# Créer une copie du DataFrame pour éviter les problèmes de vue
resultat_cleaned = resultat_cleaned.copy()

# Remplacer les valeurs '\\N' par NaN
resultat_cleaned.loc[:, 'fastestLapTime'] = resultat_cleaned['fastestLapTime'].replace(r'\\N', np.nan, regex=True)

# Fonction pour convertir les durées de type "1:26.469"
def convert_fastest_lap_time(lap_time):
    if pd.isna(lap_time):
        return np.nan
    
    # Diviser en minutes et secondes
    time_parts = lap_time.split(':')
    if len(time_parts) != 2:
        return np.nan  # Si la structure n'est pas correcte, retourner NaN
    
    minutes = time_parts[0]
    seconds = time_parts[1]
    
    # Convertir en total de secondes
    total_seconds = int(minutes) * 60 + float(seconds)
    
    return pd.to_timedelta(total_seconds, unit='s')

# Appliquer la conversion à la colonne 'fastestLapTime' en utilisant .loc
resultat_cleaned.loc[:, 'fastestLapTime_'] = resultat_cleaned['fastestLapTime'].apply(convert_fastest_lap_time)

# Vérifier les premières lignes après la conversion
resultat_cleaned.head()

Unnamed: 0,resultId,raceId,driverId,positionOrder,points,time,milliseconds,laps,fastestLapTime,rank,fastestLapSpeed,statusId,time_,fastestLapSpeed_,fastestLapTime_
0,23782,989,20,1,25.0,1:29:33.283,5373283,58,1:26.469,4,220.782,1,0 days 01:29:33.283000,220.782,0 days 00:01:26.469000
1,23783,989,1,2,18.0,+5.036,5378319,58,1:26.444,3,220.845,1,0 days 01:29:38.319000,220.845,0 days 00:01:26.444000
2,23784,989,8,3,15.0,+6.309,5379592,58,1:26.373,2,221.027,1,0 days 01:29:39.592000,221.027,0 days 00:01:26.373000
3,23785,989,817,4,12.0,+7.069,5380352,58,1:25.945,1,222.128,1,0 days 01:29:40.352000,222.128,0 days 00:01:25.945000
4,23786,989,4,5,10.0,+27.886,5401169,58,1:26.978,7,219.489,1,0 days 01:30:01.169000,219.489,0 days 00:01:26.978000


In [189]:
# Convertir la variable fastestLapSpeed en timedelta

# Créer une copie du DataFrame pour éviter les problèmes de vue
resultat_cleaned = resultat_cleaned.copy()

# Remplacer les '\N' par NaN dans la colonne 'fastestLapSpeed'
resultat_cleaned['fastestLapSpeed'] = resultat_cleaned['fastestLapSpeed'].replace(r'\\N', np.nan, regex=True)

# Convertir la colonne 'fastestLapSpeed' en type float
resultat_cleaned['fastestLapSpeed_'] = pd.to_numeric(resultat_cleaned['fastestLapSpeed'], errors='coerce')

# Vérifier le type et les premières lignes
resultat_cleaned.head()

Unnamed: 0,resultId,raceId,driverId,positionOrder,points,time,milliseconds,laps,fastestLapTime,rank,fastestLapSpeed,statusId,time_,fastestLapSpeed_
0,23782,989,20,1,25.0,1:29:33.283,5373283,58,1:26.469,4,220.782,1,0 days 01:29:33.283000,220.782
1,23783,989,1,2,18.0,+5.036,5378319,58,1:26.444,3,220.845,1,0 days 01:29:38.319000,220.845
2,23784,989,8,3,15.0,+6.309,5379592,58,1:26.373,2,221.027,1,0 days 01:29:39.592000,221.027
3,23785,989,817,4,12.0,+7.069,5380352,58,1:25.945,1,222.128,1,0 days 01:29:40.352000,222.128
4,23786,989,4,5,10.0,+27.886,5401169,58,1:26.978,7,219.489,1,0 days 01:30:01.169000,219.489


In [192]:
resultat_cleaned.dtypes

resultId                      int64
raceId                        int64
driverId                      int64
positionOrder                 int64
points                      float64
time                         object
milliseconds                 object
laps                          int64
fastestLapTime               object
rank                         object
fastestLapSpeed              object
statusId                      int64
time_               timedelta64[ns]
fastestLapSpeed_            float64
fastestLapTime_     timedelta64[ns]
dtype: object

In [193]:
# Supprimer les colonnes inutiles
resultat_cleaned = resultat_cleaned.drop(columns=['time', 'milliseconds', 'fastestLapTime', 'fastestLapSpeed'])

# Vérifier les colonnes restantes
print(resultat_cleaned.dtypes)
resultat_cleaned.head()

resultId                      int64
raceId                        int64
driverId                      int64
positionOrder                 int64
points                      float64
laps                          int64
rank                         object
statusId                      int64
time_               timedelta64[ns]
fastestLapSpeed_            float64
fastestLapTime_     timedelta64[ns]
dtype: object


Unnamed: 0,resultId,raceId,driverId,positionOrder,points,laps,rank,statusId,time_,fastestLapSpeed_,fastestLapTime_
0,23782,989,20,1,25.0,58,4,1,0 days 01:29:33.283000,220.782,0 days 00:01:26.469000
1,23783,989,1,2,18.0,58,3,1,0 days 01:29:38.319000,220.845,0 days 00:01:26.444000
2,23784,989,8,3,15.0,58,2,1,0 days 01:29:39.592000,221.027,0 days 00:01:26.373000
3,23785,989,817,4,12.0,58,1,1,0 days 01:29:40.352000,222.128,0 days 00:01:25.945000
4,23786,989,4,5,10.0,58,7,1,0 days 01:30:01.169000,219.489,0 days 00:01:26.978000


Les colonnes de type date ont bien été formatées.

### Analyses des valeurs manquantes

In [195]:
check_missing_values(resultat_cleaned, 'resultat_cleaned')

La base de données resultat_cleaned contient 1471 valeur(s) manquante(s)


### Analyses des doublons

In [38]:
check_duplicates(resultat_cleaned, 'resultat_cleaned')

resultat_cleaned ne contient pas de doublons.


### Enregistrement des données nettoyés dans un fichier csv

In [96]:
dataset_to_csv(resultat_cleaned, 'resultat_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/resultat_cleaned.csv'.


## 7. Nettoyage de la base de données laps_times

### Vérification des types de données

In [40]:
# Afficher les 5 premières lignes
laps_times.head()

Unnamed: 0,raceId,driverId,lap,position,time,milliseconds
0,841,20,1,1,1:38.109,98109
1,841,20,2,1,1:33.006,93006
2,841,20,3,1,1:32.713,92713
3,841,20,4,1,1:32.803,92803
4,841,20,5,1,1:32.342,92342


In [41]:
## Affiche les infomations sur chaque variable
laps_times.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 575029 entries, 0 to 575028
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   raceId        575029 non-null  int64 
 1   driverId      575029 non-null  int64 
 2   lap           575029 non-null  int64 
 3   position      575029 non-null  int64 
 4   time          575029 non-null  object
 5   milliseconds  575029 non-null  int64 
dtypes: int64(5), object(1)
memory usage: 26.3+ MB


### Analyse des valeurs manquantes

In [42]:
check_missing_values(laps_times, 'laps_times')

La base de données laps_times ne contient pas des valeurs manquantes


### Analyse des doublons

In [43]:
check_duplicates(laps_times, 'laps_times')

laps_times ne contient pas de doublons.


### Enregistrement des données nettoyés dans un fichier csv

In [44]:
dataset_to_csv(laps_times, 'laps_times_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/laps_times_cleaned.csv'.


## 8. Nettoyage de la base de données status

### Vérification des types de données

In [45]:
# Afficher les premières lignes
status.head()

Unnamed: 0,statusId,status
0,1,Finished
1,2,Disqualified
2,3,Accident
3,4,Collision
4,5,Engine


In [46]:
## Afficher les informations sur les variables
status.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 139 entries, 0 to 138
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   statusId  139 non-null    int64 
 1   status    139 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.3+ KB


### Analyse des valeurs manquantes

In [47]:
check_missing_values(status, 'status')

La base de données status ne contient pas des valeurs manquantes


### Analyse des doublons

In [48]:
check_duplicates(status, 'status')

status ne contient pas de doublons.


### Affichage des differents status

In [49]:
print(status['status'].unique().shape[0])
print(status['status'].unique())

139
['Finished' 'Disqualified' 'Accident' 'Collision' 'Engine' 'Gearbox'
 'Transmission' 'Clutch' 'Hydraulics' 'Electrical' '+1 Lap' '+2 Laps'
 '+3 Laps' '+4 Laps' '+5 Laps' '+6 Laps' '+7 Laps' '+8 Laps' '+9 Laps'
 'Spun off' 'Radiator' 'Suspension' 'Brakes' 'Differential' 'Overheating'
 'Mechanical' 'Tyre' 'Driver Seat' 'Puncture' 'Driveshaft' 'Retired'
 'Fuel pressure' 'Front wing' 'Water pressure' 'Refuelling' 'Wheel'
 'Throttle' 'Steering' 'Technical' 'Electronics' 'Broken wing'
 'Heat shield fire' 'Exhaust' 'Oil leak' '+11 Laps' 'Wheel rim'
 'Water leak' 'Fuel pump' 'Track rod' '+17 Laps' 'Oil pressure' '+42 Laps'
 '+13 Laps' 'Withdrew' '+12 Laps' 'Engine fire' 'Engine misfire'
 '+26 Laps' 'Tyre puncture' 'Out of fuel' 'Wheel nut' 'Not classified'
 'Pneumatics' 'Handling' 'Rear wing' 'Fire' 'Wheel bearing' 'Physical'
 'Fuel system' 'Oil line' 'Fuel rig' 'Launch control' 'Injured' 'Fuel'
 'Power loss' 'Vibrations' '107% Rule' 'Safety' 'Drivetrain' 'Ignition'
 'Did not qualify' 'Inj

### Enregistrement des données nettoyés dans un fichier csv

In [50]:
dataset_to_csv(status, 'status_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/status_cleaned.csv'.
