# Nettoyage des données de Formula 1

## 1. Objectifs du Notebook
Ce notebook a pour objectif principal de préparer les données de Formula 1 en vue d’analyses approfondies. Le dataset couvre une période allant de 1950 à 2024, incluant divers aspects tels que les circuits, les pilotes, les classements, les résultats, et bien plus. Pour garantir la fiabilité des analyses, plusieurs tâches de nettoyage des données seront effectuées :

#### Validation des types de données :

- Vérifier que chaque colonne utilise un type de données approprié (numérique, catégoriel, etc.).


#### Identification et gestion des valeurs manquantes :

- Repérer les colonnes ou lignes contenant des données manquantes et appliquer des stratégies adaptées (suppression ou imputation).
  
#### Traitement des doublons :

- Vérifier l’existence de doublons dans les fichiers et les éliminer pour éviter les biais dans les analyses.

#### Gestion des incohérences :

- Identifier et corriger les éventuelles incohérences dans les données (par exemple, une valeur qui sort du bon intervalle).

#### Uniformisation des formats :

- Harmoniser les formats des dates, heures, noms, et autres champs pour assurer la cohérence des données.

Le but final est de produire un jeu de données propre, structuré et prêt pour des analyses exploratoires ou la construction de modèles de machine learning.

## 2. Importation des packages

In [1]:
import pandas as pd
import seaborn as sns

## 3. Chargement des données

In [2]:
# Chargement des données 
meteo = pd.read_csv('Data/Weather(2018 - 2024).csv')
courses = pd.read_csv('Data/races.csv')
pilotes = pd.read_csv('Data/drivers.csv')
resultat = pd.read_csv('Data/results.csv')
laps_times = pd.read_csv('Data/lap_times.csv')

# Afficher les dimensions de chaque dataset
print("Dimensions de 'meteo' :", meteo.shape)
print("Dimensions de 'courses' :", courses.shape)
print("Dimensions de 'pilotes' :", pilotes.shape)
print("Dimensions de 'resultats' :", resultat.shape)
print("Dimensions de 'laps_times' :", laps_times.shape)

Dimensions de 'meteo' : (21859, 10)
Dimensions de 'courses' : (1125, 18)
Dimensions de 'pilotes' : (859, 9)
Dimensions de 'resultats' : (26519, 18)
Dimensions de 'laps_times' : (575029, 6)


## 4. Nettoyage de la base de données Météo

In [3]:
## Affichages des 5 premières lignes
meteo.tail(5)

Unnamed: 0,Time,AirTemp,Humidity,Pressure,Rainfall,TrackTemp,WindDirection,WindSpeed,Round Number,Year
21854,0 days 02:23:57.512000,25.9,60.0,1018.0,False,29.3,122,2.6,24,2024
21855,0 days 02:24:57.504000,25.9,60.0,1018.0,False,29.4,84,2.4,24,2024
21856,0 days 02:25:57.504000,25.8,60.0,1018.0,False,29.4,34,1.2,24,2024
21857,0 days 02:26:57.518000,25.8,60.0,1018.0,False,29.1,116,1.2,24,2024
21858,0 days 02:27:57.568000,25.8,60.0,1018.0,False,29.1,116,1.2,24,2024


In [4]:
## Vérification des types des données
meteo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21859 entries, 0 to 21858
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Time           21859 non-null  object 
 1   AirTemp        21859 non-null  float64
 2   Humidity       21859 non-null  float64
 3   Pressure       21859 non-null  float64
 4   Rainfall       21859 non-null  bool   
 5   TrackTemp      21859 non-null  float64
 6   WindDirection  21859 non-null  int64  
 7   WindSpeed      21859 non-null  float64
 8   Round Number   21859 non-null  int64  
 9   Year           21859 non-null  int64  
dtypes: bool(1), float64(5), int64(3), object(1)
memory usage: 1.5+ MB


### Vérification des données manquantes

In [5]:
# Fonction qui vérifie s'il y a des valeurs manquantes dans un dataset
def check_missing_values(df, dataset_name="Dataset"):
    if df.isnull().sum().sum() == 0 :
        print(f'La base de données {dataset_name} ne contient pas des valeurs manquantes')
    else:
        print(f'La base de données {dataset_name} contient {df.isnull().sum().sum()} valeur(s) manquante(s)')

check_missing_values(meteo, 'Météo')

La base de données Météo ne contient pas des valeurs manquantes


### Vérification des doublons

In [6]:
# Fonction qui vérifie s'il y a des doublons dans un dataset
def check_duplicates(df, dataset_name="Dataset"):
    duplicates = df.duplicated().sum()  # Compter le nombre de doublons
    if duplicates > 0:
        print(f"{dataset_name} contient {duplicates} doublon(s).")
    else:
        print(f"{dataset_name} ne contient pas de doublons.")

check_duplicates(meteo, 'Météo')

Météo contient 481 doublon(s).


In [7]:
# Suppression des doublons
def remove_duplicates(df):
    return df.drop_duplicates()

meteo_cleaned = remove_duplicates(meteo)

In [8]:
# Vérification des la suppression des doublons
check_duplicates(meteo_cleaned, 'Météo')

Météo ne contient pas de doublons.


### Vérification des intervalles pour les colonnes numériques

In [9]:
meteo_cleaned.describe()

Unnamed: 0,AirTemp,Humidity,Pressure,TrackTemp,WindDirection,WindSpeed,Round Number,Year
count,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0,21378.0
mean,23.471181,54.709664,986.793068,35.224815,173.404107,1.637702,11.524652,2021.365656
std,4.988278,17.379909,50.957704,9.251853,104.043864,1.148441,6.302429,1.96411
min,8.9,5.0,778.5,13.8,0.0,0.0,1.0,2018.0
25%,20.0,42.0,986.2,29.0,95.0,0.8,6.0,2020.0
50%,23.2,55.0,1006.6,34.8,170.0,1.4,12.0,2022.0
75%,27.3,65.775,1013.7,42.2,264.0,2.2,17.0,2023.0
max,37.2,97.5,1023.5,67.0,359.0,10.1,24.0,2024.0


Toutes les variables du dataset sont comprises dans des intervalles réalistes, à l'exception de la variable Pressure. 

Cette dernière présente des valeurs comprises entre 778 et 1023, ce qui est incohérent avec les observations météorologiques réelles. En effet, la pression atmosphérique la plus faible jamais enregistrée est de 879 hPa (source : https://alarmemeteo.ch/blog/la-pression-atmospherique-la-declencheuse-des-vents-et-des-tempetes.html). 

Par conséquent, dans la suite de ce projet, seules les pressions atmosphériques égales ou supérieures à 900 hPa seront conservées pour garantir une analyse cohérente et fiable.

In [10]:
# Proportion des meteo qui ont une pression alterieur inferieur à 950
(meteo['Pressure'] < 900).sum() / len(meteo) * 100

4.336886408344389

Nous constatons que Environ 4% des courses ont une pression atmospherique inférieur à 900 hPa

In [11]:
# Suppression des valeurs de pression atmosphérique < 950
meteo_cleaned = meteo_cleaned[meteo_cleaned['Pressure'] >= 950]

# Afficher les 5 premières lignes pour vérifier
meteo_cleaned.describe()

Unnamed: 0,AirTemp,Humidity,Pressure,TrackTemp,WindDirection,WindSpeed,Round Number,Year
count,18220.0,18220.0,18220.0,18220.0,18220.0,18220.0,18220.0,18220.0
mean,23.661465,55.770692,1003.965368,34.556811,171.775521,1.672849,10.689133,2021.338749
std,5.085639,17.062601,14.715938,8.795537,105.520129,1.186057,6.047923,1.952609
min,9.2,5.0,959.9,13.8,0.0,0.0,1.0,2018.0
25%,19.7,44.0,995.9,28.7,93.0,0.8,5.0,2020.0
50%,24.0,56.0,1008.5,34.0,167.0,1.4,11.0,2022.0
75%,27.7,66.2,1014.9,41.0,263.0,2.2,15.0,2023.0
max,37.2,97.5,1023.5,67.0,359.0,10.1,24.0,2024.0


### Enregistrement des données nettoyés dans un fichier csv

In [12]:
def dataset_to_csv(df, name):
    df.to_csv(f'Cleaned_Data/{name}.csv', index=False)

    print(f"Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/{name}.csv'.")

dataset_to_csv(meteo_cleaned, 'meteo_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/meteo_cleaned.csv'.


## 5. Nettoyage de la base de données Courses

### 5.1 Vérification des types de données

In [13]:
# Affichage des 5 premières lignes
courses.head(5)

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
0,1,2009,1,1,Australian Grand Prix,2009-03-29,06:00:00,http://en.wikipedia.org/wiki/2009_Australian_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
1,2,2009,2,2,Malaysian Grand Prix,2009-04-05,09:00:00,http://en.wikipedia.org/wiki/2009_Malaysian_Gr...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
2,3,2009,3,17,Chinese Grand Prix,2009-04-19,07:00:00,http://en.wikipedia.org/wiki/2009_Chinese_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
3,4,2009,4,3,Bahrain Grand Prix,2009-04-26,12:00:00,http://en.wikipedia.org/wiki/2009_Bahrain_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
4,5,2009,5,4,Spanish Grand Prix,2009-05-10,12:00:00,http://en.wikipedia.org/wiki/2009_Spanish_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N


In [14]:
# Affichage des types de données
courses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1125 entries, 0 to 1124
Data columns (total 18 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   raceId       1125 non-null   int64 
 1   year         1125 non-null   int64 
 2   round        1125 non-null   int64 
 3   circuitId    1125 non-null   int64 
 4   name         1125 non-null   object
 5   date         1125 non-null   object
 6   time         1125 non-null   object
 7   url          1125 non-null   object
 8   fp1_date     1125 non-null   object
 9   fp1_time     1125 non-null   object
 10  fp2_date     1125 non-null   object
 11  fp2_time     1125 non-null   object
 12  fp3_date     1125 non-null   object
 13  fp3_time     1125 non-null   object
 14  quali_date   1125 non-null   object
 15  quali_time   1125 non-null   object
 16  sprint_date  1125 non-null   object
 17  sprint_time  1125 non-null   object
dtypes: int64(4), object(14)
memory usage: 158.3+ KB


### Échantillonage des courses du 1950-2024 à 2018-2024

* Les données météorologiques que nous avons à notre disposition sont de 2018 à 2024. Ce qui nous empêche de pouvoir mener une analyse météorologique avant 2018. 

* Par conséquent, Dans la suite de ce projet nous allons nous focaliser sur les années 2018-2024.

In [15]:
# Récuperer les courses de 2018 à 2024
courses_2018_2024 = courses[(courses['year'] >= 2018) & (courses['year'] <= 2024)]

# Reindexer le dataset
courses_2018_2024 = courses_2018_2024.reset_index(drop=True)

# Afficher les 5 premières lignes
courses_2018_2024.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00,http://en.wikipedia.org/wiki/2018_Australian_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00,http://en.wikipedia.org/wiki/2018_Bahrain_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00,http://en.wikipedia.org/wiki/2018_Chinese_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00,http://en.wikipedia.org/wiki/2018_Azerbaijan_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00,http://en.wikipedia.org/wiki/2018_Spanish_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N


### Analyse du pertinance des variables

In [16]:
columns = ['fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time','quali_date', 'quali_time', 'sprint_date', 'sprint_time', 'time', 'date']

for column in columns: 
    print(column, " : ")
    print(courses_2018_2024[column].describe(), "\n")

fp1_date  : 
count     149
unique     91
top        \N
freq       59
Name: fp1_date, dtype: object 

fp1_time  : 
count     149
unique     21
top        \N
freq       81
Name: fp1_time, dtype: object 

fp2_date  : 
count     149
unique     91
top        \N
freq       59
Name: fp2_date, dtype: object 

fp2_time  : 
count     149
unique     20
top        \N
freq       81
Name: fp2_time, dtype: object 

fp3_date  : 
count     149
unique     73
top        \N
freq       77
Name: fp3_date, dtype: object 

fp3_time  : 
count     149
unique     19
top        \N
freq       96
Name: fp3_time, dtype: object 

quali_date  : 
count     149
unique     91
top        \N
freq       59
Name: quali_date, dtype: object 

quali_time  : 
count     149
unique     16
top        \N
freq       81
Name: quali_time, dtype: object 

sprint_date  : 
count     149
unique     19
top        \N
freq      131
Name: sprint_date, dtype: object 

sprint_time  : 
count     149
unique     13
top        \N
freq      134
Name:

- Les variables ['fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time', 'quali_date', 'quali_time', 'sprint_date', 'sprint_time'] contiennent plus de 39 % de valeurs manquantes (\N). De plus, ces variables se réfèrent principalement aux horaires des différentes sessions de la course (essais libres, qualifications, sprint, etc.), qui ne sont pas directement liées aux conditions météorologiques ayant un impact sur les performances des pilotes. Par conséquent, nous avons décidé de retirer ces variables pour simplifier l'analyse en nous concentrant sur les éléments les plus pertinents. La variable 'url' sera conservée, car elle peut être utile pour obtenir plus d'informations sur une course si nécessaire.

- En revanche, les variables 'date' et 'time' de la course restent pertinentes. Elles permettent de situer les données météorologiques dans le temps, ce qui est essentiel pour l'analyse des conditions climatiques et leur impact sur les performances des pilotes. Toutefois, la variable 'time' sera supprimée. En effet, dans la table des données météorologiques, nous disposons déjà d'informations météo associées à chaque minute de la course, ce qui rend la variable 'time' redondante dans le contexte de notre analyse.

- Les variables 'year', 'round', 'circuitId' et 'name' sont également conservées car elles permettent d'identifier chaque course, la saison et le circuit associés. Ces informations sont essentielles pour relier les données météorologiques aux événements spécifiques de la compétition et pour étudier l'impact des conditions climatiques sur les performances des pilotes en fonction de l'année, du circuit et du tour de la compétition.


In [17]:
# Suppression des colonnes non indispensable
courses_cleaned = courses_2018_2024[['raceId', 'year', 'round', 'circuitId', 'name', 'date', 'time']]
courses_cleaned.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00


### Analyse des valeurs manquantes
        

In [18]:
check_missing_values(courses_cleaned, 'Courses')

La base de données Courses ne contient pas des valeurs manquantes


### Analyse des doublons        

In [19]:
check_duplicates(courses_cleaned, 'Courses')

Courses ne contient pas de doublons.


### Enregistrement des données nettoyés dans un fichier csv

In [20]:
dataset_to_csv(courses_cleaned, 'courses_cleaned')

Les données nettoyées ont été enregistrées dans le fichier 'Cleaned_Data/courses_cleaned.csv'.


In [21]:
courses_cleaned['time'].unique().shape

(26,)

In [22]:
731/1125

0.6497777777777778

In [23]:
courses_cleaned.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time
0,989,2018,1,1,Australian Grand Prix,2018-03-25,05:10:00
1,990,2018,2,3,Bahrain Grand Prix,2018-04-08,15:10:00
2,991,2018,3,17,Chinese Grand Prix,2018-04-15,06:10:00
3,992,2018,4,73,Azerbaijan Grand Prix,2018-04-29,12:10:00
4,993,2018,5,4,Spanish Grand Prix,2018-05-13,13:10:00
