# Pour chaque ville / circuit, quel est le temps maximum pour être qualifié ?

In [5]:
import pandas as pd

qualif = pd.read_csv("../data/qualifying.csv")
circuits = pd.read_csv("../data/circuits.csv")
races = pd.read_csv("../data/races.csv")

# On construit la table avec que les données importantes
races_plus_circuits = pd.merge(races, circuits, on="circuitId")

interesting_datas = pd.merge(qualif, races_plus_circuits, on="raceId")[["circuitId","circuitRef","q1","q2","q3"]]

## Temps maximum (en python pur)

Dans ce projet de traitement de données, il faut répondre à certaines questions en python sans pandas. On transforme donc le dataframe pandas en simples listes python.

In [12]:
# On remplace les "\N" (non-qualifiés) par None pour pouvoir les enlever facilement
interesting_datas['q1'] = interesting_datas['q1'].replace(r'\N', None)
interesting_datas['q2'] = interesting_datas['q2'].replace(r'\N', None)
interesting_datas['q3'] = interesting_datas['q3'].replace(r'\N', None)


# On transforme en listes les colonnes de temps en enlevant les non-qualifiés.
q1_column = interesting_datas['q1'].dropna().tolist()
q2_column = interesting_datas['q2'].dropna().tolist()
q3_column = interesting_datas['q3'].dropna().tolist()

# On aurait pu faire une boucle pour trouver le max, mais python a une fonction max :)
max_q1 = max(q1_column) if q1_column else None
max_q2 = max(q2_column) if q2_column else None
max_q3 = max(q3_column) if q3_column else None

# Output the results
print(f"Max Q1: {max_q1}, Max Q2: {max_q2}, Max Q3: {max_q3}")

Max Q1: 2:33.885, Max Q2: 2:12.470, Max Q3: 2:09.776


## Group by circuitId
Afin d'obtenir, par circuit, le temps maximum pour être qualifié (la limite avant d'être disqualifié).

Encore une fois, on utilise que du python sans pandas (une fois que les colonnes ont été transformés en listes compréhensibles pour python).

In [8]:
# Replace "\N" with None and convert columns to lists after dropping NaN
interesting_datas['q1'] = interesting_datas['q1'].replace(r'\N', None)
interesting_datas['q2'] = interesting_datas['q2'].replace(r'\N', None)
interesting_datas['q3'] = interesting_datas['q3'].replace(r'\N', None)

# Group by circuitId
interesting_datas_by_circuit = interesting_datas.groupby("circuitRef")

# Create a dictionary of times per circuitId and qualifier
times_by_circuit_and_qual = {}
for circuitRef, group in interesting_datas_by_circuit:
    for qual in ['q1', 'q2', 'q3']:
        times = group[qual].dropna().tolist()
        times_by_circuit_and_qual[(circuitRef, qual)] = times

# Compute the maximum time for each (circuitId, qualifier)
max_times_by_circuit_and_qual = {key: max(times) for key, times in times_by_circuit_and_qual.items() if times}

print(max_times_by_circuit_and_qual)


{('adelaide', 'q1'): '1:22.529', ('albert_park', 'q1'): '1:57.931', ('albert_park', 'q2'): '1:47.293', ('albert_park', 'q3'): '1:48.147', ('americas', 'q1'): '2:07.304', ('americas', 'q2'): '2:01.604', ('americas', 'q3'): '1:38.810', ('bahrain', 'q1'): '2:04.904', ('bahrain', 'q2'): '1:56.619', ('bahrain', 'q3'): '1:56.309', ('baku', 'q1'): '1:57.354', ('baku', 'q2'): '1:46.048', ('baku', 'q3'): '2:01.954', ('buddh', 'q1'): '1:34.046', ('buddh', 'q2'): '1:27.562', ('buddh', 'q3'): '1:26.713', ('catalunya', 'q1'): '1:32.038', ('catalunya', 'q2'): '1:28.280', ('catalunya', 'q3'): '1:27.402', ('estoril', 'q1'): '1:32.769', ('fuji', 'q1'): '1:29.668', ('fuji', 'q2'): '1:26.948', ('fuji', 'q3'): '1:27.225', ('galvez', 'q1'): '2:07.298', ('hockenheimring', 'q1'): '1:54.625', ('hockenheimring', 'q2'): '1:41.551', ('hockenheimring', 'q3'): '1:45.811', ('hungaroring', 'q1'): '1:50.189', ('hungaroring', 'q2'): '1:37.075', ('hungaroring', 'q3'): '1:40.593', ('imola', 'q1'): '1:46.299', ('imola', 