# 1. Import libraries

In [1]:
import pandas as pd
import numpy as np

import fastf1
from fastf1.ergast import Ergast

from tqdm import tqdm
import os

import sys
sys.path.append('../')

from src.race_prediction_model.extract import *
from src.race_prediction_model.feature_engineering import add_features_to_results
from src.eda_support import * # Revisar qué funciones necesito de aquí

# Config less verbosity
fastf1.set_log_level('ERROR')

# 2. Data loading

Extraemos los circuitos (esto lo necesitamos antes)

In [2]:
# Poner esto también en A1-EDA-Clustering

try:
    df_races = pd.read_csv('../data/output/races.csv')

except FileNotFoundError:
    print("Data not found: Extracting data...")
    df_races = extract_races_dataframe(2010, end=2024, save=True)

In [3]:
df_races

Unnamed: 0,season,round,circuitId
0,2010,1,bahrain
1,2010,2,albert_park
2,2010,3,sepang
3,2010,4,shanghai
4,2010,5,catalunya
...,...,...,...
300,2024,20,rodriguez
301,2024,21,interlagos
302,2024,22,vegas
303,2024,23,losail


Tenemos 305 carreras desde 2010 hasta 2024. Extraemos los resultados

In [11]:
df_results = pd.DataFrame()

for season in range(2010, 2024): #df_races['season'].unique().tolist():

    df = pd.read_csv(f'../data/output/results_{str(season)}.csv', index_col=0)

    df_results = pd.concat([df_results, df])

df_results.to_csv('../data/output/results.csv')


In [None]:
season = 2024

results_final_df = extract_results_dataframe(df_races[df_races['season'] == season], save=False)[0]

results_final_df.to_csv(f'../data/output/results_{str(season)}.csv')

In [12]:
df = df_results

In [13]:
df

Unnamed: 0,DriverId,TeamId,Position,GridPosition,Time,Status,Points,season,round,circuitId
8,alonso,ferrari,1.0,3.0,0.000,Finished,25.0,2010,1,bahrain
7,massa,ferrari,2.0,2.0,16.099,Finished,18.0,2010,1,bahrain
2,hamilton,mclaren,3.0,4.0,23.182,Finished,15.0,2010,1,bahrain
5,vettel,red_bull,4.0,1.0,38.799,Finished,12.0,2010,1,bahrain
4,rosberg,mercedes,5.0,5.0,40.213,Finished,10.0,2010,1,bahrain
...,...,...,...,...,...,...,...,...,...,...
2,sargeant,williams,16.0,20.0,87.791,Finished,0.0,2023,22,yas_marina
24,zhou,alfa,17.0,19.0,89.422,Finished,0.0,2023,22,yas_marina
55,sainz,ferrari,18.0,16.0,189.422,Retired,0.0,2023,22,yas_marina
77,bottas,alfa,19.0,18.0,189.422,+1 Lap,0.0,2023,22,yas_marina


# 3. Data description

### Contexto

El conjunto de datos objeto de este análisis consiste en una tabla que registra los resultados de todas las carreras de Fórmula 1 desde la temporada 2010 hasta la actualidad.

A lo largo de la historia de la Fórmula 1, el reglamento ha experimentado constantes modificaciones, impulsadas tanto por los avances tecnológicos como por la búsqueda de una mayor seguridad en pista. Estos cambios han generado diferencias sustanciales en las características de las carreras y en el rendimiento de los monoplazas según la época.

Por ejemplo, en 2005 se prohibieron los cambios de neumáticos durante la carrera, salvo en casos de emergencia o condiciones meteorológicas adversas. En 2007, Michelin abandonó el campeonato, dejando a Bridgestone como único proveedor de neumáticos, mientras que en 2011 este papel fue asumido por Pirelli, que continúa como suministrador oficial en la actualidad. En 2010, se eliminaron los repostajes de combustible, obligando a los equipos a iniciar las carreras con el total necesario para completarlas. Asimismo, en 2011 se introdujo el sistema DRS, diseñado para facilitar los adelantamientos, y en 2014 se implementaron los motores híbridos, marcando el inicio de una nueva era tecnológica. 

Estos ejemplos son solo algunos de los múltiples cambios normativos que han ocurrido, pero ilustran cómo los monoplazas y las condiciones de competencia han evolucionado de manera radical en los últimos 15 años. Esto hace que los resultados obtenidos en épocas más antiguas sean poco representativos de la situación actual.

Para este análisis, hemos seleccionado el año 2010 como punto de partida, dado que representa el inicio de una era significativa en la que se eliminó el repostaje de combustible, un cambio que afectó profundamente la estrategia en carrera. Además, en 2010 se introdujo un nuevo sistema de puntuación, muy similar al actual, que otorgó una mayor relevancia a los resultados consistentes y amplió las diferencias entre los puntos otorgados a los primeros clasificados. Si bien podríamos haber optado por 2014, coincidiendo con el inicio de la era híbrida, consideramos que incluir los datos desde 2010 ofrece un mayor volumen de información sin perder relevancia contextual.

### Descripción de los datos

El conjunto de datos ha sido obtenido utilizando la librería `fasf1`, que combina datos de diversas fuentes, incluyendo la API de Ergast, la API de F1 LiveTiming y su propio backend, para recopilar información detallada y precisa (ver documentación).

Para la construcción de un modelo predictivo, se ha recopilado un conjunto de variables clave que proporcionan información crítica sobre el desempeño de los pilotos y equipos en las carreras. Estas variables son:

- **`DriverId`**: Identificador único del piloto.

- **`TeamId`**: Identificador de la escudería a la que pertenece el piloto.

- **`Position`**: Posición final del piloto en la carrera.

- **`GridPosition`**: Posición de salida en la parrilla.

- **`Time`**: Diferencia de tiempo con la que el piloto cruza la meta respecto al líder.

- **`Status`**: Estado final del piloto en la carrera, indicando si terminó o el motivo de su abandono.

- **`Points`**: Puntos obtenidos por el piloto en la carrera.

- **`season`**: Temporada en la que se celebró el Gran Premio.

- **`round`**: Número de ronda dentro de la temporada correspondiente al Gran Premio.

- **`circuitId`**: Identificador único del circuito donde se disputó la carrera.

Este conjunto de variables proporciona una base robusta para explorar patrones, evaluar el rendimiento y construir predicciones precisas sobre futuras competiciones.

Además, se hará uso de *feature engineering* para crear y añadir características clave que permitan capturar información relevante y mejorar el rendimiento del modelo predictivo.

Veamos qué columnas tenemos

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5957 entries, 8 to 20
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   DriverId      5957 non-null   object 
 1   TeamId        5957 non-null   object 
 2   Position      5954 non-null   float64
 3   GridPosition  5954 non-null   float64
 4   Time          5913 non-null   float64
 5   Status        5957 non-null   object 
 6   Points        5957 non-null   float64
 7   season        5957 non-null   int64  
 8   round         5957 non-null   int64  
 9   circuitId     5957 non-null   object 
dtypes: float64(4), int64(2), object(4)
memory usage: 511.9+ KB


Vemos que hay algún valor nulo en `Time` y en `GridPosition`, aunque no son muchos. Veamos qué pasa con ellos.

In [20]:
df[df['GridPosition'].isna()]

Unnamed: 0,DriverId,TeamId,Position,GridPosition,Time,Status,Points,season,round,circuitId
9,mazepin,haas,,,167.527,Illness,0.0,2021,22,yas_marina
47,mick_schumacher,haas,,,191.742,Withdrew,0.0,2022,2,jeddah
18,stroll,aston_martin,,,187.603,Withdrew,0.0,2023,15,marina_bay


En el caso de `GridPosition`, las 3 entradas que tenemos se tratan de casos en los que los pilotos no llegaron a clasificarse para la carrera, como podemos confirmar por su status. Podemos directamente eliminar estas entradas.

In [27]:
df[df['Time'].isna()].sort_values(by='Position').head()

Unnamed: 0,DriverId,TeamId,Position,GridPosition,Time,Status,Points,season,round,circuitId
9,raikkonen,lotus_f1,6.0,4.0,,Finished,8.0,2012,19,americas
3,ricciardo,mclaren,7.0,6.0,,Finished,6.0,2021,1,bahrain
10,grosjean,lotus_f1,7.0,8.0,,Finished,6.0,2012,19,americas
55,sainz,ferrari,8.0,8.0,,Finished,4.0,2021,1,bahrain
17,vergne,toro_rosso,8.0,16.0,,Finished,4.0,2012,16,yeongam


En el caso de `Time` los valores nulos se encuentran en algunos registros de algunas carreras. No parece que sea demasiado relevante ya que el

In [17]:
df.describe(include='O').T

Unnamed: 0,count,unique,top,freq
DriverId,5957,77,hamilton,280
TeamId,5957,22,ferrari,562
Status,5957,77,Finished,3018
circuitId,5957,35,silverstone,318


In [80]:
df.describe().T.round(2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Position,5954.0,11.16,6.22,1.0,6.0,11.0,16.0,24.0
GridPosition,5954.0,10.94,6.27,0.0,6.0,11.0,16.0,24.0
Time,5913.0,106.46,72.66,0.0,35.28,103.52,178.14,232.79
Points,5957.0,4.79,7.13,0.0,0.0,0.0,8.0,50.0
season,5957.0,2016.4,4.1,2010.0,2013.0,2016.0,2020.0,2023.0
round,5957.0,10.56,5.86,1.0,6.0,11.0,15.0,22.0


# 4. Feature engineering

Si la carrera no ha ocurrido, no podemos usar información que dependa de los resultados de esa misma carrera, como el tiempo o los puntos finales. En ese caso, debes basarte exclusivamente en información previa o contextual que sí está disponible antes de la carrera. Aquí tienes cómo abordar el problema:

### Redefinir el conjunto de características (features)
Debes construir tus predicciones en base a datos históricos y contextuales disponibles antes de la carrera. Aquí tienes ejemplos de posibles características útiles:

* Datos históricos del piloto
Promedio de posiciones finales en las últimas 5-10 carreras o en la temporada pasada.
Rendimiento en el circuito: Promedio de posiciones del piloto en ese circuito específico en años anteriores.
Historial frente al compañero de equipo: Comparación entre compañeros de equipo en temporadas pasadas.
Abandonos previos: Frecuencia con la que el piloto no termina las carreras.

* Rendimiento del equipo
Resultados históricos del equipo en ese circuito.
Puntos acumulados del equipo en la temporada actual (hasta la última carrera).
Mejoras tecnológicas recientes: Si tienes datos sobre actualizaciones del coche.

* Datos del circuito y la carrera
CircuitId: Identificador único del circuito.
Características del circuito:
Número de vueltas, longitud, número de curvas, tipo de trazado (urbano, tradicional).
Historias de incidentes: ¿Es un circuito donde hay muchos abandonos?
Clima estimado: Información meteorológica previa (por ejemplo: probabilidad de lluvia).

* Datos de clasificación
GridPosition: La posición de salida del piloto (esto sí lo sabrás antes de la carrera).
Comparación de tiempos de clasificación: Si tienes datos de la clasificación (Q1, Q2, Q3), esto puede ser un fuerte predictor.

In [108]:
def add_features_to_results(results, window=3):

    # Sort the DataFrame by season and round
    results.sort_values(by=['season', 'round'], ascending=[True, True], inplace=True)

    # Calculate cumulative points for each driver by season
    results['DriverPointsCumulative'] = results.groupby(['season', 'DriverId'])['Points'].cumsum()

    # Calculate cumulative points for each team by season
    results['TeamPointsCumulative'] = results.groupby(['season', 'TeamId'])['Points'].cumsum()

    # Determine if the driver won the race (Position 1)
    results['Winner'] = results['Position'].apply(lambda x: int(x == 1))

    # Determine if the driver finished on the podium (Position 1, 2, or 3)
    results['Podium'] = results['Position'].apply(lambda x: int(x in [1, 2, 3]))

    # Calculate cumulative wins for each driver by season
    results['WinsCumulative'] = results.groupby(['season', 'DriverId'])['Winner'].cumsum()

    # Calculate cumulative podiums for each driver by season
    results['PodiumsCumulative'] = results.groupby(['season', 'DriverId'])['Podium'].cumsum()

    results['MeanPreviousGrid'] = df.groupby('DriverId')['GridPosition'].transform(lambda x: x.rolling(window=window, min_periods=1).mean())

    results['MeanPreviousPosition'] = df.groupby('DriverId')['Position'].transform(lambda x: x.rolling(window=window, min_periods=1).mean())

Nota: Añadir o cambiar una variable `CurrentXXX` que sea la resta del cumulative con el actual para poder saber cuál es el estado en el que llega a esa carrera. Por ejemplo, si en la carrera 1 gana Hamilton, sus WinsCumulative es 1, pero es a posteriori, por lo que le restaríamos Winner para que fuese 0, que es con lo que llega a esa carrera (antes de la carrera 1 todo vale 0).

In [109]:
add_features_to_results(df)

In [112]:
df.to_csv('../data/output/featured_results.csv')

In [114]:
df = pd.read_csv('../data/output/featured_results.csv', index_col=0)

df

Unnamed: 0,DriverId,TeamId,Position,GridPosition,Time,Status,Points,season,round,circuitId,DriverPointsCumulative,TeamPointsCumulative,Winner,Podium,WinsCumulative,PodiumsCumulative,MeanPreviousGrid,MeanPreviousPosition
8,alonso,ferrari,1.0,3.0,0.000,Finished,25.0,2010,1,bahrain,25.0,25.0,1,1,1,1,3.000000,1.000000
7,massa,ferrari,2.0,2.0,16.099,Finished,18.0,2010,1,bahrain,18.0,43.0,0,1,0,1,2.000000,2.000000
2,hamilton,mclaren,3.0,4.0,23.182,Finished,15.0,2010,1,bahrain,15.0,15.0,0,1,0,1,4.000000,3.000000
5,vettel,red_bull,4.0,1.0,38.799,Finished,12.0,2010,1,bahrain,12.0,12.0,0,0,0,0,1.000000,4.000000
4,rosberg,mercedes,5.0,5.0,40.213,Finished,10.0,2010,1,bahrain,10.0,10.0,0,0,0,0,5.000000,5.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2,sargeant,williams,16.0,20.0,87.791,Finished,0.0,2023,22,yas_marina,1.0,26.0,0,0,0,0,15.000000,14.333333
24,zhou,alfa,17.0,19.0,89.422,Finished,0.0,2023,22,yas_marina,6.0,16.0,0,0,0,0,18.666667,16.333333
55,sainz,ferrari,18.0,16.0,189.422,Retired,0.0,2023,22,yas_marina,178.0,363.0,0,0,1,3,11.666667,10.000000
77,bottas,alfa,19.0,18.0,189.422,+1 Lap,0.0,2023,22,yas_marina,10.0,16.0,0,0,0,0,14.333333,17.333333


---

In [None]:
df = pd.read_csv('../data/output/featured_results.csv', index_col=0)