# TP 1 - Análisis Exploratorio de Datos
## Formula 1 World Championship (1950 - 2023)
El dataset elegido contiene toda la información acerca de las carreras de Fórmula 1, pilotos, constructores, clasificación, circuitos, tiempos de vuelta, paradas en boxes y campeonatos desde 1950 hasta la última temporada de 2023.
El mismo cuenta con 14 archivos csv, de los cuales decidimos usar solamente algunos. Esto se debe a que vamos a tratar de predecir si la posición final del piloto va a estar o no en el podio, por lo que pensamos hacer la predicción en el momento que está finalizada la clasificación, con los datos disponibles hasta ese momento.

### 1) Listado de variables y selección
__CSVs y variables de entrada:__
Todos estos archivos .csv de los que está compuesto el set de datos tienen columnas con Ids, las cuales utilizaremos a nuestra conveniencia para realizar ‘joins’ entre las distintas tablas. Antes de entrenar, todas las columnas que hacen referencia a Ids serán eliminadas para que no se genere overfitting a partir de estas.

#### Variables de entrada

__Races.csv__

_Variables a usar_
- date: indica la fecha de la carrera.
- time: indica la hora en que inicia la carrera
- year: año en que se realiza la carrera

_Variables no usadas_

- name: nombre de la carrera que se va a correr, utilizaremos referencias al circuito.
- url: url que brinda más información sobre la carrera, no nos parece que influya en lo que vamos a predecir.
- fp1_date: fecha de inicio de la práctica libre número uno, no nos parece que influya en lo que vamos a predecir.
- fp1_time: hora de inicio de la práctica libre número uno, no nos parece que influya en lo que vamos a predecir.
- fp2_date: fecha de inicio de la práctica libre número dos, no nos parece que influya en lo que vamos a predecir.
- fp2_time: hora de inicio de la práctica libre número dos, no nos parece que influya en lo que vamos a predecir.
- fp3_date: fecha de inicio de la práctica libre número tres, no nos parece que influya en lo que vamos a predecir.
- fp3_time: hora de inicio de la práctica libre número tres, no nos parece que influya en lo que vamos a predecir.
- quali_date: fecha de inicio de la sesión de clasificación, no nos parece que influya en lo que vamos a predecir.
- quali_time: hora de inicio de la sesión de clasificación, no nos parece que influya en lo que vamos a predecir.
- sprint_date: fecha de inicio de la carrera sprint, no será usado ya que nos centraremos en la clasificación debido a que no todas las carreras cuentan con sprint.
- sprint_time: hora de inicio de la carrera sprint, no será usado ya que nos centraremos en la clasificación debido a que no todas las carreras cuentan con sprint.

__Circuits.csv__

_Variables a usar_
- circuitRef: variable de texto que indica el nombre de referencia del circuito.

_Variables no usadas_

- name: nombre del circuito, utilizaremos circuitRef.
- location: localidad donde se disputa la carrera, no nos parece que influya en lo que vamos a predecir.
- country: país donde se disputa la carrera, no nos parece que influya en lo que vamos a predecir
- lat: latitud, no nos parece que influya en lo que vamos a predecir. 
- lng: longitud, no nos parece que influya en lo que vamos a predecir. Además, utilizaremos alt.
- url: url que brinda más información sobre el circuito, no nos parece que influya en lo que vamos a predecir.
- alt: variable numérica que indica la altitud del circuito, no nos parece que influya en lo que vamos a predecir.

__Results.csv__

_Variables a usar_
- grid: variable numérica que indica la posición de largada.

_Variables no usadas_

- number: número del auto, no nos parece que influya en lo que vamos a predecir.
- position: posición final del corredor en la carrera, no se usará ya que si el corredor no finaliza la carrera, esto se representa con un valor nulo.
- positionText: lo mismo que position pero en tipo texto.
- points: puntos obtenidos por el corredor al finalizar la carrera, este dato no lo tenemos al momento de predecir.
- laps: cantidad de vueltas realizadas por el corredor, este dato no lo tenemos al momento de predecir.
- time: tiempo total en la pista, este dato no lo tenemos al momento de predecir.
- milliseconds: tiempo total en pista en milisegundos, este dato no lo tenemos al momento de predecir. 
- fastestLap: número de vuelta de la vuelta más rápida del corredor, este dato no lo tenemos al momento de predecir.
- fastestLapTime: tiempo de vuelta, de la vuelta más rápida del corredor, este dato no lo tenemos al momento de predecir.
- fastestLapSpeed: velocidad máxima de la vuelta más rápida, este dato no lo tenemos al momento de predecir.
- statusId: id que hace referencia al status de finalización de la carrera, no será utilizado ya que no nos resulta relevante y es un dato que no tendremos al momento de hacer la predicción.

__Driver_standings.csv__

_Variables a usar_

- position (_ds_position_): variable numérica que indica la posición del corredor en el campeonato de corredores una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.
- wins (_ds_wins_): variable numérica que indica la cantidad de victorias en el campeonato una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.
- points (_ds_points_): variable numérica que indica la cantidad de puntos acumulados que tiene el corredor una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.

_Variables no usadas_

- positionText: variable de texto que indica la posición del corredor en el campeonato pero en tipo texto, usaremos la variable numérica.

__Constructor_standings.csv__

_Variables a usar_

- position (_cs_position_): variable numérica que indica la posición del equipo en el campeonato de constructores una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.
- wins (_cs_wins_): variable numérica que indica la cantidad de victorias del equipo en el campeonato de constructores una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.
- points (_cs_points_): variable numérica que indica la cantidad de puntos acumulados que tiene el equipo una vez finalizada una carrera, utilizaremos este dato pero de la carrera anterior.

_Variables no usadas_

- positionText: variable de texto que indica la posición del equipo en el campeonato de constructores pero en tipo texto, usaremos la variable numérica.

__Qualifying.csv__

_Variables a usar_

- position (_q_position_): variable numérica que indica la posición en la que finaliza el corredor la sesión de clasificación
- q1 (_q1_ms_): variable numérica que indica el tiempo en clasificación q1.
- q2 (_q2_ms_): variable numérica que indica el tiempo en clasificación q2.
- q3 (_q3_ms_): variable numérica que indica el tiempo en clasificación q3.

_Variables no usadas_

- number: número del auto, no nos parece que influya en lo que vamos a predecir.

___CSVs que no se utilizarán:___

* _constructor_results_: no se utilizará ninguna variable de esta tabla ya que son datos que no están disponibles al momento que vamos a realizar la predicción.
* _constructors_: no se utilizará ninguna variable de esta tabla ya que indican información general sobre los constructores y no creemos que sea relevante.
* _drivers_: no se utilizará ninguna variable de esta tabla ya que indican información general sobre los corredores y no creemos que sea relevante.
* _lap_times_: no se utilizará ninguna variable de esta tabla ya que son datos que no están disponibles al momento que vamos a realizar la predicción.
* _pit_stops_: no se utilizará ninguna variable de esta tabla ya que son datos que no están disponibles al momento que vamos a realizar la predicción.
* _seasons_: no se utilizará ninguna variable de esta tabla ya que indican información general sobre las temporadas  y no creemos que sea relevante.
* _sprint_results_: no se utilizará ninguna variable de esta tabla ya que indican tiempos de la carrera sprint y son datos que no estarán disponibles al momento de la predicción.
* _status_: mapea el id de los distintos estados en los que se puede finalizar una carrera. No lo utilizaremos ya que son datos que no están disponibles al momento de la predicción.

#### Variable de salida
___is_podium___: esta variable sale del csv de “results”, se va a transformar la columna “positionOrder” la cual hace referencia a la posición final del corredor en la carrera. “is_podium” es una variable _binaria_ que va a determinar si el piloto va a estar en el podio (primer, segundo y tercer puesto). Los valores que puede tener son _0_ que indica que el corredor no está en el podio y _1_ si el mismo se encuentra en el podio.

In [None]:
# Importamos las dependencias que vamos a utilizar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly
import plotly.express as px
import sklearn_pandas
from matplotlib import gridspec
from datetime import datetime

In [None]:
# Quitamos el límite de columnas y filas que se muestran en los dataframes
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [None]:
# Importamos los csvs que vamos a utilizar
races = pd.read_csv('./csvs/races.csv')
circuits = pd.read_csv('./csvs/circuits.csv')
results = pd.read_csv('./csvs/results.csv')
driver_standings = pd.read_csv('./csvs/driver_standings.csv')
constructor_standings = pd.read_csv('./csvs/constructor_standings.csv')
qualifying = pd.read_csv('./csvs/qualifying.csv')

In [None]:
# Eliminamos las columnas que no vamos a utilizar en cada dataset antes de hacer los merges
races.drop(['round', 'name', 'url', 'fp1_date', 'fp1_time','fp2_date', 'fp2_time','fp3_date',
            'fp3_time', 'quali_date', 'quali_time', 'sprint_date', 'sprint_time'], axis=1, inplace=True)

circuits.drop(['name', 'location', 'country', 'lat', 'lng', 'url', 'alt'], axis=1, inplace=True)

results.drop(['number', 'position', 'positionText', 'points', 'laps', 'time', 'milliseconds', 'fastestLap', 
           'fastestLapTime', 'fastestLapSpeed', 'statusId', 'rank'], axis=1, inplace=True)

driver_standings.drop(['positionText'], axis=1, inplace=True)

constructor_standings.drop(['positionText'], axis=1, inplace=True)

qualifying.drop(['number'], axis=1, inplace=True)

In [None]:
# Cambiamos nombres de columnas para identificarlos mejor
qualifying.rename(columns = {'position':'q_position'}, inplace = True)
driver_standings.rename(columns = {'points':'ds_points', 'position':'ds_position', 'wins':'ds_wins'}, inplace = True)
constructor_standings.rename(columns = {'points':'cs_points', 'position':'cs_position', 'wins':'cs_wins'}, inplace = True)

In [None]:
# Merge de los datos que no requieren ser calculados a partir de otros
full = pd.merge(results, qualifying, how='inner', on=['raceId', 'driverId', 'constructorId']).merge(
    races, how='inner', on=['raceId']).merge(
    circuits, how='inner', on=['circuitId'])

Como se indicó previamente, las tablas _driver_standings_ y _constructor_standings_ contienen las variables _points_, _wins_ y _position_, que son datos obtenidos una vez finalizada la carrera correspondiente.

Como consideramos que estas son variables de mucho interés, realizamos operaciones sobre estas tablas para obtener los datos de estas columnas de la carrera inmediatamente anterior de la misma season. En resumen, la idea de estas variables es la misma pero usamos los datos al momento previo a la carrera que intentaremos predecir si un corredor estará en el podio.

Para hacerlo, agregamos las columnas date y year en driver_standings y constructor standings.

In [None]:
# Agregamos columnas 'date' y 'year' a los dataframes según la carrera correspondiente
driver_standings = pd.merge(driver_standings, races[["raceId", "date", "year"]], on="raceId")
constructor_standings = pd.merge(constructor_standings, races[["raceId", "date", "year"]], on="raceId")

# Ordenamos los dataframes a partir de columnas 'driverId'/'constructorId' y 'date'
driver_standings = driver_standings.sort_values(by=['driverId', 'date'], ascending=True)
constructor_standings = constructor_standings.sort_values(by=["constructorId", "date"], ascending=True)

# Convertimos campo 'date' de str a datetime
driver_standings['date'] = pd.to_datetime(driver_standings['date'])
constructor_standings['date'] = pd.to_datetime(constructor_standings['date'])

# Usamos el método shift para obtener los valores anteriores (ya se encuentra ordenado)
driver_standings['ds_prev_points'] = driver_standings.groupby(['driverId', 'year'])['ds_points'].shift(1)
driver_standings['ds_prev_position'] = driver_standings.groupby(['driverId', 'year'])['ds_position'].shift(1)
driver_standings['ds_prev_wins'] = driver_standings.groupby(['driverId', 'year'])['ds_wins'].shift(1)

constructor_standings['cs_prev_points'] = constructor_standings.groupby(['constructorId', 'year'])['cs_points'].shift(1)
constructor_standings['cs_prev_position'] = constructor_standings.groupby(['constructorId', 'year'])['cs_position'].shift(1)
constructor_standings['cs_prev_wins'] = constructor_standings.groupby(['constructorId', 'year'])['cs_wins'].shift(1)

driver_standings.head()

In [None]:
# Mergeamos ahora sí 'full' con 'driver_standings' y 'constructor_standings' ya modificados.
full = pd.merge(full, driver_standings[['raceId', 'driverId', 'ds_prev_points', 'ds_prev_position', 'ds_prev_wins']], how='inner', on=['raceId', 'driverId']).merge(
    constructor_standings[['raceId', 'constructorId', 'cs_prev_points', 'cs_prev_position', 'cs_prev_wins']], how='inner', on=['raceId', 'constructorId'])

# Cambiamos algunos nombres de columnas
full.rename(columns = {'ds_prev_points':'ds_points','ds_prev_position':'ds_position','ds_prev_wins':'ds_wins',
                      'cs_prev_points':'cs_points','cs_prev_position':'cs_position','cs_prev_wins':'cs_wins'}, inplace = True)

In [None]:
# Consulta para verificar que se haya realizado correctamente
full[(full.driverId == 1) & ((full.year == 2022) | (full.year == 2023)| (full.year == 2021))].sort_values('date', ascending=True)

In [None]:
# Creamos la columna 'is_podium' que es el target a predecir a partir de los datos que tenemos en positionOrder
full['is_podium'] = np.where(full['positionOrder'] <= 3, 1, 0)
full.drop(['positionOrder'], axis=1, inplace=True)
full.head()

In [None]:
print('Dimensiones: ', full.shape)
print('Dimensiones sin columnas ID: ',
      full[['grid', 'q_position', 'q1', 'q2', 'q3', 'year', 'date', 'time', 'circuitRef', 'ds_points', 'ds_wins', 'ds_position',
            'cs_points', 'cs_wins', 'cs_position', 'is_podium']].shape)
full.dtypes

### 2) Análisis detallado de un conjunto de variables
#### 2.1 Balanceo de la variable de salida

In [None]:
# Gráfico de torta para ver el balanceo de la variable de salida
full.is_podium.value_counts().plot.pie(autopct='%.2f',figsize=(6,6), labels=['No está en el podio', 'Está en el podio'], ylabel='Cant.')

En el gráfico de torta se puede observar que del total de los datos de las carreras que se encuentran en nuestro dataset, el 14.42% de los corredores se encuentran en el podio, mientras que el 85.58% no se encuentra en el mismo. 
A la hora de entrenar y medir el rendimiento del modelo, este podría realizar underfitting (no aprenderá a generalizar, podría decir que nunca hará podium para todos los casos y obtendría una exactitud del 85.58%) ya que la mayoría de los casos no se encuentra en el podio.

#### 2.2) Comportamiento de variables de entrada y su relación con la variable de salida
_Variables de entrada a analizar:_

- grid
- q_position
- q1_ms
- q2_ms
- q3_ms

In [None]:
px.histogram(full, x='grid', title='Distribución posición de salida', autor)

In [None]:
px.histogram(full, x='grid', color='is_podium', title='Distribución', barmode='group', labels=['Podio','No podio'])

In [None]:
px.histogram(full, x='q_position', title='Distribución posición final clasificación')

In [None]:
px.histogram(full, x='q_position', color='is_podium', title='Distribución', barmode='group', labels=['Podio','No podio'])

In [None]:
def datetime_to_seconds(laptime: str) -> float:
    if laptime == '\\N' or laptime == 'nan':
        return np.nan
    time_format = "%M:%S.%f"
    dt = datetime.strptime(laptime, time_format)
    seconds = dt.minute * 60 + dt.second + dt.microsecond / 1_000_000
    return float(seconds * 1000)

In [None]:
full['q1'] = full['q1'].astype(str)
full['q1_ms'] = np.vectorize(datetime_to_seconds)(full['q1'])
full.head()

In [None]:
px.histogram(full, x='q1_ms', title='title')
# px.histogram(full[(full.circuitRef == 'albert_park') & (full.year == 2022)], x='q1_ms', title='title')

In [None]:
px.histogram(full, x='q1_ms', color='is_podium', title='Distribución', barmode='group', labels=['Podio','No podio'])

In [None]:
full['q2'] = full['q2'].astype(str) # verificar si hace falta esta linea
full['q2_ms'] = np.vectorize(datetime_to_seconds)(full['q2'])
full.head()

In [None]:
px.histogram(full, x='q2_ms', title='title')

In [None]:
px.histogram(full, x='q2_ms', color='is_podium', title='Distribución', barmode='group', labels=['Podio','No podio'])

In [None]:
full['q3'] = full['q3'].astype(str) # verificar si hace falta esta linea
full['q3_ms'] = np.vectorize(datetime_to_seconds)(full['q3'])
full.head()

In [None]:
px.histogram(full, x='q3_ms', title='title')

In [None]:
px.histogram(full, x='q3_ms', color='is_podium', title='Distribución', barmode='group', labels=['Podio','No podio'])

In [None]:
full[['q1_ms', 'q2_ms', 'q3_ms']].isnull().sum()

In [None]:
# Sacamos columnas q1, q2 y q3 ya que utilizaremos la columna pasada a milisegundos.
full.drop(['q1', 'q2', 'q3'], axis=1, inplace=True)

In [None]:
# En el dataset se indican los valores no registrados (nulos) como '\N'. Para hacer un mejor análisis los pasamos a None o NaN
full['time'] = full['time'].replace('\\N', None)

In [None]:
# Analisis valores nulos
full.isnull().sum()

In [None]:
# Analisis valores extremos
px.box(full, y='q1_ms')

In [None]:
px.box(full, y='q2_ms')

In [None]:
px.box(full, y='q3_ms')

In [None]:
# Valor extremo encontrado en los tiempos de vuelta de q1 en milisegundos
full[full.q1_ms > 1000000]

In [None]:
# Heatmap
# Armo un df nuevo quitando IDs
final = full[['grid', 'q_position', 'ds_points', 'ds_position', 'ds_wins',
              'cs_points', 'cs_position', 'cs_wins', 'q1_ms', 'q2_ms', 'q3_ms', 'is_podium']]
final.head()

In [None]:
px.imshow(final.corr(), text_auto=True, width=800, height=800)

In [None]:
#Hipótesis 1
#Una mejor posición de salida (grid) es más importante que la posición de clasificación (q_position) para acabar en el podio.

f, ax = plt.subplots(1, 2, figsize=(16, 12))
ax[0].set_title('% de podios por posición de salida (grid)')
full[(full.is_podium == 1) & ((full.grid >= 1) & (full.grid <= 20))].grid.value_counts().plot.pie(ax=ax[0],autopct='%1.1f%%')
ax[1].set_title('% de podios por posición de clasificación (q_position)')
full[(full.is_podium == 1) & ((full.q_position >= 1) & (full.q_position <= 20))].q_position.value_counts().plot.pie(ax=ax[1],autopct='%1.1f%%')