# Formula One

### Introducción
La Fórmula 1, uno de los deportes más emocionantes y complejos del mundo, ha sido testigo de una evolución constante a lo largo de las décadas. Desde la dominación de equipos y pilotos en diferentes épocas hasta la estrategia de patrocinio en eventos clave como el Gran Premio de Mónaco, el análisis de datos juega un papel crucial en entender las dinámicas de este deporte.



En este notebook realizaremos un proceso de ETL (Extracción, Transformación y Carga) sobre un conjunto de datos históricos de la Fórmula 1. El objetivo es explorar tres temas clave que abarcan diferentes facetas del deporte:

#### Tema 1: Dominio de equipos y pilotos en diferentes épocas  
**¿Qué equipos han dominado diferentes épocas de la Fórmula 1?**  
Análisis del rendimiento histórico por décadas o períodos definidos. (Análisis en el sector de deportes (Sports Analytics))

#### Tema 2: Relación entre pilotos, equipos y circuito.  
**Imaginemosnos que nos contrata el area de marketing de una marca que quiere hacer un patrocinio en el circuito de Monaco.La idea es patrocinar al que creeemos que va ganar la carrera, pero no sabemos quien, si escojer una escuderia en particular o un piloto.**  
Analicemos este escenario. (Negocios y entretenimiento (Media & Sponsorship Analytics))

#### Tema 3: Puntos y campeonatos  
**¿Existe una relación entre el porcentaje de puntos por carrera y ganar el campeonato?**  
Análisis estadístico del porcentaje de puntos por carrera de los campeones.  
**¿Alguien ha ganado el campeonato sin haber ganado ni una carrera?**  
Exploración de casos excepcionales en la historia de la F1.
**¿Qué pilotos lograron ganar el campeonato con el menor número de puntos?** 
(Estrategia basada en datos (Data-Driven Strategy))


In [2]:
import pandas as pd
import numpy as np  
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
driver_standings = pd.read_csv('https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/driver_standings.csv')
drivers = pd.read_csv('https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/drivers.csv')
races = pd.read_csv('https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/races.csv')
results = pd.read_csv('https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/results%5B1%5D.csv')
circuits = pd.read_csv("https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/circuits.csv")
constructors = pd.read_csv("https://raw.githubusercontent.com/Ezegarcia07/F1/refs/heads/main/constructors.csv")

- Comenzamos con un vistazo general de cada dataframe usando el metodo head()


In [4]:
drivers.head()

Unnamed: 0,driverId,driverRef,number,code,forename,surname,dob,nationality,url
0,1,hamilton,44,HAM,Lewis,Hamilton,1985-01-07,British,http://en.wikipedia.org/wiki/Lewis_Hamilton
1,2,heidfeld,\N,HEI,Nick,Heidfeld,1977-05-10,German,http://en.wikipedia.org/wiki/Nick_Heidfeld
2,3,rosberg,6,ROS,Nico,Rosberg,1985-06-27,German,http://en.wikipedia.org/wiki/Nico_Rosberg
3,4,alonso,14,ALO,Fernando,Alonso,1981-07-29,Spanish,http://en.wikipedia.org/wiki/Fernando_Alonso
4,5,kovalainen,\N,KOV,Heikki,Kovalainen,1981-10-19,Finnish,http://en.wikipedia.org/wiki/Heikki_Kovalainen


In [5]:
driver_standings.head()

Unnamed: 0,driverStandingsId,raceId,driverId,points,position,positionText,wins
0,1,18,1,10.0,1,1,1
1,2,18,2,8.0,2,2,0
2,3,18,3,6.0,3,3,0
3,4,18,4,5.0,4,4,0
4,5,18,5,4.0,5,5,0


In [6]:
races.head()

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
0,1,2009,1,1,Australian Grand Prix,2009-03-29,06:00:00,http://en.wikipedia.org/wiki/2009_Australian_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
1,2,2009,2,2,Malaysian Grand Prix,2009-04-05,09:00:00,http://en.wikipedia.org/wiki/2009_Malaysian_Gr...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
2,3,2009,3,17,Chinese Grand Prix,2009-04-19,07:00:00,http://en.wikipedia.org/wiki/2009_Chinese_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
3,4,2009,4,3,Bahrain Grand Prix,2009-04-26,12:00:00,http://en.wikipedia.org/wiki/2009_Bahrain_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
4,5,2009,5,4,Spanish Grand Prix,2009-05-10,12:00:00,http://en.wikipedia.org/wiki/2009_Spanish_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N


In [7]:
results.head()

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,1,18,1,1,22,1,1,1,1,10.0,58,1:34:50.616,5690616,39,2,1:27.452,218.3,1
1,2,18,2,2,3,5,2,2,2,8.0,58,+5.478,5696094,41,3,1:27.739,217.586,1
2,3,18,3,3,7,7,3,3,3,6.0,58,+8.163,5698779,41,5,1:28.090,216.719,1
3,4,18,4,4,5,11,4,4,4,5.0,58,+17.181,5707797,58,7,1:28.603,215.464,1
4,5,18,5,1,23,3,5,5,5,4.0,58,+18.014,5708630,43,1,1:27.418,218.385,1


In [8]:
circuits.head()

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
0,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,-37.8497,144.968,10,http://en.wikipedia.org/wiki/Melbourne_Grand_P...
1,2,sepang,Sepang International Circuit,Kuala Lumpur,Malaysia,2.76083,101.738,18,http://en.wikipedia.org/wiki/Sepang_Internatio...
2,3,bahrain,Bahrain International Circuit,Sakhir,Bahrain,26.0325,50.5106,7,http://en.wikipedia.org/wiki/Bahrain_Internati...
3,4,catalunya,Circuit de Barcelona-Catalunya,Montmeló,Spain,41.57,2.26111,109,http://en.wikipedia.org/wiki/Circuit_de_Barcel...
4,5,istanbul,Istanbul Park,Istanbul,Turkey,40.9517,29.405,130,http://en.wikipedia.org/wiki/Istanbul_Park


In [9]:
constructors.head()

Unnamed: 0,constructorId,constructorRef,name,nationality,url
0,1,mclaren,McLaren,British,http://en.wikipedia.org/wiki/McLaren
1,2,bmw_sauber,BMW Sauber,German,http://en.wikipedia.org/wiki/BMW_Sauber
2,3,williams,Williams,British,http://en.wikipedia.org/wiki/Williams_Grand_Pr...
3,4,renault,Renault,French,http://en.wikipedia.org/wiki/Renault_in_Formul...
4,5,toro_rosso,Toro Rosso,Italian,http://en.wikipedia.org/wiki/Scuderia_Toro_Rosso


Observamos que las columnas ID como "raceId", "resultId", "driverId" y "constructorId" actúan como claves primarias y podrían utilizarse para realizar un merge entre diferentes tablas. Estas columnas son esenciales para combinar los datos de las diversas entidades (como carreras, resultados, pilotos y constructores) y obtener una visión más completa de la información histórica de la Fórmula 1.

Antes de fusionar las tablas, realizaremos un análisis de cada una por separado para identificar y limpiar los datos nulos o inconsistentes, asegurando que la información esté lista para combinarse de manera precisa.

- Comenzamos con el dataframe drivers.csv

In [10]:
drivers.shape

(859, 9)

In [11]:
drivers

Unnamed: 0,driverId,driverRef,number,code,forename,surname,dob,nationality,url
0,1,hamilton,44,HAM,Lewis,Hamilton,1985-01-07,British,http://en.wikipedia.org/wiki/Lewis_Hamilton
1,2,heidfeld,\N,HEI,Nick,Heidfeld,1977-05-10,German,http://en.wikipedia.org/wiki/Nick_Heidfeld
2,3,rosberg,6,ROS,Nico,Rosberg,1985-06-27,German,http://en.wikipedia.org/wiki/Nico_Rosberg
3,4,alonso,14,ALO,Fernando,Alonso,1981-07-29,Spanish,http://en.wikipedia.org/wiki/Fernando_Alonso
4,5,kovalainen,\N,KOV,Heikki,Kovalainen,1981-10-19,Finnish,http://en.wikipedia.org/wiki/Heikki_Kovalainen
...,...,...,...,...,...,...,...,...,...
854,856,de_vries,21,DEV,Nyck,de Vries,1995-02-06,Dutch,http://en.wikipedia.org/wiki/Nyck_de_Vries
855,857,piastri,81,PIA,Oscar,Piastri,2001-04-06,Australian,http://en.wikipedia.org/wiki/Oscar_Piastri
856,858,sargeant,2,SAR,Logan,Sargeant,2000-12-31,American,http://en.wikipedia.org/wiki/Logan_Sargeant
857,859,lawson,40,LAW,Liam,Lawson,2002-02-11,New Zealander,http://en.wikipedia.org/wiki/Liam_Lawson


In [12]:
drivers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 859 entries, 0 to 858
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   driverId     859 non-null    int64 
 1   driverRef    859 non-null    object
 2   number       859 non-null    object
 3   code         859 non-null    object
 4   forename     859 non-null    object
 5   surname      859 non-null    object
 6   dob          859 non-null    object
 7   nationality  859 non-null    object
 8   url          859 non-null    object
dtypes: int64(1), object(8)
memory usage: 60.5+ KB


A simple vista, detectamos una inconsistencia en la columna "number", donde el driverId 2 (Heidfeld) tiene un valor "\N", indicando que no tiene número. Aunque no es nulo, ya que no aparecen valores nulos en la tabla con el comando drivers.info(), esto sugiere que necesitamos buscar otra forma de identificar estos casos.

Además, al revisar los datos, observamos que la columna "driverId" llega hasta el valor 860, pero solo tenemos 859 filas, lo que indica que falta un driverId en el rango de 1 a 860.

In [13]:
faltante = set(range(1, 861)) - set(drivers['driverId'])
faltante

{809}

El Id 809 esta faltando, quizas nos traera problemas en el futuro o no, se vera, pero a priori sabemos que falta un Id. Sin embargo esto no traera problemas a futuro.

In [14]:
drivers.columns

Index(['driverId', 'driverRef', 'number', 'code', 'forename', 'surname', 'dob',
       'nationality', 'url'],
      dtype='object')

Al revisar las columnas, hemos identificado que algunas no son necesarias para nuestro análisis o no aportan información relevante sobre el driver. Por lo tanto, procederemos a eliminar las siguientes columnas:  
. "number" y "url", ya que no aportan valor significativo para nuestras preguntas.  
. "driverRef", dado que ya contamos con las columnas "name" y "surname", además de la columna "id", que nos permiten identificar al piloto.  
. "dob" (fecha de nacimiento) y "nationality", que no nos agregan información relevante para nuestro análisis.  
Estas eliminaciones ayudarán a simplificar el dataset y enfocarnos en los datos más importantes para nuestra investigación.


In [15]:
drivers_filtered = drivers.drop(columns=['number', 'driverRef', 'url', 'dob',
       'nationality'])

In [16]:
drivers_filtered.head()

Unnamed: 0,driverId,code,forename,surname
0,1,HAM,Lewis,Hamilton
1,2,HEI,Nick,Heidfeld
2,3,ROS,Nico,Rosberg
3,4,ALO,Fernando,Alonso
4,5,KOV,Heikki,Kovalainen


Proseguimos a analisar esta nueva tabla

In [17]:
drivers_filtered.nunique()

driverId    859
code         97
forename    478
surname     800
dtype: int64

Teniendo 859 filas, porque algunas columnas no tienen cantidad valor unico igual a 859. Quizas en forename tenemos nombres que se repiten, lo mimso para "surname", "dob", "nationality", pero que hay de "code"? No puede haber tantos repetidos, seguro hay nulos, pero como ya dijimos no hay datos nulos, tal vez estan como \N. Vamos a chequear.

In [18]:
columnas_con_backslash_n = drivers_filtered.columns[drivers_filtered.apply(lambda col: col.astype(str).str.contains(r'\\N', na=False).any())]
columnas_con_backslash_n

Index(['code'], dtype='object')

La columna "code" contiene datos nulos, y aunque podría ser útil para fines de marketing, no aporta valor significativo para nuestro análisis. Por lo tanto, decidimos eliminarla también.

In [19]:
drivers_filtered.drop(columns= ["code"], inplace=True)

In [20]:
drivers_filtered.sample(5)

Unnamed: 0,driverId,forename,surname
738,738,Tony,Gaze
348,349,Max,Jean
158,159,Luis,Pérez-Sala
767,767,Carl,Forberg
364,365,Hubert,Hahne


Lo ultimo que modificaremos de este df es unir las columnas de "forename" y "surname" en una sola llamada "name" para una mejor eficacia a la hora de hacer luego la combinacion de las tablas

In [21]:
drivers_filtered["name"]=drivers_filtered["forename"]+" "+drivers_filtered["surname"]

Dropeamos las dos columnas que usamos para unir y ya quedo nuestro df

In [22]:
drivers_filtered.drop(columns=["forename","surname"], inplace=True)
drivers_filtered.sample(5)

Unnamed: 0,driverId,name
650,650,Jacques Pollet
622,622,Chico Landi
349,350,Vic Elford
222,223,Clay Regazzoni
211,212,Hector Rebaque


- Continuamos el analisis hacia el siguiente df "driver_standings

In [23]:
driver_standings.shape

(34595, 7)

In [24]:
driver_standings

Unnamed: 0,driverStandingsId,raceId,driverId,points,position,positionText,wins
0,1,18,1,10.0,1,1,1
1,2,18,2,8.0,2,2,0
2,3,18,3,6.0,3,3,0
3,4,18,4,5.0,4,4,0
4,5,18,5,4.0,5,5,0
...,...,...,...,...,...,...,...
34590,72867,1132,839,3.0,18,18,0
34591,72868,1132,842,6.0,15,15,0
34592,72869,1132,822,0.0,21,21,0
34593,72870,1132,858,0.0,20,20,0


In [25]:
driver_standings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34595 entries, 0 to 34594
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   driverStandingsId  34595 non-null  int64  
 1   raceId             34595 non-null  int64  
 2   driverId           34595 non-null  int64  
 3   points             34595 non-null  float64
 4   position           34595 non-null  int64  
 5   positionText       34595 non-null  object 
 6   wins               34595 non-null  int64  
dtypes: float64(1), int64(5), object(1)
memory usage: 1.8+ MB


Nuevamente estamos ante la misma situacion de la tabla pasada, no existen datos nulos pero quizas fueron rellenados como \N que justamente es nulo. Veamos esto

In [26]:
columnas_con_backslash_n2 = driver_standings.columns[driver_standings.apply(lambda col: col.astype(str).str.contains(r'\\N', na=False).any())]
columnas_con_backslash_n2

Index([], dtype='object')

Se comprueba que ninguna celda tiene \N. Sera que realmente no tiene datos nulos o es que los rellenaron con otro str?

In [27]:
driver_standings.sample(5)

Unnamed: 0,driverStandingsId,raceId,driverId,points,position,positionText,wins
25235,51982,806,675,0.0,49,49,0
4777,10249,243,71,23.0,2,2,2
10524,20874,432,140,21.0,7,7,0
17259,55187,617,334,0.0,36,36,0
28491,64438,844,13,24.0,6,6,0


In [28]:
driver_standings.nunique()

driverStandingsId    34595
raceId                1113
driverId               852
points                 429
position               108
positionText           109
wins                    20
dtype: int64

La tabla parece limpia y con columnas que nos pueden dar informaciones a futuro. Solo dos llaman la atencion, "position" y "positionText". Cual es la diferencia? porque cuando se ve el df tienen el mismo valor siempre pero porque cuando aplicamos nunique() tiene un valor diferente? veamos que podemos hacer.

In [29]:
# Verificar si las columnas son iguales
iguales = driver_standings['position'].equals(driver_standings['positionText'])
iguales


False

In [30]:
driver_standings_position = driver_standings[["position", "positionText"]]
driver_standings_position.sample(10)

Unnamed: 0,position,positionText
9182,34,34
20974,36,36
19110,19,19
5848,11,11
33258,17,17
10012,4,4
10244,7,7
27909,5,5
18811,4,4
22048,50,50


In [31]:
driver_standings_position['position'] = driver_standings_position['position'].astype(str)
driver_standings_position['positionText'] = driver_standings_position['positionText'].astype(str)
                          

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  driver_standings_position['position'] = driver_standings_position['position'].astype(str)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  driver_standings_position['positionText'] = driver_standings_position['positionText'].astype(str)


In [32]:
driver_standings_position.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34595 entries, 0 to 34594
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   position      34595 non-null  object
 1   positionText  34595 non-null  object
dtypes: object(2)
memory usage: 540.7+ KB


In [33]:
# Filtrar filas donde position y positionText son diferentes
diferencias = driver_standings_position[driver_standings_position['position'] != driver_standings_position['positionText']]
print(diferencias)


     position positionText
4375       26            D


Encontramos una fila donde las posiciones difieren, lo que podría indicar que el piloto fue descalificado después de terminar la carrera. Esto nos lleva a la conclusión de que la columna "position" refleja la posición final en la carrera, mientras que la columna "positionText" muestra la posición después de sanciones o cambios posteriores.

Dado que para nuestro análisis lo que realmente nos interesa es la posición que otorga puntos, es decir, la que está en la columna "positionText", decidimos eliminar la columna "position".

In [34]:
driver_standings_filtered = driver_standings.drop(columns=['position'])
driver_standings_filtered.head()

Unnamed: 0,driverStandingsId,raceId,driverId,points,positionText,wins
0,1,18,1,10.0,1,1
1,2,18,2,8.0,2,0
2,3,18,3,6.0,3,0
3,4,18,4,5.0,4,0
4,5,18,5,4.0,5,0


- Nos movemos al siguiente df "races"

In [35]:
races

Unnamed: 0,raceId,year,round,circuitId,name,date,time,url,fp1_date,fp1_time,fp2_date,fp2_time,fp3_date,fp3_time,quali_date,quali_time,sprint_date,sprint_time
0,1,2009,1,1,Australian Grand Prix,2009-03-29,06:00:00,http://en.wikipedia.org/wiki/2009_Australian_G...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
1,2,2009,2,2,Malaysian Grand Prix,2009-04-05,09:00:00,http://en.wikipedia.org/wiki/2009_Malaysian_Gr...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
2,3,2009,3,17,Chinese Grand Prix,2009-04-19,07:00:00,http://en.wikipedia.org/wiki/2009_Chinese_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
3,4,2009,4,3,Bahrain Grand Prix,2009-04-26,12:00:00,http://en.wikipedia.org/wiki/2009_Bahrain_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
4,5,2009,5,4,Spanish Grand Prix,2009-05-10,12:00:00,http://en.wikipedia.org/wiki/2009_Spanish_Gran...,\N,\N,\N,\N,\N,\N,\N,\N,\N,\N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1120,1140,2024,20,32,Mexico City Grand Prix,2024-10-27,20:00:00,https://en.wikipedia.org/wiki/2024_Mexico_City...,2024-10-25,18:30:00,2024-10-25,22:00:00,2024-10-26,17:30:00,2024-10-26,21:00:00,\N,\N
1121,1141,2024,21,18,São Paulo Grand Prix,2024-11-03,17:00:00,https://en.wikipedia.org/wiki/2024_S%C3%A3o_Pa...,2024-11-01,14:30:00,2024-11-01,18:30:00,\N,\N,2024-11-02,18:00:00,2024-11-02,14:00:00
1122,1142,2024,22,80,Las Vegas Grand Prix,2024-11-23,06:00:00,https://en.wikipedia.org/wiki/2024_Las_Vegas_G...,2024-11-21,02:30:00,2024-11-21,06:00:00,2024-11-22,02:30:00,2024-11-22,06:00:00,\N,\N
1123,1143,2024,23,78,Qatar Grand Prix,2024-12-01,17:00:00,https://en.wikipedia.org/wiki/2024_Qatar_Grand...,2024-11-29,13:30:00,2024-11-29,17:30:00,\N,\N,2024-11-30,17:00:00,2024-11-30,13:00:00


Primer pantallazo, un df con 18 columnas y ya se pueden aprecias algunos datos nulos en algunas columnas. Le damos un analisis mas detallado.

In [36]:
races.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1125 entries, 0 to 1124
Data columns (total 18 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   raceId       1125 non-null   int64 
 1   year         1125 non-null   int64 
 2   round        1125 non-null   int64 
 3   circuitId    1125 non-null   int64 
 4   name         1125 non-null   object
 5   date         1125 non-null   object
 6   time         1125 non-null   object
 7   url          1125 non-null   object
 8   fp1_date     1125 non-null   object
 9   fp1_time     1125 non-null   object
 10  fp2_date     1125 non-null   object
 11  fp2_time     1125 non-null   object
 12  fp3_date     1125 non-null   object
 13  fp3_time     1125 non-null   object
 14  quali_date   1125 non-null   object
 15  quali_time   1125 non-null   object
 16  sprint_date  1125 non-null   object
 17  sprint_time  1125 non-null   object
dtypes: int64(4), object(14)
memory usage: 158.3+ KB


In [37]:
races.columns

Index(['raceId', 'year', 'round', 'circuitId', 'name', 'date', 'time', 'url',
       'fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time',
       'quali_date', 'quali_time', 'sprint_date', 'sprint_time'],
      dtype='object')

"No" datos nulos en ninguna columna, no entre comillas porque sabemos que usan \N para referirse a esos datos. Tambien vemos que de prima ciertas columnas que no nos apotaran nada al analisis que haremos por lo que procederemos a dropearlas. Esas columnas son: 'url',
       'fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time',
       'quali_date', 'quali_time', 'sprint_date', 'sprint_time', 'round', 'time'.

In [38]:
races_filtered = races.drop(columns=['url',
       'fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time',
       'quali_date', 'quali_time', 'sprint_date', 'sprint_time', 'round', 'time'])
races_filtered.head()

Unnamed: 0,raceId,year,circuitId,name,date
0,1,2009,1,Australian Grand Prix,2009-03-29
1,2,2009,2,Malaysian Grand Prix,2009-04-05
2,3,2009,17,Chinese Grand Prix,2009-04-19
3,4,2009,3,Bahrain Grand Prix,2009-04-26
4,5,2009,4,Spanish Grand Prix,2009-05-10


Un df mas limpio y facil de lectura, sigamos analisando.

In [39]:
races_filtered.nunique()

raceId       1125
year           75
circuitId      77
name           54
date         1125
dtype: int64

Bastante logicos los valores que arroja nunique dado de que raceId tiene que ser uno por cada fila, y date es claro que no hubo dos carreras en dos lugares distintos el mismo dia.

In [40]:
races_filtered.sample(10)


Unnamed: 0,raceId,year,circuitId,name,date
642,643,1970,30,South African Grand Prix,1970-03-07
948,961,2016,14,Italian Grand Prix,2016-09-04
75,76,2005,6,Monaco Grand Prix,2005-05-22
1090,1110,2023,13,Belgian Grand Prix,2023-07-30
721,722,1963,55,French Grand Prix,1963-06-30
486,487,1981,40,Belgian Grand Prix,1981-05-17
380,381,1988,11,Hungarian Grand Prix,1988-08-07
729,730,1962,6,Monaco Grand Prix,1962-06-03
1104,1124,2024,22,Japanese Grand Prix,2024-04-07
128,129,2002,70,Austrian Grand Prix,2002-05-12


- Pasemos ahora al df "results"

In [41]:
results

Unnamed: 0,resultId,raceId,driverId,constructorId,number,grid,position,positionText,positionOrder,points,laps,time,milliseconds,fastestLap,rank,fastestLapTime,fastestLapSpeed,statusId
0,1,18,1,1,22,1,1,1,1,10.0,58,1:34:50.616,5690616,39,2,1:27.452,218.300,1
1,2,18,2,2,3,5,2,2,2,8.0,58,+5.478,5696094,41,3,1:27.739,217.586,1
2,3,18,3,3,7,7,3,3,3,6.0,58,+8.163,5698779,41,5,1:28.090,216.719,1
3,4,18,4,4,5,11,4,4,4,5.0,58,+17.181,5707797,58,7,1:28.603,215.464,1
4,5,18,5,1,23,3,5,5,5,4.0,58,+18.014,5708630,43,1,1:27.418,218.385,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26514,26520,1132,839,214,31,18,16,16,16,0.0,50,\N,\N,46,16,1:30.875,233.371,12
26515,26521,1132,815,9,11,0,17,17,17,0.0,50,\N,\N,50,6,1:29.707,236.409,12
26516,26522,1132,855,15,24,14,18,18,18,0.0,50,\N,\N,43,17,1:31.014,233.014,12
26517,26523,1132,847,131,63,1,\N,R,19,0.0,33,\N,\N,3,19,1:31.298,232.289,34


In [42]:
results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26519 entries, 0 to 26518
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   resultId         26519 non-null  int64  
 1   raceId           26519 non-null  int64  
 2   driverId         26519 non-null  int64  
 3   constructorId    26519 non-null  int64  
 4   number           26519 non-null  object 
 5   grid             26519 non-null  int64  
 6   position         26519 non-null  object 
 7   positionText     26519 non-null  object 
 8   positionOrder    26519 non-null  int64  
 9   points           26519 non-null  float64
 10  laps             26519 non-null  int64  
 11  time             26519 non-null  object 
 12  milliseconds     26519 non-null  object 
 13  fastestLap       26519 non-null  object 
 14  rank             26519 non-null  object 
 15  fastestLapTime   26519 non-null  object 
 16  fastestLapSpeed  26519 non-null  object 
 17  statusId    

In [43]:
results.nunique()

resultId           26519
raceId              1113
driverId             859
constructorId        211
number               130
grid                  35
position              34
positionText          39
positionOrder         39
points                39
laps                 172
time                7272
milliseconds        7493
fastestLap            81
rank                  26
fastestLapTime      7298
fastestLapSpeed     7514
statusId             137
dtype: int64

In [44]:
results.columns

Index(['resultId', 'raceId', 'driverId', 'constructorId', 'number', 'grid',
       'position', 'positionText', 'positionOrder', 'points', 'laps', 'time',
       'milliseconds', 'fastestLap', 'rank', 'fastestLapTime',
       'fastestLapSpeed', 'statusId'],
      dtype='object')

Siguiendo nuestras preguntas iniciales con las que nos guiamos para hacer el analisis los datos que mas nos interesan son los que se refieren a posicionamiento, putntuaciones y Id. De esta forma eliminaremos las siguientes columnas:
'position', 'positionOrder', 'number', 'laps', 'time',
       'milliseconds', 'fastestLap', 'rank', 'fastestLapTime',
       'fastestLapSpeed', 'statusId'.

In [45]:
results_filtered = results.drop(columns=['position', 'positionOrder', 'number', 'laps', 'time',
       'milliseconds', 'fastestLap', 'rank', 'fastestLapTime',
       'fastestLapSpeed', 'statusId'])
results_filtered.sample(10)

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionText,points
13793,13794,562,255,32,8,R,0.0
6007,6008,289,129,25,12,R,0.0
25751,25757,1092,840,117,19,12,0.0
9527,9528,408,123,21,14,R,0.0
15793,15794,639,243,63,12,7,0.0
7108,7109,323,133,21,0,F,0.0
8451,8452,370,99,39,0,F,0.0
9346,9347,401,145,18,14,R,0.0
22009,22012,894,823,207,20,15,0.0
18333,18334,757,528,113,25,R,0.0


Vamos a ver si tienen algun dato "nulo" buscando el valor \N en el nuevo data frame.

In [46]:
columnas_con_backslash_n2 = results_filtered.columns[results_filtered.apply(lambda col: col.astype(str).str.contains(r'\\N', na=False).any())]
columnas_con_backslash_n2

Index([], dtype='object')

No hay datos nulos, por lo que damos como finalizada la limpieza en este df.

- Proseguimos a analizar el siguiente df, "circuits"

In [47]:
circuits

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
0,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,-37.84970,144.96800,10,http://en.wikipedia.org/wiki/Melbourne_Grand_P...
1,2,sepang,Sepang International Circuit,Kuala Lumpur,Malaysia,2.76083,101.73800,18,http://en.wikipedia.org/wiki/Sepang_Internatio...
2,3,bahrain,Bahrain International Circuit,Sakhir,Bahrain,26.03250,50.51060,7,http://en.wikipedia.org/wiki/Bahrain_Internati...
3,4,catalunya,Circuit de Barcelona-Catalunya,Montmeló,Spain,41.57000,2.26111,109,http://en.wikipedia.org/wiki/Circuit_de_Barcel...
4,5,istanbul,Istanbul Park,Istanbul,Turkey,40.95170,29.40500,130,http://en.wikipedia.org/wiki/Istanbul_Park
...,...,...,...,...,...,...,...,...,...
72,75,portimao,Autódromo Internacional do Algarve,Portimão,Portugal,37.22700,-8.62670,108,http://en.wikipedia.org/wiki/Algarve_Internati...
73,76,mugello,Autodromo Internazionale del Mugello,Mugello,Italy,43.99750,11.37190,255,http://en.wikipedia.org/wiki/Mugello_Circuit
74,77,jeddah,Jeddah Corniche Circuit,Jeddah,Saudi Arabia,21.63190,39.10440,15,http://en.wikipedia.org/wiki/Jeddah_Street_Cir...
75,78,losail,Losail International Circuit,Al Daayen,Qatar,25.49000,51.45420,12,http://en.wikipedia.org/wiki/Losail_Internatio...


In [48]:
circuits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   circuitId   77 non-null     int64  
 1   circuitRef  77 non-null     object 
 2   name        77 non-null     object 
 3   location    77 non-null     object 
 4   country     77 non-null     object 
 5   lat         77 non-null     float64
 6   lng         77 non-null     float64
 7   alt         77 non-null     int64  
 8   url         77 non-null     object 
dtypes: float64(2), int64(2), object(5)
memory usage: 5.5+ KB


In [49]:
circuits.columns

Index(['circuitId', 'circuitRef', 'name', 'location', 'country', 'lat', 'lng',
       'alt', 'url'],
      dtype='object')

No datos nulos a priori. Algunas columnas no son necesarias: 'circuitRef', 'lat', 'lng',
       'alt', 'url', 'location', 'country'. Porque se preguntaran 'location', 'country'? la location exacta no nos sirve y cuando realicemos el merged con el otro df tendremoos el country.


In [50]:
circuits_filtered = circuits.drop(columns=['circuitRef', 'lat', 'lng', 'alt', 'url','location', 'country'])
circuits_filtered.sample(10)

Unnamed: 0,circuitId,name
14,15,Marina Bay Street Circuit
26,27,Autódromo do Estoril
19,20,Nürburgring
12,13,Circuit de Spa-Francorchamps
8,9,Silverstone Circuit
9,10,Hockenheimring
47,48,Mosport International Raceway
3,4,Circuit de Barcelona-Catalunya
71,73,Baku City Circuit
35,36,Autódromo Internacional Nelson Piquet


Corroboramos la existencia de "\N"

In [51]:
columnas_con_backslash_n3 = circuits_filtered.columns[circuits_filtered.apply(lambda col: col.astype(str).str.contains(r'\\N', na=False).any())]
columnas_con_backslash_n3

Index([], dtype='object')

- Pasamos al ultimo df "constructors"

In [52]:
constructors

Unnamed: 0,constructorId,constructorRef,name,nationality,url
0,1,mclaren,McLaren,British,http://en.wikipedia.org/wiki/McLaren
1,2,bmw_sauber,BMW Sauber,German,http://en.wikipedia.org/wiki/BMW_Sauber
2,3,williams,Williams,British,http://en.wikipedia.org/wiki/Williams_Grand_Pr...
3,4,renault,Renault,French,http://en.wikipedia.org/wiki/Renault_in_Formul...
4,5,toro_rosso,Toro Rosso,Italian,http://en.wikipedia.org/wiki/Scuderia_Toro_Rosso
...,...,...,...,...,...
207,210,haas,Haas F1 Team,American,http://en.wikipedia.org/wiki/Haas_F1_Team
208,211,racing_point,Racing Point,British,http://en.wikipedia.org/wiki/Racing_Point_F1_Team
209,213,alphatauri,AlphaTauri,Italian,http://en.wikipedia.org/wiki/Scuderia_AlphaTauri
210,214,alpine,Alpine F1 Team,French,http://en.wikipedia.org/wiki/Alpine_F1_Team


In [53]:
constructors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   constructorId   212 non-null    int64 
 1   constructorRef  212 non-null    object
 2   name            212 non-null    object
 3   nationality     212 non-null    object
 4   url             212 non-null    object
dtypes: int64(1), object(4)
memory usage: 8.4+ KB


Rapidamente podemos deshacernos de algunas columnas y luego corrobar si existen datos nulos

In [54]:
constructors_filtered = constructors.drop(columns=['constructorRef', 'url', "nationality"])
constructors_filtered.sample(10)

Unnamed: 0,constructorId,name
132,134,Schroeder
177,180,Lotus-Ford
155,157,Langley
113,115,Christensen
76,78,Amon
41,42,Coloni
11,12,Spyker
191,194,McLaren-BRM
134,136,Pankratz
120,122,Sutton


In [55]:
columnas_con_backslash_n4 = constructors_filtered.columns[constructors_filtered.apply(lambda col: col.astype(str).str.contains(r'\\N', na=False).any())]
columnas_con_backslash_n4   

Index([], dtype='object')

- Terminamos con el primer analisis y limpieza de datos de los dataframes. Ahora vamos a continuar con la combinacion entre ellos usando el metodo "merged"

In [56]:
driver_standings_filtered.head(1)


Unnamed: 0,driverStandingsId,raceId,driverId,points,positionText,wins
0,1,18,1,10.0,1,1


In [57]:
drivers_filtered.head(1)

Unnamed: 0,driverId,name
0,1,Lewis Hamilton


In [58]:
races_filtered.head(1)

Unnamed: 0,raceId,year,circuitId,name,date
0,1,2009,1,Australian Grand Prix,2009-03-29


In [59]:
results_filtered.head(1)

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionText,points
0,1,18,1,1,1,1,10.0


In [60]:
circuits_filtered.head(1)

Unnamed: 0,circuitId,name
0,1,Albert Park Grand Prix Circuit


In [61]:
constructors_filtered.head(1)

Unnamed: 0,constructorId,name
0,1,McLaren


Llegados a este punto podemos ver que el df "driver_standings_filtered" que se nos fue dado y que luego limpiamos no nos sirve, pues nos da la misma o menos informacion que el df "results_filtered". La unica columna que tiene el primer df que no tiene el segundo es "win" y realmente no nos aporta informacion valiosa, ya que podemos deducir que si "positionText" = 1 es un "win". Debido a esto no trabajaremos mas sobre el.

Continuamos, primeros haremos merged entre los dfs "contructors_filtered", "drivers_filtered" con "results_filtered" con el objetivo de simplemente reemplazar las columnas "driverId" por el nombre del conductor, y la columna "constructorId" por el nombre de la escuderia.

In [62]:
results_completed = pd.merge(results_filtered, drivers_filtered, on="driverId", how="inner")
results_completed.head()

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionText,points,name
0,1,18,1,1,1,1,10.0,Lewis Hamilton
1,2,18,2,2,5,2,8.0,Nick Heidfeld
2,3,18,3,3,7,3,6.0,Nico Rosberg
3,4,18,4,4,11,4,5.0,Fernando Alonso
4,5,18,5,1,3,5,4.0,Heikki Kovalainen


In [63]:
results_completed = pd.merge(results_completed, constructors_filtered, on="constructorId", how="inner")
results_completed

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionText,points,name_x,name_y
0,1,18,1,1,1,1,10.0,Lewis Hamilton,McLaren
1,2,18,2,2,5,2,8.0,Nick Heidfeld,BMW Sauber
2,3,18,3,3,7,3,6.0,Nico Rosberg,Williams
3,4,18,4,4,11,4,5.0,Fernando Alonso,Renault
4,5,18,5,1,3,5,4.0,Heikki Kovalainen,McLaren
...,...,...,...,...,...,...,...,...,...
26514,26520,1132,839,214,18,16,0.0,Esteban Ocon,Alpine F1 Team
26515,26521,1132,815,9,0,17,0.0,Sergio Pérez,Red Bull
26516,26522,1132,855,15,14,18,0.0,Guanyu Zhou,Sauber
26517,26523,1132,847,131,1,R,0.0,George Russell,Mercedes


Podemos observar que tenemos ligeros problemas con el nombre de las columnas que adicionamos, no son problemas en si pero para una mejor eficacia y compresion cambiaremos eso.

In [64]:
results_completed = results_completed.rename(columns={"name_x":"driverName", "name_y":"constructorName"})
results_completed.head()

Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionText,points,driverName,constructorName
0,1,18,1,1,1,1,10.0,Lewis Hamilton,McLaren
1,2,18,2,2,5,2,8.0,Nick Heidfeld,BMW Sauber
2,3,18,3,3,7,3,6.0,Nico Rosberg,Williams
3,4,18,4,4,11,4,5.0,Fernando Alonso,Renault
4,5,18,5,1,3,5,4.0,Heikki Kovalainen,McLaren


Eliminamos las columnas "driverId" y "constructorId", y movemos en su lugar las nuevas columnas

In [65]:
results_completed = results_completed.drop(columns=["driverId","constructorId"])
driverName = results_completed.pop("driverName")
results_completed.insert(2,"driverName", driverName)
constructorName = results_completed.pop("constructorName")
results_completed.insert(3,"constructorName",constructorName)
results_completed.head()

Unnamed: 0,resultId,raceId,driverName,constructorName,grid,positionText,points
0,1,18,Lewis Hamilton,McLaren,1,1,10.0
1,2,18,Nick Heidfeld,BMW Sauber,5,2,8.0
2,3,18,Nico Rosberg,Williams,7,3,6.0
3,4,18,Fernando Alonso,Renault,11,4,5.0
4,5,18,Heikki Kovalainen,McLaren,3,5,4.0


Ahora agregaremos el nombre del circuito en el df de races_filtered, mismo proceso que lo que acabamos de hacer.

In [66]:
races_completed = pd.merge(races_filtered, circuits_filtered, on="circuitId", how="inner")
races_completed.head()


Unnamed: 0,raceId,year,circuitId,name_x,date,name_y
0,1,2009,1,Australian Grand Prix,2009-03-29,Albert Park Grand Prix Circuit
1,2,2009,2,Malaysian Grand Prix,2009-04-05,Sepang International Circuit
2,3,2009,17,Chinese Grand Prix,2009-04-19,Shanghai International Circuit
3,4,2009,3,Bahrain Grand Prix,2009-04-26,Bahrain International Circuit
4,5,2009,4,Spanish Grand Prix,2009-05-10,Circuit de Barcelona-Catalunya


In [67]:
races_completed = races_completed.drop(columns=["circuitId"])
circuitName = races_completed.pop("name_y")
races_completed.insert(1, "circuitName", circuitName)
races_completed = races_completed.rename(columns={"name_x":"grandPrixName"})
races_completed.head()

Unnamed: 0,raceId,circuitName,year,grandPrixName,date
0,1,Albert Park Grand Prix Circuit,2009,Australian Grand Prix,2009-03-29
1,2,Sepang International Circuit,2009,Malaysian Grand Prix,2009-04-05
2,3,Shanghai International Circuit,2009,Chinese Grand Prix,2009-04-19
3,4,Bahrain International Circuit,2009,Bahrain Grand Prix,2009-04-26
4,5,Circuit de Barcelona-Catalunya,2009,Spanish Grand Prix,2009-05-10


Ahora haremos el ultimo merged entre los dos ultimos dataframes que creamos.

In [68]:
df = pd.merge(results_completed, races_completed, on= "raceId", how= "inner")

In [69]:
df.head()

Unnamed: 0,resultId,raceId,driverName,constructorName,grid,positionText,points,circuitName,year,grandPrixName,date
0,1,18,Lewis Hamilton,McLaren,1,1,10.0,Albert Park Grand Prix Circuit,2008,Australian Grand Prix,2008-03-16
1,2,18,Nick Heidfeld,BMW Sauber,5,2,8.0,Albert Park Grand Prix Circuit,2008,Australian Grand Prix,2008-03-16
2,3,18,Nico Rosberg,Williams,7,3,6.0,Albert Park Grand Prix Circuit,2008,Australian Grand Prix,2008-03-16
3,4,18,Fernando Alonso,Renault,11,4,5.0,Albert Park Grand Prix Circuit,2008,Australian Grand Prix,2008-03-16
4,5,18,Heikki Kovalainen,McLaren,3,5,4.0,Albert Park Grand Prix Circuit,2008,Australian Grand Prix,2008-03-16


Finalmente llegamos al df que tiene lo necesario para comenzar a responder las preguntas planteadas.

In [70]:
df.columns

Index(['resultId', 'raceId', 'driverName', 'constructorName', 'grid',
       'positionText', 'points', 'circuitName', 'year', 'grandPrixName',
       'date'],
      dtype='object')

In [71]:
df.to_csv('f1_completed.csv', index=False)