<a href="https://colab.research.google.com/github/tosuntore/vini_pinzon_portfolio/blob/main/F1_RBR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# O que faz uma corrida grandiosa?

Exercício de análise de dados para decifrar o "elemento secreto" que há por trás das corridas mais emocionantes de F1.

Desde 2008, os fãs podem atribuir uma nota para cada corrida. Esse score da comunidade que vamos usar como base para ver tendências em corridas com notas mais altas. 

Inspirado no workshop hands on "What makes a race great" da Oracle. 

##1. Importar dos Dados que serão utilizados no exercício

In [6]:
import pandas as pd

df_standings = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/DRIVER_STANDINGS.csv')
df_laps = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/LAP_TIMES.csv')
df_results = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/RESULTS.csv')
df_safety = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/SAFETY_CAR.csv') 
df_races = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/RACES.csv', encoding='latin1')
df_pit_stops = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/PIT_STOPS.csv')

df_racesclean = df_races[df_races['SCORE'].isnull() == False] # Tratamento de dados. Apenas corridas após 2008 têm o score comunitário atribuído

  exec(code_obj, self.user_global_ns, self.user_ns)


##2. Scores mais altos vs. mais baixos

In [3]:
df_racesclean.sort_values(by = ['SCORE'],
                         ascending = False) # Vamos ver o top 5 maiores scores

Unnamed: 0,RACEID,YEAR,ROUND,NAME,F1DATE,TIME,URL,SCORE,DNF_COUNT,DNF_DUE_TO_ACCIDENT_COUNT,WEATHER,WEATHER_WET,CIRCUITREF,YEAR_C,RACE_COUNT,NAME_YEAR,OVERTAKEN_POSITIONS_TOTAL
68,879,2012,20,Brazilian Grand Prix,25-NOV-12,16:00:00,http://en.wikipedia.org/wiki/2012_Brazilian_Gr...,9.449,6,6,"Race start: drops of rain, light rain shower g...",Y,interlagos,2012,1,2012 Brazilian Grand Prix,367
159,1020,2019,11,German Grand Prix,28-JUL-19,13:10:00,https://en.wikipedia.org/wiki/2019_German_Gran...,9.400,7,5,"Early rain, Late clouds",Y,hockenheimring,2019,1,2019 German Grand Prix,260
26,843,2011,3,Chinese Grand Prix,17-APR-11,7:00:00,http://en.wikipedia.org/wiki/2011_Chinese_Gran...,9.241,1,0,Fine and Dry[1] Air Temp 22 °C (72 °F)[1] Trac...,N,shanghai,2011,1,2011 Chinese Grand Prix,282
175,906,2014,7,Canadian Grand Prix,08-JUN-14,18:00:00,http://en.wikipedia.org/wiki/2014_Canadian_Gra...,9.190,11,4,Temperatures up to 27.6 °C (81.7 °F); wind spe...,N,villeneuve,2014,1,2014 Canadian Grand Prix,172
92,910,2014,11,Hungarian Grand Prix,27-JUL-14,12:00:00,http://en.wikipedia.org/wiki/2014_Hungarian_Gr...,9.140,6,4,"Overcast. Wet track at start, then drying. Sca...",Y,hungaroring,2014,1,2014 Hungarian Grand Prix,247
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128,995,2018,7,Canadian Grand Prix,10-JUN-18,18:10:00,https://en.wikipedia.org/wiki/2018_Canadian_Gr...,4.240,3,2,Temperatures reaching up to 22.7 °C (72.9 °F);...,N,villeneuve,2018,1,2018 Canadian Grand Prix,79
163,29,2008,12,European Grand Prix,24-AUG-08,12:00:00,http://en.wikipedia.org/wiki/2008_European_Gra...,3.977,3,2,Sunny,N,valencia,2008,1,2008 European Grand Prix,90
938,988,2017,20,Abu Dhabi Grand Prix,26-NOV-17,13:00:00,https://en.wikipedia.org/wiki/2017_Abu_Dhabi_G...,3.740,2,0,Clear,N,yas_marina,2017,1,2017 Abu Dhabi Grand Prix,79
5,347,2010,11,German Grand Prix,25-JUL-10,12:00:00,http://en.wikipedia.org/wiki/2010_German_Grand...,3.740,5,2,"Mainly cloudy, dry[4]",N,hockenheimring,2010,1,2010 German Grand Prix,99


##2. Ultrapassagens:

Vamos ver a diferença nas trocas de posições entre a corrida com maior score (Brazil 2012) e menor (Yas Marina 2020)

In [None]:
import plotly.express as px

df_laps_brazil2012 = df_laps[df_laps.RACE_NAME == '2012 Brazilian Grand Prix'] # separar apenas os dados da corrida Brasil 2012
df_laps_brazil2012S = df_laps_brazil2012.sort_values(by="LAP") # valores do eixo X ordenados

fig = px.line(df_laps_brazil2012S, x="LAP", y="POSITION", color='DRIVERREF')
fig.show()

In [None]:
df_laps_abu2020 = pd.read_csv('https://raw.githubusercontent.com/tosuntore/dataframes/main/F1%20RBR%20-%20P%C3%A1gina3.csv')
df_laps_abu2020S = df_laps_abu2020.sort_values(by="LAP") 

fig2 = px.line(df_laps_abu2020S, x="LAP", y="POSITION", color='DRIVERREF')
fig2.show()

Percebe-se que há uma diferença notável na quantidade de ultrapassagens. Vamos ver aogra a relação e quantidade de ultrapassagens:

In [None]:
px.scatter(df_races, x="OVERTAKEN_POSITIONS_TOTAL", y='SCORE', range_color='SCORE')

## 3. Clima influencia?

Vamos ver a relação entre corridas com chuva (WEATHER_WET = Y) e corridas secas (WEATHER_WET = N)

In [None]:
fig3 = px.box(df_races, x="WEATHER_WET", y="SCORE")

fig3.show()

## 4. Conclusão

Podemos perceber que há uma tendência entre as corridas de maior score mas nem sempre ela se concretiza. Por exemplo, na maioria das corridas com score alto houveram muitas ultrapassagens, mas muitas corridas também de score alto tiveram menos.

Sobre a chuva, as corridas onde há chuva tem um score médio mais alto, mas há corridas secas com score muito alto também.

A corrida com maior score, [Interlagos 2012](https://www.youtube.com/watch?v=J_YNfaxDSE8), teve um roteiro de cinema. Decisão de título nas últimas voltas, chuva, muitas ultrapassagens. Talvez por isso ela tenha o score mais alto. 