<a href="https://colab.research.google.com/github/MarinaCRezende/PUCRJ-AD-MVP/blob/main/MVP_MarinaRezende_AD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üèéÔ∏è An√°lise Hist√≥rica da F√≥rmula 1 (1950‚Äì2024)

Nome: Marina Rezende\
Sprint: An√°lise de Dados e Boas Pr√°ticas\
Curso: Ci√™ncia de Dados e Analytics

Este trabalho apresenta uma an√°lise explorat√≥ria e de pr√©-processamento dos dados da F√≥rmula 1 desde sua cria√ß√£o, com foco em pilotos, construtores e eventos marcantes ao longo das d√©cadas.

## Descri√ß√£o do Problema

Este √© um problema de **an√°lise explorat√≥ria de dados**. O objetivo do trabalho √© investigar os padr√µes hist√≥ricos de desempenho de pilotos e equipes na F√≥rmula 1 entre 1950 e 2024.  

Atrav√©s da an√°lise de dados hist√≥ricos, buscou-se responder perguntas como:
- Quais pilotos dominaram cada d√©cada?
- Qual a evolu√ß√£o da participa√ß√£o das equipes e pilotos ao longo dos anos?
- Quais pilotos acumularam mais voltas mais r√°pidas?
- H√° alguma rela√ß√£o vis√≠vel entre eventos hist√≥ricos (como mudan√ßas de regulamento) e altera√ß√µes nos padr√µes de performance?

Essa an√°lise poder√° gerar insights relevantes sobre a evolu√ß√£o do esporte ao longo das d√©cadas.


## Dicion√°rio de Dados

Fonte de dados: **Formula 1 World Championship (1950 - 2024)** \
Acesso em <https://www.kaggle.com/datasets/rohanrao/formula-1-world-championship-1950-2020/data>

\
### Datasets principais

| Dataset                     | Uso principal                                  |
| --------------------------- | ---------------------------------------------- |
| `drivers.csv`               | Informa√ß√µes dos pilotos                        |
| `constructors.csv`          | Informa√ß√µes das equipes                        |
| `races.csv`                 | Datas e locais das corridas                    |
| `results.csv`               | Resultados das corridas (posi√ß√£o, pontos etc.) |
| `driver_standings.csv`      | Pontua√ß√£o acumulada dos pilotos                |
| `constructor_standings.csv` | Pontua√ß√£o acumulada dos construtores           |
| `qualifying.csv`            | Tempo das voltas na qualifica√ß√£o               |
| `lap_times.csv`             | Dura√ß√£o das voltas nas corridas                |

\\
### Principais atributos


| Dataset                     | Atributos principais utilizados                                                            |
| --------------------------- | ------------------------------------------------------------------------------------------ |
| `drivers.csv`               | `driverId`, `dob`, `surname`, `nationality`                                                |
| `constructors.csv`          | `constructorId`, `name`                                                                    |
| `races.csv`                 | `raceId`, `year`, `circuitId`, `name`, `date`                                              |
| `results.csv`               | `raceId`, `driverId`, `constructorId`, `positionOrder`, `fastestLap`                       |
| `driver_standings.csv`      | `raceId`, `driverId`, `points`, `position`                                                 |
| `constructor_standings.csv` | `raceId`, `constructorId`, `points`, `position`                                            |
| `qualifying.csv`            | `raceId`, `driverId`, `q1`, `q2`, `q3` (convertidos em segundos com `convert_time_to_sec`) |
| `lap_times.csv`             | `raceId`, `driverId`, `lap`, `milliseconds` (convertidos em `lap_sec`)                     |
| `circuits.csv`              | `circuitId`, `name`, `location`, `country`                                                 |



## Importar bibliotecas

In [1]:
!pip install plotly



In [2]:
# Bibliotecas principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="whitegrid")

import plotly.graph_objects as go
import plotly.express as px
from ipywidgets import interact, widgets


# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

import warnings
warnings.filterwarnings('ignore')


## Carregamento dos Dados

Carregamento dos principais arquivos da base:

In [3]:
# URLs dos arquivos CSV no GitHub
url_base = "https://raw.githubusercontent.com/MarinaCRezende/PUCRJ-AD-MVP/Datasets/"

drivers_url = url_base + "drivers.csv"
constructors_url = url_base + "constructors.csv"
races_url = url_base + "races.csv"
results_url = url_base + "results.csv"
driver_standings_url = url_base + "driver_standings.csv"
constructor_standings_url = url_base + "constructor_standings.csv"
status_url = url_base + "status.csv"
circuits_url = url_base + "circuits.csv"
lap_times_url = url_base + "lap_times.csv"
qualifying_url = url_base + "qualifying.csv"

# Fun√ß√£o para carregar arquivos CSV com verifica√ß√µes adicionais
def load_csv(url):
    try:
        return pd.read_csv(url, delimiter=',', encoding='utf-8')
    except pd.errors.ParserError:
        print(f"Erro ao carregar o arquivo: {url}")
        return None

# Carregar os arquivos CSV diretamente do GitHub
drivers = load_csv(drivers_url)
constructors = load_csv(constructors_url)
races = load_csv(races_url)
results = load_csv(results_url)
driver_standings = load_csv(driver_standings_url)
constructor_standings = load_csv(constructor_standings_url)
status = load_csv(status_url)
circuits = load_csv(circuits_url)
lap_times = load_csv(lap_times_url)
qualifying = load_csv(qualifying_url)

# Verificar se os dados foram carregados corretamente
print(drivers.head())
print(constructors.head())
print(races.head())
print(results.head())
print(driver_standings.head())
print(constructor_standings.head())
print(status.head())
print(circuits.head())
print(lap_times.head())
print(qualifying.head())

   driverId   driverRef number code  forename     surname         dob  \
0         1    hamilton     44  HAM     Lewis    Hamilton  1985-01-07   
1         2    heidfeld     \N  HEI      Nick    Heidfeld  1977-05-10   
2         3     rosberg      6  ROS      Nico     Rosberg  1985-06-27   
3         4      alonso     14  ALO  Fernando      Alonso  1981-07-29   
4         5  kovalainen     \N  KOV    Heikki  Kovalainen  1981-10-19   

  nationality                                             url  
0     British     http://en.wikipedia.org/wiki/Lewis_Hamilton  
1      German      http://en.wikipedia.org/wiki/Nick_Heidfeld  
2      German       http://en.wikipedia.org/wiki/Nico_Rosberg  
3     Spanish    http://en.wikipedia.org/wiki/Fernando_Alonso  
4     Finnish  http://en.wikipedia.org/wiki/Heikki_Kovalainen  
   constructorId constructorRef        name nationality  \
0              1        mclaren     McLaren     British   
1              2     bmw_sauber  BMW Sauber      German   


## An√°lise Explorat√≥ria

In [4]:
# Informa√ß√µes iniciais dos principais dataframes
print(drivers.info())
print(constructors.info())
print(results.info())
print(races.info())
print(driver_standings.info())
print(constructor_standings.info())
print(status.info())
print(circuits.info())
print(lap_times.info())
print(qualifying.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 861 entries, 0 to 860
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   driverId     861 non-null    int64 
 1   driverRef    861 non-null    object
 2   number       861 non-null    object
 3   code         861 non-null    object
 4   forename     861 non-null    object
 5   surname      861 non-null    object
 6   dob          861 non-null    object
 7   nationality  861 non-null    object
 8   url          861 non-null    object
dtypes: int64(1), object(8)
memory usage: 60.7+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   constructorId   212 non-null    int64 
 1   constructorRef  212 non-null    object
 2   name            212 non-null    object
 3   nationality     212 non-null    object
 4   url             

In [5]:
# Exibir estat√≠sticas descritivas de todas as planilhas
display(drivers.describe())
display(constructors.describe())
display(results.describe())
display(races.describe())
display(driver_standings.describe())
display(constructor_standings.describe())
display(status.describe())
display(circuits.describe())
display(lap_times.describe())
display(qualifying.describe())

Unnamed: 0,driverId
count,861.0
mean,431.061556
std,248.793797
min,1.0
25%,216.0
50%,431.0
75%,646.0
max,862.0


Unnamed: 0,constructorId
count,212.0
mean,107.54717
std,61.952685
min,1.0
25%,54.75
50%,107.5
75%,160.25
max,215.0


Unnamed: 0,resultId,raceId,driverId,constructorId,grid,positionOrder,points,laps,statusId
count,26759.0,26759.0,26759.0,26759.0,26759.0,26759.0,26759.0,26759.0,26759.0
mean,13380.977391,551.687283,278.67353,50.180537,11.134796,12.794051,1.987632,46.301768,17.224971
std,7726.134642,313.265036,282.703039,61.551498,7.20286,7.665951,4.351209,29.496557,26.026104
min,1.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0
25%,6690.5,300.0,57.0,6.0,5.0,6.0,0.0,23.0,1.0
50%,13380.0,531.0,172.0,25.0,11.0,12.0,0.0,53.0,10.0
75%,20069.5,811.0,399.5,63.0,17.0,18.0,2.0,66.0,14.0
max,26764.0,1144.0,862.0,215.0,34.0,39.0,50.0,200.0,141.0


Unnamed: 0,raceId,year,round,circuitId
count,1125.0,1125.0,1125.0,1125.0
mean,565.710222,1992.703111,8.579556,23.889778
std,328.813817,20.603848,5.15991,19.633527
min,1.0,1950.0,1.0,1.0
25%,282.0,1977.0,4.0,9.0
50%,563.0,1994.0,8.0,18.0
75%,845.0,2011.0,13.0,34.0
max,1144.0,2024.0,24.0,80.0


Unnamed: 0,driverStandingsId,raceId,driverId,points,position,wins
count,34863.0,34863.0,34863.0,34863.0,34863.0,34863.0
mean,43176.154232,584.413562,316.932909,14.704423,19.71672,0.277343
std,21934.276898,292.27582,274.66566,38.978094,16.293401,1.032618
min,1.0,1.0,1.0,0.0,1.0,0.0
25%,19834.5,354.0,88.0,0.0,8.0,0.0
50%,50044.0,603.0,223.0,1.0,16.0,0.0
75%,62054.5,805.0,521.0,10.0,26.0,0.0
max,73270.0,1144.0,862.0,575.0,108.0,19.0


Unnamed: 0,constructorStandingsId,raceId,constructorId,points,position,wins
count,13391.0,13391.0,13391.0,13391.0,13391.0,13391.0
mean,16982.110821,535.399821,49.60339,37.178515,7.226047,0.697409
std,8868.446172,307.705928,61.213953,84.346048,4.355923,1.879569
min,1.0,1.0,1.0,0.0,1.0,0.0
25%,8883.5,302.0,6.0,0.0,4.0,0.0
50%,20634.0,508.0,25.0,7.0,7.0,0.0
75%,25047.5,740.0,58.0,33.0,10.0,0.0
max,28982.0,1144.0,215.0,860.0,22.0,21.0


Unnamed: 0,statusId
count,139.0
mean,71.23741
std,41.092434
min,1.0
25%,35.5
50%,72.0
75%,106.5
max,141.0


Unnamed: 0,circuitId,lat,lng,alt
count,77.0,77.0,77.0,77.0
mean,39.883117,33.442925,1.076683,247.012987
std,23.001701,22.808866,65.516951,362.738469
min,1.0,-37.8497,-118.189,-7.0
25%,20.0,32.7774,-9.39417,18.0
50%,40.0,40.9517,3.93083,129.0
75%,59.0,46.9589,19.2486,332.0
max,80.0,57.2653,144.968,2227.0


Unnamed: 0,raceId,driverId,lap,position,milliseconds
count,589081.0,589081.0,589081.0,589081.0,589081.0
mean,600.544465,325.796446,30.018104,9.661951,95799.45
std,434.375976,387.561736,18.407126,5.528553,76399.73
min,1.0,1.0,1.0,1.0,55404.0
25%,140.0,16.0,14.0,5.0,82041.0
50%,861.0,48.0,29.0,9.0,90608.0
75%,1003.0,822.0,44.0,14.0,101930.0
max,1144.0,862.0,87.0,24.0,7507547.0


Unnamed: 0,qualifyId,raceId,driverId,constructorId,number,position
count,10494.0,10494.0,10494.0,10494.0,10494.0,10494.0
mean,5262.482847,624.600915,343.002287,47.91843,18.786449,11.195826
std,3046.588486,428.298147,389.586448,73.217993,18.447502,6.260374
min,1.0,1.0,1.0,1.0,0.0,1.0
25%,2625.25,160.0,17.0,4.0,7.0,6.0
50%,5249.5,870.0,60.0,9.0,14.0,11.0
75%,7893.75,1006.0,822.0,31.0,22.0,16.0
max,10551.0,1144.0,862.0,215.0,99.0,28.0


In [6]:
# Paleta baseada na F√≥rmula 1 (cores comuns de equipes e F1 oficial)
f1_colors = ['#e10600',  # Vermelho Ferrari / F1 logo
             '#1e41ff',  # Azul Red Bull / Alpine
             '#00d2be',  # Verde √°gua Mercedes
             '#f5f5f5',  # Branco Haas / McLaren 80s
             '#ff8700',  # Laranja McLaren
             '#003399',  # Azul da FIA
             '#2b2b2b']  # Preto Pirelli/F1/Fundo padr√£o


### Entendendo as equipes - hist√≥rico de posi√ß√µes

In [7]:
# Unir resultados com nomes das equipes
res_equipe = results.merge(constructors, on='constructorId')

# Contar n√∫mero de corridas por equipe
corridas_por_equipe = res_equipe['name'].value_counts()
equipes_100_mais = corridas_por_equipe[corridas_por_equipe > 100].index

# Filtrar apenas equipes com mais de 100 corridas
res_filtrado = res_equipe[res_equipe['name'].isin(equipes_100_mais)]

# Plotar boxplot
fig = px.box(
    res_filtrado,
    x='name',
    y='positionOrder',
    title='üèÜ Distribui√ß√£o de posi√ß√µes - Equipes com mais de 100 GPs',
    color_discrete_sequence=['#003399']
)

fig.update_traces(marker_color='#003399')  # Azul da FIA

fig.update_layout(
    xaxis_title='Equipe',
    yaxis_title='Posi√ß√£o na corrida',
    xaxis_tickangle=-45,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    title_font=dict(size=18, color="#003399"),
    yaxis=dict(
        autorange='reversed',  # Inverte eixo y (posi√ß√£o 1 no topo)
        showgrid=True,
        gridcolor='#f0f0f0'
    ),
    xaxis=dict(showgrid=False)
)

# Adicionar imagem do carro no fundo
fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper",
        yref="paper",
        x=1.00,
        y=1.3,
        sizex=0.2,
        sizey=0.2,
        xanchor="right",
        yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

Este gr√°fico mostra a distribui√ß√£o hist√≥rica das posi√ß√µes de chegada nas corridas das equipes que ainda est√£o ativas na F√≥rmula 1. \
Os principais pontos observados:

- Ferrari, McLaren e Mercedes apresentam as distribui√ß√µes mais concentradas nas primeiras posi√ß√µes (medianas baixas), o que reflete hist√≥rico consistente de bom desempenho.

- Red Bull tamb√©m apresenta performance s√≥lida, com quartis inferiores baixos e menor dispers√£o ‚Äî reflexo de sua domin√¢ncia nos √∫ltimos anos.

- Equipes como Williams e Sauber/Alfa Romeo apresentam grande variabilidade nas posi√ß√µes, indicando hist√≥rico com bons e maus momentos.

- Equipes como Haas, AlphaTauri, RB F1 Team e Alpine mostram posi√ß√µes medianas mais altas (pr√≥ximas de P10‚ÄìP15), refletindo desempenhos m√©dios ou irregulares ao longo do tempo.

üü™ Interpreta√ß√£o geral: H√° uma clara distin√ß√£o entre as equipes de elite (Mercedes, Ferrari, Red Bull) e as equipes m√©dias/novas. Algumas equipes como Williams tiveram auge no passado mas desempenho decrescente nos √∫ltimos anos.

In [8]:
# Pegar IDs de construtores que participaram nos anos mais recentes
races_recentes = races[races['year'] >= 2023]
results_recentes = results[results['raceId'].isin(races_recentes['raceId'])]
ids_atuais = results_recentes['constructorId'].unique()

# Pegar nomes dessas equipes
equipes_atuais = constructors[constructors['constructorId'].isin(ids_atuais)]

# Unir resultados completos com nomes
res_equipe_completo = results.merge(constructors, on='constructorId')

# Filtrar apenas equipes atuais
res_equipes_atuais = res_equipe_completo[res_equipe_completo['constructorId'].isin(ids_atuais)]

# Plotar
fig2 = px.box(
    res_equipes_atuais,
    x='name',
    y='positionOrder',
    title='üèÜ Distribui√ß√£o de posi√ß√µes - Equipes atuais (todos os anos)',
    color_discrete_sequence=['#003399']  # Azul da FIA
)

fig2.update_traces(marker_color='#003399')  # Cor do boxplot

# Atualizar layout
fig2.update_layout(
    xaxis_title='Equipe',
    yaxis_title='Posi√ß√£o na corrida',
    xaxis_tickangle=-45,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    title_font=dict(size=18, color="#003399"),
    yaxis=dict(
        autorange='reversed',  # Menores posi√ß√µes s√£o melhores
        showgrid=True,
        gridcolor='#f0f0f0'
    ),
    xaxis=dict(showgrid=False)
)

# Adicionar imagem do carro
fig2.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.05, y=1.2,
        sizex=0.3, sizey=0.3,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig2.show()

**Entendendo a distribui√ß√£o de posi√ß√µes entre as equipes com mais de 100 GPs** \
Este gr√°fico explora a distribui√ß√£o de posi√ß√µes de todas as equipes com mais de 100 GPs disputados, oferecendo uma vis√£o hist√≥rica mais ampla da performance geral.

- McLaren, Ferrari, Williams, Mercedes e Red Bull continuam se destacando com medianas baixas e distribui√ß√£o mais concentrada entre as primeiras posi√ß√µes.

- Equipes como Arrows, Minardi, March, Osella e Zakspeed apresentam posi√ß√µes medianas altas (P15‚ÄìP25) e grande dispers√£o, indicando baixa competitividade ao longo da hist√≥ria.

- Algumas equipes como Jordan, BAR e Jaguar aparecem como equipes intermedi√°rias hist√≥ricas, com desempenho mediano ao longo do tempo.

üü™ Interpreta√ß√£o geral: Muitas equipes acumularam participa√ß√µes ao longo das d√©cadas sem atingir performance de ponta. Apenas um grupo restrito manteve desempenho competitivo de forma consistente. A dispers√£o tamb√©m reflete mudan√ßas de regulamento, entradas/sa√≠das de fabricantes e ciclos de investimento.

### N√∫mero de corridas, equipes e pilotos com o passar dos anos

In [9]:
# Juntar races com results para obter o ano e o ID dos pilotos
pilotos_ano = results.merge(races[['raceId', 'year']], on='raceId')
pilotos_por_ano = pilotos_ano.groupby('year')['driverId'].nunique()

In [10]:
# Quantidade de corridas por ano
corridas_por_ano = races['year'].value_counts().sort_index()

# Criar gr√°fico com Plotly
fig = go.Figure()

fig.add_trace(go.Bar(
    x=corridas_por_ano.index.astype(str),
    y=corridas_por_ano.values,
    marker_color='#003399',  # Azul oficial da FIA
    name='Corridas por ano'
))

fig.update_layout(
    title='üèÅ N√∫mero de corridas por ano',
    xaxis_title='Ano',
    yaxis_title='Corridas',
    width=1400,
    height=400,
    plot_bgcolor='white',
    paper_bgcolor='white',
    xaxis=dict(showgrid=False, tickvals=[str(ano) for ano in pilotos_por_ano.index if ano % 5 == 0 or ano == 2024]  # Apenas m√∫ltiplos de 5 + 2024
               ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    )
)

# Adicionar imagem do carro
fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.00, y=1.35,
        sizex=0.25, sizey=0.25,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()


Houve um aumento no n√∫mero de corridas de F√≥rmula 1 desde 1950 e isso est√° relacionado a v√°rios fatores hist√≥ricos, econ√¥micos e esportivos:

- **Crescimento e popularidade da F√≥rmula 1:**\
Desde o in√≠cio do Campeonato Mundial em 1950, a F1 se tornou cada vez mais popular globalmente, atraindo mais f√£s e interesse comercial. Isso estimulou a inclus√£o de mais corridas no calend√°rio para atender a essa demanda.

- **Expans√£o geogr√°fica:**\
Inicialmente, as corridas eram concentradas principalmente na Europa. Com o tempo, a F1 expandiu para outros continentes ‚Äî Am√©rica do Norte, √Åsia, Oriente M√©dio, Austr√°lia, etc. ‚Äî o que levou ao aumento no n√∫mero de Grandes Pr√™mios anuais.

- **Aspectos comerciais e financeiros:**\
Mais corridas significam maiores receitas para a FIA, equipes, patrocinadores e promotores locais. Pa√≠ses e cidades passaram a investir para receber etapas do campeonato, visando turismo e marketing.

- **Infraestrutura e profissionaliza√ß√£o:**\
Com avan√ßos tecnol√≥gicos, maior seguran√ßa e melhor infraestrutura, tornou-se poss√≠vel organizar mais eventos durante a temporada com menor risco e maior efici√™ncia.

- **Calend√°rio esportivo:**\
Ao longo das d√©cadas, a F1 passou de calend√°rios curtos (7-9 corridas em m√©dia nas primeiras d√©cadas) para calend√°rios atuais com 20, 22 ou at√© 24 corridas, buscando manter a competi√ß√£o din√¢mica e globalizada.

In [11]:
# Juntar races com results para obter o ano e o ID das equipes
equipes_ano = results.merge(races[['raceId', 'year']], on='raceId')

# Contar quantas equipes √∫nicas participaram por ano
equipes_por_ano = equipes_ano.groupby('year')['constructorId'].nunique()

# Criar gr√°fico com Plotly
fig = go.Figure()

fig.add_trace(go.Bar(
    x=equipes_por_ano.index.astype(str),
    y=equipes_por_ano.values,
    marker_color='#003399',  # Azul da FIA
    name='Equipes por ano'
))

fig.update_layout(
    title='N√∫mero de equipes por ano',
    xaxis_title='Ano',
    yaxis_title='Equipes',
    width=1400,
    height=400,
    plot_bgcolor='white',   # Fundo branco
    paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickvals=[str(ano) for ano in pilotos_por_ano.index if ano % 5 == 0 or ano == 2024]  # Apenas m√∫ltiplos de 5 + 2024
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'  # Cor clara para o grid horizontal
    )
)

# Adicionar imagem do carro
fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.00, y=1.35,
        sizex=0.25, sizey=0.25,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()



In [12]:
# Criar gr√°fico com Plotly
fig = go.Figure()

fig.add_trace(go.Bar(
    x=pilotos_por_ano.index.astype(str),
    y=pilotos_por_ano.values,
    marker_color='#00d2be',  # Verde √°gua Mercedes
    name='Pilotos por ano'
))

fig.update_layout(
    title='N√∫mero de pilotos por ano',
    xaxis_title='Ano',
    yaxis_title='Pilotos',
    width=1400,
    height=400,
    plot_bgcolor='white',
    paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickvals=[str(ano) for ano in pilotos_por_ano.index if ano % 5 == 0 or ano == 2024]  # Apenas m√∫ltiplos de 5 + 2024
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    )
)

# Adicionar imagem (maior e com transpar√™ncia)
fig.add_layout_image(
    dict(
        source="https://static.vecteezy.com/system/resources/previews/036/562/778/large_2x/racing-helmet-icon-vector.jpg",
        xref="paper", yref="paper",
        x=1.00, y=1.35,
        sizex=0.2, sizey=0.2,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

**Por qu√™ o n√∫mero de equipes e pilotos participantes diminuiu na F1?**\

üèÅ 1950‚Äì1970: Era ‚Äúaberta‚Äù e acess√≠vel\
- Nos anos iniciais da F1 (d√©cadas de 1950 e 60), era comum equipes privadas (‚Äúgaragistas‚Äù) entrarem nas corridas com carros de outras fabricantes.

- O regulamento era mais simples, e o custo para competir era muito menor.

- Alguns anos chegaram a ter 20 ou mais equipes inscritas, mas muitas corriam apenas em 1 ou 2 GPs por temporada.

- Al√©m disso, havia "entries" individuais, sem construtores dedicados.


üí∏ 1980‚Äì2000: Profissionaliza√ß√£o e aumento dos custos
- A partir dos anos 80 e 90, os carros come√ßaram a exigir desenvolvimento t√©cnico mais avan√ßado, com investimentos em t√∫nel de vento, aerodin√¢mica, eletr√¥nica e engenharia.

- Com isso, muitas pequenas equipes n√£o conseguiam sustentar os custos crescentes.

- Exemplos de equipes que faliram ou sa√≠ram da F1: Minardi, Jordan, Arrows, Prost, Ligier, Lotus (original), entre outras.

- A F1 se tornou um esporte de alto custo e alta tecnologia, com forte depend√™ncia de patrocinadores.



üîê 2000‚Äì2024: Fechamento do grid e restri√ß√µes regulat√≥rias
- A FIA passou a limitar o n√∫mero de equipes no grid, por motivos de seguran√ßa e organiza√ß√£o (geralmente 10 a 12 equipes).

- Cada equipe agora precisa construir seu pr√≥prio chassi ‚Äî n√£o √© mais poss√≠vel comprar um carro de outro time.

- A entrada na F1 exige aprova√ß√£o da FIA, pagamento de taxas milion√°rias e comprova√ß√£o de estrutura t√©cnica e financeira.

- Exemplo: a Andretti, equipe americana, teve a entrada recusada em 2024, mesmo com estrutura forte, por quest√µes comerciais e pol√≠ticas.



**Resumo**


| Per√≠odo   | N¬∫ m√©dio de equipes      | Motivos da varia√ß√£o                         |
| --------- | ------------------------ | ------------------------------------------- |
| 1950‚Äì1960 | 15‚Äì25 (muitas n√£o fixas) | Acesso f√°cil, baixo custo                   |
| 1970‚Äì1980 | \~15                     | Primeira fase de profissionaliza√ß√£o         |
| 1990‚Äì2000 | 10‚Äì14                    | Alta tecnologia, custo alto                 |
| 2010‚Äì2024 | 10 (est√°vel)             | Grid fechado, exig√™ncia t√©cnica e comercial |


### Trajet√≥ria dos pilotos, equipes e circuitos em n√∫mero de corridas

In [13]:
# Juntar dados
df = results.merge(races[['raceId', 'year']], on='raceId')
df = df.merge(drivers[['driverId', 'surname']], on='driverId')
df = df.merge(constructors[['constructorId', 'name']], on='constructorId')

# Contar corridas por piloto e ano
corrida_counts = df.groupby(['year', 'driverId', 'surname']).size().reset_index(name='races')
corrida_counts['cumulative_races'] = corrida_counts.groupby('driverId')['races'].cumsum()

# Top 15 por total de corridas
top_15 = corrida_counts.groupby('driverId')['races'].sum().sort_values(ascending=False).head(15).index
corrida_counts = corrida_counts[corrida_counts['driverId'].isin(top_15)]

# Piloto principal na equipe
principal_team = df.groupby(['driverId', 'name']).size().reset_index(name='count')
principal_team = principal_team.sort_values(['driverId', 'count'], ascending=[True, False]).drop_duplicates('driverId')
principal_team = principal_team.set_index('driverId')['name'].to_dict()

# Cores por equipe
team_colors = {
    'Ferrari': '#e10600', 'McLaren': '#ff8700', 'Red Bull': '#1e41ff',
    'Mercedes': '#00d2be', 'Williams': '#005aff', 'Renault': '#f7df1e',
    'Alpine F1 Team': '#0090ff', 'Benetton': '#00b2a9', 'Brawn': '#fff600',
    'AlphaTauri': '#2b4562', 'Aston Martin': '#006f62', 'Jordan': '#ffef00',
    'Lotus': '#00ff00', 'Sauber': '#ff87ab', 'Tyrrell': '#cccccc'
}

# Gr√°fico
fig = go.Figure()

for driver_id in corrida_counts['driverId'].unique():
    df_pilot = corrida_counts[corrida_counts['driverId'] == driver_id]
    name = df_pilot['surname'].iloc[0]
    team = principal_team.get(driver_id, 'Outros')
    color = team_colors.get(team, 'gray')

    fig.add_trace(go.Scatter(
        x=df_pilot['year'], y=df_pilot['cumulative_races'],
        mode='lines+markers', name=name,
        line=dict(color=color)
    ))

fig.update_layout(
    title='Corridas Acumuladas por Piloto (Top 15)',
    xaxis_title='Ano', yaxis_title='Corridas Acumuladas',
    width=1400, height=500,
    plot_bgcolor='white', paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(1950, 2025, 5)) + [2024]
    ),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0'),
    font=dict(family='Arial', size=12)
)


fig.add_layout_image(
    dict(
        source="https://static.vecteezy.com/system/resources/previews/036/562/778/large_2x/racing-helmet-icon-vector.jpg",
        xref="paper", yref="paper",
        x=1.10, y=1.25,
        sizex=0.15, sizey=0.15,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

In [14]:
# Dicion√°rio de cores por equipe
cores_equipes = {
    'Ferrari': '#e10600',
    'Red Bull': '#1e41ff',
    'Mercedes': '#00d2be',
    'McLaren': '#ff8700',
    'Williams': '#00A0DE',
    'Renault': '#fff500',
    'Benetton': '#009d9d',
    'Brawn': '#ffffff',
    'Tyrell': '#002147',
    'Ligier': '#4C66FF',
    'BMW Sauber': '#003366'
}

# Juntar resultados com corridas e nomes das equipes
corridas_completo = results.merge(races[['raceId', 'year']], on='raceId')
corridas_completo = corridas_completo.merge(constructors[['constructorId', 'name']], on='constructorId')

# Contar n√∫mero de corridas por equipe por ano
corridas_ano = corridas_completo.groupby(['year', 'constructorId']).size().reset_index(name='races')

# Total de corridas por equipe
total_corridas = corridas_ano.groupby('constructorId')['races'].sum().reset_index(name='total_races')

# Top 15 equipes com mais corridas
top15_corridas = total_corridas.sort_values(by='total_races', ascending=False).head(15)['constructorId']

# Filtrar apenas essas equipes
corridas_top15 = corridas_ano[corridas_ano['constructorId'].isin(top15_corridas)]

# Adicionar nome da equipe
corridas_top15 = corridas_top15.merge(constructors[['constructorId', 'name']], on='constructorId')

# Corridas acumuladas ao longo do tempo
corridas_top15['cumulative_races'] = corridas_top15.groupby('constructorId')['races'].cumsum()

# Gr√°fico
fig = go.Figure()

for equipe in corridas_top15['name'].unique():
    equipe_data = corridas_top15[corridas_top15['name'] == equipe]
    cor = cores_equipes.get(equipe, '#888888')  # cinza padr√£o se n√£o tiver cor definida

    fig.add_trace(go.Scatter(
        x=equipe_data['year'],
        y=equipe_data['cumulative_races'],
        mode='lines+markers',
        name=equipe,
        line=dict(color=cor)
    ))

fig.update_layout(
    title='Corridas Acumuladas ao Longo do Tempo - Top 15 Equipes',
    xaxis_title='Ano',
    yaxis_title='Corridas Acumuladas',
    width=1400,
    height=550,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0')
)

# Imagem de carro no fundo
fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.10, y=1.25,
        sizex=0.2, sizey=0.2,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

In [15]:
# Juntar 'races' com 'circuits' para ter nome dos circuitos
races_circuitos = races.merge(circuits[['circuitId', 'name']], on='circuitId')

In [16]:
# No groupby e filtros, usar 'name_y' em vez de 'name'
corridas_por_circuito_ano = races_circuitos.groupby(['name_y', 'year']).size().reset_index(name='races_count')

# Ordenar e calcula acumulado
corridas_por_circuito_ano = corridas_por_circuito_ano.sort_values(['name_y', 'year'])
corridas_por_circuito_ano['cumulative_races'] = corridas_por_circuito_ano.groupby('name_y')['races_count'].cumsum()

# Filtrar top 15 circuitos com mais corridas
top_circuitos = corridas_por_circuito_ano.groupby('name_y')['races_count'].sum().sort_values(ascending=False).head(15).index
dados_filtrados = corridas_por_circuito_ano[corridas_por_circuito_ano['name_y'].isin(top_circuitos)]

# Plotar
import plotly.graph_objects as go

fig = go.Figure()

for circuito, df_circuito in dados_filtrados.groupby('name_y'):
    fig.add_trace(go.Scatter(
        x=df_circuito['year'],
        y=df_circuito['cumulative_races'],
        mode='lines+markers',
        name=circuito
    ))

fig.update_layout(
    title='Corridas Acumuladas por Circuito ao Longo dos Anos (Top 15)',
    xaxis_title='Ano',
    yaxis_title='Corridas Acumuladas',
    width=1400,
    height=600,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family='Arial', size=12),
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(1950, 2025, 5)) + [2024]
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    )
)

fig.show()

### Trajet√≥ria dos pilotos e equipes em n√∫mero de vit√≥rias

In [17]:
# Top pilotos por vit√≥rias
vitorias = results[results['positionOrder'] == 1].groupby('driverId').size().sort_values(ascending=False)
melhores_pilotos = drivers.set_index('driverId').loc[vitorias.index[:10]]
melhores_pilotos['vit√≥rias'] = vitorias[:10].values

# Dados para o gr√°fico
nomes = melhores_pilotos['surname']
valores = melhores_pilotos['vit√≥rias']

fig = go.Figure()

fig.add_trace(go.Bar(
    x=nomes,
    y=valores,
    marker_color='#00d2be',  # Verde √°gua Mercedes
    name='Vit√≥rias'
))

fig.update_layout(
    title='üèÜ Top 10 Pilotos por Vit√≥rias (n√∫mero total de vit√≥rias)',
    xaxis_title='Piloto',
    yaxis_title='Vit√≥rias',
    width=1000,
    height=500,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0')
)

# Adicionar imagem do capacete no fundo
fig.add_layout_image(
    dict(
        source="https://static.vecteezy.com/system/resources/previews/036/562/778/large_2x/racing-helmet-icon-vector.jpg",
        xref="paper", yref="paper",
        x=1.0, y=1.2,
        sizex=0.1, sizey=0.1,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()


In [18]:
# Filtrar vit√≥rias (posi√ß√£o 1)
vitorias = results[results['positionOrder'] == 1].groupby('driverId').size()

# Total de corridas por piloto
corridas = results.groupby('driverId').size()

# Calcular taxa de vit√≥rias
taxa_vitorias = (vitorias / corridas).sort_values(ascending=False)

# Juntar com os dados dos pilotos
top_10_taxa = taxa_vitorias[:10]
pilotos_top_taxa = drivers.set_index('driverId').loc[top_10_taxa.index]
pilotos_top_taxa['Taxa de Vit√≥rias (%)'] = (top_10_taxa.values * 100).round(2)

# Dados para o gr√°fico
nomes = pilotos_top_taxa['surname']
valores = pilotos_top_taxa['Taxa de Vit√≥rias (%)']

fig = go.Figure()

fig.add_trace(go.Bar(
    x=nomes,
    y=valores,
    marker_color='#00d2be',  # Verde √°gua Mercedes
    name='Taxa de Vit√≥rias (%)'
))

fig.update_layout(
    title='üèÜ Top 10 Pilotos com Maior Taxa de Vit√≥rias (%)',
    xaxis_title='Piloto',
    yaxis_title='Taxa de Vit√≥rias (%)',
    width=1000,
    height=500,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0')
)

fig.add_layout_image(
    dict(
        source="https://static.vecteezy.com/system/resources/previews/036/562/778/large_2x/racing-helmet-icon-vector.jpg",
        xref="paper", yref="paper",
        x=1.0, y=1.2,
        sizex=0.1, sizey=0.1,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

üèÜ Top 10 Pilotos com Maior Taxa de Vit√≥rias (em rela√ß√£o ao total de GPs disputados) \

| Nome                   | √âpoca                | Principais Equipes                      | Coment√°rio                                                                                                                                                |
| ---------------------- | -------------------- | --------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Lee Wallard**        | In√≠cio dos anos 1950 | Kurtis Kraft (Indian√°polis 500)         | **Participou de apenas 2 GPs** v√°lidos pela F1, venceu 1 ‚Äî a Indy 500 de 1951. Por isso, a **alta taxa de vit√≥rias**.                                     |
| **Juan Manuel Fangio** | 1950‚Äì1958            | Alfa Romeo, Mercedes, Maserati, Ferrari | **5 t√≠tulos mundiais**. √âpoca de dom√≠nio com v√°rias equipes. Alta taxa de vit√≥rias devido ao talento e √† superioridade t√©cnica de suas equipes.           |
| **Bill Vukovich**      | Anos 1950            | Kurtis Kraft (Indy 500)                 | Como Wallard, correu apenas **em Indian√°polis**, v√°lida pela F1. Venceu 2 das 5 corridas.                                                                 |
| **Alberto Ascari**     | 1950‚Äì1955            | Ferrari, Lancia                         | **Bicampe√£o mundial (1952, 1953)**. Muito dominante com a Ferrari na era pr√©-Fangio.                                                                      |
| **Jim Clark**          | 1960‚Äì1968            | Lotus                                   | Considerado um dos **maiores pilotos de todos os tempos**. Bicampe√£o (1963, 1965), com grande efici√™ncia, mas teve carreira interrompida tragicamente.    |
| **Max Verstappen**     | 2015‚Äìpresente        | Red Bull Racing                         | Dominante desde 2021, especialmente 2022‚Äì2024. Sua taxa de vit√≥rias subiu drasticamente com o **carro dominante da Red Bull**.                            |
| **Michael Schumacher** | 1991‚Äì2012            | Benetton, Ferrari                       | **7 t√≠tulos mundiais**. Per√≠odo de grande dom√≠nio na Ferrari entre 2000‚Äì2004. Teve tamb√©m muitas corridas fora da era dominante.                          |
| **Lewis Hamilton**     | 2007‚Äìpresente        | McLaren, Mercedes                       | **7 t√≠tulos mundiais**, maior n√∫mero de vit√≥rias totais. Sua taxa √© um pouco dilu√≠da pelo in√≠cio de carreira e temporadas mais equilibradas recentemente. |
| **Jackie Stewart**     | 1965‚Äì1973            | BRM, Matra, Tyrrell                     | **Tricampe√£o mundial**. Extremamente eficiente e regular, pilotou antes da era da ultra-domin√¢ncia.                                                       |
| **Ayrton Senna**       | 1984‚Äì1994            | Toleman, Lotus, McLaren, Williams       | **Tricampe√£o**, lenda da F1. Alta taxa mesmo enfrentando forte concorr√™ncia e carros nem sempre dominantes.                                               |



Coment√°rios gerais:
- Os tr√™s primeiros (Wallard, Vukovich e Fangio) beneficiam-se de contexto hist√≥rico espec√≠fico: poucas corridas, menos pilotos e equipes menos homog√™neas.

- Pilotos como Clark, Ascari e Stewart mostram como mesmo em √©pocas menos tecnol√≥gicas, a efici√™ncia individual era marcante.

- Verstappen aparece entre os maiores em efici√™ncia moderna, reflexo do dom√≠nio atual da Red Bull.

- Hamilton e Schumacher, apesar de serem os maiores em n√∫meros absolutos, n√£o est√£o no topo da taxa porque disputaram muitos GPs fora do auge.

- Senna, mesmo com temporadas dif√≠ceis e algumas quebras, manteve um √≠ndice alt√≠ssimo.

In [19]:
# Filtrar apenas vit√≥rias
victories = results[results['positionOrder'] == 1]

# Juntar com dados de corrida e piloto
victories = victories.merge(races[['raceId', 'year']], on='raceId')
victories = victories.merge(drivers[['driverId', 'surname']], on='driverId')
victories = victories.merge(constructors[['constructorId', 'name']], on='constructorId')

# Determinar o piloto principal por tempo na equipe
principal_team = victories.groupby(['driverId', 'name']).size().reset_index(name='count')
principal_team = principal_team.sort_values(['driverId', 'count'], ascending=[True, False]).drop_duplicates('driverId')
principal_team = principal_team.set_index('driverId')['name'].to_dict()

# Contar vit√≥rias por ano e piloto
victory_counts = victories.groupby(['year', 'driverId', 'surname']).size().reset_index(name='wins')
victory_counts['cumulative_wins'] = victory_counts.groupby('driverId')['wins'].cumsum()

# Top 15 por total de vit√≥rias
top_15 = victory_counts.groupby('driverId')['wins'].sum().sort_values(ascending=False).head(15).index
victory_counts = victory_counts[victory_counts['driverId'].isin(top_15)]

# Cores por equipe
team_colors = {
    'Ferrari': '#e10600', 'McLaren': '#ff8700', 'Red Bull': '#1e41ff',
    'Mercedes': '#00d2be', 'Williams': '#005aff', 'Renault': '#f7df1e',
    'Alpine F1 Team': '#0090ff', 'Benetton': '#00b2a9', 'Brawn': '#fff600',
    'AlphaTauri': '#2b4562', 'Aston Martin': '#006f62', 'Jordan': '#ffef00',
    'Lotus': '#00ff00', 'Sauber': '#ff87ab', 'Tyrrell': '#cccccc'
}

# Criar gr√°fico
fig = go.Figure()

for driver_id in victory_counts['driverId'].unique():
    df = victory_counts[victory_counts['driverId'] == driver_id]
    name = df['surname'].iloc[0]
    team = principal_team.get(driver_id, 'Outros')
    color = team_colors.get(team, 'gray')

    fig.add_trace(go.Scatter(
        x=df['year'], y=df['cumulative_wins'],
        mode='lines+markers', name=name,
        line=dict(color=color)
    ))

fig.update_layout(
    title='Vit√≥rias Acumuladas por Piloto (Top 15)',
    xaxis_title='Ano', yaxis_title='Vit√≥rias Acumuladas',
    width=1400, height=500,
    plot_bgcolor='white', paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(1950, 2025, 5)) + [2024]
    ),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0'),
    font=dict(family='Arial', size=12)
)


fig.add_layout_image(
    dict(
        source="https://static.vecteezy.com/system/resources/previews/036/562/778/large_2x/racing-helmet-icon-vector.jpg",
        xref="paper", yref="paper",
        x=1.10, y=1.25,
        sizex=0.15, sizey=0.15,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

In [20]:
# Processar top_decada
res_com_ano = results.merge(races[['raceId', 'year']], on='raceId')
res_com_ano['d√©cada'] = (res_com_ano['year'] // 10) * 10
vitorias_decada = res_com_ano[res_com_ano['positionOrder'] == 1].groupby(['d√©cada', 'driverId']).size().reset_index(name='vit√≥rias')
top_decada = vitorias_decada.sort_values(['d√©cada','vit√≥rias'], ascending=[True, False]).groupby('d√©cada').head(1)
top_decada = top_decada.merge(drivers, on='driverId')

# Adicionar a equipe principal e cor
top_decada['team'] = top_decada['driverId'].map(principal_team)
top_decada['color'] = top_decada['team'].map(team_colors).fillna('gray')

# Criar o mapa de cores por sobrenome
color_map = {row['surname']: row['color'] for _, row in top_decada.iterrows()}

# Gerar gr√°fico principal
fig = px.bar(
    top_decada,
    x='d√©cada',
    y='vit√≥rias',
    text='surname',
    title='Piloto com Mais Vit√≥rias por D√©cada',
    labels={'vit√≥rias': 'N√∫mero de Vit√≥rias', 'd√©cada': 'D√©cada'},
    color='surname',
    color_discrete_map=color_map
)

# Ocultar os nomes dos pilotos na legenda
fig.update_traces(
    textposition='outside',
    showlegend=False  # <- Aqui desativa a legenda dos pilotos
)

# Adicionar tra√ßos invis√≠veis para criar a legenda com base nas equipes
equipes_usadas = top_decada['team'].dropna().unique()
for equipe in sorted(equipes_usadas):
    cor = team_colors.get(equipe, 'gray')
    fig.add_trace(go.Scatter(
        x=[None], y=[None],  # ponto invis√≠vel
        mode='markers',
        marker=dict(size=10, color=cor),
        legendgroup=equipe,
        showlegend=True,
        name=equipe
    ))

# Atualizar layout
fig.update_layout(
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family='Arial', size=12),
    xaxis=dict(
        tickmode='linear',
        dtick=10,
        showgrid=False
    ),
    yaxis=dict(
        gridcolor='#f0f0f0',
        title='N√∫mero de Vit√≥rias'
    ),
    showlegend=True,
    legend_title_text='Equipe Principal'
)

fig.show()

In [21]:
# Cores definidas manualmente por equipe
cores_equipes = {
    'Ferrari': '#e10600',
    'Red Bull': '#1e41ff',
    'Mercedes': '#00d2be',
    'McLaren': '#ff8700',
    'Williams': '#00A0DE',
    'Renault': '#fff500',
    'Benetton': '#009d9d',
    'Brawn': '#ffffff',
    'Tyrell': '#002147',
    'Ligier': '#4C66FF',
    'BMW Sauber': '#003366'
}

# Filtrar apenas vit√≥rias
victories = results[results['positionOrder'] == 1]

# Juntar com corridas para pegar ano
victories = victories.merge(races[['raceId', 'year']], on='raceId')

# Contar vit√≥rias por ano e equipe
victories_count = victories.groupby(['year', 'constructorId']).size().reset_index(name='wins')

# Somar total de vit√≥rias por equipe
total_wins = victories_count.groupby('constructorId')['wins'].sum().reset_index(name='total_wins')

# Pegar os 15 com mais vit√≥rias
top_15_ids = total_wins.sort_values(by='total_wins', ascending=False).head(15)['constructorId']

# Filtrar apenas essas equipes
victories_count = victories_count[victories_count['constructorId'].isin(top_15_ids)]

# Adicionar nomes das equipes
victories_count = victories_count.merge(constructors[['constructorId', 'name']], on='constructorId')

# Calcular vit√≥rias acumuladas
victories_count['cumulative_wins'] = victories_count.groupby('constructorId')['wins'].cumsum()

# Gr√°fico
fig = go.Figure()

for constructor in victories_count['name'].unique():
    constructor_data = victories_count[victories_count['name'] == constructor]
    cor = cores_equipes.get(constructor, '#888888')  # cinza padr√£o se n√£o definida

    fig.add_trace(go.Scatter(
        x=constructor_data['year'],
        y=constructor_data['cumulative_wins'],
        mode='lines+markers',
        name=constructor,
        line=dict(color=cor)
    ))

fig.update_layout(
    title='üèÅ Vit√≥rias Acumuladas ao Longo do Tempo - Top 15 Equipes',
    xaxis_title='Ano',
    yaxis_title='Vit√≥rias Acumuladas',
    width=1400,
    height=550,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0')
)

# Imagem de carro
fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.1, y=1.25,
        sizex=0.2, sizey=0.2,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

In [22]:
# Equipes com mais t√≠tulos de construtores
constr_titulos = constructor_standings[constructor_standings['position'] == 1].groupby('constructorId').size()
construtores = constructors.set_index('constructorId').loc[constr_titulos.index[:10]]
construtores['t√≠tulos'] = constr_titulos[:10].values

# Ordenar decrescente pelo n√∫mero de t√≠tulos
construtores = construtores.sort_values(by='t√≠tulos', ascending=False)

# Dados para o gr√°fico
nomes = construtores['name']
valores = construtores['t√≠tulos']

fig = go.Figure()

fig.add_trace(go.Bar(
    x=nomes,
    y=valores,
    marker_color='#003399',  # Azul FIA
    name='T√≠tulos'
))

fig.update_layout(
    title='Top Equipes Campe√£s',
    xaxis_title='Equipe',
    yaxis_title='T√≠tulos',
    width=1000,
    height=500,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family="Arial", size=12, color="black"),
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=True, gridcolor='#f0f0f0')
)

fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.00, y=1.2,
        sizex=0.2, sizey=0.2,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

A soberania das 4 grandes equipes: FErrari, Mclaren, Red Bull e Williams, se d√° por:

üü• Ferrari (234 vit√≥rias)
- Maior vencedora da hist√≥ria da F1.

- Participa desde 1950, a √∫nica equipe presente em todas as temporadas.

- Teve v√°rias fases de ouro, como:

- 1950‚Äì1960: Era Juan Manuel Fangio e Alberto Ascari.

- 1970s: Com Niki Lauda e Jody Scheckter.

- 2000‚Äì2004: Dom√≠nio absoluto com Michael Schumacher (5 t√≠tulos seguidos).

- Longa perman√™ncia e recursos da montadora explicam a const√¢ncia de vit√≥rias.

\

üüß McLaren (173 vit√≥rias)
- Fundada nos anos 60 por Bruce McLaren.

- Fases dominantes:

  - 1980s: Era de Ayrton Senna, Alain Prost, motores Honda.

  - 1998‚Äì1999: T√≠tulos com Mika H√§kkinen e motor Mercedes.

- Forte parceria com grandes pilotos e motores eficientes em v√°rios per√≠odos.

\

üîµ Red Bull (124 vit√≥rias)
- Uma das mais recentes dominantes.

- Entrou na F1 como equipe em 2005.

- Dom√≠nios marcantes:

  - 2010‚Äì2013: 4 t√≠tulos seguidos com Sebastian Vettel.

  - 2021‚Äì2024 (atual): Era Max Verstappen, dom√≠nio quase absoluto.

- Crescimento r√°pido gra√ßas ao investimento da marca e engenharia de Adrian Newey.

\

üî∑ Williams (114 vit√≥rias)
- Fundada por Frank Williams.

- Teve seu auge entre:

  - 1980s‚Äì1990s: Com Nelson Piquet, Nigel Mansell, Alain Prost, Damon Hill, e motores Honda/Renault.

- Era refer√™ncia t√©cnica at√© o final dos anos 90.

- Entrou em decl√≠nio nos anos 2000, mas ainda carrega um legado muito forte.

### Voltas Mais R√°pidas

Esta an√°lise mostra os pilotos com maior n√∫mero de voltas mais r√°pidas com o passar do tempo.

In [23]:
# adicionar coluna 'year' em results via merge com races
results_year = results.merge(races[['raceId', 'year']], on='raceId')

# filtrar por voltas que n√£o s√£o nulas e pega o √≠ndice da volta mais r√°pida por corrida
idx_fastest_laps = results_year.groupby('raceId')['fastestLapTime'].idxmin()

# filtrar apenas as voltas mais r√°pidas por corrida
fastest_laps = results_year.loc[idx_fastest_laps]

# contar n√∫mero de voltas mais r√°pidas por piloto por ano
fastest_laps_count = fastest_laps.groupby(['driverId', 'year']).size().reset_index(name='fastest_laps')

# calcular cumulativo por piloto ao longo dos anos
fastest_laps_count['cumulative_fastest_laps'] = fastest_laps_count.groupby('driverId')['fastest_laps'].cumsum()

# juntar com nomes dos pilotos
fastest_laps_count = fastest_laps_count.merge(drivers[['driverId', 'surname']], on='driverId')

# filtrar os pilotos que tiveram pelo menos uma volta mais r√°pida (top 15)
top_15_drivers = fastest_laps_count.groupby('driverId')['fastest_laps'].sum().sort_values(ascending=False).head(15).index
fastest_laps_count = fastest_laps_count[fastest_laps_count['driverId'].isin(top_15_drivers)]

# achar a equipe principal de cada piloto
driver_teams = (
    results.merge(constructors, on='constructorId')
           .groupby(['driverId', 'name']).size()
           .reset_index(name='count')
           .sort_values(['driverId', 'count'], ascending=[True, False])
           .drop_duplicates('driverId')
           .set_index('driverId')['name']
)

# paleta de cores das equipes
team_colors = {
    'Ferrari': '#e10600',
    'McLaren': '#ff8700',
    'Red Bull': '#1e41ff',
    'Mercedes': '#00d2be',
    'Renault': '#f7df1e',
    'Williams': '#005aff',
    'AlphaTauri': '#2b4562',
    'Alpine F1 Team': '#0090ff',
    'Aston Martin': '#006f62',
    'Sauber': '#51c8ff',
    'BMW Sauber': '#0038a8',
    'Benetton': '#48c0a2',
    'Lotus F1': '#555d50',
    'Brawn': '#d5ff00',
    'Jordan': '#f4d30f',
    'Ligier': '#1c39bb',
    'Tyrrell': '#cccccc'
}

# criar gr√°fico plotly
fig = go.Figure()

for driver_id, df_pilot in fastest_laps_count.groupby('driverId'):
    nome = df_pilot['surname'].iloc[0]
    equipe = driver_teams.get(driver_id, 'Outros')
    cor = team_colors.get(equipe, 'gray')

    fig.add_trace(go.Scatter(
        x=df_pilot['year'],
        y=df_pilot['cumulative_fastest_laps'],
        mode='lines+markers',
        name=nome,
        line=dict(color=cor)
    ))

fig.update_layout(
    title='Voltas Mais R√°pidas Acumuladas por Piloto (Top 15)',
    xaxis_title='Ano',
    yaxis_title='Voltas Mais R√°pidas Acumuladas',
    width=1400,
    height=550,
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(family='Arial', size=13),
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(1950, 2025, 5)) + [2024]
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    )
)

fig.add_layout_image(
    dict(
        source="https://tse1.mm.bing.net/th/id/OIP.dy2HQjOzt9KYmUF2TnDriQHaHa?cb=thvnextc2&rs=1&pid=ImgDetMain&o=7&rm=3",
        xref="paper", yref="paper",
        x=1.10, y=1.2,
        sizex=0.2, sizey=0.2,
        xanchor="right", yanchor="top",
        opacity=0.3,
        layer="below"
    )
)

fig.show()

In [24]:
# Fun√ß√£o para converter strings de tempo (ex: "1:26.572", "1:34:50.616", "+5.478") em segundos
def convert_time_to_sec(time_str):
    if pd.isna(time_str) or time_str == "" or time_str == "\\N":
        return np.nan
    time_str = time_str.lstrip('+')  # remove sinais de +
    parts = time_str.split(':')
    if len(parts) == 2:
        minutes = float(parts[0])
        seconds = float(parts[1])
        return minutes * 60 + seconds
    elif len(parts) == 3:
        hours = float(parts[0])
        minutes = float(parts[1])
        seconds = float(parts[2])
        return hours * 3600 + minutes * 60 + seconds
    else:
        return np.nan

# Filtrar circuitos Monza e Monaco
circuitos_alvo = circuits[circuits['name'].isin(['Autodromo Nazionale di Monza', 'Circuit de Monaco'])]
circuitos_ids = circuitos_alvo.set_index('circuitId')['name'].to_dict()

# Prepara lap_times: converte tempo das voltas de milissegundos para segundos (coluna 'lap_sec')
lap_times['lap_sec'] = lap_times['milliseconds'] / 1000

# Juntar lap_times com races para obter year e circuitId
lap_times_races = lap_times.merge(races[['raceId', 'year', 'circuitId']], on='raceId')

# Filtrar apenas os circuitos desejados e o per√≠odo de 2005 a 2024
lap_times_filtrado = lap_times_races[
    (lap_times_races['circuitId'].isin(circuitos_ids.keys())) &
    (lap_times_races['year'] >= 2005) & (lap_times_races['year'] <= 2024)
]

# Calcular o tempo m√©dio por ano e circuito
tempo_medio_ano_circuito = lap_times_filtrado.groupby(['year', 'circuitId'])['lap_sec'].mean().reset_index()

# Mapeia circuitId para nome do circuito
tempo_medio_ano_circuito['circuitName'] = tempo_medio_ano_circuito['circuitId'].map(circuitos_ids)

# Anos para as linhas verticais tracejadas
event_years = [2010, 2011, 2014, 2016, 2019, 2021, 2022]

# Criar shapes para cada linha vertical
vertical_lines = []
for year in event_years:
    vertical_lines.append(
        dict(
            type="line",
            xref="x",
            yref="paper",
            x0=year,
            y0=0,
            x1=year,
            y1=1,
            line=dict(
                color="gray",
                width=1,
                dash="dashdot"
            )
        )
    )

# Plot com Plotly Express
fig = px.line(
    tempo_medio_ano_circuito,
    x='year',
    y='lap_sec',
    color='circuitName',
    title='Tempo M√©dio das Voltas (2005-2024) - Monza vs Monaco (lap_times)',
    labels={'lap_sec': 'Tempo M√©dio da Volta (s)', 'year': 'Ano', 'circuitName': 'Circuito'}
)

fig.update_layout(
    plot_bgcolor='white',
    paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(2005, 2025, 5)) + [2024]
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    ),
    font=dict(family='Arial', size=13),
    shapes=vertical_lines  # adiciona as linhas verticais tracejadas
)

# Mapeia eventos por ano
eventos = {
    2010: "2010: Reabastecimento",
    2011: "2011: DRS + KERS",
    2014: "2014: Motores h√≠bridos V6 turbo",
    2016: "2016: Limite mensagens de r√°dio",
    2019: "2019: Ponto extra por volta mais r√°pida",
    2021: "2021: Redu√ß√£o downforce",
    2022: "2022: Efeito solo"
}

# Adiciona anota√ß√µes no topo para cada evento (em 90¬∫)
for year, text in eventos.items():
    fig.add_annotation(
        x=year - 0.12,
        y=1.02,  # levemente acima do gr√°fico
        xref="x",
        yref="paper",
        text=text,
        showarrow=False,
        font=dict(size=11, color="gray"),
        align="center",
        textangle=270  # gira o texto para ficar na vertical
    )

# Layout e exibi√ß√£o
fig.update_layout(
    plot_bgcolor='white',
    paper_bgcolor='white',
    xaxis=dict(
        showgrid=False,
        tickmode='array',
        tickvals=list(range(2005, 2025, 5)) + [2024]
    ),
    yaxis=dict(
        showgrid=True,
        gridcolor='#f0f0f0'
    ),
    font=dict(family='Arial', size=13),
    shapes=vertical_lines,
    margin=dict(t=100)  # aumenta o topo para acomodar as anota√ß√µes
)

fig.show()

### Linha do tempo - Eventos hist√≥ricos


| Ano    | Mudan√ßa Regulamentar ou T√©cnica Principal                                                              |
| ------ | ------------------------------------------------------------------------------------------------------ |
| 1968   | Introdu√ß√£o do **capacete integral** e **primeiros patroc√≠nios comerciais**                             |
| 1969   | **Proibi√ß√£o das asas m√≥veis** (ajust√°veis em tempo real)                                               |
| 1970   | Regras de **tanques de combust√≠vel mais seguros** e regulamentos de **pistas**                         |
| 1983   | **Fim do efeito solo** (uso de assoalhos planos obrigat√≥rio)                                           |
| 1994   | Banimento de **ajudas eletr√¥nicas** (controle de tra√ß√£o, ABS, suspens√£o ativa) + foco em **seguran√ßa** |
| 2003   | **Sistema de pontua√ß√£o modificado** (mais pilotos pontuando: 10-8-6-5-4-3-2-1)                         |
| 2009   | **Reforma aerodin√¢mica geral**, pneus slicks retornam, introdu√ß√£o do **KERS** opcional                 |
| 2010   | **Proibi√ß√£o de reabastecimento em corridas** (**refuelling ban**), altera√ß√£o no formato de pit stops   |
| 2011   | Introdu√ß√£o do **DRS (Drag Reduction System)** + KERS se torna mais comum                               |
| 2014   | Introdu√ß√£o dos motores h√≠bridos **V6 turbo (1.6L)** com **ERS**                                        |
| 2016   | **Limite de mensagens de r√°dio** para evitar "coaching"                                                |
| 2019   | **Ponto extra por volta r√°pida** se estiver entre os 10 primeiros                                      |
| 2021   | Mudan√ßas no assoalho e difusor para reduzir o downforce                                                |
| 2022   | **Novo regulamento aerodin√¢mico**: retorno do **efeito solo** com foco em reduzir o ar sujo            |
| 2025\* | Previs√£o de **revis√µes t√©cnicas** e **fim do ponto da volta r√°pida**, foco em seguran√ßa e estreantes   |



Olhando o gr√°fico √† luz dos eventos hist√≥ricos de 2010 a 2022:

‚úÖ 2009 ‚Üí 2010: Fim do reabastecimento
   - Impacto esperado: Carros mais pesados no in√≠cio da corrida = voltas mais lentas no come√ßo.
    - Observado no gr√°fico:
       - Em M√¥naco: Pequeno aumento no tempo m√©dio.
      - Em Monza: Leve queda - o que gere curiosidade mas pode ser relacionado ao menor impacto no peso em um circuito de alta velocidade e com poucas curvas lentas.

\

‚úÖ 2010 ‚Üí 2011: DRS + KERS
  - Impacto esperado: Redu√ß√£o dos tempos de volta, especialmente em retas (circuito de Monza).
  - Observado no gr√°fico:
    - Monza: Forte aumento no tempo, o que √© surpreendente, e pode indicar outros fatores como clima ou safety car.
    - M√¥naco: Aumento ainda maior. O DRS e KERS tem menor efeito em circuitos de rua, ent√£o n√£o faria sentido uma redu√ß√£o significativa nos tempos de volta, mas um aumento significativo tamb√©m n√£o se sustenta.

\

‚úÖ 2013 ‚Üí 2014: Motores h√≠bridos V6 turbo
  - Impacto esperado: Aumento de tempos no in√≠cio da era, devido √† curva de aprendizado com novas unidades de pot√™ncia.

  - Observado:

    - Ambos os circuitos apresentam redu√ß√£o de tempo m√©dio, o que pode parecer contraintuitivo.

    - Explica√ß√£o: motores novos + torque instant√¢neo do ERS pode ter compensado perdas, ou houve melhora em pneus, aerodin√¢mica, ou redu√ß√£o de safety cars.

\

‚úÖ 2015 ‚Üí 2016: Limite nas mensagens de r√°dio
- Impacto esperado: Poss√≠vel perda de performance por menor coaching.

- Observado:

  - Leve aumento em Monaco, consistente com a exig√™ncia t√©cnica do circuito.

  - Monza se mant√©m est√°vel.

\

‚úÖ 2018 ‚Üí 2019: Ponto extra por volta r√°pida
- Impacto esperado: Est√≠mulo a voltas r√°pidas no fim da corrida.

- Observado:

  - Nenhuma mudan√ßa abrupta. Pode n√£o impactar o tempo m√©dio, mas sim apenas a volta mais r√°pida.

\

‚úÖ 2020 ‚Üí 2021: Redu√ß√£o do downforce
- Impacto esperado: Carros mais lentos em curvas.

- Observado:

  - Monza: aumento not√°vel de tempo (esperado).

  - Monaco: tempo m√©dio sobe drasticamente (congruente com a perda de ader√™ncia em curvas fechadas).

\


‚úÖ 2021 ‚Üí 2022: Novo regulamento aerodin√¢mico (efeito solo)
- Impacto esperado: Melhor desempenho em curvas, menos ar sujo.

- Observado:

  - Monaco: queda vis√≠vel no tempo m√©dio.

  - Monza: queda ainda maior ‚Äî o efeito solo favorece estabilidade em curvas r√°pidas como as de Monza.

\

üìå Outros pontos relevantes
Flutua√ß√µes fortes (ex: Monaco 2011, 2021, 2024) podem estar associadas a:

- Corridas interrompidas por bandeiras vermelhas.

- Alta incid√™ncia de safety cars.

- Mudan√ßas clim√°ticas (corrida molhada).

- Poucos dados v√°lidos naquele ano.

## Pr√©-processamento de Dados

Ap√≥s a an√°lise explorat√≥ria, uma possibilidade seria continuar o trabalho com a aplica√ß√£o de uma classifica√ß√£o supervisionada para previs√£o de pilotos vencedores dados alguns atributos.

Para isso, inicialmente deve-se realizar o pr√©-processamento do dados, verificando valores ausentes, tipos e consist√™ncia b√°sica, seguindo com uma padroniza√ß√£o.

In [25]:
# Verificando valores ausentes
missing_df = pd.DataFrame({
    'drivers': drivers.isnull().sum(),
    'constructors': constructors.isnull().sum(),
    'races': races.isnull().sum(),
    'results': results.isnull().sum(),
    'driver_standings': driver_standings.isnull().sum(),
    'constructor_standings': constructor_standings.isnull().sum(),
    'lap_times': lap_times.isnull().sum(),
    'qualifying': qualifying.isnull().sum()
})
missing_df

Unnamed: 0,drivers,constructors,races,results,driver_standings,constructor_standings,lap_times,qualifying
circuitId,,,0.0,,,,,
code,0.0,,,,,,,
constructorId,,0.0,,0.0,,0.0,,0.0
constructorRef,,0.0,,,,,,
constructorStandingsId,,,,,,0.0,,
date,,,0.0,,,,,
dob,0.0,,,,,,,
driverId,0.0,,,0.0,0.0,,0.0,0.0
driverRef,0.0,,,,,,,
driverStandingsId,,,,,0.0,,,


In [26]:
# Padroniza√ß√£o
features_ml = results[['grid', 'positionOrder']].dropna()
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features_ml[['grid']])

## Classifica√ß√£o Supervisionada: Previs√£o de Vencedores

In [27]:
# Vari√°vel alvo: venceu ou n√£o
df_ml = results[['grid', 'positionOrder']].dropna()
df_ml['vencedor'] = (df_ml['positionOrder'] == 1).astype(int)

X = df_ml[['grid']]
y = df_ml['vencedor']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Modelo
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("Acur√°cia:", accuracy_score(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

Acur√°cia: 0.9569008470353761
[[7682    0]
 [ 346    0]]
              precision    recall  f1-score   support

           0       0.96      1.00      0.98      7682
           1       0.00      0.00      0.00       346

    accuracy                           0.96      8028
   macro avg       0.48      0.50      0.49      8028
weighted avg       0.92      0.96      0.94      8028



# Conclus√£o

A an√°lise hist√≥rica e explorat√≥ria dos dados da F√≥rmula 1 permitiu observar tend√™ncias interessantes na domin√¢ncia de pilotos e equipes. \
Al√©m disso, foi poss√≠vel direcionar os dados para uma futura aplica√ß√£o de um modelo supervisionado, que poder√° mostrar que a determinado atributo, como a posi√ß√£o de largada do piloto, possua alguma relev√¢ncia preditiva sobre a vit√≥ria desse piloto, possibilitando uma base simples para modelos futuros.

# Pontos de melhoria

H√° a possibilidade de ir mais al√©m nas an√°lises, como realizar uma compara√ß√£o do tempo m√©dio das voltas por d√©cada em diferentes circuitos, a evolu√ß√£o da diferen√ßa entre o piloto mais r√°pido e o mais lento de cada corrida - verificando a trajet√≥ria ao longo dos anos em rela√ß√£o √† competitividade na F1, etc.