# Análise de Dados - Fórmula 1

![f1-logo](img/logo_f1.jpg "Logo da Fórmula 1")

## 1. Introdução

A Fórmula 1 é um esporte automobilístico que desperta a paixão de milhões de fãs em todo o mundo. Desde sua criação em 1950, a Fórmula 1 tem sido palco de incríveis disputas nas pistas ao redor do mundo, e a temporada de corridas anual é uma das mais aguardadas no calendário esportivo. Neste estudo, analisaremos os dados das temporadas de 2013 a 2022 para descobrir algumas informações interessantes sobre os pilotos, equipes e corridas.

### 1.1. Objetivo

O objetivo neste estudo, é realizar uma análise dos dados com os resultados das corridas das últimas 10 temporadas da Fórmula 1. Iremos responder às seguintes perguntas:

1. [Qual piloto chegou mais vezes em 2º lugar?](#3.1.-Qual-piloto-chegou-mais-vezes-em-2º-lugar?)
2. [Quais pilotos ganharam mais posições em relação à posição de largada?](#3.2.-Quais-pilotos-ganharam-mais-posições-em-relação-à-posição-de-largada?)
3. [Qual temporada teve mais abandonos de carros durante as corridas?](#3.3.-Qual-temporada-teve-mais-abandonos-de-carros-durante-as-corridas?)
4. [Qual numeração fixa foi utilizada por cada piloto?](#3.4.-Qual-numeração-fixa-foi-utilizada-por-cada-piloto?)
5. [Qual equipe teve mais pódios no GP do Brasil?](#3.5.-Qual-equipe-teve-mais-pódios-no-GP-do-Brasil?)

## 2. Metodologia

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no datasets que possuem os seguintes dados:

| Coluna        | Descrição                                           |    
|---------------|-----------------------------------------------------|
| Track         | Nome da pista onde ocorreu a corrida.               |
| Position      | Posição final do piloto na corrida.                 |
| No            | Número do piloto.                                   |
| Driver        | Nome do piloto.                                     |
| Team          | Nome da equipe.                                     |
| Starting Grid | Posição de largada do piloto.                       |
| Laps          | Número de voltas completadas pelo piloto na corrida.|
| Time/Retired  | Tempo total de corrida ou motivo de desistência.    |
| Points        | Número de pontos ganhos na corrida.                 |
| +1 Pt         | Indicador de se o piloto recebeu um ponto extra.    |
| Fastest Lap   | Tempo da volta mais rápida do piloto na corrida.    |

### OBSERVAÇÕES

`+1 Pt` está representado por Yes ou No, porém só foi inserido na fórmula 1 na temporada 2021 e 2022, nesse caso não iremos utilizar essa coluna para nossa análise.

### 2.1. Importando o pandas

In [8]:
import pandas as pd

### 2.2. Leitura dos Dados

In [9]:
dataT2013 = pd.read_csv('./data/Formula1_2013season_raceResults.csv')
dataT2014 = pd.read_csv('./data/Formula1_2014season_raceResults.csv')
dataT2015 = pd.read_csv('./data/Formula1_2015season_raceResults.csv')
dataT2016 = pd.read_csv('./data/Formula1_2016Season_RaceResults.csv')
dataT2017 = pd.read_csv('./data/Formula1_2017Season_RaceResults.csv')
dataT2018 = pd.read_csv('./data/Formula1_2018Season_RaceResults.csv')
dataT2019 = pd.read_csv('./data/formula1_2019season_raceResults.csv')
dataT2020 = pd.read_csv('./data/formula1_2020season_raceResults.csv')
dataT2021 = pd.read_csv('./data/formula1_2021season_raceResults.csv')
dataT2022 = pd.read_csv('./data/Formula1_2022season_raceResults.csv')

### 2.3 Adicionar coluna 'Season' nos dataframes, representando os anos respectivos

In [10]:
dataT2013['Season'] = '2013'
dataT2014['Season'] = '2014'
dataT2015['Season'] = '2015'
dataT2016['Season'] = '2016'
dataT2017['Season'] = '2017'
dataT2018['Season'] = '2018'
dataT2019['Season'] = '2019'
dataT2020['Season'] = '2020'
dataT2021['Season'] = '2021'
dataT2022['Season'] = '2022'

### 2.4 Renomear coluna 'Total/Gap/Retirement' em dataT2019 e dataT2020 para 'Time/Retired' para ficar padrão com os demais datasets

In [11]:
dataT2019.rename(columns={'Total Time/Gap/Retirement': 'Time/Retired'}, inplace = True)
dataT2020.rename(columns={'Total Time/Gap/Retirement': 'Time/Retired'}, inplace = True)

### 2.5 Remover a coluna '+1 Pt' em dataT2021 e dataT2022

In [12]:
dataT2021 = dataT2021.drop('+1 Pt', axis='columns')
dataT2022 = dataT2022.drop('+1 Pt', axis='columns')

### 2.6 Juntar todos datasets em apens um dataset

In [13]:
dataFull = pd.concat([dataT2013, dataT2014, dataT2015, dataT2016, dataT2017, dataT2018, dataT2019, dataT2020, dataT2021, dataT2022])

### 2.7 Renomear colunas para português

In [14]:
dataFull.columns = ['Pista', 'Posição', 'Nº do Piloto', 'Piloto', 'Equipe', 'Posição de largada', 'Voltas', 'Tempo/Abandono', 'Pontos', 'Volta mais rápida', 'Temporada']

# 3. Análise dos Dados

### 3.1. Qual piloto chegou mais vezes em 2º lugar?

### 3.2. Quais pilotos ganharam mais posições em relação à posição de largada?

### 3.3. Qual temporada teve mais abandonos de carros durante as corridas?

### 3.4. Qual numeração fixa foi utilizada por cada piloto?

### 3.5. Qual equipe teve mais pódios no GP do Brasil?

## REFERÊNCIAS

- [Github @toUpperCase78 - formula1-datasets](https://github.com/toUpperCase78/formula1-datasets)
- [Análise de Dados Exploratória do Titanic](https://github.com/profdiegoaugusto/analise-dados/blob/master/Pandas/titanic-eda/titanic_an%C3%A1lise_explorat%C3%B3ria.ipynb)