# 1. Introdução

A análise abaixo foi realizada utilizando dados do campeonato mundial de Formula 1 (1950 - 2023) que foram disponibilizados no sites www.kaggle.com.

Perguntas que tentaremos responder:
- As cinco nacionalidades que mais contribuíram com pilotos na história da Fórmula 1 
- As 5 equipes com mais vitórias na Fórmula 1
- Os 5 pilotos com mais vitória na Fórmula 1
- Brasileiros com mais participações na Formula 1
.<br>
.<br>
.<br>
- ...

Fonte do dataset: https://www.kaggle.com/datasets/rohanrao/formula-1-world-championship-1950-2020

In [None]:
#!pip install kaggle

In [None]:
#!pip install selenium

## 2. Carregando bibliotecas

In [None]:
import pandas as pd
import kaggle
import numpy as np

## 3. Carregando datasets

In [None]:
drivers = pd.read_csv('drivers.csv')
results = pd.read_csv('results.csv')
constructors = pd.read_csv('constructors.csv')
drivers.head()

In [None]:
drivers.query('driverId == 13')

In [None]:
drivers.shape

In [None]:
drivers.isnull().sum()

In [None]:
drivers['driverId'].duplicated().sum()

#### Criando uma nova coluna com o nome inteiro do piloto

In [None]:
drivers['fullName'] = drivers['forename'] + " " + drivers['surname']

##### Total de pilotos brasileiro que já disputaram a formula 1

In [None]:
drivers.query('nationality == "Brazilian"').shape[0]

### As cinco nacionalidades que mais contribuíram com pilotos na história da Fórmula 1

In [None]:
top_5_drivers_nationality = drivers.groupby('nationality').count().sort_values('driverId', ascending=False)['driverId'].head()
top_5_drivers_nationality.plot(kind='bar', title="Top 5 nationality")
top_5_drivers_nationality

### Results CSV

In [None]:
results.head(10)

#### Adicionando as colunas fullName e nationality no dataframe results

In [None]:
results = results.merge(drivers[['fullName', 'driverId', 'nationality']], on='driverId')

### Top 5 brasileiros com maior número vitórias

In [None]:
top_5_brazilian_results_p1 = results.query('nationality == "Brazilian" and position == "1"').groupby("fullName").count().sort_values("driverId", ascending=False)['resultId'].head()
top_5_brazilian_results_p1

In [None]:
top_5_brazilian_results_p1.plot(kind='bar', title='Top 5 Brazilians winners', xlabel='Name')

### Brasileiros com maiores participações na Formula 1

In [None]:
top_5_brazilian_parcitipations = results.query('nationality == "Brazilian"').groupby("fullName").count().sort_values("driverId", ascending=False)['resultId'].head()
top_5_brazilian_parcitipations

In [None]:
top_5_brazilian_parcitipations.plot(kind='bar', title="Top 5 brazilian participations", xlabel="Name")

In [None]:
#results.query('fullName == "Ayrton Senna"').shape

In [None]:
constructors.head()

#### Adicionando o nome da equipe no dataframe results

In [None]:
results = results.merge(constructors[['name', 'constructorId']], on='constructorId')
results.query('fullName == "Felipe Massa"').head()

### Top 5 equipes com maior número de vitórias

In [None]:
top_5_contructors_winner = results.query('position == "1"').groupby('name').count().sort_values('resultId', ascending=False).head()['resultId']
top_5_contructors_winner

In [None]:
top_5_contructors_winner.plot(kind="bar", title="Top 5 constructor winners", xlabel="Constructors")

#### Excluindo colunas desnecessárias

In [None]:
columns_drop_results = ["number", "grid", "positionText", "positionOrder", "points", "laps", "time", "milliseconds",
                       "fastestLap", "rank", "fastestLapTime", "fastestLapSpeed", "statusId", "name"]
results.drop(columns_drop_results, axis=1, inplace=True)

In [None]:
results.head()

#### Substituindo o valor \\N para 0
- \\\N significa que o piloto não terminou a corrida

In [None]:
results['position'].replace("\\N", 0, inplace=True)

In [None]:
results['position'].unique()

### Top 5 pilotos com maiores número de vitórias

In [None]:
top_5_p1 = results.query('position == "1"').groupby(['fullName']).count().sort_values('resultId', ascending=False)['resultId'].head()
#top_5_p1['resultId'].plot(kind='bar', title='Top 5 winners', xlabel='Name')
top_5_p1

In [None]:
top_5_p1.plot(kind='bar', title='Top 5 winners', xlabel='Name')

# 4. Selenium

### Web Scraping para extrair as fotos dos pilotos de acordo com a URL disponibilizada no dataset "drivers.csv" 

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from urllib.parse import unquote


- A tarefa consiste em acessar uma URL específica associada a cada piloto de corrida, verificar se há uma imagem disponível do piloto nessa página e, em seguida, armazenar essa URL da imagem em um dicionário chamado url_image. 
- Cada chave neste dicionário será o driverId do piloto e o valor correspondente será a URL da imagem, caso exista. Se não houver uma imagem disponível na página do piloto, será salva uma imagem padrão para indicar essa ausência

In [None]:
options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
url_image = {}
x = 0
y = 0
for i in range(1, drivers.shape[0]):
    driver.get(drivers['url'][x])
    elem = driver.find_elements(By.CLASS_NAME, "mw-file-element")
    contador_limite = len(elem) - 1
    print(i , " - " , len(elem))
    if len(elem) != 0:
        while drivers['surname'][x].split()[0] not in unquote(elem[y].get_attribute("src")) :
            if contador_limite == y:
                break
            y += 1
#         url_image[drivers["driverId"][x]] = unquote(elem[y].get_attribute("src"))
#     else:
#         url_image[drivers["driverId"][x]] = "https://www.promoview.com.br/uploads/images/unnamed%2819%29.png"
        
    if len(elem) == 0 or drivers['surname'][x].split()[0] not in unquote(elem[y].get_attribute("src")):
        url_image[drivers["driverId"][x]] = "https://www.promoview.com.br/uploads/images/unnamed%2819%29.png"
    else:
        url_image[drivers["driverId"][x]] = unquote(elem[y].get_attribute("src"))
    y = 0
    x += 1


In [None]:
#### transformando o dicionário  em um dataframe

In [None]:
url_image_dataframe = pd.DataFrame(list(url_image.items()), columns=["driverId", "urlImage"])

#### Junção do dataframe "drivers" com as URLs das fotos dos pilotos 

In [None]:
drivers = drivers.merge(url_image_dataframe, on="driverId")