## Importação das bibliotecas

In [2]:
import pandas as pd
import openpyxl
import os

## Criar a pasta 'saída' se não existir

In [4]:
os.makedirs('extracao', exist_ok=True)

## URLs dos arquivos

In [6]:
url_constructors = 'https://github.com/CaioSobreira/dti_arquivos/raw/main/constructors.csv'
url_drivers = 'https://github.com/CaioSobreira/dti_arquivos/raw/main/drivers.csv'
url_races = 'https://github.com/CaioSobreira/dti_arquivos/raw/main/races.csv'
url_results = 'https://github.com/CaioSobreira/dti_arquivos/raw/main/results.csv'

## Carregando os DataFrames

In [8]:
df_constructors = pd.read_csv(url_constructors)
df_drivers = pd.read_csv(url_drivers)
df_races = pd.read_csv(url_races)
df_results = pd.read_csv(url_results)

## Tratamento df_constructors

In [10]:
df_constructors = df_constructors.drop(['constructorRef', 'url'], axis=1)

renomear_colunas = {
    "constructorId": "montadora_id",
    "name": "nome",
    "nationality": "nacionalidade"
    
}
df_constructors = df_constructors.rename(columns=renomear_colunas)

df_constructors.head()


Unnamed: 0,montadora_id,nome,nacionalidade
0,1,McLaren,British
1,2,BMW Sauber,German
2,3,Williams,British
3,4,Renault,French
4,5,Toro Rosso,Italian


## Tratamento df_drivers

In [12]:
df_drivers['nomeCompleto'] = df_drivers['forename'] + ' ' + df_drivers['surname']

df_drivers = df_drivers.drop(['forename', 'surname','url','number','dob','code','driverRef'], axis=1)

renomear_colunas2 = {
    "driverId": "piloto_id",
    "nomeCompleto": "nome_completo",
    "nationality": "nacionalidade"
}
df_drivers = df_drivers.rename(columns=renomear_colunas2)

df_drivers.head()

Unnamed: 0,piloto_id,nacionalidade,nome_completo
0,1,British,Lewis Hamilton
1,2,German,Nick Heidfeld
2,3,German,Nico Rosberg
3,4,Spanish,Fernando Alonso
4,5,Finnish,Heikki Kovalainen


## Tratamento df_races

In [14]:
df_races = df_races.drop(['time', 'url', 'fp1_date', 'fp1_time', 'fp2_date', 'fp2_time', 'fp3_date', 'fp3_time', 'quali_date', 'quali_time', 'sprint_date', 'sprint_time', 'round', 'circuitId'], axis=1)

renomear_colunas3 = {
    "raceId": "corrida_id",
    "year": "ano",
    "name": "nome",
    "date": "corrida_data"
}
df_races = df_races.rename(columns=renomear_colunas3)

df_races.head()

Unnamed: 0,corrida_id,ano,nome,corrida_data
0,1,2009,Australian Grand Prix,2009-03-29
1,2,2009,Malaysian Grand Prix,2009-04-05
2,3,2009,Chinese Grand Prix,2009-04-19
3,4,2009,Bahrain Grand Prix,2009-04-26
4,5,2009,Spanish Grand Prix,2009-05-10


## Tratamento df_results

In [16]:

df_results = df_results.drop(['number', 'grid', 'position', 'positionText', 'laps', 'time', 'milliseconds', 'fastestLap', 'rank', 'fastestLapSpeed', 'statusId'], axis=1)

renomear_colunas4 = {
    "resultId": "resultado_id",
    "raceId": "corrida_id",
    "driverId": "piloto_id",
    "constructorId": "montadora_id",
    "positionOrder": "posicao_ordem",
    "points": "pontos",
    "fastestLapTime": "volta_mais_rapida_tempo"
}
df_results = df_results.rename(columns=renomear_colunas4)

df_results.head()  

Unnamed: 0,resultado_id,corrida_id,piloto_id,montadora_id,posicao_ordem,pontos,volta_mais_rapida_tempo
0,1,18,1,1,1,10.0,1:27.452
1,2,18,2,2,2,8.0,1:27.739
2,3,18,3,3,3,6.0,1:28.090
3,4,18,4,4,4,5.0,1:28.603
4,5,18,5,1,5,4.0,1:27.418


## Consultando a saúde dos dados

In [18]:
df_constructors.shape

(211, 3)

In [19]:
df_drivers.shape

(858, 3)

In [20]:
df_races.shape

(1101, 4)

In [21]:
df_results.shape

(26220, 7)

In [22]:
df_constructors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 211 entries, 0 to 210
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   montadora_id   211 non-null    int64 
 1   nome           211 non-null    object
 2   nacionalidade  211 non-null    object
dtypes: int64(1), object(2)
memory usage: 5.1+ KB


In [23]:
df_drivers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 858 entries, 0 to 857
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   piloto_id      858 non-null    int64 
 1   nacionalidade  858 non-null    object
 2   nome_completo  858 non-null    object
dtypes: int64(1), object(2)
memory usage: 20.2+ KB


In [24]:
df_races.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1101 entries, 0 to 1100
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   corrida_id    1101 non-null   int64 
 1   ano           1101 non-null   int64 
 2   nome          1101 non-null   object
 3   corrida_data  1101 non-null   object
dtypes: int64(2), object(2)
memory usage: 34.5+ KB


In [25]:
df_results.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26220 entries, 0 to 26219
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   resultado_id             26220 non-null  int64  
 1   corrida_id               26220 non-null  int64  
 2   piloto_id                26220 non-null  int64  
 3   montadora_id             26220 non-null  int64  
 4   posicao_ordem            26220 non-null  int64  
 5   pontos                   26220 non-null  float64
 6   volta_mais_rapida_tempo  26220 non-null  object 
dtypes: float64(1), int64(5), object(1)
memory usage: 1.4+ MB


In [26]:
df_constructors.isnull().sum() / df_constructors.shape[0] * 100

montadora_id     0.0
nome             0.0
nacionalidade    0.0
dtype: float64

In [27]:
df_drivers.isnull().sum() / df_drivers.shape[0] * 100

piloto_id        0.0
nacionalidade    0.0
nome_completo    0.0
dtype: float64

In [28]:
df_races.isnull().sum() / df_races.shape[0] * 100

corrida_id      0.0
ano             0.0
nome            0.0
corrida_data    0.0
dtype: float64

In [29]:
df_results.isnull().sum() / df_results.shape[0] * 100

resultado_id               0.0
corrida_id                 0.0
piloto_id                  0.0
montadora_id               0.0
posicao_ordem              0.0
pontos                     0.0
volta_mais_rapida_tempo    0.0
dtype: float64

In [30]:
df_constructors.head()

Unnamed: 0,montadora_id,nome,nacionalidade
0,1,McLaren,British
1,2,BMW Sauber,German
2,3,Williams,British
3,4,Renault,French
4,5,Toro Rosso,Italian


## Criar a pasta 'saída' se não existir

In [32]:
os.makedirs('extracao/saída', exist_ok=True)

# Caminho do arquivo Excel dentro da pasta
pasta_saida = 'extracao/saída'

# Salvando cada DataFrame em um arquivo Excel separado
df_results.to_excel(os.path.join(pasta_saida, 'resultados.xlsx'), index=False)
df_races.to_excel(os.path.join(pasta_saida, 'corridas.xlsx'), index=False)
df_drivers.to_excel(os.path.join(pasta_saida, 'pilotos.xlsx'), index=False)
df_constructors.to_excel(os.path.join(pasta_saida, 'construtores.xlsx'), index=False)