# Limpeza de Dados do Dataset das Qualificatórias

In [63]:
# Import das bibliotecas

import pandas as pd

In [64]:
# Lendo o arquivo csv
df = pd.read_csv('../data/qualifying.csv', na_values=["\\N"])
df.head()

Unnamed: 0,qualifyId,raceId,driverId,constructorId,number,position,q1,q2,q3
0,1,18,1,1,22,1,1:26.572,1:25.187,1:26.714
1,2,18,9,2,4,2,1:26.103,1:25.315,1:26.869
2,3,18,5,1,23,3,1:25.664,1:25.452,1:27.079
3,4,18,13,6,2,4,1:25.994,1:25.691,1:27.178
4,5,18,2,2,3,5,1:25.960,1:25.518,1:27.236


In [65]:
df.dtypes

qualifyId         int64
raceId            int64
driverId          int64
constructorId     int64
number            int64
position          int64
q1               object
q2               object
q3               object
dtype: object

Os tipos das colunas não apresentam nenhuma inconsistência.

As colunas que representam valores de tempo estão definidas como `object`, porém os seus campos serão utilizados apenas para melhor visualização da informação. Portanto, há colunas faltantes para representar os tempos em um formato que seja possível realizar operações matemáticas.

In [66]:
# Função para converter o tempo, que está em string, em milisegundos
def time_to_milliseconds(t):
    if pd.isnull(t): # Caso seja um valor nulo, retorna nulo
        return None
    try: # Converte o tempo para milisegundos
        minutes, rest = t.split(':') # Separa os minutos do resto da string
        seconds, milliseconds = rest.split('.') # Separa os segundos e os milisegundos
        total_ms = (int(minutes) * 60 + int(seconds)) * 1000 + int(milliseconds) # Soma os minutos (convertido em milisegundos), segundos (convertido em milisegundos) e milisegundos
        return total_ms
    except ValueError: # Caso ocorra algum erro retorna nulo
        return None

# Cria a coluna 'q1_ms' com o tempo em milisegundos
df['q1_ms'] = df['q1'].apply(time_to_milliseconds).astype('Int64')
# Cria a coluna 'q2_ms' com o tempo em milisegundos
df['q2_ms'] = df['q2'].apply(time_to_milliseconds).astype('Int64')
# Cria a coluna 'q3_ms' com o tempo em milisegundos
df['q3_ms'] = df['q3'].apply(time_to_milliseconds).astype('Int64')
df.dtypes

qualifyId         int64
raceId            int64
driverId          int64
constructorId     int64
number            int64
position          int64
q1               object
q2               object
q3               object
q1_ms             Int64
q2_ms             Int64
q3_ms             Int64
dtype: object

## Identificando Dados Ausentes

In [67]:
# Verificando valores ausentes
df.isnull().sum()

qualifyId           0
raceId              0
driverId            0
constructorId       0
number              0
position            0
q1                156
q2               4647
q3               6865
q1_ms             156
q2_ms            4647
q3_ms            6865
dtype: int64

Os dados ausentes na colunas `q1`, `q2` e `q3` são esperados, tendo em vista o formato das qualificatórias da Fórmula 1.

## Identificando Dados Duplicados

In [68]:
# Verificação de registros duplicados
df[df.duplicated(keep=False)]

Unnamed: 0,qualifyId,raceId,driverId,constructorId,number,position,q1,q2,q3,q1_ms,q2_ms,q3_ms


In [69]:
# Verificação de registros duplicados apenas da coluna 'qualifyId'
df[df.duplicated(subset='qualifyId' ,keep=False)]

Unnamed: 0,qualifyId,raceId,driverId,constructorId,number,position,q1,q2,q3,q1_ms,q2_ms,q3_ms


Não foi encontrado nenhum dado duplicado.

## Salvando o Dataset Tratado

In [70]:
df.to_csv('../data_cleaned/qualifying.csv', index=False)