# Limpeza de Dados do Dataset dos Resultados dos Campeonatos dos Construtores

In [1]:
# Import das bibliotecas

import pandas as pd

In [3]:
# Lendo o arquivo csv
df = pd.read_csv('../data/constructor_results.csv')
df.head()

Unnamed: 0,constructorResultsId,raceId,constructorId,points,status
0,1,18,1,14.0,\N
1,2,18,2,8.0,\N
2,3,18,3,9.0,\N
3,4,18,4,5.0,\N
4,5,18,5,2.0,\N


In [4]:
df.dtypes

constructorResultsId      int64
raceId                    int64
constructorId             int64
points                  float64
status                   object
dtype: object

Os tipos das colunas não apresentam nenhuma inconsistência.

## Identificando Dados Ausentes

In [5]:
# Verificando valores ausentes
df.isnull().sum()

constructorResultsId    0
raceId                  0
constructorId           0
points                  0
status                  0
dtype: int64

Nenhum valor ausente identificado.

## Identificando Dados Duplicados

In [6]:
# Verificação de registros duplicados
df[df.duplicated(keep=False)]

Unnamed: 0,constructorResultsId,raceId,constructorId,points,status


In [7]:
# Verificação de registros duplicados
df[df.duplicated(subset=['constructorResultsId'], keep=False)]

Unnamed: 0,constructorResultsId,raceId,constructorId,points,status


Não foi encontrado nenhum registro duplicado.

## Análise Descritiva das Variáveis Numéricas


In [12]:
# Resumo estatístico das variáveis numéricas
df.describe()

Unnamed: 0,constructorResultsId,raceId,constructorId,points
count,12625.0,12625.0,12625.0,12625.0
mean,8424.500594,528.235802,45.956119,4.053545
std,5666.310522,314.793555,59.468418,7.862202
min,1.0,1.0,1.0,0.0
25%,3157.0,287.0,6.0,0.0
50%,6313.0,487.0,22.0,0.0
75%,13965.0,751.0,54.0,5.0
max,17129.0,1144.0,215.0,66.0


Observando a análise estatística acima não foram identificadas inconsistências em nenhuma variável. Na coluna `points`, mesmo com a expressiva diferença do valor máximo para o restante, são valores comuns no sistema de pontos da fórmula 1 ao longo da história. Uma única exceção (a que causou o máximo de 66 pontos) do GP de Abu Dhabi em 2014, que foi uma corrida com pontuação dobrada.

## Análise da Variável `status`

In [9]:
df['status'].value_counts()

\N    12608
D        17
Name: status, dtype: int64

A análise da coluna `status` demonstra que apenas 17 registros possuem o status "D" (disqualified).

In [10]:
df[df.status == 'D']

Unnamed: 0,constructorResultsId,raceId,constructorId,points,status
185,186,36,1,14.0,D
195,196,37,1,18.0,D
207,208,38,1,12.0,D
218,219,39,1,14.0,D
228,229,40,1,18.0,D
239,240,41,1,12.0,D
250,251,42,1,18.0,D
262,263,43,1,8.0,D
273,274,44,1,14.0,D
283,284,45,1,10.0,D


Todos os registros que possuem "D" (desqualificado), na coluna `status`, correspondem à desqualificação da equipe da McLaren do Campeonato Mundial de Construtores de 2007, devido ao envolvimento em um caso de espionagem industrial contra Ferrari.

In [16]:
df.to_csv('../data_cleaned/constructor_results.csv', index=False)