# Limpeza de Dados do Dataset dos Curcuitos

In [3]:
# Import das bibliotecas

import pandas as pd

In [4]:
# Lendo o arquivo csv
df = pd.read_csv('../data/circuits.csv')
df.head()

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
0,1,albert_park,Albert Park Grand Prix Circuit,Melbourne,Australia,-37.8497,144.968,10,http://en.wikipedia.org/wiki/Melbourne_Grand_P...
1,2,sepang,Sepang International Circuit,Kuala Lumpur,Malaysia,2.76083,101.738,18,http://en.wikipedia.org/wiki/Sepang_Internatio...
2,3,bahrain,Bahrain International Circuit,Sakhir,Bahrain,26.0325,50.5106,7,http://en.wikipedia.org/wiki/Bahrain_Internati...
3,4,catalunya,Circuit de Barcelona-Catalunya,Montmeló,Spain,41.57,2.26111,109,http://en.wikipedia.org/wiki/Circuit_de_Barcel...
4,5,istanbul,Istanbul Park,Istanbul,Turkey,40.9517,29.405,130,http://en.wikipedia.org/wiki/Istanbul_Park


In [5]:
df.dtypes

circuitId       int64
circuitRef     object
name           object
location       object
country        object
lat           float64
lng           float64
alt             int64
url            object
dtype: object

Os tipos das colunas não apresentam nenhuma inconsistência.

## Identificando Dados Ausentes

In [6]:
# Verificando valores ausentes
df.isnull().sum()

circuitId     0
circuitRef    0
name          0
location      0
country       0
lat           0
lng           0
alt           0
url           0
dtype: int64

Nenhum valor ausente identificado.

## Identificando Dados Duplicados

In [7]:
# Verificação de registros duplicados
df[df.duplicated(keep=False)]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url


In [8]:
# Verificação de registros duplicados apenas da coluna 'circuitId'
df[df.duplicated(subset=['circuitId'], keep=False)]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url


In [9]:
# Verificação de registros duplicados apenas da coluna 'circuitRef'
df[df.duplicated(subset=['circuitRef'], keep=False)]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url


In [10]:
# Verificação de registros duplicados apenas da coluna 'name'
df[df.duplicated(subset=['name'], keep=False)]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url


Não foi encontrado nenhum registro duplicado.

## Análise Descritiva das Variáveis Numéricas

In [11]:
# Resumo estatístico das variáveis numéricas
df.describe()

Unnamed: 0,circuitId,lat,lng,alt
count,77.0,77.0,77.0,77.0
mean,39.883117,33.442925,1.076683,247.012987
std,23.001701,22.808866,65.516951,362.738469
min,1.0,-37.8497,-118.189,-7.0
25%,20.0,32.7774,-9.39417,18.0
50%,40.0,40.9517,3.93083,129.0
75%,59.0,46.9589,19.2486,332.0
max,80.0,57.2653,144.968,2227.0


A partir do resumo acima, nota-se que temos 77 registros únicos de circuitos, mas o ID máximo é 80, sugerindo que alguns IDs podem estar faltando.

Com relação às variáveis `lat` e `lng` não foram identificadas inconsistências estatísticas que possam ser observadas na análise descritiva. O valor mínimo da variável `alt` representa um valor negativo, o que pode representar algum tipo de inconsistência.

In [12]:
# Listagem dos IDs dos circuitos para identificar os IDs faltantes
df['circuitId']

0      1
1      2
2      3
3      4
4      5
      ..
72    75
73    76
74    77
75    78
76    79
Name: circuitId, Length: 77, dtype: int64

Ao observar os IDs acima, é possível identificar que os IDs 23, 72 e 74 não estão presentes no dataset. No entanto, a ausência desses identificadores não implica necessariamente a ausência de circuitos, podendo refletir apenas uma descontinuidade natural na numeração.

In [13]:
# Busca de localizações que possuem altitude negativa
df[df.alt < 0]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
71,73,baku,Baku City Circuit,Baku,Azerbaijan,40.3725,49.8533,-7,http://en.wikipedia.org/wiki/Baku_City_Circuit


A única ocorrência de uma localização com altitude negativa é o Circuito da Cidade de Baku, no Azerbaijão. Essa localização está situada 28 metros abaixo do nível do mar, o que confirma a veracidade desse dado.

## Análise da Variável `country`

In [14]:
df['country'].value_counts()

USA              11
France            7
Spain             6
Portugal          4
UK                4
Italy             4
Japan             3
Canada            3
Germany           3
Belgium           3
Austria           2
South Africa      2
Brazil            2
Australia         2
Singapore         1
Netherlands       1
Saudi Arabia      1
Azerbaijan        1
Russia            1
India             1
Switzerland       1
Morocco           1
Bahrain           1
Sweden            1
Korea             1
China             1
Mexico            1
Turkey            1
Monaco            1
Argentina         1
UAE               1
United States     1
Malaysia          1
Hungary           1
Qatar             1
Name: country, dtype: int64

A análise da coluna `country` revelou uma inconsistência nos padrões dos dados: 11 registros com o valor `USA` e 1 registro com o valor `United States`, embora ambos representem o mesmo país.

In [15]:
df[(df.country == 'United States') | (df.country == 'USA')]

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
18,19,indianapolis,Indianapolis Motor Speedway,Indianapolis,USA,39.795,-86.2347,223,http://en.wikipedia.org/wiki/Indianapolis_Moto...
22,80,vegas,Las Vegas Strip Street Circuit,Las Vegas,United States,36.1147,-115.173,642,https://en.wikipedia.org/wiki/Las_Vegas_Grand_...
32,33,phoenix,Phoenix street circuit,Phoenix,USA,33.4479,-112.075,345,http://en.wikipedia.org/wiki/Phoenix_street_ci...
36,37,detroit,Detroit Street Circuit,Detroit,USA,42.3298,-83.0401,177,http://en.wikipedia.org/wiki/Detroit_street_ci...
41,42,dallas,Fair Park,Dallas,USA,32.7774,-96.7587,139,http://en.wikipedia.org/wiki/Fair_Park
42,43,long_beach,Long Beach,California,USA,33.7651,-118.189,12,"http://en.wikipedia.org/wiki/Long_Beach,_Calif..."
43,44,las_vegas,Las Vegas Street Circuit,Nevada,USA,36.1162,-115.174,639,http://en.wikipedia.org/wiki/Las_Vegas_Street_...
45,46,watkins_glen,Watkins Glen,New York State,USA,42.3369,-76.9272,485,http://en.wikipedia.org/wiki/Watkins_Glen_Inte...
59,60,riverside,Riverside International Raceway,California,USA,33.937,-117.273,470,http://en.wikipedia.org/wiki/Riverside_Interna...
62,63,sebring,Sebring International Raceway,Florida,USA,27.4547,-81.3483,18,http://en.wikipedia.org/wiki/Sebring_Raceway


A inconsistência foi identificada no circuito `Las Vegas Strip Street Circuit`.

In [16]:
# Alterando o valor 'United States' para 'USA'
df.loc[df.country == 'United States', 'country'] = 'USA'
df[df.circuitRef == 'vegas']

Unnamed: 0,circuitId,circuitRef,name,location,country,lat,lng,alt,url
22,80,vegas,Las Vegas Strip Street Circuit,Las Vegas,USA,36.1147,-115.173,642,https://en.wikipedia.org/wiki/Las_Vegas_Grand_...


In [18]:
df.to_csv('../data_cleaned/circuits.csv', index=False)