### Parte 3: Filtrar, Remover Valores Nulos e Duplicados
Usaremos os arquivos `data_08.csv` e `data_18.csv`

In [21]:
# Carregar conjuntos de dados e pandas
import pandas as pd

df_08 = pd.read_csv("../parte_2/data_08.csv")
df_18 = pd.read_csv("../parte_2/data_18.csv")

In [22]:
# Exibir as dimensões do conjunto de dados
df_08.shape

(2404, 14)

In [23]:
# Exibir as dimensões do conjunto de dados
df_18.shape

(1611, 14)

## Filtre por região de certificação

In [24]:
# Vamos filtrar os dataFrames por linhas segundo os padrões da Califórnia
df_08 = df_08.query("cert_region == 'CA'")
df_18 = df_18.query("cert_region == 'CA'")

In [25]:
# Vamos confirmar no dataframe 2008 que a única região de certificação é a Califórnia
df_08['cert_region'].unique()

array(['CA'], dtype=object)

In [26]:
# Vamos confirmar no dataframe 2018 que a única região de certificação é a Califórnia
df_18['cert_region'].unique()

array(['CA'], dtype=object)

In [27]:
# Vamor descartar a coluna de certificação de região de ambos conjuntos de dados
df_08.drop(['cert_region'], axis=1, inplace=True)
df_18.drop(['cert_region'], axis=1, inplace=True)

In [28]:
df_08.shape

(1084, 13)

In [29]:
df_18.shape

(798, 13)

## Descarte linhas com valores faltantes

In [30]:
# Exiba a contagem de valores faltantes para cada característica em 2008
df_08.isnull().sum()

model                    0
displ                    0
cyl                     75
trans                   75
drive                   37
fuel                     0
veh_class                0
air_pollution_score      0
city_mpg                75
hwy_mpg                 75
cmb_mpg                 75
greenhouse_gas_score    75
smartway                 0
dtype: int64

In [31]:
# Exiba a contagem de valores faltantes para cada característica em 2018
df_18.isnull().sum()

model                   0
displ                   1
cyl                     1
trans                   0
drive                   0
fuel                    0
veh_class               0
air_pollution_score     0
city_mpg                0
hwy_mpg                 0
cmb_mpg                 0
greenhouse_gas_score    0
smartway                0
dtype: int64

In [32]:
# Iremos descartar as linhas com quaisquer valores nulos em ambos conjuntos de dados
df_08.dropna(inplace=True, how='any')
df_18.dropna(inplace=True, how='any')

In [33]:
# Verifique se quaisquer colunas em 2008 têm valores nulos - o resultado deve ser False
df_08.isnull().sum().any()

False

In [34]:
# Verifique se quaisquer colunas em 2018 têm valores nulos - o resultado deve ser False
df_18.isnull().sum().any()

False

## Desduplique os dados

In [35]:
# Vamos exibir o número de duplicados nos conjuntos de dados de 2008 e 2018
print("Duplicados em 2008: {0}".format(df_08.duplicated().sum()))
print("Duplicados em 2018: {0}".format(df_18.duplicated().sum()))

Duplicados em 2008: 23
Duplicados em 2018: 3


In [36]:
# Iremos descartar duplicados em ambos conjuntos de dados
df_08.drop_duplicates(inplace=True)
df_18.drop_duplicates(inplace=True)

In [37]:
# Exiba o número de duplicados novamente para confirmar "desduplicação" - ambos devem ser 0
print("Duplicados em 2008: {0}".format(df_08.duplicated().sum()))
print("Duplicados em 2018: {0}".format(df_18.duplicated().sum()))

Duplicados em 2008: 0
Duplicados em 2018: 0


In [38]:
# Vamos salvar nosso progresso para a próxima seção
df_08.to_csv('data_08.csv', index=False)
df_18.to_csv('data_18.csv', index=False)