# Filtre, descarte valores nulos, desduplique
Use os arquivos `data_08.csv` e `data_18.csv`

In [1]:
# carregue conjuntos de dados
import pandas as pd
df_08 = pd.read_csv('data/data_08.csv')
df_18 = pd.read_csv('data/data_18.csv')

In [2]:
# exiba as dimensões do conjunto de dados
df_08.shape

(2404, 14)

In [3]:
# exiba as dimensões do conjunto de dados
df_18.shape

(1611, 14)

## Filtre por região de certificação

In [4]:
df_08.query('cert_region == "CA"')

Unnamed: 0,model,displ,cyl,trans,drive,fuel,cert_region,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,17,22,19,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,CA,midsize car,7,16,24,19,5,no
6,ACURA TL,3.2,(6 cyl),Auto-S5,2WD,Gasoline,CA,midsize car,7,18,26,21,6,yes
7,ACURA TL,3.5,(6 cyl),Auto-S5,2WD,Gasoline,CA,midsize car,7,17,26,20,6,yes
8,ACURA TL,3.5,(6 cyl),Man-6,2WD,Gasoline,CA,midsize car,7,18,27,21,6,yes
14,ACURA TSX,2.4,(4 cyl),Man-6,2WD,Gasoline,CA,small car,6,19,28,22,6,no
15,ACURA TSX,2.4,(4 cyl),Auto-S5,2WD,Gasoline,CA,small car,6,20,28,23,7,yes
18,ASTON MARTIN DB9,5.9,(12 cyl),Man-6,2WD,Gasoline,CA,small car,6,10,16,12,0,no
19,ASTON MARTIN DB9,5.9,(12 cyl),Auto-S6,2WD,Gasoline,CA,small car,6,11,18,13,1,no


In [5]:
# filtre conjuntos de dados por linhas segundo os padrões da Califórnia
df_08 = df_08.query("cert_region == 'CA'")
df_18 = df_18.query("cert_region == 'CA'")

In [6]:
# confirme que a única região de certificação é a Califórnia
df_08['cert_region'].unique()

array(['CA'], dtype=object)

In [7]:
# confirme que a única região de certificação é a Califórnia
df_18['cert_region'].unique()

array(['CA'], dtype=object)

In [8]:
# descarte a coluna de certificação de região de ambos conjuntos de dados
df_08.drop('cert_region', axis=1, inplace=True)
df_18.drop('cert_region', axis=1, inplace=True)


In [9]:
df_08.shape

(1084, 13)

In [10]:
df_18.shape

(798, 13)

## Descarte linhas com valores faltantes

In [11]:
# exiba a contagem de valores faltantes para cada característica em 2008
df_08.isnull().sum()

model                    0
displ                    0
cyl                     75
trans                   75
drive                   37
fuel                     0
veh_class                0
air_pollution_score      0
city_mpg                75
hwy_mpg                 75
cmb_mpg                 75
greenhouse_gas_score    75
smartway                 0
dtype: int64

In [12]:
# exiba a contagem de valores faltantes para cada característica em 2018
df_18.isnull().sum()

model                   0
displ                   1
cyl                     1
trans                   0
drive                   0
fuel                    0
veh_class               0
air_pollution_score     0
city_mpg                0
hwy_mpg                 0
cmb_mpg                 0
greenhouse_gas_score    0
smartway                0
dtype: int64

In [13]:
# descarte linhas com quaisquer valores nulos em ambos conjuntos de dados
df_08.dropna(axis=0, how='any', inplace=True)
df_08.shape

(1009, 13)

In [14]:
df_18.dropna(axis=0, how='any', inplace=True)
df_18.shape

(797, 13)

In [15]:
# verifique se quaisquer colunas em 2008 têm valores nulos - o resultado deve ser False
df_08.isnull().sum().any()

False

In [16]:
# verifique se quaisquer colunas em 2018 têm valores nulos - o resultado deve ser False
df_18.isnull().sum().any()

False

## Desduplique os dados

In [17]:
# exiba o número de duplicatas nos conjuntos de dados de 2008 e 2018
df_08.duplicated().sum()

23

In [18]:
df_18.duplicated().sum()

3

In [19]:
# descarte duplicatas em ambos conjuntos de dados
df_08.drop_duplicates(keep='first', inplace=True)
df_18.drop_duplicates(keep='first', inplace=True)

In [20]:
# exiba o número de duplicatas novamente para confirmar desduplicação - ambos devem ser 0
print('08: ', df_08.duplicated().sum())
print('18: ', df_18.duplicated().sum())


08:  0
18:  0


In [21]:
# salve seu progresso para a próxima seção
df_08.to_csv('data/data_08.csv', index=False)
df_18.to_csv('data/data_18.csv', index=False)