# Filtre, descarte valores nulos, desduplique
Use os arquivos `data_08.csv` e `data_18.csv`

In [2]:
# carregue conjuntos de dados
import pandas as pd

df_08 = pd.read_csv('data_08.csv')
df_18 = pd.read_csv('data_18.csv')

In [3]:
# exiba as dimensões do conjunto de dados
df_08.shape

(2404, 14)

In [4]:
# exiba as dimensões do conjunto de dados
df_18.shape

(1611, 14)

## Filtre por região de certificação

In [9]:
# filtre conjuntos de dados por linhas segundo os padrões da Califórnia
df_08 = df_08[df_08['cert_region'] == 'CA']

In [10]:
df_18 = df_18[df_18['cert_region'] == 'CA']

In [11]:
# confirme que a única região de certificação é a Califórnia
df_08['cert_region'].unique()

array(['CA'], dtype=object)

In [12]:
# confirme que a única região de certificação é a Califórnia
df_18['cert_region'].unique()

array(['CA'], dtype=object)

In [15]:
# descarte a coluna de certificação de região de ambos conjuntos de dados
df_08.drop(['cert_region'], axis=1, inplace=True)
df_08.head()

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,SUV,7,15,20,17,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,SUV,7,17,22,19,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,midsize car,7,16,24,19,5,no
6,ACURA TL,3.2,(6 cyl),Auto-S5,2WD,Gasoline,midsize car,7,18,26,21,6,yes
7,ACURA TL,3.5,(6 cyl),Auto-S5,2WD,Gasoline,midsize car,7,17,26,20,6,yes


In [17]:
df_18.drop(['cert_region'], axis=1, inplace=True)
df_18.head()

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
1,ACURA RDX,3.5,6.0,SemiAuto-6,2WD,Gasoline,small SUV,3,20,28,23,5,No
3,ACURA RDX,3.5,6.0,SemiAuto-6,4WD,Gasoline,small SUV,3,19,27,22,4,No
4,ACURA TLX,2.4,4.0,AMS-8,2WD,Gasoline,small car,3,23,33,27,6,No
6,ACURA TLX,3.5,6.0,SemiAuto-9,2WD,Gasoline,small car,3,20,32,24,5,No
8,ACURA TLX,3.5,6.0,SemiAuto-9,4WD,Gasoline,small car,3,21,30,24,5,No


In [16]:
df_08.shape

(1084, 13)

In [18]:
df_18.shape

(798, 13)

## Descarte linhas com valores faltantes

In [26]:
# exiba a contagem de valores faltantes para cada característica em 2008
df_08.isnull().sum().max()

75

In [27]:
# exiba a contagem de valores faltantes para cada característica em 2018
df_18.isnull().sum().max()

1

In [31]:
# descarte linhas com quaisquer valores nulos em ambos conjuntos de dados
df_08.isnull().sum()

model                    0
displ                    0
cyl                     75
trans                   75
drive                   37
fuel                     0
veh_class                0
air_pollution_score      0
city_mpg                75
hwy_mpg                 75
cmb_mpg                 75
greenhouse_gas_score    75
smartway                 0
dtype: int64

In [36]:
df_08.dropna(axis=0, inplace=True)

In [38]:
df_18.dropna(axis=0, inplace=True)

In [37]:
# verifique se quaisquer colunas em 2008 têm valores nulos - o resultado deve ser False
df_08.isnull().sum().any()

False

In [39]:
# verifique se quaisquer colunas em 2018 têm valores nulos - o resultado deve ser False
df_18.isnull().sum().any()

False

## Desduplique os dados

In [44]:
# exiba o número de duplicatas nos conjuntos de dados de 2008 e 2018
print("Numero de linhas duplicadas: \n2008: {0} linhas \n2018: {1} linhas".format(df_08.duplicated().sum(), df_18.duplicated().sum()))

Numero de linhas duplicadas: 
2008: 23 linhas 
2018: 3 linhas


In [53]:
# descarte duplicatas em ambos conjuntos de dados
df_08.drop_duplicates(inplace=True)
df_18.drop_duplicates(inplace=True)

In [54]:
# exiba o número de duplicatas novamente para confirmar desduplicação - ambos devem ser 0
print("Numero de linhas duplicadas: \n2008: {0} linhas \n2018: {1} linhas".format(df_08.duplicated().sum(), df_18.duplicated().sum()))

Numero de linhas duplicadas: 
2008: 0 linhas 
2018: 0 linhas


In [55]:
# salve seu progresso para a próxima seção
df_08.to_csv('data_08.csv', index=False)
df_18.to_csv('data_18.csv', index=False)