# 过滤、丢弃空值、重复数据删除
使用 `data_08_pilot_p1.csv` 和 `data_18_pilot_p1.csv`

In [1]:
# 加载数据集
import pandas as pd
df_08 = pd.read_csv("data_08_pilot_p1.csv")
df_18 = pd.read_csv("data_18_pilot_p1.csv")

In [2]:
# 查看数据集维度
df_08.shape

(2404, 14)

In [3]:
# 查看数据集维度
df_18.shape

(1611, 14)

In [4]:
df_08.head()

Unnamed: 0,model,displ,cyl,trans,drive,fuel,cert_region,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,15,20,17,4,no
1,ACURA MDX,3.7,(6 cyl),Auto-S5,4WD,Gasoline,FA,SUV,6,15,20,17,4,no
2,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,CA,SUV,7,17,22,19,5,no
3,ACURA RDX,2.3,(4 cyl),Auto-S5,4WD,Gasoline,FA,SUV,6,17,22,19,5,no
4,ACURA RL,3.5,(6 cyl),Auto-S5,4WD,Gasoline,CA,midsize car,7,16,24,19,5,no


## 按认证区域过滤

In [5]:
# 过滤满足加州标准的行的数据集
df_08 = df_08.query('cert_region == "CA"')
df_18 = df_18[df_18["cert_region"]=="CA"]

In [6]:
# 确定唯一的认证区域是加州
df_08['cert_region'].unique()

array(['CA'], dtype=object)

In [7]:
# 确定唯一的认证区域是加州
df_18['cert_region'].unique()

array(['CA'], dtype=object)

In [8]:
# 将认证区域列从两个数据集中丢弃
df_08.drop("cert_region",axis=1,inplace=True)
df_18.drop("cert_region",axis=1,inplace=True)

In [9]:
df_08.shape

(1084, 13)

In [10]:
df_18.shape

(798, 13)

## 丢弃含有缺失值的行

In [11]:
# 查看 2008 年每个特征的缺失值数量
df_08.isnull().sum()

model                    0
displ                    0
cyl                     75
trans                   75
drive                   37
fuel                     0
veh_class                0
air_pollution_score      0
city_mpg                75
hwy_mpg                 75
cmb_mpg                 75
greenhouse_gas_score    75
smartway                 0
dtype: int64

In [12]:
# 查看 2018 年每个特征的缺失值数量
df_18.isnull().sum()

model                   0
displ                   1
cyl                     1
trans                   0
drive                   0
fuel                    0
veh_class               0
air_pollution_score     0
city_mpg                0
hwy_mpg                 0
cmb_mpg                 0
greenhouse_gas_score    0
smartway                0
dtype: int64

In [13]:
# 丢弃两个数据集中有任何空值的行
df_18.dropna(inplace=True)
df_08.dropna(inplace=True)

In [14]:
# 检查 2008 年的任何列是否有空值 - 应打印为“假”
df_08.isnull().sum().any()

False

In [15]:
# 检查 2018 年的任何列是否有空值 - 应打印为“假”
df_18.isnull().sum().any()

False

## 重复数据删除

In [19]:
# 打印 2008 年和 2018 年数据集的重复数量
df_08.duplicated().sum()

23

In [20]:
df_18.duplicated().sum()

3

In [21]:
# 丢弃两个数据集中的重复数据
df_08.drop_duplicates(inplace=True)
df_18.drop_duplicates(inplace=True)

In [22]:
# 再次打印重复数量，确认重复数据已删除——均应为 0 
df_08.duplicated().sum()

0

In [23]:
df_18.duplicated().sum()

0

In [24]:
# 保存进度，以便下一段使用
df_08.to_csv('data_08_pilot_p2.csv', index=False)
df_18.to_csv('data_18_pilot_p2.csv', index=False)