# 修正 `air_pollution_score` 数据类型
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [1]:
# 加载数据集
import pandas as pd

df_08 = pd.read_csv('data_08.csv')
df_18 = pd.read_csv('data_18.csv')

In [11]:
# 尝试使用 Pandas 的 to_numeric 或 astype 功能将
# 2008 air_pollution_score 列转换成浮点——无法转换
df_08['air_pollution_score']= df_08['air_pollution_score'].astype(float)

ValueError: could not convert string to float: '7/7'

# 解决问题
这个问题看起来不像数据类型转换那样简单。根据上述错误，第 582 行的值是 "6/4"。我们检验一下。

In [12]:
df_08.iloc[582]

model                   CHRYSLER PT Cruiser Convertible
displ                                               2.4
cyl                                             (4 cyl)
trans                                           Auto-L4
drive                                               2WD
fuel                                           Gasoline
cert_region                                          FA
veh_class                                     small car
air_pollution_score                                   6
city_mpg                                             19
hwy_mpg                                              24
cmb_mpg                                              21
greenhouse_gas_score                                  6
smartway                                             no
Name: 582, dtype: object

# 存在这个问题的不只是空气污染分数！
mpg 列和温室气体分数也存在同样的问题。这可能是它们都被保存为字符串的原因。根据我在 PDF 文档中找到的 [这个链接](http://www.fueleconomy.gov/feg/findacarhelp.shtml#airPollutionScore)，

> “如果车辆采用多种燃料提供动力，应该提供每个燃料类型的估值。”

所以，采用混合动力的所有车辆，例如上面这辆车（采用乙醇和天然气），它们的字符串具有两个值，每种燃料为一个值。这有点复杂，我将给你展示如何用 2008 数据集实现这个效果，之后你用 2018 数据集尝试一下。

In [14]:
# 首先，获取 2008 年的所有混合动力
hb_08 = df_08[df_08['fuel'].str.contains('/')]

### 使用shape可以看到数据行列是多少
hb_08.shape

(72, 14)

好像这个数据集只有一个混合动力车，而 2018 年有很多。但是别担心，现在进行的步骤对它同样适用！

In [15]:
# 2018年的混合动力
hb_18 = df_18[df_18['fuel'].str.contains('/')]
hb_18.shape

(160, 14)

提取每个混合动力行，把它们分成两个新行，一行是第一种燃料类型的值（"/" 前面的值），另一行是第二种燃料类型的值（"/" 后面的值）。现在用两个数据框把它们分开。

In [25]:
# 创建 2008 混合动力数据框的两个副本
df1 = hb_08.copy()  # 每个混合动力车第一种燃料类型的数据
df2 = hb_18.copy()  # 每个混合动力车第二种燃料类型的数据

# 每个数据应该如下所示
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,cert_region,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
316,CHEVROLET Avalanche 1500,5.3,(8 cyl),Auto-L4,2WD,ethanol/gas,FC,SUV,7/7,11/14,15/20,12/16,6/4,no
317,CHEVROLET Avalanche 1500,5.3,(8 cyl),Auto-L4,4WD,ethanol/gas,FC,SUV,7/7,11/14,14/19,12/16,6/4,no
321,CHEVROLET Avalanche 1500,5.3,(8 cyl),Auto-L4,2WD,ethanol/gas,FC,SUV,6/6,11/14,15/20,12/16,6/4,no
322,CHEVROLET Avalanche 1500,5.3,(8 cyl),Auto-L4,4WD,ethanol/gas,FC,SUV,6/6,11/14,14/19,12/16,6/4,no
380,CHEVROLET Express 1500,5.3,(8 cyl),Auto-L4,4WD,ethanol/gas,FC,van,6/6,9/12,12/16,10/14,4/2,no
381,CHEVROLET Express 1500,5.3,(8 cyl),Auto-L4,2WD,ethanol/gas,FC,van,6/6,9/12,12/16,10/14,4/2,no
386,CHEVROLET Express 2500,5.3,(8 cyl),Auto-L4,2WD,ethanol/gas,FC,van,6/6,9/12,12/16,10/14,4/2,no
416,CHEVROLET Impala,3.5,(6 cyl),Auto-L4,2WD,ethanol/gas,FC,large car,6/6,14/18,21/29,16/22,8/6,no
417,CHEVROLET Impala,3.9,(6 cyl),Auto-L4,2WD,ethanol/gas,FC,large car,6/6,13/18,20/28,16/21,8/6,no
429,CHEVROLET Silverado 15,5.3,(8 cyl),Auto-L4,2WD,ethanol/gas,FC,pickup,7/7,11/15,15/20,13/17,6/4,no


接下来，我们将使用 Pandas 的 apply 函数。参见 [这里](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html) 的文档。

In [29]:
split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 72 entries, 316 to 1809
Data columns (total 14 columns):
model                   72 non-null object
displ                   72 non-null float64
cyl                     66 non-null object
trans                   66 non-null object
drive                   66 non-null object
fuel                    72 non-null object
cert_region             72 non-null object
veh_class               72 non-null object
air_pollution_score     72 non-null object
city_mpg                66 non-null object
hwy_mpg                 66 non-null object
cmb_mpg                 66 non-null object
greenhouse_gas_score    66 non-null object
smartway                72 non-null object
dtypes: float64(1), object(13)
memory usage: 8.4+ KB


In [27]:
df1.shape

(72, 14)

In [30]:
df2.shape

(160, 14)

In [32]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 160 entries, 55 to 2647
Data columns (total 14 columns):
model                   160 non-null object
displ                   160 non-null float64
cyl                     160 non-null float64
trans                   160 non-null object
drive                   160 non-null object
fuel                    160 non-null object
cert_region             160 non-null object
veh_class               160 non-null object
air_pollution_score     160 non-null int64
city_mpg                160 non-null object
hwy_mpg                 160 non-null object
cmb_mpg                 160 non-null object
greenhouse_gas_score    160 non-null int64
smartway                160 non-null object
dtypes: float64(2), int64(2), object(10)
memory usage: 18.8+ KB


In [31]:

split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']


for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])
    # lambda对每个带/的进行分割，分别赋值第1个和第2个拆分元素
print(df1.head(3))
# 看下是否成功

AttributeError: 'int' object has no attribute 'split'

In [22]:
# 将被 "/" 分割的列
split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']

# 对每个数据框副本的每个列应用分割功能
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

IndexError: list index out of range

In [11]:
# 这个数据框包含混合动力车第一种燃料类型的信息
# 也就是 "/" 前面的值
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [12]:
# 这个数据框包含混合动力车第二种燃料类型的信息
# 也就是 "/" 后面的值
df2

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [13]:
# 将数据框组合，添加到原始数据框中
new_rows = df1.append(df2)

# 现在每辆车的每种燃料类型都有单独的行
new_rows

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [14]:
# 丢弃原始混合动力行
df_08.drop(hb_08.index, inplace=True)

# 添加新分割的行
df_08 = df_08.append(new_rows, ignore_index=True)

In [17]:
# 检查含有 "/" 的所有原始混合动力行是否都已删除
df_08[df_08['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [15]:
df_08.shape

(987, 13)

# 对 2018 数据集重复相同过程

In [21]:
hb_18 = df_18[df_18['fuel'].str.contains('/')]
hb_18

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [22]:
# 创建 2018 混合动力数据框 hb_18 的两个副本
df1 = hb_18.copy()
df2 = hb_18.copy()

### 分割 `fuel`、`city_mpg`、`hwy_mpg`、`cmb_mpg` 的值
不需要分割 `air_pollution_score` 或 `greenhouse_gas_score` 的值，因为这些列在 2018 数据集中已经是整数。

In [23]:
# 待分割列的列表
split_columns = ['fuel', 'city_mpg', 'hwy_mpg', 'cmb_mpg']

# 对每个数据框副本的每个列应用分割功能
for d in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [24]:
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [25]:
df2

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [26]:
# 添加这两个数据框
new_rows = df1.append(df2)

# 从原始 2018 数据框中丢弃每个混合动力行
# 对 hb_18 的索引进行 Pandas 的丢弃功能，实现上述步骤
df_18.drop(hb_18.index, inplace=True)

# 将 new_rows 添加到 df_18
df_18 = df_18.append(new_rows, ignore_index = True)

In [33]:
# 检查是否已删除
df_18[df_18['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [34]:
df_18.shape

(832, 13)

### 现在可以继续进行 `air_pollution_score` 所需的更改，如下所示：
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [35]:
# 对于 2008 空气污染列，将字符串转换成浮点
df_08['air_pollution_score']= df_08['air_pollution_score'].astype(float)

In [36]:
# 对于 2018 空气污染列，将整数转换成浮点
df_18['air_pollution_score']= df_18['air_pollution_score'].astype(float)

In [37]:
df_08.to_csv('data_08_1.csv', index=False)
df_18.to_csv('data_18_1.csv', index=False)