# 修正 `air_pollution_score` 数据类型
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [None]:
# 加载数据集
df_08 = 
df_18 = 

In [None]:
# 尝试使用 Pandas 的 to_numeric 或 astype 功能将
# 2008 air_pollution_score 列转换成浮点——无法转换


# 解决问题
这个问题看起来不像数据类型转换那样简单。根据上述错误，第 582 行的值是 "6/4"。我们检验一下。

In [None]:
df_08.iloc[582]

# 存在这个问题的不只是空气污染分数！
mpg 列和温室气体分数也存在同样的问题。这可能是它们都被保存为字符串的原因。根据我在 PDF 文档中找到的 [这个链接](http://www.fueleconomy.gov/feg/findacarhelp.shtml#airPollutionScore)，

> “如果车辆采用多种燃料提供动力，应该提供每个燃料类型的估值。”

所以，采用混合动力的所有车辆，例如上面这辆车（采用乙醇和天然气），它们的字符串具有两个值，每种燃料为一个值。这有点复杂，我将给你展示如何用 2008 数据集实现这个效果，之后你用 2018 数据集尝试一下。

In [None]:
# 首先，获取 2008 年的所有混合动力
hb_08 = df_08[df_08['fuel'].str.contains('/')]
hb_08

好像这个数据集只有一个混合动力车，而 2018 年有很多。但是别担心，现在进行的步骤对它同样适用！

In [None]:
# 2018年的混合动力
hb_18 = df_18[df_18['fuel'].str.contains('/')]
hb_18

提取每个混合动力行，把它们分成两个新行，一行是第一种燃料类型的值（"/" 前面的值），另一行是第二种燃料类型的值（"/" 后面的值）。现在用两个数据框把它们分开。

In [None]:
# 创建 2008 混合动力数据框的两个副本
df1 = hb_08.copy()  # 每个混合动力车第一种燃料类型的数据
df2 = hb_08.copy()  # 每个混合动力车第二种燃料类型的数据

# 每个数据应该如下所示
df1

接下来，我们将使用 Pandas 的 apply 函数。参见 [这里](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html) 的文档。

In [None]:
# 将被 "/" 分割的列
split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']

# 对每个数据框副本的每个列应用分割功能
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [None]:
# 这个数据框包含混合动力车第一种燃料类型的信息
# 也就是 "/" 前面的值
df1

In [None]:
# 这个数据框包含混合动力车第二种燃料类型的信息
# 也就是 "/" 后面的值
df2

In [None]:
# 将数据框组合，添加到原始数据框中
new_rows = df1.append(df2)

# 现在每辆车的每种燃料类型都有单独的行
new_rows

In [None]:
# 丢弃原始混合动力行
df_08.drop(hb_08.index, inplace=True)

# 添加新分割的行
df_08 = df_08.append(new_rows, ignore_index=True)

In [None]:
# 检查含有 "/" 的所有原始混合动力行是否都已删除
df_08[df_08['fuel'].str.contains('/')]

In [None]:
df_08.shape

# 对 2018 数据集重复相同过程

In [None]:
# 创建 2018 混合动力数据框 hb_18 的两个副本
df1 = 
df2 = 

### 分割 `fuel`、`city_mpg`、`hwy_mpg`、`cmb_mpg` 的值
不需要分割 `air_pollution_score` 或 `greenhouse_gas_score` 的值，因为这些列在 2018 数据集中已经是整数。

In [None]:
# 待分割列的列表
split_columns = 

# 对每个数据框副本的每个列应用分割功能
for c in split_columns:
    df1[c] = 
    df2[c] = 

In [None]:
# 添加这两个数据框
new_rows = 

# 从原始 2018 数据框中丢弃每个混合动力行
# 对 hb_18 的索引进行 Pandas 的丢弃功能，实现上述步骤
df_18.drop(hb_18.index, inplace=True)

# 将 new_rows 添加到 df_18
df_18 = 

In [None]:
# 检查是否已删除
df_18[df_18['fuel'].str.contains('/')]

In [None]:
df_18.shape

### 现在可以继续进行 `air_pollution_score` 所需的更改，如下所示：
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [None]:
# 对于 2008 空气污染列，将字符串转换成浮点


In [None]:
# 对于 2018 空气污染列，将整数转换成浮点


In [None]:
df_08.to_csv('data_08.csv', index=False)
df_18.to_csv('data_18.csv', index=False)