# 修正 `air_pollution_score` 数据类型
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [3]:
# 加载数据集
import numpy as np
import pandas as pd
df_08 = pd.read_csv("data_08_pilot_p3.csv")
df_18 = pd.read_csv("data_18_pilot_p3.csv")

In [4]:
# 尝试使用 Pandas 的 to_numeric 或 astype 功能将
# 2008 air_pollution_score 列转换成浮点——无法转换
pd.to_numeric(df_08.air_pollution_score)

ValueError: Unable to parse string "6/4" at position 582

In [None]:
df_08.air_pollution_score.astype(float)

# 解决问题
这个问题看起来不像数据类型转换那样简单。根据上述错误，第 582 行的值是 "6/4"。我们检验一下。

In [5]:
df_08.iloc[582]

model                   MERCEDES-BENZ C300
displ                                    3
cyl                                      6
trans                              Auto-L7
drive                                  2WD
fuel                           ethanol/gas
veh_class                        small car
air_pollution_score                    6/4
city_mpg                             13/18
hwy_mpg                              19/25
cmb_mpg                              15/21
greenhouse_gas_score                   7/6
smartway                                no
Name: 582, dtype: object

# 存在这个问题的不只是空气污染分数！
mpg 列和温室气体分数也存在同样的问题。这可能是它们都被保存为字符串的原因。根据我在 PDF 文档中找到的 [这个链接](http://www.fueleconomy.gov/feg/findacarhelp.shtml#airPollutionScore)，

> “如果车辆采用多种燃料提供动力，应该提供每个燃料类型的估值。”

所以，采用混合动力的所有车辆，例如上面这辆车（采用乙醇和天然气），它们的字符串具有两个值，每种燃料为一个值。这有点复杂，我将给你展示如何用 2008 数据集实现这个效果，之后你用 2018 数据集尝试一下。

In [6]:
# 首先，获取 2008 年的所有混合动力
hb_08 = df_08[df_08['fuel'].str.contains('/')]
hb_08

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol/gas,small car,6/4,13/18,19/25,15/21,7/6,no


好像这个数据集只有一个混合动力车，而 2018 年有很多。但是别担心，现在进行的步骤对它同样适用！

In [7]:
# 2018年的混合动力
hb_18 = df_18[df_18['fuel'].str.contains('/')]
hb_18

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
52,BMW 330e,2.0,4,SemiAuto-8,2WD,Gasoline/Electricity,small car,3,28/66,34/78,30/71,10,Yes
78,BMW 530e,2.0,4,SemiAuto-8,2WD,Gasoline/Electricity,small car,7,27/70,31/75,29/72,10,Elite
79,BMW 530e,2.0,4,SemiAuto-8,4WD,Gasoline/Electricity,small car,7,27/66,31/68,28/67,10,Elite
92,BMW 740e,2.0,4,SemiAuto-8,4WD,Gasoline/Electricity,large car,3,25/62,29/68,27/64,9,Yes
189,CHEVROLET Impala,3.6,6,SemiAuto-6,2WD,Ethanol/Gas,large car,5,14/18,20/28,16/22,4,No
195,CHEVROLET Silverado 15,4.3,6,Auto-6,2WD,Ethanol/Gas,pickup,5,12/18,16/24,14/20,4,No
196,CHEVROLET Silverado 15,4.3,6,Auto-6,4WD,Ethanol/Gas,pickup,5,12/17,15/22,13/19,3,No
197,CHEVROLET Silverado 15,5.3,8,Auto-6,2WD,Ethanol/Gas,pickup,3,12/16,17/23,14/19,3,No
212,CHEVROLET Suburban 1500,5.3,8,Auto-6,2WD,Ethanol/Gas,standard SUV,3,12/16,17/23,14/19,3,No
214,CHEVROLET Suburban 1500,5.3,8,Auto-6,4WD,Ethanol/Gas,standard SUV,3,11/16,15/22,12/18,3,No


提取每个混合动力行，把它们分成两个新行，一行是第一种燃料类型的值（"/" 前面的值），另一行是第二种燃料类型的值（"/" 后面的值）。现在用两个数据框把它们分开。

In [8]:
# 创建 2008 混合动力数据框的两个副本
df1 = hb_08.copy()  # 每个混合动力车第一种燃料类型的数据
df2 = hb_08.copy()  # 每个混合动力车第二种燃料类型的数据

# 每个数据应该如下所示
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol/gas,small car,6/4,13/18,19/25,15/21,7/6,no


接下来，我们将使用 Pandas 的 apply 函数。参见 [这里](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html) 的文档。

In [9]:
# 将被 "/" 分割的列
split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']

# 对每个数据框副本的每个列应用分割功能
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [10]:
# 这个数据框包含混合动力车第一种燃料类型的信息
# 也就是 "/" 前面的值
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol,small car,6,13,19,15,7,no


In [11]:
# 这个数据框包含混合动力车第二种燃料类型的信息
# 也就是 "/" 后面的值
df2

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,gas,small car,4,18,25,21,6,no


In [12]:
# 将数据框组合，添加到原始数据框中
new_rows = df1.append(df2)

# 现在每辆车的每种燃料类型都有单独的行
new_rows

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol,small car,6,13,19,15,7,no
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,gas,small car,4,18,25,21,6,no


In [13]:
# 丢弃原始混合动力行
df_08.drop(hb_08.index, inplace=True)
# 添加新分割的行
df_08 = df_08.append(new_rows, ignore_index=True)

In [14]:
# 检查含有 "/" 的所有原始混合动力行是否都已删除
df_08[df_08['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [15]:
df_08.shape

(987, 13)

# 对 2018 数据集重复相同过程

In [16]:
# 创建 2018 混合动力数据框 hb_18 的两个副本
df1 = hb_18.copy()
df2 = hb_18.copy()

### 分割 `fuel`、`city_mpg`、`hwy_mpg`、`cmb_mpg` 的值
不需要分割 `air_pollution_score` 或 `greenhouse_gas_score` 的值，因为这些列在 2018 数据集中已经是整数。

In [17]:
# 待分割列的列表
split_columns = ["fuel","city_mpg","hwy_mpg","cmb_mpg"]

# 对每个数据框副本的每个列应用分割功能
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [19]:
# 添加这两个数据框
new_rows = df1.append(df2,ignore_index=True)

# 从原始 2018 数据框中丢弃每个混合动力行
# 对 hb_18 的索引进行 Pandas 的丢弃功能，实现上述步骤
df_18.drop(hb_18.index, inplace=True)

# 将 new_rows 添加到 df_18
df_18 = df_18.append(new_rows,ignore_index=True)

In [20]:
# 检查是否已删除
df_18[df_18['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [21]:
df_18.shape

(832, 13)

### 现在可以继续进行 `air_pollution_score` 所需的更改，如下所示：
- 2008：将字符串转换成浮点
- 2018：将整数转换成浮点

In [24]:
# 对于 2008 空气污染列，将字符串转换成浮点
df_08.air_pollution_score = df_08.air_pollution_score.astype(float)
df_08.air_pollution_score.head()

0    7.0
1    7.0
2    7.0
3    7.0
4    7.0
Name: air_pollution_score, dtype: float64

In [26]:
# 对于 2018 空气污染列，将整数转换成浮点
df_18.air_pollution_score = df_18.air_pollution_score.astype(float)
df_18.air_pollution_score.head(1)

0    3.0
Name: air_pollution_score, dtype: float64

In [27]:
df_08.to_csv('data_08_pilot_p4.csv', index=False)
df_18.to_csv('data_18_pilot_p4.csv', index=False)