# 合并数据集
用 Pandas Merges 创建 `clean_08.csv` 和 `clean_18.csv` 的合并数据集。

In [6]:
# 加载数据集
import pandas as pd
df_08 =pd.read_csv('clean_08.csv')
df_18 =pd.read_csv('clean_18.csv')

### 1. 重命名 2008 列，以在合并后与 2018 列进行区分

为此，请使用 Pandas 的 rename() 和 lambda 函数。查看这里的示例 。  
在 lambda 函数中，取列标签的前 10 个字符，并将其与 _2008 连接起来。（仅取前 10 个字符，以避免列名过长。）  
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html

lambda 函数看起来应该是这样的:   
`lambda x: x[:10] + "_2008"  `

在你的 rename 中，不要忘了在添加 lambda 函数时指定参数 columns=！

### 创建合并数据集

In [7]:
# 重命名 2008 列
df_08.rename(columns=lambda x:x[:10]+"_2008",inplace=True)

In [8]:
# 查看并检查名称
df_08.head()

Unnamed: 0,model_2008,displ_2008,cyl_2008,trans_2008,drive_2008,fuel_2008,veh_class_2008,air_pollut_2008,city_mpg_2008,hwy_mpg_2008,cmb_mpg_2008,greenhouse_2008,smartway_2008
0,ACURA MDX,3.7,6,Auto-S5,4WD,Gasoline,SUV,7.0,15.0,20.0,17.0,4.0,no
1,ACURA RDX,2.3,4,Auto-S5,4WD,Gasoline,SUV,7.0,17.0,22.0,19.0,5.0,no
2,ACURA RL,3.5,6,Auto-S5,4WD,Gasoline,midsize car,7.0,16.0,24.0,19.0,5.0,no
3,ACURA TL,3.2,6,Auto-S5,2WD,Gasoline,midsize car,7.0,18.0,26.0,21.0,6.0,yes
4,ACURA TL,3.5,6,Auto-S5,2WD,Gasoline,midsize car,7.0,17.0,26.0,20.0,6.0,yes


In [9]:
df_18.head(2)

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA RDX,3.5,6,SemiAuto-6,2WD,Gasoline,small SUV,3.0,20.0,28.0,23.0,5.0,No
1,ACURA RDX,3.5,6,SemiAuto-6,4WD,Gasoline,small SUV,3.0,19.0,27.0,22.0,4.0,No


### 2. 执行内部合并

要回答最后一个问题，我们只想知道同型号的汽车有何更新，以及新车型的 mpg 与旧型号的 mpg 相比如何。  

执行内部合并，左侧为 model_2008 和右侧为 model。在此查看 Pandas 的 merge 函数文档 。  
https://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging  
注意与`append`的区别：  
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.append.html?highlight=append#pandas.DataFrame.append

merge api：https://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging

In [12]:
# 合并数据集
df_combined =pd.merge(df_08,df_18,left_on='model_2008',right_on='model',how='inner')

In [13]:
# 查看并检查合并结果
df_combined.head()

Unnamed: 0,model_2008,displ_2008,cyl_2008,trans_2008,drive_2008,fuel_2008,veh_class_2008,air_pollut_2008,city_mpg_2008,hwy_mpg_2008,...,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
0,ACURA RDX,2.3,4,Auto-S5,4WD,Gasoline,SUV,7.0,17.0,22.0,...,SemiAuto-6,2WD,Gasoline,small SUV,3.0,20.0,28.0,23.0,5.0,No
1,ACURA RDX,2.3,4,Auto-S5,4WD,Gasoline,SUV,7.0,17.0,22.0,...,SemiAuto-6,4WD,Gasoline,small SUV,3.0,19.0,27.0,22.0,4.0,No
2,AUDI A3,2.0,4,Man-6,2WD,Gasoline,station wagon,7.0,21.0,29.0,...,AMS-6,4WD,Gasoline,small car,7.0,24.0,31.0,27.0,6.0,No
3,AUDI A3,2.0,4,Man-6,2WD,Gasoline,station wagon,7.0,21.0,29.0,...,AMS-7,2WD,Gasoline,small car,7.0,26.0,35.0,29.0,6.0,No
4,AUDI A3,2.0,4,Auto-S6,2WD,Gasoline,station wagon,7.0,22.0,29.0,...,AMS-6,4WD,Gasoline,small car,7.0,24.0,31.0,27.0,6.0,No


In [14]:
len(df_combined.columns)

26

保存合并数据集

In [15]:
df_combined.to_csv('combined_dataset.csv', index=False)