# 4.4 数据框的合并

**推荐学习资料：**[Joyful Pandas 第六章](http://joyfulpandas.datawhale.club/Content/ch6.html)

In [1]:
import numpy as np
import pandas as pd

## 1. concat函数

concat函数的主要作用是把两个表或者多个表按照纵向或者横向拼接。

在`concat`中，最常用的有三个参数，它们是`axis, join, keys`，分别表示拼接方向，连接形式，以及在新表中指示来自于哪一张旧表的名字。

在默认状态下的`axis=0`，表示纵向拼接多个表，常常用于多个样本的拼接；而`axis=1`表示横向拼接多个表，常用于多个字段或特征的拼接。

例如，纵向合并各表中人的信息：

In [2]:
df1 = pd.DataFrame({'Name':['San Zhang','Si Li'], 'Age':[20,30]})
df2 = pd.DataFrame({'Name':['Wu Wang'], 'Age':[40]})
pd.concat([df1, df2])

Unnamed: 0,Name,Age
0,San Zhang,20
1,Si Li,30
0,Wu Wang,40


横向合并各表中的字段：

In [3]:
df2 = pd.DataFrame({'Grade':[80, 90]})
df3 = pd.DataFrame({'Gender':['M', 'F']})
pd.concat([df1, df2, df3], 1)

Unnamed: 0,Name,Age,Grade,Gender
0,San Zhang,20,80,M
1,Si Li,30,90,F


虽然说`concat`是处理关系型合并的函数，但是它仍然是关于索引进行连接的。纵向拼接会根据列索引对其，默认状态下`join=outer`，表示保留两个表所有的列，并将不存在的值设为缺失；`join=inner`，表示保留两个表都出现过的列。横向拼接则根据行索引对齐，`join`参数可以类似设置。

In [4]:
df2 = pd.DataFrame({'Name':['Wu Wang'], 'Gender':['M']})
pd.concat([df1, df2])

Unnamed: 0,Name,Age,Gender
0,San Zhang,20.0,
1,Si Li,30.0,
0,Wu Wang,,M


In [5]:
df2 = pd.DataFrame({'Grade':[80, 90]}, index=[1, 2])
pd.concat([df1, df2], 1)

Unnamed: 0,Name,Age,Grade
0,San Zhang,20.0,
1,Si Li,30.0,80.0
2,,,90.0


In [6]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,Name,Age,Grade
1,Si Li,30,80


## 2. 序列与表的合并

利用`concat`可以实现多个表之间的方向拼接，如果想要把一个序列追加到表的行末或者列末，则可以分别使用`append`和`assign`方法。

在`append`中，如果原表是默认整数序列的索引，那么可以使用`ignore_index=True`对新序列对应的索引自动标号，否则必须对`Series`指定`name`属性。

In [7]:
s = pd.Series(['Wu Wang', 21], index = df1.columns)
df1.append(s, ignore_index=True)

Unnamed: 0,Name,Age
0,San Zhang,20
1,Si Li,30
2,Wu Wang,21


对于`assign`而言，虽然可以利用其添加新的列，但一般通过`df['new_col'] = ...`的形式就可以等价地添加新列。同时，使用`[]`修改的缺点是它会直接在原表上进行改动，而`assign`返回的是一个临时副本：

In [8]:
s = pd.Series([80, 90])
df1.assign(Grade=s)

Unnamed: 0,Name,Age,Grade
0,San Zhang,20,80
1,Si Li,30,90


In [9]:
df1['Grade'] = s
df1

Unnamed: 0,Name,Age,Grade
0,San Zhang,20,80
1,Si Li,30,90
