##### Pandas具有功能全面的高性能内存中连接操作，与SQL等关系数据库非常相似。Pandas提供了一个单独的merge()函数，作为DataFrame对象之间所有标准数据库连接操作的入口 

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=True)

- left - 一个DataFrame对象。
- right - 另一个DataFrame对象。
- on - 列(名称)连接，必须在左和右DataFrame对象中存在(找到)。
- left_on - 左侧DataFrame中的列用作键，可以是列名或长度等于DataFrame长度的数组。
- right_on - 来自右的DataFrame的列作为键，可以是列名或长度等于DataFrame长度的数
- left_index - 如果为True，则使用左侧DataFrame中的索引(行标签)作为其连接键。 在具有MultiIndex(分层)的DataFrame的情况下，级别的数量必须与来自右DataFrame的连接键的数量相匹配。
- right_index - 与右DataFrame的left_index具有相同的用法。
- how - 它是left, right, outer以及inner之中的一个，默认为内inner。 下面将介绍每种方法的用法。
- sort - 按照字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False时，在很多情况下大大提高性能。

In [2]:
import pandas as pd
left = pd.DataFrame({
    'id':[1,2,3,4,5],
    'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
    'subject_id':['sub1','sub2','sub4','sub6','sub5']})
right = pd.DataFrame(
         {'id':[1,2,3,4,5],
         'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
         'subject_id':['sub2','sub4','sub3','sub6','sub5']})

In [3]:
print(left)
print(right)

   id    Name subject_id
0   1    Alex       sub1
1   2     Amy       sub2
2   3   Allen       sub4
3   4   Alice       sub6
4   5  Ayoung       sub5
   id   Name subject_id
0   1  Billy       sub2
1   2  Brian       sub4
2   3   Bran       sub3
3   4  Bryce       sub6
4   5  Betty       sub5


#### 在一个键上合并两个数据帧

In [5]:
rs = pd.merge(left,right,on='id')
rs

Unnamed: 0,id,Name_x,subject_id_x,Name_y,subject_id_y
0,1,Alex,sub1,Billy,sub2
1,2,Amy,sub2,Brian,sub4
2,3,Allen,sub4,Bran,sub3
3,4,Alice,sub6,Bryce,sub6
4,5,Ayoung,sub5,Betty,sub5


#### 合并多个键上的两个数据框

In [7]:
rs = pd.merge(left,right,on=['id','subject_id'])
rs

Unnamed: 0,id,Name_x,subject_id,Name_y
0,4,Alice,sub6,Bryce
1,5,Ayoung,sub5,Betty


#### 使用“how”的参数

In [10]:
# left join
rs = pd.merge(left,right,on='subject_id',how='right')
rs

Unnamed: 0,id_x,Name_x,subject_id,id_y,Name_y
0,2.0,Amy,sub2,1,Billy
1,3.0,Allen,sub4,2,Brian
2,4.0,Alice,sub6,4,Bryce
3,5.0,Ayoung,sub5,5,Betty
4,,,sub3,3,Bran


In [11]:
# left join
rs = pd.merge(left,right,on='subject_id',how='outer')
rs

Unnamed: 0,id_x,Name_x,subject_id,id_y,Name_y
0,1.0,Alex,sub1,,
1,2.0,Amy,sub2,1.0,Billy
2,3.0,Allen,sub4,2.0,Brian
3,4.0,Alice,sub6,4.0,Bryce
4,5.0,Ayoung,sub5,5.0,Betty
5,,,sub3,3.0,Bran
