### 参数及说明
left	参与合并的左侧DataFrame<br>
right	参与合并的右侧DataFrame<br>
how	连接方式：‘inner’（默认）；还有，‘outer’、‘left’、‘right’<br>
on	用于连接的列名，必须同时存在于左右两个DataFrame对象中，如果位指定，则以left和right列名的交集作为连接键<br>
left_on	左侧DataFarme中用作连接键的列<br>
right_on	右侧DataFarme中用作连接键的列<br>
left_index	将左侧的行索引用作其连接键<br>
right_index	将右侧的行索引用作其连接键<br>
sort	根据连接键对合并后的数据进行排序，默认为True。有时在处理大数据集时，禁用该选项可获得更好的性能<br>
suffixes	字符串值元组，用于追加到重叠列名的末尾，默认为（‘_x’,‘_y’）.例如，左右两个DataFrame对象都有‘data’，则结果中就会出现‘data_x’，‘data_y’<br>
copy	设置为False，可以在某些特殊情况下避免将数据复制到结果数据结构中。默认总是赋值<br>

In [1]:
import pandas as pd
import numpy as np

## 1、多对一的合并（一个表的连接键列有重复值，另一个表中的连接键没有重复值）

In [2]:
# 创建数据集
df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1': range(7)});df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [3]:
df2 = pd.DataFrame({'key':['a','b','d'],'data2':range(3)});df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [4]:
#内连接，取交集
# 只合并两个DF里都有的行
df1.merge(df2,on = 'key',how = 'inner')
# pd.merge(df1,df2) # 默认情况是inner
# df1.merge(df2) # 以上效果一样

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [5]:
#外链接，取并集，并用nan填充
# 除了两个表里都有的行，也会将两个表中独有的行合并
df1.merge(df2,on = 'key',how = 'outer')
pd.merge(df1,df2,on = 'key',how = 'outer')
# 产生的NA可以进行填充
pd.merge(df1,df2,on = 'key',how = 'outer').fillna(0)

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


In [6]:
#左连接，左侧DataFrame取全部，右侧DataFrame取部分
# 除了两个表里都有的行，也会将第一个表(左边)中独有的行合并
df1.merge(df2,on = 'key',how = 'left')

Unnamed: 0,data1,key,data2
0,0,b,1.0
1,1,b,1.0
2,2,a,0.0
3,3,c,
4,4,a,0.0
5,5,a,0.0
6,6,b,1.0


In [7]:
#右连接，右侧DataFrame取全部，左侧DataFrame取部分
# 除了两个表里都有的行，也会将第二个表(右边)中独有的行合并
df1.merge(df2,on = 'key',how = 'right')
pd.merge(df1,df2,on = 'key',how = 'right')

Unnamed: 0,data1,key,data2
0,0.0,b,1
1,1.0,b,1
2,6.0,b,1
3,2.0,a,0
4,4.0,a,0
5,5.0,a,0
6,,d,2


## 2、 如果左右侧DataFrame的连接键列名不一致，但是取值有重叠，可使用left_on、right_on来指定左右连接键

In [9]:
df3 = pd.DataFrame({'lkey':['b','b','a','c','a','a','b'],'data1': range(7)});df3

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [10]:
df4 = pd.DataFrame({'rkey':['a','b','d'],'data2':range(3)});df4

Unnamed: 0,data2,rkey
0,0,a
1,1,b
2,2,d


In [11]:
df3.merge(df4,left_on = 'lkey',right_on = 'rkey',how = 'inner')
pd.merge(df3,df4,left_on = 'lkey',right_on = 'rkey',how = 'inner')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


1.如果两个Dataframe中有相同的列名，合并时默认会在第一个DF列名后加_x,第二个后加_y<br>
2.如果想修改用参数suffixes=(,)

In [12]:
pd.merge(df1,df2,on = 'key',how = 'right',suffixes=('左','右'))

Unnamed: 0,data1,key,data2
0,0.0,b,1
1,1.0,b,1
2,6.0,b,1
3,2.0,a,0
4,4.0,a,0
5,5.0,a,0
6,,d,2


很多列时可以选择需要的列进行合并

In [None]:
pd.merge(df1['字段1','字段2','字段3'],df2['字段3','字段4'],how='inner',on='字段3')

### 如果合并时要用索引作为键的话，不能用on,left_on,right_on
### 要用left_index = True,right_index = True

In [None]:
pd.merge(df1['字段1','字段2','字段3'],df2['字段3','字段4'],how='right',left_index=True,right_index=True)

# 其他参数
### sort = FALSE表示不排序<br>
### indicator = True ，会增加一列"_merge",说明这一行是来自那一个DF或both<br>

# 缺点
### 无法纵向合并，非要的话可先将DF.T在合并。。。