# 数据合并、连接和拼接 Merge, join, and concatenate


对于Series DataFrame和Panel对象，pandas提供了丰富的对象之间的连接、合并操作

**专业术语-中英文对照**

|    英语     | 汉语  | 
| ------------- |:-------------:| 
| merge      | 合并| 
| join      | 连接      |   
| concat | 拼接      |    
|index|索引|
|list|列表|
|dict|字典|



**pandas axis解释**

官方：It specifies the axis along which the means are computed.  沿着轴操作。

默认axis=0，也就是竖轴，操作的结果是行数的增加或减少

axis=1，也就是横轴，操作的结果每一列属性增加或减少


##  拼接操作 Concatenating objects

pandas.concat()方法实现了所有的拼接操作，即沿着一条轴将多个对象堆叠到一起。

在讲解复杂的concat操作之前，先看一个简单的示例：




In [3]:
import pandas as pd
import numpy as np

In [4]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']},
                   index=[0,1,2,3])

In [5]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [6]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                   'B': ['B4', 'B5', 'B6', 'B7'],
                   'C': ['C4', 'C5', 'C6', 'C7'],
                   'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

In [7]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [8]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [9]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [10]:
frames = [df1, df2, df3] #产生一个list对象

In [11]:
results = pd.concat(frames)


In [12]:
results

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


### 使用join='inner' 查看结果 ,和outer一样！

In [102]:
res = pd.concat(frames, join='inner')
res

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


修改df3的index，看看结果

In [103]:
df5 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[2, 3, 10, 11])
df5

Unnamed: 0,A,B,C,D
2,A8,B8,C8,D8
3,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [104]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [87]:
results2 = pd.concat([df1,df2,df5])
results2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
2,A8,B8,C8,D8
3,A9,B9,C9,D9


修改df5，使得某几行和df2一样，再看看结果

In [88]:
df5 = pd.DataFrame({'A': ['A2', 'A9', 'A10', 'A11'],
                   'B': ['B2', 'B9', 'B10', 'B11'],
                   'C': ['C2', 'C9', 'C10', 'C11'],
                   'D': ['D2', 'D9', 'D10', 'D11']},
                   index=[2, 3, 10, 11])
df5

Unnamed: 0,A,B,C,D
2,A2,B2,C2,D2
3,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [90]:
results3 = pd.concat([df1,df2,df5])
results3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
2,A2,B2,C2,D2
3,A9,B9,C9,D9


如同numpy.concatenate()方法, pandas.concat方法接收一个列表或者字典对象然后进行拼接操作，注意**列表或字典中每个对象要是同构的**。拼接的本质就是沿着一条轴并且根据对另一条轴上进行的操作 将列表中的对象堆叠。

concat方法的参数:

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)
       
* objs: Series、DataFrame或Panel对象构成的列表或字典。如果传入一个字典对象，它的键值就作为最后结果的键值参数，除非显示说明结果的键值参数。
* axis: 轴，取值范围是{0,1,...}，默认值为0。**concat操作时沿着的那条轴**
* join: 取值范围是{'inner', 'outer'},即内连接(交集)和外连接(并集)。 默认是'outer'(外连接)。连接操作决定了如何处理除axis之外的那条轴。
* join_axes: 拼接操作得到的结果，它的索引取值。
* keys: 序列对象，默认是None。 构建层次化索引时使用传入的keys作为最外层的索引。如果想要传入多级keys，需要以元组形式传入。
* levels: 序列构成的列表，默认是None。用于构建MultiIndex。
* names：列表，默认是None。层次索引中每个level的名字。
* verify_integrity: 布尔变量，默认是False。用于检查新拼接的轴是否包含重复值。这个操作很耗时。
* ignore_index: 布尔变量，默认是False。如果值为True，则不使用拼接轴现有的索引值，拼接结果的索引值将会设置为0,1,...,n-1。
* copy: 布尔变量，默认是True。 如果取值为False，则不会复制不必要的数据。

如果不结合例子来看，上面介绍的参数真没法解释。

先来看一下keys参数 用于构建层次化索引时起到的作用。

In [14]:
#层次化索引， 用处是给列表中每个对象一个map标记，这样在结果中还能方便的调用每个子Series或DataFrame
result = pd.concat(frames, keys=['x','y','z']) 

In [29]:
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


 注意到结果中的索引是层次化的。

In [16]:
result.ix['y'] #查看df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


**注意**：concat()方法在拼接使要复制所有的数据，因此对于它的性能你要容忍。为了方便起见，如果对多个数据集拼接，可以使用列表解析式。

In [None]:
frames = [process_your_file(f) for f in files]
result = pd.concat(frames)

### 对其它轴进行逻辑运算 Set logic on the other axes

如果是对DataFrame或Panel对象进行拼接操作，你可以同时对非拼接轴进行逻辑运算。由于Series只有一个轴，所以此功能不适用于Series对象。

有三种方式能够对非拼接轴进行逻辑运算：
* join='outer',取并集，这也是默认的操作，这个操作绝会有信息损失。
* join='inner',取交集。
* 利用join_axes参数。

针对上面三种方法，各举一例说明：

In [22]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                   'D': ['D2', 'D3', 'D6', 'D7'],
                   'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])


In [23]:
result = pd.concat([df1, df4], axis=1) #这里axis=1

**解释**：

axis=1，即拼接轴是横轴，先将df1的列和df4的列名进行堆叠，即每一行有7列。由于join='outer', 故将df1和df4的索引取取并集，得到{0,1,2,3,6,7},共6行。

还要注意结果的索引值是排好序的。

![](https://ooo.0o0.ooo/2016/04/13/570e069f14a7b.png)

In [42]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                   'D': ['D2', 'D3', 'D6', 'D7'],
                   'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[3, 2, 7, 6]) #注意这里的索引值序列
df4

Unnamed: 0,B,D,F
3,B2,D2,F2
2,B3,D3,F3
7,B6,D6,F6
6,B7,D7,F7


In [43]:
result = pd.concat([df1, df4], axis=1) 
result #结果中的索引值已排序

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B3,D3,F3
3,A3,B3,C3,D3,B2,D2,F2
6,,,,,B7,D7,F7
7,,,,,B6,D6,F6


再来看看join='inner'的例子：

In [46]:
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
3,A3,B3,C3,D3,B2,D2,F2
2,A2,B2,C2,D2,B3,D3,F3


![](https://ooo.0o0.ooo/2016/04/13/570e090c89f65.png)

**解释**：

axis=1，即拼接轴是横轴，先将df1的列和df4的列名进行堆叠，即每一行有7列。由于join='inner', 故将df1和df4的索引取取并集，得到{2,3},共2行。

还要注意结果的索引值没有排序。

最后，看一下使用 join_axes参数的例子：

In [45]:
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])

![](https://ooo.0o0.ooo/2016/04/13/570e08e45b72a.png)

**解释**：

axis=1，即拼接轴是横轴，先将df1的列和df4的列名进行堆叠，即每一行有7列。由于join_axes=[df1.index]，故结果的索引取值和df1相同，{0,1,2,3}。



### 使用append()方法进行 行拼接

如果只想对Series或DataFrame对象进行**行拼接(axis=0)**，推荐使用append()方法。 append()方法实际上就是沿着索引轴(axis=0)进行拼接的concat()。

**注意：**

如果是对DataFrame对象进行append操作，要注意他们的索引值交集必须为空！即每个DataFrame对象的索引值都不相同。列名不作要求。

其实，对DataFrame进行append操作时是可以忽略索引的，result = df1.append(df4, ignore_index=True)

In [52]:
result = df1.append(df2)

![](https://ooo.0o0.ooo/2016/04/13/570e0a95dfc80.png)

In [50]:
result = df1.append(df4)
#由于df1和df2的索引值交集不为空，导致最后result的索引值有重复！

![](https://ooo.0o0.ooo/2016/04/13/570e0b74df9bb.png)

append()方法可以一次拼接多个对象。

In [51]:
result = df1.append([df2,df3])


![](https://ooo.0o0.ooo/2016/04/13/570e0bb00ff0d.png)

append()操作并不是直接对df1对象进行操作，而是在df1副本的基础上进行拼接操作。

### 拼接操作时忽略索引值


大多数情况下，索引值都是默认生成的一些无意义的id，此时，两个DataFrame对象很可能有重复的索引值，但他们并没有实质物理含义，此时，在进行**行拼接**操作时我们可以忽略索引，使用**ignore_index**参数即可。

在进行列拼接时，就不要使用ignore_index参数了，因为99.9999%的数据列名都是有意义的。

In [59]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [60]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [62]:
result = pd.concat([df1, df4],ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [56]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [57]:
df4

Unnamed: 0,B,D,F
3,B2,D2,F2
2,B3,D3,F3
7,B6,D6,F6
6,B7,D7,F7


In [59]:
result2 = pd.concat([df1, df4],axis=1, ignore_index=True) #99.9999%不推荐大家列拼接时使用ignore_index
result2 

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B3,D3,F3
3,A3,B3,C3,D3,B2,D2,F2
6,,,,,B7,D7,F7
7,,,,,B6,D6,F6


DataFrame.append方法也有ignore_index参数哦

In [52]:
result = df1.append(df4, ignore_index=True)

![](https://ooo.0o0.ooo/2016/04/13/570e0cd79ff04.png)

### 同时对Series和DataFrame对象进行拼接操作



很简单，原因就是Series会被隐式转为DataFrame对象，同时保持列名相同

In [53]:
s1 = pd.Series(['X0','X1','X2','X3','X4'],name='X')

In [54]:
s1

0    X0
1    X1
2    X2
3    X3
4    X4
Name: X, dtype: object

In [60]:
result = pd.concat([df1,s1],axis=1)
result

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3
4,,,,,X4


如果Series的列没有名字，会默认生成数字用于列名。

In [63]:
s2 = pd.Series(['_0', '_1', '_2', '_3'])
result = pd.concat([df1, s2, s2, s2], axis=1)


![](https://ooo.0o0.ooo/2016/04/13/570e0eb1b48f2.png)

### 对Series对象进行拼接时使用keys参数

concat()方法中keys参数除了构建层次化索引外，另一个很常见的使用情景是：对多个Series对象进行拼接操作，我们希望重新制定得到的DataFrame对象中的列名，而不是使用Series中的名字。

In [64]:
s3 = pd.Series([0, 1, 2, 3], name='foo')
s4 = pd.Series([0, 1, 2, 3])
s5 = pd.Series([0, 1, 4, 5])

In [65]:
pd.concat([s3,s4,s5],axis=1)

Unnamed: 0,foo,0,1
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


通过keys参数，来设置生成的DataFrame的列名

In [66]:
pd.concat([s3,s4,s5],axis=1,keys=['red','blue','yellos'])

Unnamed: 0,red,blue,yellos
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


### 对DataFrame增加行操作

通过对DF对象传递一个Series或者dict，通过append操作能够增加一行，但是这种方式非常不推荐！因为要重新生成一个新的DF存放结果

也可以传递一个Series的list或者dict的list，来增加几行！

使用append，Series对象变成了DF的一行

In [109]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
s2

A    X0
B    X1
C    X2
D    X3
dtype: object

In [110]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [111]:
result = df1.append(s2, ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


# **对DataFrame进行关系数据库风格的join/merge操作**

pandas的join操作是非常高效的，和关系型数据库非常类似。

## pandas提供了merge方法，能够对DataFrame进行类似关系数据库的join操作，先看merge参数

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=True,
      suffixes=('_x', '_y'), copy=True, indicator=False)

* left: 参与操作的DataFrame对象
* right: 参与操作的另一个DataFrame对象
* on: 进行join操作的列名,**可以是一列，也可以是多列。这个列名必须在left和right中都存在！** 如果on参数没有赋值，并且left_index和right_index都是False，pandas会将left和right都含有的column作为on的值
* left_on: 取left中某一列名作为key，Can either be column names or arrays with length equal to the length of the DataFrame
* right_on: 取right中某一列名作为key,Can either be column names or arrays with length equal to the length of the DataFrame
* left_index: 如果取值是True，使用left中的index作为join操作的key
* right_index: 意思同上，
* how: 取值范围{'left', 'right', 'outer', 'inner'},**默认是inner**
* sort: 是否对结果按照join key进行排序，**默认是True**,如果序列不重要，可以设置为False，会提高效率
* suffixes: 如果left和right中除key之外，也有列名一样，会用suffixes参数区别, 默认格式Defaults to ('_x', '_y'). A tuple of string suffixes to apply to overlapping columns. 
* copy:是否copy数据，默认为True，这样不改变left和right
* indicator：在pandas 0.17.0中加入的参数，如果设置为True,能够显示结果中的key来自left还是right，
merger方法的返回的对象类型同left。


## 关系代数

对数据库操作熟悉的同学肯定对join操作不陌生，下面几种情况是必须知道的：
* **one-to-one** join: 比如对两个DF对象的index进行join操作，注意这里index必须是唯一的
* **many-to-one** join: 对一个对象的index和另一个对象的column操作
* ### **many-to-many** join: 对两个对象的columns 进行join操作

### many-to-many join 是最常用的

## 注意当进行many-to-many join时，也就是对两个DF对象的某column操作， 此时这俩DF的index会被丢弃

### join 笛卡儿积

In [115]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']
        
    })


left

Unnamed: 0,A,B,key
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [118]:
right = pd.DataFrame({'key': ['K0', 'K2', 'K1', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']
    })
right

Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K2
2,C2,D2,K1
3,C3,D3,K3


In [119]:
pd.merge(left, right, on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C2,D2
2,A2,B2,K2,C1,D1
3,A3,B3,K3,C3,D3


在看一个复杂点的例子, 多个列名作为key

In [124]:
left = pd.DataFrame({
        'key1':['K0', 'K0', 'K1', 'K2'],
        'key2':['K0', 'K1', 'K0', 'K1'],
        'A':['A0', 'A1', 'A2', 'A3'],
        'B':['B0', 'B1', 'B2', 'B3']
    })
left

Unnamed: 0,A,B,key1,key2
0,A0,B0,K0,K0
1,A1,B1,K0,K1
2,A2,B2,K1,K0
3,A3,B3,K2,K1


In [125]:
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                       'C': ['C0', 'C1', 'C2', 'C3'],
                       'D': ['D0', 'D1', 'D2', 'D3']})
right

Unnamed: 0,C,D,key1,key2
0,C0,D0,K0,K0
1,C1,D1,K1,K0
2,C2,D2,K1,K0
3,C3,D3,K2,K0


In [132]:
pd.merge(left, right, on=['key1', 'key2'], indicator=True)

Unnamed: 0,A,B,key1,key2,C,D,_merge
0,A0,B0,K0,K0,C0,D0,both
1,A2,B2,K1,K0,C1,D1,both
2,A2,B2,K1,K0,C2,D2,both


### how参数决定了哪些keys会被保留到结果中

* left, use keys from left frame only
* right, use keys from right frame only
* outer, use union of keys from both frames
* inner, use intersection of keys from both frames

In [127]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,


In [128]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2
3,,,K2,K0,C3,D3


In [130]:
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
result

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,
5,,,K2,K0,C3,D3


In [131]:
pd.merge(left, right, how='inner', on=['key1', 'key2'])


Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


### 除key之外，重复的列名用suffixes参数区别

In [133]:
left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})
left

Unnamed: 0,k,v
0,K0,1
1,K1,2
2,K2,3


In [134]:
right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})
right

Unnamed: 0,k,v
0,K0,4
1,K0,5
2,K3,6


In [135]:
pd.merge(left, right, on='k')

Unnamed: 0,k,v_x,v_y
0,K0,1,4
1,K0,1,5


In [136]:
pd.merge(left, right, on='k', suffixes=['_l', '_r'])

Unnamed: 0,k,v_l,v_r
0,K0,1,4
1,K0,1,5
