# Merge join concatenate

# 合并 连接 拼接操作


对于Series DataFrame和Panel对象，pandas提供了丰富的对象之间的连接、合并操作

## pandas axis解释

官方解释：It specifies the axis along which the means are computed.  沿着轴操作。

默认axis=0，也就是竖轴，操作的结果是行数的增加或减少

axis=1，也就是横轴，操作的结果每一列属性增加或减少


##  Concat操作, 即拼接操作

# pandas中concat对DataFrame操作, 由axis和join共同得到结果


## axis=0, 结果是行数等于两个子DataFrame的行数之和(结果的index是两个子DF的index的罗列，即使子DF的index重合也不管，)，那么没一会的属性多少呢？这是由join控制的，如果join=‘outer’，会对两个子DataFrame的属性求并集，得到结果的每一行属性；如果join=‘inner’，会对两个子DataFrame的属性求交集，得到结果的每一行属性


## axis=1, 结果中每一行的属性个数等于是两个子DF中的属性相加，那么有多少行呢？这是由join控制的，具体地，对子DF的index进行outer或inner合并

# concat对Series应该也一样

## 示例

三个DataFrame对象，注意index不相同

In [92]:
import pandas as pd

In [93]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3'],
                    'D':['D0','D1','D2','D3']},
                   index=[0,1,2,3])

In [94]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [95]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                   'B': ['B4', 'B5', 'B6', 'B7'],
                   'C': ['C4', 'C5', 'C6', 'C7'],
                   'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

In [96]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [97]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [98]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [99]:
frames = [df1, df2, df3] #产生一个list对象

In [100]:
results = pd.concat(frames)

In [101]:
results

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


### 使用join='inner' 查看结果 ,和outer一样！

In [102]:
res = pd.concat(frames, join='inner')
res

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


修改df3的index，看看结果

In [103]:
df5 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                   'B': ['B8', 'B9', 'B10', 'B11'],
                   'C': ['C8', 'C9', 'C10', 'C11'],
                   'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[2, 3, 10, 11])
df5

Unnamed: 0,A,B,C,D
2,A8,B8,C8,D8
3,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [104]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [87]:
results2 = pd.concat([df1,df2,df5])
results2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
2,A8,B8,C8,D8
3,A9,B9,C9,D9


修改df5，使得某几行和df2一样，再看看结果

In [88]:
df5 = pd.DataFrame({'A': ['A2', 'A9', 'A10', 'A11'],
                   'B': ['B2', 'B9', 'B10', 'B11'],
                   'C': ['C2', 'C9', 'C10', 'C11'],
                   'D': ['D2', 'D9', 'D10', 'D11']},
                   index=[2, 3, 10, 11])
df5

Unnamed: 0,A,B,C,D
2,A2,B2,C2,D2
3,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [90]:
results3 = pd.concat([df1,df2,df5])
results3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
2,A2,B2,C2,D2
3,A9,B9,C9,D9


## 如同numpy.concatenate, pandas.concat操作对list或是字典对象进行concat联接操作，注意list中每个对象要是同构的。

看一下concat方法参数吧:
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
       keys=None, levels=None, names=None, verify_integrity=False)
       
* objs:list或是dict， 其中对象可以是Series，DataFrame，Panel。如果传入一个dict对象，她的key就作为最后结果的key参数，除非显示说明结果的key参数。
* axis:{0,1,...}默认0。**concat操作时顺着的那条轴**
* join:{'inner', 'outer'},默认是outer，内连接和外连接
* join_axes:
* ignore_index:是否忽略index，默认是False，即concat也算上index
* copy: 是否copy原始list中对象值，默认是True。

## 看一下concat中参数怎么使用

In [22]:
frames

[    A   B   C   D
 0  A0  B0  C0  D0
 1  A1  B1  C1  D1
 2  A2  B2  C2  D2
 3  A3  B3  C3  D3,     A   B   C   D
 4  A4  B4  C4  D4
 5  A5  B5  C5  D5
 6  A6  B6  C6  D6
 7  A7  B7  C7  D7,       A    B    C    D
 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11]

In [28]:
result = pd.concat(frames, keys=['x','y','z']) #层次index， 用处是给每个list中对象一个map标记，这样在result中还能方便的调用每个子Series或DataFrame

In [29]:
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


 注意到结果中的index是层次化的

In [30]:
result.ix['y']

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


## concat时其他axis也进行逻辑运算，实质就是join参数在起作用

### 如果是对多个DataFrame或者Panel对象操作，我们可以同时对除了concate那一axis其他的axis进行逻辑运算


### concat使用的是join操作，区别join（加法、减法，找并集，交集）和merge（乘法）操作

In [40]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                  index=[2,3,6,7])

In [41]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [42]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [80]:
result = pd.concat([df1,df4],axis=1) #注意这里是axis=1 + join='outer',注意join仅仅是对index起作用！！！

In [44]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


df1的index是0 1 2 3，df4的index是2 3 6 7， 由于axis=1，所以index是map(keys)，找index的并集{0 1 2 3 6 7 }，join操作仅仅是加法操作，所以result中row共6行

#### 再看看join的inner操作,交集{2, 3}

In [47]:
result1 = pd.concat([df1,df4],axis=1,join='inner')
result1

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


### concat是连接多个对象，如果你仅仅想使用其中一个dataframe的index作为最后结果的index，可以使用join_axes参数

In [49]:
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


### 使用append方法进行行拼接

append操作可以对Series和DataFrame对象操作，**行拼接**

如果是对DataFrame对象进行append，要注意她俩的index不相交！！！

In [50]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [51]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [52]:
result = df1.append(df2)

In [53]:
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [54]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [55]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [56]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [57]:
result = df1.append([df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


#### 还要注意的是，list中的append操作直接对原始对象操作，而pandas中的append不修改df1，而是先copy df1然后再append df2

### concat操作时忽略index


大多数情况下，index都是默认生成的一些无意义的id，此时，两个dataframe对象很可能有index重复，但他们并没有实质物理含义，此时，concat时我们可以忽略index，使用**ignore_index**参数即可

In [59]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [60]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [62]:
result = pd.concat([df1, df4],ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


### DataFrame.append方法也有ignore_index参数哦

In [63]:

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [64]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [66]:
result = df1.append(df4, ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


## 同时对Series和DataFrame对象进行concat的操作


很简单，Series会被隐式转为DataFrame对象，同时保持列名相同

In [76]:
s1 = pd.Series(['X0','X1','X2','X3','X4'],name='X')

In [77]:
s1

0    X0
1    X1
2    X2
3    X3
4    X4
Name: X, dtype: object

In [78]:
result = pd.concat([df1,s1],axis=1)
result

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3
4,,,,,X4


### concat的index操作Series对象时使用 keys参数

### 这种操作主要用于concat Series对象

In [73]:
s3 = pd.Series([0, 1, 2, 3], name='foo')
s4 = pd.Series([0, 1, 2, 3])
s5 = pd.Series([0, 1, 4, 5])

In [74]:
pd.concat([s3,s4,s5],axis=1)

Unnamed: 0,foo,0,1
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


使用keys参数，来设置生成的DataFrame的列名

In [75]:
pd.concat([s3,s4,s5],axis=1,keys=['red','blue','yellos'])

Unnamed: 0,red,blue,yellos
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


### 对DataFrame增加行操作

通过对DF对象传递一个Series或者dict，通过append操作能够增加一行，但是这种方式非常不推荐！因为要重新生成一个新的DF存放结果

也可以传递一个Series的list或者dict的list，来增加几行！

使用append，Series对象变成了DF的一行

In [109]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
s2

A    X0
B    X1
C    X2
D    X3
dtype: object

In [110]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [111]:
result = df1.append(s2, ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


# **对DataFrame进行关系数据库风格的join/merge操作**

# **对DataFrame进行关系数据库风格的join/merge操作**

# **对DataFrame进行关系数据库风格的join/merge操作**

pandas的join操作是非常高效的，和关系型数据库非常类似。

## pandas提供了merge方法，能够对DataFrame进行类似关系数据库的join操作，先看merge参数

merge(left, right, how='inner', on=None, left_on=None, right_on=None,
      left_index=False, right_index=False, sort=True,
      suffixes=('_x', '_y'), copy=True, indicator=False)

* left: 参与操作的DataFrame对象
* right: 参与操作的另一个DataFrame对象
* on: 进行join操作的列名,**可以是一列，也可以是多列。这个列名必须在left和right中都存在！** 如果on参数没有赋值，并且left_index和right_index都是False，pandas会将left和right都含有的column作为on的值
* left_on: 取left中某一列名作为key，Can either be column names or arrays with length equal to the length of the DataFrame
* right_on: 取right中某一列名作为key,Can either be column names or arrays with length equal to the length of the DataFrame
* left_index: 如果取值是True，使用left中的index作为join操作的key
* right_index: 意思同上，
* how: 取值范围{'left', 'right', 'outer', 'inner'},**默认是inner**
* sort: 是否对结果按照join key进行排序，**默认是True**,如果序列不重要，可以设置为False，会提高效率
* suffixes: 如果left和right中除key之外，也有列名一样，会用suffixes参数区别, 默认格式Defaults to ('_x', '_y'). A tuple of string suffixes to apply to overlapping columns. 
* copy:是否copy数据，默认为True，这样不改变left和right
* indicator：在pandas 0.17.0中加入的参数，如果设置为True,能够显示结果中的key来自left还是right，
merger方法的返回的对象类型同left。


## 关系代数

对数据库操作熟悉的同学肯定对join操作不陌生，下面几种情况是必须知道的：
* **one-to-one** join: 比如对两个DF对象的index进行join操作，注意这里index必须是唯一的
* **many-to-one** join: 对一个对象的index和另一个对象的column操作
* ### **many-to-many** join: 对两个对象的columns 进行join操作

### many-to-many join 是最常用的

## 注意当进行many-to-many join时，也就是对两个DF对象的某column操作， 此时这俩DF的index会被丢弃，本身我一般也不用index

### join 笛卡儿积

In [115]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']
        
    })


left

Unnamed: 0,A,B,key
0,A0,B0,K0
1,A1,B1,K1
2,A2,B2,K2
3,A3,B3,K3


In [118]:
right = pd.DataFrame({'key': ['K0', 'K2', 'K1', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']
    })
right

Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K2
2,C2,D2,K1
3,C3,D3,K3


In [119]:
pd.merge(left, right, on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C2,D2
2,A2,B2,K2,C1,D1
3,A3,B3,K3,C3,D3


在看一个复杂点的例子, 多个列名作为key

In [124]:
left = pd.DataFrame({
        'key1':['K0', 'K0', 'K1', 'K2'],
        'key2':['K0', 'K1', 'K0', 'K1'],
        'A':['A0', 'A1', 'A2', 'A3'],
        'B':['B0', 'B1', 'B2', 'B3']
    })
left

Unnamed: 0,A,B,key1,key2
0,A0,B0,K0,K0
1,A1,B1,K0,K1
2,A2,B2,K1,K0
3,A3,B3,K2,K1


In [125]:
right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                       'C': ['C0', 'C1', 'C2', 'C3'],
                       'D': ['D0', 'D1', 'D2', 'D3']})
right

Unnamed: 0,C,D,key1,key2
0,C0,D0,K0,K0
1,C1,D1,K1,K0
2,C2,D2,K1,K0
3,C3,D3,K2,K0


In [132]:
pd.merge(left, right, on=['key1', 'key2'], indicator=True)

Unnamed: 0,A,B,key1,key2,C,D,_merge
0,A0,B0,K0,K0,C0,D0,both
1,A2,B2,K1,K0,C1,D1,both
2,A2,B2,K1,K0,C2,D2,both


### how参数决定了哪些keys会被保留到结果中

* left, use keys from left frame only
* right, use keys from right frame only
* outer, use union of keys from both frames
* inner, use intersection of keys from both frames

In [127]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,


In [128]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2
3,,,K2,K0,C3,D3


In [130]:
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
result

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,
5,,,K2,K0,C3,D3


In [131]:
pd.merge(left, right, how='inner', on=['key1', 'key2'])


Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


### 除key之外，重复的列名用suffixes参数区别

In [133]:
left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})
left

Unnamed: 0,k,v
0,K0,1
1,K1,2
2,K2,3


In [134]:
right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})
right

Unnamed: 0,k,v
0,K0,4
1,K0,5
2,K3,6


In [135]:
pd.merge(left, right, on='k')

Unnamed: 0,k,v_x,v_y
0,K0,1,4
1,K0,1,5


In [136]:
pd.merge(left, right, on='k', suffixes=['_l', '_r'])

Unnamed: 0,k,v_l,v_r
0,K0,1,4
1,K0,1,5
