# 4 数据表的合并和连接


数据表可以按「键」合并，用 merge 函数；可以按「轴」来连接，用 concat 函数。

## 4.1 合并

按键 (key) 合并可以分「单键合并」和「多键合并」。

### 单键合并

单键合并用 merge 函数，语法如下：

    pd.merge( df1, df2, how=s, on=c )

c 是 df1 和 df2 共有的一栏，合并方式 (how=s) 有四种：

1. 左连接 (left join)：合并之后显示 df1 的所有行
2. 右连接 (right join)：合并之后显示 df2 的所有行
3. 外连接 (outer join)：合并 df1 和 df2 共有的所有行
4. 内连接 (inner join)：合并所有行 (默认情况)


首先创建两个 DataFrame：

* df_price：4 天的价格 (2019-01-01 到 2019-01-04)
* df_volume：5 天的交易量  (2019-01-02 到 2019-01-06)

In [2]:
import pandas as pd

df_price = pd.DataFrame({'Date': pd.date_range('2019-1-1', periods=4),'Adj Close': [24.42, 25.00, 25.25, 25.64]})
df_price


Unnamed: 0,Date,Adj Close
0,2019-01-01,24.42
1,2019-01-02,25.0
2,2019-01-03,25.25
3,2019-01-04,25.64


In [4]:
df_volume = pd.DataFrame( {'Date': pd.date_range('2019-1-2', periods=5),'Volume' : [56081400, 99455500, 83028700, 100234000, 73829000]})
df_volume

Unnamed: 0,Date,Volume
0,2019-01-02,56081400
1,2019-01-03,99455500
2,2019-01-04,83028700
3,2019-01-05,100234000
4,2019-01-06,73829000


接下来用 df_price  和 df_volume 展示四种合并

#### left join

In [5]:
pd.merge(df_price, df_volume, how='left')

Unnamed: 0,Date,Adj Close,Volume
0,2019-01-01,24.42,
1,2019-01-02,25.0,56081400.0
2,2019-01-03,25.25,99455500.0
3,2019-01-04,25.64,83028700.0


按 df_price 里 Date 栏里的值来合并数据

* df_volume 里 Date 栏里没有 2019-01-01，因此 Volume 为 NaN
* df_volume 里 Date 栏里的 2019-01-05 和 2019-01-06 不在 df_price 里 Date 栏，因此丢弃

#### right join

In [6]:
pd.merge(df_price, df_volume, how='right')

Unnamed: 0,Date,Adj Close,Volume
0,2019-01-02,25.0,56081400
1,2019-01-03,25.25,99455500
2,2019-01-04,25.64,83028700
3,2019-01-05,,100234000
4,2019-01-06,,73829000


按 df_volume 里 Date 栏里的值来合并数据

* df_price 里 Date 栏里没有 2019-01-05 和 2019-01-06，因此 Adj Close 为 NaN
* df_price 里 Date 栏里的 2019-01-01 不在 df_volume 里 Date 栏，因此丢弃

#### outer join

In [7]:
pd.merge(df_price, df_volume, how='outer')

Unnamed: 0,Date,Adj Close,Volume
0,2019-01-01,24.42,
1,2019-01-02,25.0,56081400.0
2,2019-01-03,25.25,99455500.0
3,2019-01-04,25.64,83028700.0
4,2019-01-05,,100234000.0
5,2019-01-06,,73829000.0


按 df_price 和 df_volume 里 Date 栏里的所有值来合并数据

* df_price 里 Date 栏里没有 2019-01-05 和 2019-01-06，因此 Adj Close 为 NaN
* df_volume 里 Date 栏里没有 2019-01-01，因此 Volume 为 NaN

#### inner join

In [8]:
pd.merge(df_price, df_volume, how='inner') # 默认情况

Unnamed: 0,Date,Adj Close,Volume
0,2019-01-02,25.0,56081400
1,2019-01-03,25.25,99455500
2,2019-01-04,25.64,83028700


按 df_price 和 df_volume 里 Date 栏里的共有值来合并数据

* df_price 里 Date 栏里的 2019-01-01 不在 df_volume 里 Date 栏，因此丢弃
* df_volume 里 Date 栏里的 2019-01-05 和 2019-01-06 不在 df_price 里 Date 栏，因此丢弃

### 多键合并

多键合并用的语法和单键合并一样，只不过 on=c 中的 c 是多栏。

    pd.merge( df1, df2, how=s, on=c )


首先创建两个 DataFrame：

* portfolio1：3 比产品 FX Option, FX Swap 和 IR Option 的数量
* portfolio2：4 比产品 FX Option (重复名称), FX Swap 和 IR Swap 的数量

In [9]:
porfolio1 = pd.DataFrame({'Asset': ['FX', 'FX', 'IR'], 
                          'Instrument': ['Option', 'Swap', 'Option'], 
                          'Number': [1, 2, 3]})
porfolio1

Unnamed: 0,Asset,Instrument,Number
0,FX,Option,1
1,FX,Swap,2
2,IR,Option,3


In [10]:
porfolio2 = pd.DataFrame({'Asset': ['FX', 'FX', 'FX', 'IR'], 
                          'Instrument': ['Option', 'Option', 'Swap', 'Swap'], 
                          'Number': [4, 5, 6, 7]})
porfolio2

Unnamed: 0,Asset,Instrument,Number
0,FX,Option,4
1,FX,Option,5
2,FX,Swap,6
3,IR,Swap,7


在 'Asset' 和 'Instrument' 两个键上做外合并

In [12]:
pd.merge(porfolio1, porfolio2, on=['Asset', 'Instrument'], how='outer')

Unnamed: 0,Asset,Instrument,Number_x,Number_y
0,FX,Option,1.0,4.0
1,FX,Option,1.0,5.0
2,FX,Swap,2.0,6.0
3,IR,Option,3.0,
4,IR,Swap,,7.0


df1 和 df2 中两个键都有 FX Option 和 FX Swap，因此可以合并它们中 number 那栏。

* df1 中有 IR Option 而 df2 中没有，因此 Number_y 栏下的值为 NaN
* df2 中有 IR Swap 而 df1 中没有，因此 Number_x 栏下的值为 NaN

当 df1 和 df2 有两个相同的列 (Asset 和 Instrument) 时，单单只对一列 (Asset) 做合并产出的 DataFrame 会有另一列 (Instrument) 重复的名称。这时 merge 函数给重复的名称加个后缀 _x, _y 等等。

In [13]:
pd.merge( porfolio1, porfolio2, 
          on='Asset' )

Unnamed: 0,Asset,Instrument_x,Number_x,Instrument_y,Number_y
0,FX,Option,1,Option,4
1,FX,Option,1,Option,5
2,FX,Option,1,Swap,6
3,FX,Swap,2,Option,4
4,FX,Swap,2,Option,5
5,FX,Swap,2,Swap,6
6,IR,Option,3,Swap,7


当没设定 merge 函数里参数 how 时，默认为 inner (内合并)。在 Asset 列下，df1 有 2 个 FX 和 1 个 IR，df2 有 3 个 FX 和 1 个 IR，内合并完有 8 行 (2×3+1×1)。

如果觉得后缀 _x, _y 没有什么具体含义时，可以设定 suffixes 来改后缀。比如 df1 和 df2 存储的是 portoflio1 和 portfolio2 的产品信息，那么将后缀该成 ‘1’ 和 ‘2’ 更贴切。

In [14]:
pd.merge(porfolio1, porfolio2, on='Asset', suffixes=('1','2'))

Unnamed: 0,Asset,Instrument1,Number1,Instrument2,Number2
0,FX,Option,1,Option,4
1,FX,Option,1,Option,5
2,FX,Option,1,Swap,6
3,FX,Swap,2,Option,4
4,FX,Swap,2,Option,5
5,FX,Swap,2,Swap,6
6,IR,Option,3,Swap,7


## 4.2 连接
Numpy 数组可相互连接，用 np.concat；同理，Series 也可相互连接，DataFrame 也可相互连接，用 pd.concat。

###  连接 Series
在 concat 函数也可设定参数 axis，

* axis = 0 (默认)，沿着轴 0 (行) 连接，得到一个更长的 Series
* axis = 1，沿着轴 1 (列) 连接，得到一个 DataFrame

被连接的 Series 它们的 index 可以重复 (overlapping)，也可以不同。


#### overlapping index
先定义三个 Series，它们的 index 各不同。

In [15]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

沿着「轴 0」连接得到一个更长的 Series。

In [16]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

沿着「轴 1」连接得到一个 DataFrame。

In [21]:
pd.concat([s1, s2, s3], axis=1, sort="False")

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


#### non-overlapping index
将 s1 和 s3 沿「轴 0」连接来创建 s4，这样 s4 和 s1 的 index 是有重复的。