In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [2]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

# Pandas私房手册-数据的合并和连接

## 连接（`concatenate`&`append`）

### `concat`参数
`concat`的一些参数不是很好理解，除了官网的API和[文章](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)，stackoverflow上这[一篇文章](https://stackoverflow.com/questions/49620538/what-are-the-levels-keys-and-names-arguments-for-in-pandas-concat-functio?r=SearchResults)的回答非常详尽。

#### 连接`dataframe`和`series`

`concat`第一个参数也可以是`Series`或者`datafrmae`组成的序列，`Series`对象将转换为`DataFrame`，`Series`的名称为列的名称：

In [5]:
df1 = DataFrame(
    np.arange(16).reshape(4, 4), index=range(1, 5), columns=list('ABCD'))
df1

Unnamed: 0,A,B,C,D
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15


In [6]:
s1 = pd.Series(['X0', 'X1', 'X2', 'X3'], name='X')
s1

0    X0
1    X1
2    X2
3    X3
Name: X, dtype: object

In [7]:
pd.concat([df1, s1], axis=1)

Unnamed: 0,A,B,C,D,X
0,,,,,X0
1,0.0,1.0,2.0,3.0,X1
2,4.0,5.0,6.0,7.0,X2
3,8.0,9.0,10.0,11.0,X3
4,12.0,13.0,14.0,15.0,


这里有一点疑惑，如果`axis`为0的话，生成的列的标签名称是0而不是X，和官网说的将`Series`对象转换为`DataFrame`的说法不符：

In [8]:
pd.concat([df1, s1])

Unnamed: 0,A,B,C,D,0
1,0.0,1.0,2.0,3.0,
2,4.0,5.0,6.0,7.0,
3,8.0,9.0,10.0,11.0,
4,12.0,13.0,14.0,15.0,
0,,,,,X0
1,,,,,X1
2,,,,,X2
3,,,,,X3


用`assign()`方法也可以实现同样的效果，所以`concat`一般用于多个对象合并的场合，另外，如果`Series`没有名称的话，会从0开始，依次给列进行编号：

In [10]:
s2 = Series([5, 6, 7, 8])
s2

0    5
1    6
2    7
3    8
dtype: int64

In [11]:
pd.concat([df1, s2, s2, s2], axis=1)

Unnamed: 0,A,B,C,D,0,1,2
0,,,,,5.0,5.0,5.0
1,0.0,1.0,2.0,3.0,6.0,6.0,6.0
2,4.0,5.0,6.0,7.0,7.0,7.0,7.0
3,8.0,9.0,10.0,11.0,8.0,8.0,8.0
4,12.0,13.0,14.0,15.0,,,


#### 传入一个字典

除此之外，还可以传入一个字典，字典的键就相当于`key`里的元素（`key`参数稍后介绍）：

In [16]:
df1 = DataFrame(
    np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [17]:
df2 = DataFrame(
    np.arange(7, 11).reshape(2, 2), index=['a', 'c'], columns=['one', 'three'])
df2

Unnamed: 0,one,three
a,7,8
c,9,10


In [18]:
pd.concat({'x': df1, 'y': df2}, sort=False)

Unnamed: 0,Unnamed: 1,one,two,three
x,a,0,1.0,
x,b,2,3.0,
x,c,4,5.0,
y,a,7,,8.0
y,c,9,,10.0


#### `key`和`names`参数

`concat`函数的这两个参数官方文档没有解释清楚，`key`就相当于添加一层索引,主要可以用来区分数据的来源。和`key`搭配使用的还有`levels`和`names`参数，其中`names`只能是列表，如果设置了`key`或者`levels`的话，`names`用来创建分层级别的名称。

In [19]:
df3 = DataFrame(
    np.arange(5, 9).reshape(2, 2), index=['b', 'd'], columns=['two', 'four'])
df3

Unnamed: 0,two,four
b,5,6
d,7,8


In [20]:
pd.concat(
    [df1, df2, df3],
    keys=['x', 'y', 'z'],
    sort=False,
    names=['level0', 'level1'])

Unnamed: 0_level_0,Unnamed: 1_level_0,one,two,three,four
level0,level1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
x,a,0.0,1.0,,
x,b,2.0,3.0,,
x,c,4.0,5.0,,
y,a,7.0,,8.0,
y,c,9.0,,10.0,
z,b,,5.0,,6.0
z,d,,7.0,,8.0


注意：当`keys`里的元素少于要合并的数据块，如下，要合并3个数据块，但是`keys`只有2个元素，则只保留前2个数据块，其实就相当于`pd.concat([df1, df2])`，只合并前2个数据块:

In [21]:
pd.concat([df1, df2, df3], keys=['x', 'z'], sort=False)

Unnamed: 0,Unnamed: 1,one,two,three
x,a,0,1.0,
x,b,2,3.0,
x,c,4,5.0,
z,a,7,,8.0
z,c,9,,10.0


另外，如果`concat`第一个参数传入的全部都是`Series`，则`key`参数会覆盖掉`Series`的名称成为列的标签索引：

In [12]:
s1 = pd.Series([0, 1, 2, 3], name='foo')
s2 = pd.Series([0, 1, 2, 3])
s3 = pd.Series([0, 1, 4, 5])

pd.concat([s1, s2, s3], keys=['x', 'y', 'z'], axis=1)

Unnamed: 0,x,y,z
0,0,0,0
1,1,1,1
2,2,2,4
3,3,3,5


#### `levels`参数

`levels`参数比较难理解，这个参数其实不是单独用的，而是为了配合`groupby`使用的，举个例子：

In [13]:
result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z'], sort=False)
result.index.levels
result

FrozenList([['x', 'y', 'z'], ['a', 'b', 'c', 'd']])

Unnamed: 0,Unnamed: 1,one,two,three,four
x,a,0.0,1.0,,
x,b,2.0,3.0,,
x,c,4.0,5.0,,
y,a,7.0,,8.0,
y,c,9.0,,10.0,
z,b,,5.0,,6.0
z,d,,7.0,,8.0


此时，如果要对`result`进行`groupby`，结果是这样的：

In [14]:
result.groupby(level=0).sum()

Unnamed: 0,one,two,three,four
x,6.0,9.0,0.0,0.0
y,16.0,0.0,18.0,0.0
z,0.0,12.0,0.0,14.0


但是，合并的时候指定了`levels`，`goupby`会按照指定的`levels`进行聚合，注意：`level`参数的设置与`MultiIndex`以及`Categorical`息息相关，从目前测试的情况来看，只有将`levels`设置为`CategoricalIndex`类型，才能看到效果。

In [15]:
cats = ['x', 'y', 'z', 'w']
lv = pd.CategoricalIndex(cats, categories=cats, ordered=True)

result = pd.concat(
    [df1, df2, df3], keys=['x', 'y', 'z'], levels=[lv], sort=False)
result.groupby(level=0).sum()

Unnamed: 0,one,two,three,four
x,6.0,9.0,0.0,0.0
y,16.0,0.0,18.0,0.0
z,0.0,12.0,0.0,14.0
w,0.0,0.0,0.0,0.0


#### `ignore_index`参数

有时候你希望重新设置合并后的表的索引，此时你可以使用`ignore_index`参数，设置为`True`，会以从0开始的整数数列重新设置索引：

In [20]:
pd.concat([df1, df3], ignore_index=False, sort=False)
pd.concat([df1, df3], ignore_index=True, sort=False)

Unnamed: 0,one,two,four
a,0.0,1,
b,2.0,3,
c,4.0,5,
b,,5,6.0
d,,7,8.0


Unnamed: 0,one,two,four
0,0.0,1,
1,2.0,3,
2,4.0,5,
3,,5,6.0
4,,7,8.0


### 忽视索引，直接进行连接

即类似与`np.concatenate`的想要，只是简单的进行合并，而忽视索引的叠加效果。`concat`函数没有参数可以直接实现，[stackovervlow有同样的问题](https://stackoverflow.com/questions/45590866/python-pandas-concat-dataframes-with-different-columns-ignoring-column-names?r=SearchResults)，主要有2种解决方案：
1. 把`dataframe`全部转换成矩阵，利用`np.concatenate`进行合并，但是这种方法不能保存原始索引。
2. 把所有的`dataframe`替换成统一的索引，然后再进行合并。

这里写了一个函数，使用第2种方案，添加了`over`，`columns`，`index`三个参数，其中`over`设置为False,则忽视索引，直接合并，并且可以通过`columns`和`index`指定新的索引，如果不指定，则使用从0开始的数字序列作为新的索引：

In [21]:
def concat(objs, axis=0, over=True, columns=None, index=None, *args, **kwargs):
    new_objs = []
    if over:
        return pd.concat(objs, axis, *args, **kwargs)
    else:       
        if axis == 0:
            columns = list(range(len(
                objs[0].columns))) if columns is None else columns
            for df in objs:
                mapper = {key: val for key, val in zip(df.columns, columns)}
                new_objs.append(df.rename(columns=mapper))
        if axis == 1:
            index = list(range(len(objs[0].index))) if index is None else index
            for df in objs:
                mapper = {key: val for key, val in zip(df.index, index)}
                new_objs.append(df.rename(index=mapper))
        return pd.concat(new_objs, axis, *args, **kwargs)

In [22]:
concat([df1, df2], over=False, columns=['A', 'B'], sort=False)

Unnamed: 0,A,B
a,0,1
b,2,3
c,4,5
a,7,8
c,9,10


### 使用`append`进行连接

`concat()`的一个有用快捷方式是`Series`和`DataFrame`上的`append()`实例方法。这些方法实际上早于`concat`。注意，它们只能沿着轴0即垂直方向连接，没有`axis`参数，和`python`原生的`append()`方法不同，`pandas`的`append`返回副本而不是原地修改：

In [22]:
df1 = DataFrame(
    np.arange(6).reshape(3, 2), index=['b', 'a', 'c'], columns=['one', 'two'])
df1

Unnamed: 0,one,two
b,0,1
a,2,3
c,4,5


In [23]:
df2 = DataFrame(
    np.arange(7, 11).reshape(2, 2), index=['a', 'c'], columns=['one', 'three'])
df2

Unnamed: 0,one,three
a,7,8
c,9,10


In [24]:
df1.append(df2, sort=False)

Unnamed: 0,one,two,three
b,0,1.0,
a,2,3.0,
c,4,5.0,
a,7,,8.0
c,9,,10.0


注意，虽然说`append`是`concat`的快捷方式，只是便于理解和记忆，某些情况下，两者的行为是不同的。比如当连接`Series`时，`append`会把`Series`当作一行，而`concat`会当作一列，另外要注意，使用`append`添加一行的时候，要么设置`Series`的名称作为行的标签索引，要么设置`ignore_index`参数为`True`：

In [25]:
df = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index=[0, 1, 2, 3])
df

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [26]:
s = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
s

A    X0
B    X1
C    X2
D    X3
dtype: object

In [27]:
pd.concat([df, s])

Unnamed: 0,A,B,C,D,0
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
A,,,,,X0
B,,,,,X1
C,,,,,X2
D,,,,,X3


In [28]:
df.append(s, ignore_index=True)  # 注意，ignore_index一定要设置为True，或者给series指定一个name

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


也可以传入一个字典或者字典的列表给`append`，一个字典相当于一行，此时`ignore_index`参数要设置为`True`，否则索引从0开始计数：

In [32]:
dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4}, {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
dicts

[{'A': 1, 'B': 2, 'C': 3, 'X': 4}, {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]

In [33]:
df.append(dicts, ignore_index=True, sort=False)

Unnamed: 0,A,B,C,D,X,Y
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
4,1,2,3,,4.0,
5,5,6,7,,,8.0


### `concat`和`merge`的区别

concat和merge在某些情况下，实际上是一样的，比如以下两个df沿着横向拼接：

In [40]:
df1

Unnamed: 0,one,two
b,0,1
a,2,3
c,4,5


In [41]:
df2

Unnamed: 0,one,three
a,7,8
c,9,10


In [42]:
pd.merge(df1, df2, right_index=True, left_index=True, how='outer')

Unnamed: 0,one_x,two,one_y,three
a,2,3,7.0,8.0
b,0,1,,
c,4,5,9.0,10.0


In [43]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,one,two,one.1,three
b,0,1,,
a,2,3,7.0,8.0
c,4,5,9.0,10.0


可见，当以`index`为拼接索引，且合并方式为`outer`时，两者表现基本一样。但是有2个区别：
1. merge会对结果的index排序，concat不会。
2. 合并以后如果有相同的列索引，merge会添加一个后缀，concat不会。concat就是简单拼接在一起。

## 合并（`merge`&`join`）

连接可以理解为简单把两个对象拼接在一起，而合并类似于关系型数据库，根据某一个键值列将多个对象的数据合并在一起。`pandas`通过`merge()`方法实现合并功能，可以看成是Excel的`vlookup`函数，`merge()`的函数签名是：
```Python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
```
`merge`的基本操作很容易理解，这里只记录平时比较容易出错，或者忽视的知识点。

### 深入理解`left_on`和`right_on`

当我们合并两个`dataframe`时，一定有一个键值列作为合并的依据，一般是`dataframe`中的某列，我们通过`on`参数来指定，如果`dataframe`的键值列有不同的名称，此时可以通过`left_on`和`right_on`来指定，有时候键值列不在`dataframe`中，此时仍然可以通过`left_on`和`right_on`来指定，但是有一些细节要注意，`left_on`和`right_on`可以指定任意`array_like`的对象作为键值列，但是不能使用简单的列表：

In [5]:
df1 = DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=list('abc'))
df2 = DataFrame({'C': [2, 1, 4], 'D': [8, 9, 3]}, index=list('bcd'))
df1
df2

Unnamed: 0,A,B
a,1,4
b,2,5
c,3,6


Unnamed: 0,C,D
b,2,8
c,1,9
d,4,3


In [7]:
pd.merge(df1,
         df2,
         left_on=np.array(['a', 'b', 'c']),
         right_on=np.array(['b', 'c', 'd']),
         how='outer')

Unnamed: 0,key_0,A,B,C,D
0,a,1.0,4.0,,
1,b,2.0,5.0,2.0,8.0
2,c,3.0,6.0,1.0,9.0
3,d,,,4.0,3.0


In [8]:
try:
    pd.merge(df1, df2, left_on=['a', 'b', 'c'], right_on=['b', 'c', 'd'], how='outer')
except Exception as e:
    print(f"{e.__class__.__name__} :{e}")

KeyError :'b'


如上，如果键值列不在`dataframe`对象中，最后的结果会添加键值列，另外，`merge()`返回的结果索引都会重置为0开始的整数序列。如果观察仔细，会发现新增的列为`key_0`，有0就有1，`left_on`和`right_on`可以传入`array_like`序列组成的列表：

In [8]:
pd.merge(
    df1,
    df2,
    left_on=[np.array(['a', 'b', 'c']),
             np.array(['d', 'b', 'c'])],
    right_on=[np.array(['b', 'c', 'd']),
              np.array(['e', 'c', 'd'])],
    how='outer')

Unnamed: 0,key_0,key_1,A,B,C,D
0,a,d,1.0,4.0,,
1,b,b,2.0,5.0,,
2,c,c,3.0,6.0,1.0,9.0
3,b,e,,,2.0,8.0
4,d,d,,,4.0,3.0


这也是为什么`left_on`和`right_on`不能是简单的列表，因为`pandas`会把列表里面的值当做键值列。  

0.23版本以后，如果键值列在层级索引（`MultiIndex`）中，还可以通过`left_on`和`right_on`指定层级索引的名称（`level`），注意，只能是字符串代表的名称，不能是整数代表的层级：

In [179]:
idx1 = pd.MultiIndex.from_product(
    [['a'], ['a', 'b', 'c']], names=['lv1', 'lv2'])
df3 = df1.set_index(idx1)
idx1 = pd.MultiIndex.from_product(
    [['a'], ['d', 'b', 'c']], names=['lv1', 'lv2'])
df4 = df2.set_index(idx1)

df3
df4
pd.merge(df3, df4, left_on='lv2', right_on='lv2', how='outer')

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
lv1,lv2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,a,1,4
a,b,2,5
a,c,3,6


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
lv1,lv2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,d,2,8
a,b,1,9
a,c,4,3


Unnamed: 0_level_0,A,B,C,D
lv2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,1.0,4.0,,
b,2.0,5.0,1.0,9.0
c,3.0,6.0,4.0,3.0
d,,,2.0,8.0


### 重复键的合并

有时候用于合并的键值会有重复，比如下面的例子，`right`表有两个`K1 K0`，此时返回的结果会是相同键对应的值的笛卡尔积：

In [134]:
left = pd.DataFrame({
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key1': ['K0', 'K1', 'K1', 'K2'],
    'key2': ['K0', 'K0', 'K0', 'K0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

left
right
pd.merge(left, right, on=['key1', 'key2'], how='inner')

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


再来看另一个例子，加深理解：

In [22]:
left = pd.DataFrame({'A': [1, 2], 'B': [2, 2]})
right = pd.DataFrame({'A': [4, 5, 6], 'B': [2, 2, 2]})
left
right
pd.merge(left, right, on='B', how='outer')

Unnamed: 0,A,B
0,1,2
1,2,2


Unnamed: 0,A,B
0,4,2
1,5,2
2,6,2


Unnamed: 0,A_x,B,A_y
0,1,2,4
1,1,2,5
2,1,2,6
3,2,2,4
4,2,2,5
5,2,2,6


### 检查重复的键值

有时候可能由于数据填写错误或者什么原因导致键值重复，除非在合并之前进行一些检查，否则我们并不知道键值是否有重复，此时的结果并不是我们想要的，0.21版本提供了一个`validate`的参数，可以自动检查合并键中是否有意外的重复，在合并操作之前检查键唯一性，可以防止内存溢出，也是确保用户数据结构符合预期的好方法。  
`validate`根据数据的关联关系，可以有4个选项：`one_to_one`，`one_to_many`，`many_to_one`，`many_to_many`。  
如果检查结果不符合事先预期，`pandas`会抛出相应的错误：

In [28]:
left = pd.DataFrame({'A' : [1,2], 'B' : [1, 2]})
right = pd.DataFrame({'A' : [4,5,6], 'B': [2, 2, 2]})
left
right
try:
    pd.merge(left, right, on='B', how='outer', validate="one_to_one")
except Exception as e:
    print(e)

Unnamed: 0,A,B
0,1,1
1,2,2


Unnamed: 0,A,B
0,4,2
1,5,2
2,6,2


Merge keys are not unique in right dataset; not a one-to-one merge


在上面的例子中，如果你清楚的知道右边的键值是有重复，这就是你想要的结果，可以将`validate`参数设置为`one_to_many`：

In [29]:
pd.merge(left, right, on='B', how='outer', validate="one_to_many")

Unnamed: 0,A_x,B,A_y
0,1,1,
1,2,2,4.0
2,2,2,5.0
3,2,2,6.0


### `indicator`指示器

0.21版本以后，`merge`增添了一个`indicator`参数，它可以指出键值是在左边对象中的（`left_only`），还是在右边对象中的（`right_only`），或者两个对象都包含该键值（`both`），当`indicator`参数设置为`True`，会在输出结果中增加一列，指明这一行的键值是属于谁的：

In [47]:
df1 = pd.DataFrame({'col1': [0, 1], 'col_left': ['a', 'b']})
df2 = pd.DataFrame({'col1': [1, 2, 2], 'col_right': [2, 2, 2]})
result = pd.merge(df1, df2, on='col1', how='outer', indicator=True)
result

Unnamed: 0,col1,col_left,col_right,_merge
0,0,a,,left_only
1,1,b,2.0,both
2,2,,2.0,right_only
3,2,,2.0,right_only


当你想要获取在一边键值列有，而另一边键值列没有的数据时（也就是寻找键值列的差集的时候），`indicator`参数就有用了（仅通过设置`how`参数没法获取差集的数据），你可以先将`how`设置为`outer`，`indicator`设置为`True`，然后再对`left_only`或者`right_only`进行过滤，不然的话求差集会比较麻烦：

In [51]:
result[result['_merge'].isin(['left_only', 'right_only'])]

Unnamed: 0,col1,col_left,col_right,_merge
0,0,a,,left_only
2,2,,2.0,right_only
3,2,,2.0,right_only


你可以直接向`indicator`传递字符串作为指示列的列名:

In [52]:
pd.merge(df1, df2, on='col1', how='outer', indicator='key_type')

Unnamed: 0,col1,col_left,col_right,key_type
0,0,a,,left_only
1,1,b,2.0,both
2,2,,2.0,right_only
3,2,,2.0,right_only


注意，指示列是`Catogorical`类型，此种类型的说明可以参考私房手册系列相关的文章：

In [54]:
result.dtypes

col1            int64
col_left       object
col_right     float64
_merge       category
dtype: object

### `Merge dtypes`

0.19版本以后，会保留连接键的类型：

In [61]:
left = pd.DataFrame({'key': [1], 'v1': [10]})
left.dtypes
right = pd.DataFrame({'key': [1, 2], 'v1': [20, 30]})
right.dtypes
result = pd.merge(left, right, how='outer')
result
result.dtypes

key    int64
v1     int64
dtype: object

key    int64
v1     int64
dtype: object

Unnamed: 0,key,v1
0,1,10
1,1,20
2,2,30


key    int64
v1     int64
dtype: object

0.20版本以后，合并会保留合并对象的`categorical`类型：

In [69]:
from pandas.api.types import CategoricalDtype

X = pd.Series(np.random.choice(['foo', 'bar'], size=(10, )))
X = X.astype(CategoricalDtype(categories=['foo', 'bar']))
left = pd.DataFrame({
    'X': X,
    'Y': np.random.choice(['one', 'two', 'three'], size=(10, ))
})
right1 = pd.DataFrame({
    'X':
    pd.Series(['foo', 'bar'], dtype=CategoricalDtype(['foo', 'bar'])),
    'Z': [1, 2]
})
result = pd.merge(left, right1, how='outer')
result.dtypes

X    category
Y      object
Z       int64
dtype: object

注意，`categorical dtypes`必须完全相同，这意味着相同的类别和有序属性。否则，结果将转换为`object dtype`。

In [70]:
right2 = pd.DataFrame({
    'X':
    pd.Series(['foo', 'bar'], dtype=CategoricalDtype(['foo', 'bar', 'zoo'])),
    'Z': [1, 2]
})
result = pd.merge(left, right2, how='outer')
result.dtypes

X    object
Y    object
Z     int64
dtype: object

与`object dtype`合并相比，在相同的`categorical dtype`上合并可以获得更好的性能：

In [73]:
%timeit pd.merge(left, right1, how='outer')

4.97 ms ± 369 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [74]:
%timeit pd.merge(left, right2, how='outer')

6.23 ms ± 65.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 通过索引进行合并（`join`）

`join()`是将两个索引可能不同的`dataframe`组合成一个`dataframe`的方便方法，它是`dataframe`的实例方法，注意和`merge()`的`how`默认是`inner`不同，`join()`的`how`默认是`left`，严格来说，`join`才更像Excel里的`vlookup`：

In [10]:
left = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']
},
                    index=['K0', 'K1', 'K2'])
right = pd.DataFrame({
    'C': ['C0', 'C2', 'C3'],
    'D': ['D0', 'D2', 'D3']
},
                     index=['K0', 'K2', 'K3'])
left
right

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [13]:
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


当然，你也可以通过`merge`函数，同时将`left_index`和`right_index`设置为`True`来实现：

In [163]:
pd.merge(left, right, left_index=True, right_index=True, how='left')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


通过设置`left_on=left.index`和`right_on=right.index`也可以，不过结果有细微的不同：

In [164]:
pd.merge(left, right, left_on=left.index, right_on=right.index, how='left')

Unnamed: 0,key_0,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,,
2,K2,A2,B2,C2,D2


### `join`方法的`on`参数

`join()`接受一个可选的`on`参数，该参数可以是一个列或多个列名，它指定传递的`dataframe`（即right的`dataframe`对象）要对齐到`dataframe`（即left的`dataframe`对象）中的该列上。下面这两个函数调用是完全等价的，使用哪一种随你心情：
```Python
left.join(right, on=key_or_keys)
pd.merge(left, right, left_on=key_or_keys, right_index=True, how='left', sort=False)
```

In [184]:
left = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'key1': ['K0', 'K0', 'K1', 'K2'],
    'key2': ['K0', 'K1', 'K0', 'K1']
})

index = pd.MultiIndex.from_tuples([('K0', 'K0'), ('K1', 'K0'), ('K2', 'K0'),
                                   ('K2', 'K1')])
right = pd.DataFrame(
    {
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index=index)

left
right
left.join(right, on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2
0,A0,B0,K0,K0
1,A1,B1,K0,K1
2,A2,B2,K1,K0
3,A3,B3,K2,K1


Unnamed: 0,Unnamed: 1,C,D
K0,K0,C0,D0
K1,K0,C1,D1
K2,K0,C2,D2
K2,K1,C3,D3


Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A3,B3,K2,K1,C3,D3


### 层级索引的连接

如果左边对象是单层索引，右边是层级索引，用`join`方法就很简单了，直接连接就可以了，不过要注意，要对齐的索引的名称必须要是一样的：

In [188]:
left = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2'],
        'B': ['B0', 'B1', 'B2']
    },
    index=pd.Index(['K0', 'K1', 'K2'], name='key'))

index = pd.MultiIndex.from_tuples(
    [('K0', 'Y0'), ('K1', 'Y1'), ('K2', 'Y2'), ('K2', 'Y3')],
    names=['key', 'Y'])

right = pd.DataFrame(
    {
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index=index)

left
right
left.join(right, how='inner')

Unnamed: 0_level_0,A,B
key,Unnamed: 1_level_1,Unnamed: 2_level_1
K0,A0,B0
K1,A1,B1
K2,A2,B2


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
key,Y,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,Y0,C0,D0
K1,Y1,C1,D1
K2,Y2,C2,D2
K2,Y3,C3,D3


Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
key,Y,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
K0,Y0,A0,B0,C0,D0
K1,Y1,A1,B1,C1,D1
K2,Y2,A2,B2,C2,D2
K2,Y3,A2,B2,C3,D3


用`merge`方法其实也挺简单的，官网上的写法有点太复杂了：
```Python
pd.merge(left.reset_index(), right.reset_index(), on=['key'], how='inner').set_index(['key','Y'])
```

In [192]:
pd.merge(left, right, left_index=True, right_on='key', how='inner')
# 如果不使用left_index参数，而使用left_on，则结果略有差别，索引Y会丢失
pd.merge(left, right, left_on='key', right_on='key', how='inner')

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C,D
key,Y,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
K0,Y0,A0,B0,C0,D0
K1,Y1,A1,B1,C1,D1
K2,Y2,A2,B2,C2,D2
K2,Y3,A2,B2,C3,D3


Unnamed: 0_level_0,A,B,C,D
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
K0,A0,B0,C0,D0
K1,A1,B1,C1,D1
K2,A2,B2,C2,D2
K2,A2,B2,C3,D3


如果`left`是层级索引，则一般情况下，`join`方法就无法进行合并了，只能够使用`merge`方法：

In [3]:
leftindex = pd.MultiIndex.from_tuples(
    [('K0', 'X0'), ('K0', 'X1'), ('K1', 'X2')], names=['key', 'X'])

left = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2'],
        'B': ['B0', 'B1', 'B2']
    }, index=leftindex)

rightindex = pd.MultiIndex.from_tuples(
    [('K0', 'Y0'), ('K1', 'Y1'), ('K2', 'Y2'), ('K2', 'Y3')],
    names=['key', 'Y'])

right = pd.DataFrame(
    {
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3']
    },
    index=rightindex)

left
right
pd.merge(
    left.reset_index(), right.reset_index(), on=['key'],
    how='inner').set_index(['key', 'X', 'Y'])
# 也可以使用left_on，和right_on，虽然结果一样，但是索引X，Y会丢失。
pd.merge(left, right, left_on='key', right_on='key', how='inner')

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
key,X,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,X0,A0,B0
K0,X1,A1,B1
K1,X2,A2,B2


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
key,Y,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,Y0,C0,D0
K1,Y1,C1,D1
K2,Y2,C2,D2
K2,Y3,C3,D3


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,A,B,C,D
key,X,Y,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
K0,X0,Y0,A0,B0,C0,D0
K0,X1,Y0,A1,B1,C0,D0
K1,X2,Y1,A2,B2,C1,D1


Unnamed: 0_level_0,A,B,C,D
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
K0,A0,B0,C0,D0
K0,A1,B1,C0,D0
K1,A2,B2,C1,D1


但是有一种特殊情况，即`right`的层级索引的名称正好是`left`层级索引名称的子集，则可以使用`join`方法：

In [210]:
idx = pd.MultiIndex.from_tuples(
    [('K0', 'X1', 'Y0'), ('K0', 'X1', 'Y1'), ('K1', 'X3', 'Y2')], names=['key', 'X', 'Y'])
new_left = left.set_index(idx)
new_left
right
new_left.join(right, on=['key', 'Y'], how='inner')

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,A,B
key,X,Y,Unnamed: 3_level_1,Unnamed: 4_level_1
K0,X1,Y0,A0,B0
K0,X1,Y1,A1,B1
K1,X3,Y2,A2,B2


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
key,Y,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,Y0,C0,D0
K1,Y1,C1,D1
K2,Y2,C2,D2
K2,Y3,C3,D3


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,A,B,C,D
key,X,Y,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
K0,X1,Y0,A0,B0,C0,D0


最后总结一下，使用`join`进行连接的时候，`right`的索引是不变的，`left`可以通过`on`参数来指定与`right`对象匹配的索引或者是列，但不管是什么，都要和`right`的索引完全匹配。因此，某些情况下，无法使用`join`进行合并，只能使用`merge`方法，但是通过`merge`方法的`left_on`或者`right_on`指定层级索引时要注意，未被指定的层级索引会丢失。

### 键值列混合列和索引

0.23以后，可以向`on`，`left_on`，`right_on`传递混合列和索引名称的列表，允许在索引和列的组合上合并`DataFrame`实例，而无需重置索引，以下几点要注意：
- 当使用多索引的某些级别合并数据流时，额外的级别将从结果中删除。如果要保存这些级别，在进行合并之前，在这些级别名称上使用`reset_index`将这些级别移动到列。
- 如果字符串同时匹配列名和索引级别名，则会发出警告，并且列优先。将来的版本中会导致歧义错误。

In [7]:
left_index = pd.Index(['K0', 'K0', 'K1', 'K2'], name='key1')

left = pd.DataFrame(
    {
        'A': ['A0', 'A1', 'A2', 'A3'],
        'B': ['B0', 'B1', 'B2', 'B3'],
        'key2': ['K0', 'K1', 'K0', 'K1']
    },
    index=left_index)

right_index = pd.Index(['K0', 'K1', 'K2', 'K2'], name='key1')

right = pd.DataFrame(
    {
        'C': ['C0', 'C1', 'C2', 'C3'],
        'D': ['D0', 'D1', 'D2', 'D3'],
        'key2': ['K0', 'K0', 'K0', 'K1']
    },
    index=right_index)

left
right
# 注意，此时使用的是merge实例方法
left.merge(right, on=['key1', 'key2'])

Unnamed: 0_level_0,A,B,key2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,A0,B0,K0
K0,A1,B1,K1
K1,A2,B2,K0
K2,A3,B3,K1


Unnamed: 0_level_0,C,D,key2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
K0,C0,D0,K0
K1,C1,D1,K0
K2,C2,D2,K0
K2,C3,D3,K1


Unnamed: 0_level_0,A,B,key2,C,D
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
K0,A0,B0,K0,C0,D0
K1,A2,B2,K0,C1,D1
K2,A3,B3,K1,C3,D3


### 重复的列名

如果在合并的两个`dataframe`中有重复的列名，`pandas`会给列添加后缀，默认是'\_x'和'\_y'，可以通过`suffixes`参数修改，`join`方法的话有两个参数，`lsuffix`和`rsuffix`可以分别进行设置：

In [4]:
left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})
right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})
pd.merge(left, right, on='k', suffixes=['_l', '_r'])

Unnamed: 0,k,v_l,v_r
0,K0,1,4
1,K0,1,5


### `merge_ordered`

这个方法因为本身较为复杂，举的例子不够直观，后来仔细看官网描述才明白，它首先根据`left_by`和`right_by`参数指定的列进行聚合，然后再一个组（聚合以后形成了很多组`GroupBy`对象）一个组的和`right`对象进行合并，最后再拼接起来，`merge_ordered(`)还有一个可选的`fill_method`关键字来填充/插值丢失的数据：

In [44]:
left = pd.DataFrame({
    'k': ['K0', 'K1', 'K1', 'K2'],
    'lv': [1, 2, 3, 4],
    's': ['a', 'b', 'c', 'd']
})

right = pd.DataFrame({'k': ['K1', 'K2', 'K4'], 'rv': [1, 2, 3]})

left
right
pd.merge_ordered(left, right, fill_method='ffill', left_by='s')

Unnamed: 0,k,lv,s
0,K0,1,a
1,K1,2,b
2,K1,3,c
3,K2,4,d


Unnamed: 0,k,rv
0,K1,1
1,K2,2
2,K4,3


Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,1.0,a,1.0
2,K2,1.0,a,2.0
3,K4,1.0,a,3.0
4,K1,2.0,b,1.0
5,K2,2.0,b,2.0
6,K4,2.0,b,3.0
7,K1,3.0,c,1.0
8,K2,3.0,c,2.0
9,K4,3.0,c,3.0


`merge_ordered`比较难懂，结合上面的例子逐步讲解：首先相当于对`left`对象使用`s`列进行聚合：

In [9]:
grouped = left.groupby('s')

然后一组一组的与`right`对象进行合并（`merge`），我们只挑选第一组进行说明：

In [15]:
df = grouped.get_group('a')
df

Unnamed: 0,k,lv,s
0,K0,1,a


In [16]:
df.merge(right, how='outer')

Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,,,1.0
2,K2,,,2.0
3,K4,,,3.0


此时有很多`NaN`值，此时`merge_ordered`又提供了`fillmethod`方法指明空值填充的方式，这里我们选择`ffill`，即按照上方的值进行填充，此时就相当于：

In [18]:
pd.merge_ordered(df, right, how='outer', fill_method='ffill')

Unnamed: 0,k,lv,s,rv
0,K0,1,a,
1,K1,1,a,1.0
2,K2,1,a,2.0
3,K4,1,a,3.0


最终就形成了第一组的结果，其它组类似，最后把每一组合并（`merge`）的结果拼接在一起形成最终的结果。这么复杂的函数，在平时工作中还真没有碰到合适的应用场景。

### `merge_asof`

`merge_asof()`类似于有序左联接，只是我们匹配的是最近的键而不是相等的键。对于左边`dataframe`中的每一行，“最近的”是指小于左边的键值中最大的那个（所有比它小的键值中最接近它的那个），两个`dataframe`都必须按`on`键进行排序。

In [24]:
trades = pd.DataFrame(
    {
        'time':
        pd.to_datetime([
            '20160525 13:30:00.023', '20160525 13:30:00.038',
            '20160525 13:30:00.048', '20160525 13:30:00.048',
            '20160525 13:30:00.048'
        ]),
        'ticker_l': ['MSFT', 'MSFT', 'GOOG', 'GOOG', 'AAPL'],
        'price': [51.95, 51.95, 720.77, 720.92, 98.00],
        'quantity': [75, 155, 100, 100, 100]
    })

quotes = pd.DataFrame(
    {
        'time':
        pd.to_datetime([
            '20160525 13:30:00.023', '20160525 13:30:00.023',
            '20160525 13:30:00.030', '20160525 13:30:00.041',
            '20160525 13:30:00.048', '20160525 13:30:00.049',
            '20160525 13:30:00.072', '20160525 13:30:00.075'
        ]),
        'ticker_r':
        ['MSFT', 'GOOG', 'MSFT', 'MSFT', 'GOOG', 'AAPL', 'GOOG', 'MSFT'],
        'bid': [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
        'ask': [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03]
    })

trades
quotes

Unnamed: 0,time,ticker_l,price,quantity
0,2016-05-25 13:30:00.023,MSFT,51.95,75
1,2016-05-25 13:30:00.038,MSFT,51.95,155
2,2016-05-25 13:30:00.048,GOOG,720.77,100
3,2016-05-25 13:30:00.048,GOOG,720.92,100
4,2016-05-25 13:30:00.048,AAPL,98.0,100


Unnamed: 0,time,ticker_r,bid,ask
0,2016-05-25 13:30:00.023,MSFT,720.5,720.93
1,2016-05-25 13:30:00.023,GOOG,51.95,51.96
2,2016-05-25 13:30:00.030,MSFT,51.97,51.98
3,2016-05-25 13:30:00.041,MSFT,51.99,52.0
4,2016-05-25 13:30:00.048,GOOG,720.5,720.93
5,2016-05-25 13:30:00.049,AAPL,97.99,98.01
6,2016-05-25 13:30:00.072,GOOG,720.5,720.88
7,2016-05-25 13:30:00.075,MSFT,52.01,52.03


直接`merge_asof`的结果为，可见当左边对象的`time`是`2016-05-25 13:30:00.038`时，匹配的右边（`right`）的是第3行，时间是`2016-05-25 13:30:00.030`的一行，要注意的是，因为是模糊匹配，因此和普通`merge`不同的是，`merge_asof`都是`left`的匹配模式，默认情况下，右边的对象以最后找到的最相似的为准，比如`023`时刻，右边有2条记录，此时以后一条记录为准：

In [25]:
pd.merge_asof(trades, quotes, on='time')

Unnamed: 0,time,ticker_l,price,quantity,ticker_r,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,GOOG,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,MSFT,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,GOOG,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,GOOG,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,GOOG,720.5,720.93


可以通过`by`,`left_by`和`right_by`参数额外指定要精确匹配的列，如下，通过`time`列进行合并，同时`ticker_l`和`ticker_r`要能精确的匹配上：

In [27]:
pd.merge_asof(trades,
              quotes,
              on='time',
              left_by="ticker_l",
              right_by="ticker_r")

Unnamed: 0,time,ticker_l,price,quantity,ticker_r,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,MSFT,720.5,720.93
1,2016-05-25 13:30:00.038,MSFT,51.95,155,MSFT,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,GOOG,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,GOOG,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,,


可以通过`tolerance`设置容忍的范围，此时`2016-05-25 13:30:00.030`离`2016-05-25 13:30:00.038`超过了2ms，因此匹配不上：

In [30]:
pd.merge_asof(trades,
              quotes,
              on='time',
              tolerance=pd.Timedelta('2ms'))

Unnamed: 0,time,ticker_l,price,quantity,ticker_r,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,GOOG,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,,,
2,2016-05-25 13:30:00.048,GOOG,720.77,100,GOOG,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,GOOG,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,GOOG,720.5,720.93


还有一个`allow_exact_matches`可以设置是否允许精确的匹配，精确匹配反而不行，另外还有个`direction`参数，表示向后还是向前搜索近似的项，默认为向后，这里就是指匹配所有小于指定时间的项，如下，设置了8ms的门限，且不允许精确匹配，右边的对象会向后找8ms以内最近似却又不能精确匹配上的项：

In [41]:
pd.merge_asof(trades,
              quotes,
              on='time',
              tolerance=pd.Timedelta('8ms'),
              direction="backward",
              allow_exact_matches=False)

Unnamed: 0,time,ticker_l,price,quantity,ticker_r,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,,,
1,2016-05-25 13:30:00.038,MSFT,51.95,155,MSFT,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,MSFT,51.99,52.0
3,2016-05-25 13:30:00.048,GOOG,720.92,100,MSFT,51.99,52.0
4,2016-05-25 13:30:00.048,AAPL,98.0,100,MSFT,51.99,52.0


## 修补而非合并（`combine_first`&`update`）

有时候我们不是要连接，也不需要合并，而是需要打补丁，填充`left`对象中的空值，此时可以用`combine_first`或者`update`方法：

In [5]:
df1 = pd.DataFrame([[np.nan, 3., 5.], [-4.6, np.nan, np.nan],
                    [np.nan, 7., np.nan]])
df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5., 1.6, 4]], index=[1, 2])

df1
df2
df1.combine_first(df2)

Unnamed: 0,0,1,2
0,,3.0,5.0
1,-4.6,,
2,,7.0,


Unnamed: 0,0,1,2
1,-42.6,,-8.2
2,-5.0,1.6,4.0


Unnamed: 0,0,1,2
0,,3.0,5.0
1,-4.6,,-8.2
2,-5.0,7.0,4.0


使用`update`方法也可以，唯一的区别是`combine_first`返回一个副本，而`update`在原地修改。

In [6]:
df1.update(df2)
df1

Unnamed: 0,0,1,2
0,,3.0,5.0
1,-42.6,,-8.2
2,-5.0,1.6,4.0
