# Pandas 合并/连接

Pandas 具有功能全面的高性能内存中连接操作，与SQL等关系数据库非常相似。

Pandas 提供了一个单独的 merge() 函数， 作为 DataFrame 对象之间所有标准数据库连接操作的入口:

```python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=Non, left_index=False, right_index=False, sort=True)
```

参数说明:

* left - 一个 DataFrame 对象
* right - 另一个 DataFrame 对象
* on - 列(名称)连接， 必须在左和右 DataFrame 对象中存在(找到).
* left_on - 左侧 DataFrame 中的列作用键， 可以是列名或长度等于 DataFrame 长度的数组
* right_on - 来自右的 DataFrame 的列作为键， 可以是列名或长度等于 DaraFrame 长度的数组
* left_index - 如果为 True, 则使用左侧 DataFrame 中的索引作为其连接键，在具体 MultiIndex(分层)的 DataFrame 的情况下，级别的数量必须与来自右侧 DataFrame 的连接键的数量相匹配
* right_index - 同 left_index
* how - 它是left, right, outer以及inner之中的一个，默认为内inner
* sort - 按照字典顺序通过连接键对结果 DataFrame 进行排序，默认为 True, 设置为 False 时， 在很多情况下大大提高了性能

In [6]:
# 现在创建两个不同的 DataFrame 并对其执行合并操作
import pandas as pd

left = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'Name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
    'subject_id': ['sub1', 'sub2', 'sub4', 'sub6', 'sub5']
    })
right = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'Name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
    'subject_id': ['sub2', 'sub4', 'sub3', 'sub6', 'sub5']
    })
print(left)
print('='*60)
print(right)

   id    Name subject_id
0   1    Alex       sub1
1   2     Amy       sub2
2   3   Allen       sub4
3   4   Alice       sub6
4   5  Ayoung       sub5
   id   Name subject_id
0   1  Billy       sub2
1   2  Brian       sub4
2   3   Bran       sub3
3   4  Bryce       sub6
4   5  Betty       sub5


In [8]:
# 在一个键上合并两个数据帧
rs = pd.merge(left, right, on='id')
print(rs)

   id  Name_x subject_id_x Name_y subject_id_y
0   1    Alex         sub1  Billy         sub2
1   2     Amy         sub2  Brian         sub4
2   3   Allen         sub4   Bran         sub3
3   4   Alice         sub6  Bryce         sub6
4   5  Ayoung         sub5  Betty         sub5


In [10]:
# 合并多个键上的两个数据框
rs = pd.merge(left, right, on=['id', 'subject_id'])
print(rs)

   id  Name_x subject_id Name_y
0   4   Alice       sub6  Bryce
1   5  Ayoung       sub5  Betty


## 合并使用 how 的参数

如何合并参数指定如何确定哪些键将被包含在结果表中。如果组合键没有出现在左侧或右侧表中，则连接表中的值为 NA, 以下是 how 选项和 SQL 等效名称的总结:

| 合并方法 | SQL等效 | 描述 |
| :--: | :--: | :--: |
| left | LEFT OUTER JOIN | 使用左侧对象的键 |
| right | RIGHT OUTER JOIN | 使用右侧对象的键 |
| outer | FULL OUTER JOIN | 使用键的联合 |
| inner | INNER JOIN | 使用键的交集 |

In [11]:
# left join
rs = pd.merge(left, right, on='subject_id', how='left')
print(rs)

   id_x  Name_x subject_id  id_y Name_y
0     1    Alex       sub1   NaN    NaN
1     2     Amy       sub2   1.0  Billy
2     3   Allen       sub4   2.0  Brian
3     4   Alice       sub6   4.0  Bryce
4     5  Ayoung       sub5   5.0  Betty


In [12]:
# right join
rs = pd.merge(left, right, on='subject_id', how='right')
print(rs)

   id_x  Name_x subject_id  id_y Name_y
0   2.0     Amy       sub2     1  Billy
1   3.0   Allen       sub4     2  Brian
2   4.0   Alice       sub6     4  Bryce
3   5.0  Ayoung       sub5     5  Betty
4   NaN     NaN       sub3     3   Bran


In [14]:
# outer join
rs = pd.merge(left, right, how='outer', on='subject_id')
print(rs)

   id_x  Name_x subject_id  id_y Name_y
0   1.0    Alex       sub1   NaN    NaN
1   2.0     Amy       sub2   1.0  Billy
2   3.0   Allen       sub4   2.0  Brian
3   4.0   Alice       sub6   4.0  Bryce
4   5.0  Ayoung       sub5   5.0  Betty
5   NaN     NaN       sub3   3.0   Bran


In [15]:
# inner join
rs = pd.merge(left, right, on='subject_id', how='inner')
print(rs)

   id_x  Name_x subject_id  id_y Name_y
0     2     Amy       sub2     1  Billy
1     3   Allen       sub4     2  Brian
2     4   Alice       sub6     4  Bryce
3     5  Ayoung       sub5     5  Betty
