# merge

merge函数用于根据一个或多个共同的列（或索引）将两个DataFrame进行横向连接。有内连接、外连接、左连接、右连接

## merge()函数语法解析

**pandas.merge(left, right, how, on, left_on, right_on)**
- **left / right**：待合并的两个 DataFrame
- **how**：连接方式
    - inner：取两个表的交集，默认值
    - outer：取两个表的并集，缺失值填充 NaN
    - left：以左表为基准，保留左表所有行
    - right：以右表为基准，保留右表所有行
- **on**：主键，用于连接的列名
- **left_on / right_on**：分别指定左表和右表中用作连接键的列

## 连接方式how

### 内连接

python中的内连接是基于一个或者多个键将两个DataFrame（左表、右表）连接起来。

- 内连接以左表、右表的公共部分为基准，左表、右表中都存在的记录才会出现在最终结果中

- 如果记录只出现在左表/右表中的其中一个表，则不会出现在最终结果中

In [1]:
import pandas as pd

df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})
df1

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3
3,D,4


In [2]:
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})
df2

Unnamed: 0,key,value2
0,B,5
1,D,6
2,E,7
3,F,8


In [3]:
pd.merge(df1, df2, how='inner', on='key')

Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


### 左连接

python中的左连接是基于一个或者多个键将两个DataFrame（左表、右表）连接起来。

- 左连接以左表为基准，左表的所有记录都会出现在最终结果中

- 如果右表中有与左表匹配的记录，则会出现在最终的结果中

- 如果右表中没有与左表匹配的记录，则会使用NaN值进行填充。

In [4]:
import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})
df1

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3
3,D,4


In [5]:
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})
df2

Unnamed: 0,key,value2
0,B,5
1,D,6
2,E,7
3,F,8


In [15]:
pd.merge(df1, df2, how='left', on='key')

Unnamed: 0,key,value1,value2
0,A,1,
1,B,2,5.0
2,C,3,
3,D,4,6.0


### 右连接

python中的右连接是基于一个或者多个键将两个DataFrame（左表、右表）连接起来。

- 右连接以右表为基准，右表的所有记录都会出现在最终结果中

- 如果左表中有与右表匹配的记录，则会出现在最终的结果中

- 如果左表中没有与右表匹配的记录，则会使用NaN值进行填充。

In [6]:
import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})
df1

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3
3,D,4


In [7]:
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})
df2

Unnamed: 0,key,value2
0,B,5
1,D,6
2,E,7
3,F,8


In [8]:
pd.merge(df1, df2, how='right', on='key')

Unnamed: 0,key,value1,value2
0,B,2.0,5
1,D,4.0,6
2,E,,7
3,F,,8


### 外连接

python中的外连接是基于一个或者多个键将两个DataFrame（左表、右表）连接起来。

- 外连接保留左右表中的所有记录

- 如果左表中有与右表匹配的记录，则会出现在最终的结果中

- 如果记录只出现在左表/右表中的其中一个表，也会出现在最终结果中，且另一表对应的字段用NaN值填充

In [9]:
import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})
df1

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3
3,D,4


In [10]:
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})
df2

Unnamed: 0,key,value2
0,B,5
1,D,6
2,E,7
3,F,8


In [11]:
pd.merge(df1, df2, how='outer', on='key')

Unnamed: 0,key,value1,value2
0,A,1.0,
1,B,2.0,5.0
2,C,3.0,
3,D,4.0,6.0
4,E,,7.0
5,F,,8.0


## 连接主键

连接主键是指左表、右表两个DataFrame连接时，指定的用于连接的公共列。

### on

连接主键参数on是当两个DataFrame连接时，指定用于连接的公共列。

连接主键参数on要求**左右表中连接列的列名相同**

连接主键on可以为单列名称，也可以是多列名称

#### on为单列

In [12]:
import pandas as pd

df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})
df1

Unnamed: 0,key,value1
0,A,1
1,B,2
2,C,3
3,D,4


In [13]:
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})
df2

Unnamed: 0,key,value2
0,B,5
1,D,6
2,E,7
3,F,8


In [14]:
pd.merge(df1, df2, how='inner', on='key')

Unnamed: 0,key,value1,value2
0,B,2,5
1,D,4,6


#### on为多列

In [15]:
import pandas as pd

# 左表
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston'],
    'Name': ['Alice', 'Bob', 'Carol', 'David']
})
df1

Unnamed: 0,ID,City,Name
0,1,New York,Alice
1,2,Los Angeles,Bob
2,3,Chicago,Carol
3,4,Houston,David


In [16]:
# 右表

df2 = pd.DataFrame({
    'ID': [1, 2, 3, 5],
    'City': ['New York', 'Los Angeles', 'Houston', 'Phoenix'],
    'Score': [85, 90, 78, 92]
})
df2

Unnamed: 0,ID,City,Score
0,1,New York,85
1,2,Los Angeles,90
2,3,Houston,78
3,5,Phoenix,92


In [17]:
pd.merge(df1, df2, how='inner', on=['ID', 'City'])

Unnamed: 0,ID,City,Name,Score
0,1,New York,Alice,85
1,2,Los Angeles,Bob,90


### left_on/right_on

连接主键参数left_on/right_on一般同时使用，

一般用于**左右表中连接列的列名不相同**

- left_on指定左表中用于连接的列名
- right_on指定右表中用于连接的列名

In [18]:
df1 = pd.DataFrame({'UserID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Carol']})
df1

Unnamed: 0,UserID,Name
0,1,Alice
1,2,Bob
2,3,Carol


In [19]:
df2 = pd.DataFrame({'User_Code': [1, 2, 4], 'Score': [85, 90, 78]})
df2

Unnamed: 0,User_Code,Score
0,1,85
1,2,90
2,4,78


In [20]:
pd.merge(df1, df2, how='inner', left_on='UserID', right_on='User_Code')

Unnamed: 0,UserID,Name,User_Code,Score
0,1,Alice,1,85
1,2,Bob,2,90
