# 08 水果拼盘-多表拼接

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、表的横向拼接
表的横向拼接就是**横向**将两个表依据**公共列**拼接在一起

Excel实现：**vlookup**函数

Python实现：**merge()**方法

### 1.1 连接表的类型
连接表的类型关注：两个表是什么类型，分为三种情况：一对一、多对一、多对多
#### 1.1.1 一对一

In [3]:
df1 = pd.DataFrame([[1, '小张', 100, 650], [2, '小王', 101, 600], [3, '小李', 102, 578],
                    [4, '小赵', 103, 550]], columns=['名次', '姓名', '学号', '成绩'])
df1
df2 = pd.DataFrame([[100, '一班'], [101, '二班'], [102, '三班'], [103, '四班']],
                   columns=['学号', '班级'])
df2
pd.merge(df1, df2)

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


Unnamed: 0,学号,班级
0,100,一班
1,101,二班
2,102,三班
3,103,四班


Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,二班
2,3,小李,102,578,三班
3,4,小赵,103,550,四班


#### 1.1.2 多对一

In [4]:
df1 = pd.DataFrame([['小张', 100, 650], ['小王', 101, 600], ['小李', 102, 578]],
                   columns=['姓名', '学号', 'f_成绩'])
df1
df2 = pd.DataFrame([[100, 586], [100, 602], [101, 691], [101, 702], [102, 645], [102, 676]],
                   columns=['学号', 'e_成绩'])
df2
pd.merge(df1, df2)

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小王,101,600
2,小李,102,578


Unnamed: 0,学号,e_成绩
0,100,586
1,100,602
2,101,691
3,101,702
4,102,645
5,102,676


Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,586
1,小张,100,650,602
2,小王,101,600,691
3,小王,101,600,702
4,小李,102,578,645
5,小李,102,578,676


#### 1.1.3 多对多
多对多相当于多个多对一

In [5]:
df1 = pd.DataFrame([['小张', 100, 650], ['小张', 100, 610], ['小王', 101, 600], 
                    ['小李', 102, 578], ['小李', 102, 542]],
                   columns=['姓名', '学号', 'f_成绩'])
df1
df2 = pd.DataFrame([[100, 650], [100, 610], [101, 600], [102, 578], [102, 542]],
                   columns=['学号', 'e_成绩'])
df2
pd.merge(df1, df2)

Unnamed: 0,姓名,学号,f_成绩
0,小张,100,650
1,小张,100,610
2,小王,101,600
3,小李,102,578
4,小李,102,542


Unnamed: 0,学号,e_成绩
0,100,650
1,100,610
2,101,600
3,102,578
4,102,542


Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,650
1,小张,100,650,610
2,小张,100,610,650
3,小张,100,610,610
4,小王,101,600,600
5,小李,102,578,578
6,小李,102,578,542
7,小李,102,542,578
8,小李,102,542,542


### 1.2 连接键的类型
默认以公共列作为连接键，**on**指定连接键，一般指定的也是两个表的公共列

#### 1.2.1 on来指定连接键

In [6]:
pd.merge(df1, df2, on='学号')

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,小张,100,650,650
1,小张,100,650,610
2,小张,100,610,650
3,小张,100,610,610
4,小王,101,600,600
5,小李,102,578,578
6,小李,102,578,542
7,小李,102,542,578
8,小李,102,542,542


In [7]:
df1 = pd.DataFrame([[1, '小张', 100, 650], [2, '小王', 101, 600], [3, '小李', 102, 578],
                    [4, '小赵', 103, 550]], columns=['名次', '姓名', '学号', '成绩'])
df1
df2 = pd.DataFrame([['小张', 100, '一班'], ['小王', 101, '一班'], ['小李', 102, '二班'], ['小赵', 103, '三班']],
                   columns=['姓名', '学号', '班级'])
df2
pd.merge(df1, df2, on=['姓名', '学号'])

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小赵,103,三班


Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,小张,100,650,一班
1,2,小王,101,600,一班
2,3,小李,102,578,二班
3,4,小赵,103,550,三班


#### 1.2.2 分别指定左右连接键
**left_on**、**right_on**

In [8]:
df1 = pd.DataFrame([[1, '小张', 100, 650], [2, '小王', 101, 600], [3, '小李', 102, 578],
                    [4, '小赵', 103, 550]], columns=['名次', '姓名', '编号', '成绩'])
df1
df2 = pd.DataFrame([[100, '一班'], [101, '二班'], [102, '三班'], [103, '四班']],
                   columns=['学号', '班级'])
df2
pd.merge(df1, df2, left_on='编号', right_on='学号')

Unnamed: 0,名次,姓名,编号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


Unnamed: 0,学号,班级
0,100,一班
1,101,二班
2,102,三班
3,103,四班


Unnamed: 0,名次,姓名,编号,成绩,学号,班级
0,1,小张,100,650,100,一班
1,2,小王,101,600,101,二班
2,3,小李,102,578,102,三班
3,4,小赵,103,550,103,四班


#### 1.2.3 把索引列当做连接键
**left_index**、**right_index**

In [9]:
df1 = pd.DataFrame([[1, '小张', 650], [2, '小王', 600], [3, '小李', 578], [4, '小赵', 550]],
                  index=[100, 101, 102, 103], columns=['名次', '姓名', '成绩'])
df1.index.name = '编号'
df1

df2 = pd.DataFrame([['一班'], ['一班'], ['二班'], ['三班']], index=[100, 101, 102, 103], columns=['班级'])
df2.index.name = '学号'
df2

pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0_level_0,名次,姓名,成绩
编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,1,小张,650
101,2,小王,600
102,3,小李,578
103,4,小赵,550


Unnamed: 0_level_0,班级
学号,Unnamed: 1_level_1
100,一班
101,一班
102,二班
103,三班


Unnamed: 0_level_0,名次,姓名,成绩,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100,1,小张,650,一班
101,2,小王,600,一班
102,3,小李,578,二班
103,4,小赵,550,三班


In [10]:
df2 = pd.DataFrame([[100, '一班'], [101, '一班'], [102, '二班'], [103, '三班']], columns=['学号', '班级'])
df2

pd.merge(df1, df2, left_index=True, right_on='学号')

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


Unnamed: 0,名次,姓名,成绩,学号,班级
0,1,小张,650,100,一班
1,2,小王,600,101,一班
2,3,小李,578,102,二班
3,4,小赵,550,103,三班


### 1.3 连接方式
参数how指明具体的连接方式
#### 1.3.1 内连接（inner）
内连接取两个表中的公共部分，默认内连接

In [15]:
df1 = pd.DataFrame([[1, '小张', 100, 650], [2, '小王', 101, 600], [3, '小李', 102, 578],
                    [4, '小赵', 103, 550]], columns=['名次', '姓名', '学号', '成绩'])
df1
df2 = pd.DataFrame([['小张', 100, '一班'], ['小王', 101, '一班'], ['小李', 102, '二班'], ['小钱', 104, '三班']], 
                   columns=['姓名', '学号', '班级'])
df2
pd.merge(df1, df2, on='学号', how='inner')

Unnamed: 0,名次,姓名,学号,成绩
0,1,小张,100,650
1,2,小王,101,600
2,3,小李,102,578
3,4,小赵,103,550


Unnamed: 0,姓名,学号,班级
0,小张,100,一班
1,小王,101,一班
2,小李,102,二班
3,小钱,104,三班


Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班


#### 1.3.2 左连接（left）
以左表为基础，右表往左表上拼接，右表中没有学号为103的信息，所以为NaN

In [16]:
pd.merge(df1, df2, on='学号', how='left')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班
3,4,小赵,103,550,,


#### 1.3.3 右连接（right）
以右表为基础，左表往右表上拼接，左表中没有学号为104的信息，所以是NaN

In [17]:
pd.merge(df1, df2, on='学号', how='right')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,2.0,小王,101,600.0,小王,一班
2,3.0,小李,102,578.0,小李,二班
3,,,104,,小钱,三班


#### 1.3.4 外连接（outer）
外连接是取两个表的并集

In [18]:
pd.merge(df1, df2, on='学号', how='outer')

Unnamed: 0,名次,姓名_x,学号,成绩,姓名_y,班级
0,1.0,小张,100,650.0,小张,一班
1,2.0,小王,101,600.0,小王,一班
2,3.0,小李,102,578.0,小李,二班
3,4.0,小赵,103,550.0,,
4,,,104,,小钱,三班


### 1.4 重复列名处理
两个表进行连接，会遇到重复列名的情况，pd.merge会自动添加_x,_y,_z

自定义重复列名：suffixes=['_x', '_y']

In [19]:
pd.merge(df1, df2, on='学号', how='inner', suffixes=['_L', '_R'])

Unnamed: 0,名次,姓名_L,学号,成绩,姓名_R,班级
0,1,小张,100,650,小张,一班
1,2,小王,101,600,小王,一班
2,3,小李,102,578,小李,二班


## 二、表的纵向拼接
表的纵向连接和横向连接相对应，指的是在垂直方向上进行拼接

一般应用场景为：分离若干个结构相同的数据合并成一个数据表，比如：两个班的花名册，两个表的结构是一样的，需要合并为一个表

### 2.1 普通合并
将两个表以列表的形式传递给pd.concat()

In [23]:
df1 = pd.DataFrame([['许丹', '一班'], ['李旭文', '一班'], ['程成', '一班'], ['赵涛', '一班']], columns=['姓名', '班级'])
df1.index.name = '编号'
df1
df2 = pd.DataFrame([['赵义', '二班'], ['李鹏', '二班'], ['卫来', '二班'], ['葛颜', '二班']], columns=['姓名', '班级'])
df2.index.name = '编号'
df2
pd.concat([df1, df2])

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班


Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
0,赵义,二班
1,李鹏,二班
2,卫来,二班
3,葛颜,二班


Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班
0,赵义,二班
1,李鹏,二班
2,卫来,二班
3,葛颜,二班


### 2.2 索引设置
参数ignore_index=True，生成一组新的索引，不保留原来的索引

In [24]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,姓名,班级
0,许丹,一班
1,李旭文,一班
2,程成,一班
3,赵涛,一班
4,赵义,二班
5,李鹏,二班
6,卫来,二班
7,葛颜,二班


### 2.3 重叠数据合并

In [31]:
df1 = pd.DataFrame([['许丹', '一班'], ['李旭文', '一班'], ['卫来', '二班'], ['程成', '一班'], ['赵涛', '一班']], columns=['姓名', '班级'])
df1.index.name = '编号'
df1
df2 = pd.DataFrame([['赵义', '二班'], ['许丹', '一班'], ['李鹏', '二班'], ['卫来', '二班'], ['葛颜', '二班']], columns=['姓名', '班级'])
df2.index.name = '编号'
df2
pd.concat([df1, df2], ignore_index=True).drop_duplicates()

Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
0,许丹,一班
1,李旭文,一班
2,卫来,二班
3,程成,一班
4,赵涛,一班


Unnamed: 0_level_0,姓名,班级
编号,Unnamed: 1_level_1,Unnamed: 2_level_1
0,赵义,二班
1,许丹,一班
2,李鹏,二班
3,卫来,二班
4,葛颜,二班


Unnamed: 0,姓名,班级
0,许丹,一班
1,李旭文,一班
2,卫来,二班
3,程成,一班
4,赵涛,一班
5,赵义,二班
7,李鹏,二班
9,葛颜,二班
