# 水果拼盘--多表拼接

## 表的横向拼接：`merge()`方法

### 连接表的类型

#### 一对一：两个待连接的表的公共列是一对一的

In [1]:
import pandas as pd
import numpy as np
df1 = pd.read_excel(r'test.xlsx',sheet_name='工作表7')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,张,100,650
1,2,王,101,600
2,3,李,102,578
3,4,赵,103,550


In [3]:
df2 = pd.read_excel(r'test.xlsx',sheet_name='工作表8')
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


`pd.merge()`方法，自动寻找两个表中的公共列，并将找到的公共列做为连接列

In [4]:
pd.merge(df1,df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,张,100,650,一班
1,2,王,101,600,一班
2,3,李,102,578,二班
3,4,赵,103,550,三班


#### 多对一：一个表的公共列有重复值，另一个表的公共列是唯一的。

In [6]:
df1 = pd.read_excel(r'test.xlsx',sheet_name='工作表10')
df1

Unnamed: 0,姓名,学号,f_成绩
0,张,100,650
1,王,101,600
2,李,102,578
3,赵,103,550


In [7]:
df2 = pd.read_excel(r'test.xlsx',sheet_name='工作表11')
df2

Unnamed: 0,学号,e_成绩
0,100,650
1,100,602
2,101,600
3,101,723
4,102,578
5,102,657
6,103,550
7,103,650


In [8]:
pd.merge(df1,df2)  #df1原本唯一的部分会被重复列出来

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,张,100,650,650
1,张,100,650,602
2,王,101,600,600
3,王,101,600,723
4,李,102,578,578
5,李,102,578,657
6,赵,103,550,550
7,赵,103,550,650


#### 多对多：两个表的公共列不是一对一，而且两个表的公共列都有重复值

In [10]:
df1 = pd.read_excel(r'test.xlsx',sheet_name='工作表12')
df1

Unnamed: 0,姓名,学号,f_成绩
0,张,100,650
1,赵,100,550
2,王,101,600
3,李,102,578
4,X,102,459


In [11]:
df2 = pd.read_excel(r'test.xlsx',sheet_name='工作表11')
df2

Unnamed: 0,学号,e_成绩
0,100,650
1,100,602
2,101,600
3,101,723
4,102,578
5,102,657
6,103,550
7,103,650


In [14]:
pd.merge(df1,df2)  #公共列中共有的部分重复，凑数，不是共有的部分的被舍弃掉

Unnamed: 0,姓名,学号,f_成绩,e_成绩
0,张,100,650,650
1,张,100,650,602
2,赵,100,550,650
3,赵,100,550,602
4,王,101,600,600
5,王,101,600,723
6,李,102,578,578
7,李,102,578,657
8,X,102,459,578
9,X,102,459,657


### 连接键的类型

#### 默认以公共列作为连接键

In [1]:
import pandas as pd
import numpy as np
df1 = pd.read_excel(r'test.xlsx',sheet_name='工作表7')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,张,100,650
1,2,王,101,600
2,3,李,102,578
3,4,赵,103,550


In [2]:
df2 = pd.read_excel(r'test.xlsx',sheet_name='工作表8')
df2

Unnamed: 0,学号,班级
0,100,一班
1,101,一班
2,102,二班
3,103,三班


In [3]:
pd.merge(df1,df2)

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,张,100,650,一班
1,2,王,101,600,一班
2,3,李,102,578,二班
3,4,赵,103,550,三班


#### 用on来指定连接键

没有指定连接方式的情况下，默认是**内连接**

In [4]:
pd.merge(df1,df2,on = '学号') #只保留两个表中公共列共有部分的数据，本质上是：内连接

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,张,100,650,一班
1,2,王,101,600,一班
2,3,李,102,578,二班
3,4,赵,103,550,三班


有多个公共列的，可以用指定多个连接键：

In [6]:
df3 = pd.read_excel(r'test.xlsx',sheet_name='工作表13')
df3

Unnamed: 0,姓名,学号,班级
0,张,100,一班
1,王,101,一班
2,李,102,二班
3,赵,103,三班


In [8]:
pd.merge(df1,df3,on = ['姓名','学号'])

Unnamed: 0,名次,姓名,学号,成绩,班级
0,1,张,100,650,一班
1,2,王,101,600,一班
2,3,李,102,578,二班
3,4,赵,103,550,三班


#### 【**重点**】分别指定左右连接键

In [2]:
df2=pd.read_excel(r'ExceltoPython.xlsx',sheet_name='Sheet1')
df2

Unnamed: 0,id,date,city,category-size,age,price
0,1001,2013-01-02,bejing,100-A,23,1200
1,1002,2013-01-03,sh,100-B,44,3299
2,1003,2013-01-04,guangzhou,110-A,54,2133
3,1004,2013-01-05,shenzhen,110-C,32,5433
4,1005,2013-01-06,shanghai,201-A,34,3299
5,1009,2013-01-07,beijing,130-F,32,4432


In [3]:
df1=pd.read_excel(r'ExceltoPython.xlsx',sheet_name='Sheet2')
df1
# 注意公共列id中数据的不同之处：df1比df2多了：1006、1007、1008，少了：1009

Unnamed: 0,id,gender,pay,m-point
0,1001,male,Y,10
1,1002,female,N,12
2,1003,male,Y,20
3,1004,female,Y,40
4,1005,male,N,40
5,1006,female,Y,40
6,1007,male,N,30
7,1008,female,Y,20


#### 内连接`how='inner'`

In [5]:
# 只连接两个表指定的连接键中共同拥有的部分
df_inner = pd.merge(df2,df1,how='inner',on=['id'])
df_inner

Unnamed: 0,id,date,city,category-size,age,price,gender,pay,m-point
0,1001,2013-01-02,bejing,100-A,23,1200,male,Y,10
1,1002,2013-01-03,sh,100-B,44,3299,female,N,12
2,1003,2013-01-04,guangzhou,110-A,54,2133,male,Y,20
3,1004,2013-01-05,shenzhen,110-C,32,5433,female,Y,40
4,1005,2013-01-06,shanghai,201-A,34,3299,male,N,40


#### 左外连接

In [6]:
# 以左边的表为基准按指定的连接键连接，以左表为基础，把右表往左表上拼接
# 左表df2的公共列id中在右表df1中没有的部分，不会被连接起来出现在结果中，左表有右表没有的，列出空值NaN
df_left = pd.merge(df2,df1,how='left',on=['id'])    
df_left

Unnamed: 0,id,date,city,category-size,age,price,gender,pay,m-point
0,1001,2013-01-02,bejing,100-A,23,1200,male,Y,10.0
1,1002,2013-01-03,sh,100-B,44,3299,female,N,12.0
2,1003,2013-01-04,guangzhou,110-A,54,2133,male,Y,20.0
3,1004,2013-01-05,shenzhen,110-C,32,5433,female,Y,40.0
4,1005,2013-01-06,shanghai,201-A,34,3299,male,N,40.0
5,1009,2013-01-07,beijing,130-F,32,4432,,,


#### 右外连接

In [10]:
# 以右表为基准按指定的连接键连接，以右表为基础，把左表往右表上拼接
# 右表有左表没有的部分，列出空值，右表没有左表有的部分，不会被连接到结果中
df_right = pd.merge(df2,df1,how='right',on=['id'])
df_right

Unnamed: 0,id,date,city,category-size,age,price,gender,pay,m-point
0,1001,2013-01-02,bejing,100-A,23.0,1200.0,male,Y,10
1,1002,2013-01-03,sh,100-B,44.0,3299.0,female,N,12
2,1003,2013-01-04,guangzhou,110-A,54.0,2133.0,male,Y,20
3,1004,2013-01-05,shenzhen,110-C,32.0,5433.0,female,Y,40
4,1005,2013-01-06,shanghai,201-A,34.0,3299.0,male,N,40
5,1006,NaT,,,,,female,Y,40
6,1007,NaT,,,,,male,N,30
7,1008,NaT,,,,,female,Y,20


#### 全连接`how='outer'`
`indicator`的参数，如果置True的时候，输出结果会增加一列 ` _merge`，表示在哪些表中存在

In [9]:
# 两个表中指定的连接键内容，无论另一个表有没有，全部都列出来，在另一个表中没有的部分就列出空值
df_outer = pd.merge(df2,df1,how='outer',on=['id'],indicator=True)
df_outer

Unnamed: 0,id,date,city,category-size,age,price,gender,pay,m-point,_merge
0,1001,2013-01-02,bejing,100-A,23.0,1200.0,male,Y,10.0,both
1,1002,2013-01-03,sh,100-B,44.0,3299.0,female,N,12.0,both
2,1003,2013-01-04,guangzhou,110-A,54.0,2133.0,male,Y,20.0,both
3,1004,2013-01-05,shenzhen,110-C,32.0,5433.0,female,Y,40.0,both
4,1005,2013-01-06,shanghai,201-A,34.0,3299.0,male,N,40.0,both
5,1009,2013-01-07,beijing,130-F,32.0,4432.0,,,,left_only
6,1006,NaT,,,,,female,Y,40.0,right_only
7,1007,NaT,,,,,male,N,30.0,right_only
8,1008,NaT,,,,,female,Y,20.0,right_only


#### 把索引列当作连接键

`pd.merge()`设置`left_index`和`right_index`函数

### 重复列名的处理

In [11]:
df1 = pd.read_excel(r'test.xlsx',sheet_name='工作表7')
df1

Unnamed: 0,名次,姓名,学号,成绩
0,1,张,100,650
1,2,王,101,600
2,3,李,102,578
3,4,赵,103,550


In [14]:
df2 = pd.read_excel(r'test.xlsx',sheet_name='工作表13')
df2

Unnamed: 0,姓名,学号,班级
0,张,100,一班
1,王,101,一班
2,李,102,二班
3,赵,103,三班


有重复列名的情况下，默认加上 `_x、_y、_z`，会根据已有列名自动调整，如果要修改，需要设置`suffixes`参数

In [15]:
pd.merge(df1,df2,on = '学号')  #默认

Unnamed: 0,姓名_x,学号,班级_x,姓名_y,班级_y
0,张,100,一班,张,一班
1,王,101,一班,王,一班
2,李,102,二班,李,二班
3,赵,103,三班,赵,三班


In [17]:
pd.merge(df1,df2,on = '学号',suffixes=['_L','_R'])  #设置suffixes

Unnamed: 0,姓名_L,学号,班级_L,姓名_R,班级_R
0,张,100,一班,张,一班
1,王,101,一班,王,一班
2,李,102,二班,李,二班
3,赵,103,三班,赵,三班


## 表的纵向拼接：`concat()`方法

In [19]:
df1 = pd.DataFrame({'姓名':['张三','李四','王五'],'班级':['一班','二班','三班']})
df1

Unnamed: 0,姓名,班级
0,张三,一班
1,李四,二班
2,王五,三班


In [21]:
df2 = pd.DataFrame({'姓名':['张三','sun','moon'],'班级':['一班','a班','b班']})
df2

Unnamed: 0,姓名,班级
0,张三,一班
1,sun,a班
2,moon,b班


### 普通拼接

In [22]:
pd.concat([df1,df2])

Unnamed: 0,姓名,班级
0,张三,一班
1,李四,二班
2,王五,三班
0,张三,一班
1,sun,a班
2,moon,b班


### 索引设置

设置`ignore_index=True`不保留原表的索引，生成一组新索引

In [23]:
pd.concat([df1,df2],ignore_index = True)

Unnamed: 0,姓名,班级
0,张三,一班
1,李四,二班
2,王五,三班
3,张三,一班
4,sun,a班
5,moon,b班


### 处理重复的行

In [24]:
pd.concat([df1,df2],ignore_index=True).drop_duplicates()

Unnamed: 0,姓名,班级
0,张三,一班
1,李四,二班
2,王五,三班
4,sun,a班
5,moon,b班
