# 多表拼接

## 表的横向拼接  
连接表的类型关注的就是待连接的两个表都是什么类型  
一对一：pd.merge(),该方法会自动寻找表中的公共列，并将找的公共列作为连接列    
多对一：多对一就是待连接的两个表的公共列不是一对一的，其中一个表的公共列有重复值，   
       另一个表的公共列是唯一的  
       `pd.merge(df1,df2,on='学号')`  
多对多：多对多就是待连接的两个表的公共列不是一对一的，且两个表的公共列都有重复值，多对多连接相当于多个多对一连接   
`pd.merge(df1,df2)`

In [1]:
import pandas as pd

df = pd.read_excel(r'./datapool/search-grade.xlsx')

In [2]:
df1 = df[['序号','姓名']]
df2 = df[['序号','笔试成绩总分']]
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,序号,姓名,笔试成绩总分
0,1,李鸿禧,423
1,2,刘逸轩,297
2,3,魏幸炎,428
3,4,于长昊,417
4,5,杨子鑫,465
...,...,...,...
3903,3904,陈俊锋,366
3904,3905,张诗蔚,350
3905,3906,李淑贤,407
3906,3907,黄嘉民,359


### 连接键的类型  

默认以公共列作为连接键  
也可以用参数on来指定连接键，参数on一般指定的是两个表中的公共列，其实这个时候和使用默认公共列达到的效果是一样的  
公共列可以有多列，也就是连接键可以有多个  
`pd.merge(df1,df2,on=['姓名','学号'])`

### 分别指定左右连接键  

当两个表中没有公共列时，这里指的是实际值一样，但列名不同，否则就无法连接了  
这个时候要分别指定左表和右表的连接键，使用的参数分别是left_on和right_on，  
left_on用来指明左表用作连接键的列名，right_on用来指明右表用作连接键的列名  
`pd.merge(df1,df2,left_on='编号',right_on='学号')`

### 把索引列当做连接键  

索引列不算真正的列，当公共列是索引列时，就要把索引列当做连接键，  
使用的参数分别是left_index和right_index，left_index用来控制左表的索引，right_index用来控制右表的索引  
`pd.merge(df1,df2,left_index=True,right_index=True)`

除了左表和右表的连接键均为索引，还可以把索引列和普通列混用  
`pd.merge(df1,df2,left_index=True,right_on'学号')`

### 连接方式

之前的左表的公共列在右表对应的公共列中找到，右表公共列的值也可以在左表对应的公共列找到，但是现实业务很多是互相找不到的  
这就衍生出来处理找不到的情况的几种连接方式，用参数how来指明具体的连接方式  
`pd.merge(df1,df2,on='学号',how='inner')`  
`pd.merge(df1,df2,on='学号',how='left')`

### 自定义重复的列名

当然我们也可以自定义重复的列名，只需要修改参数suffixes的值即可，默认为['_x','_y']  
`pd.merge(df1,df2,on='学号',how='inner',suffixes=['_L','_R'])`  

In [37]:
import numpy as np

A = np.full((3,3),1)
B = np.arange(1,10).reshape(3,3)
np.concatenate([A,B],axis=1)

array([[1, 1, 1, 1, 2, 3],
       [1, 1, 1, 4, 5, 6],
       [1, 1, 1, 7, 8, 9]])

## 表的纵向拼接  
表的纵向拼接是与横向拼接相对应的，横向拼接是两个表依据公共列在水平方向上进行拼接，  
而纵向拼接是在垂直方向进行拼接  
`pd.concat([df4,df5])`

In [4]:
import pandas as pd

df = pd.read_excel(r'./datapool/search-grade.xlsx')

In [5]:
df4 = df.iloc[100:105,:]
df5 = df.iloc[105:110,:]

In [6]:
pd.concat([df4,df5]).head()

Unnamed: 0,序号,姓名,学号,所属学校,院系,专业,班级,笔试准考证号,笔试科目名称,是否缺考,是否违纪,违纪类型,是否听力障碍,是否有成绩单号,成绩单号,笔试成绩总分,听力分数,阅读分数,综合分数,作文分数
100,101,咸杰,201910085078,华南理工大学广州学院,汽车与交通工程学院,车辆工程,2019车辆工程2班,445090203109014,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,356,107,107,0,142
101,102,居子昂,201810094097,华南理工大学广州学院,机械工程学院,工业设计,2018工业设计1班,445090203108417,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,353,130,112,0,111
102,103,林佩珊,201910091030,华南理工大学广州学院,经济学院,国际经济与贸易,2019国际经济与贸易1班,445090203105016,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,394,130,123,0,141
103,104,尹涵,201910110083,华南理工大学广州学院,通信工程学院,通信工程,2019通信工程4班,445090203108725,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,410,130,157,0,123
104,105,邱寿海,201910118064,华南理工大学广州学院,机械工程学院,机械工程,2019机械工程1班,445090203100221,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,377,141,104,0,132


### 索引设置
pd.concat()方法默认保留原表的索引，
可以通过设置参数ignore_index的值，让其等于True,这样就会生成一组新的索引，而不保留原标的索引  
`pd.concat([df1,df2],ignore_index=True)`

### 重叠数据合并
`pd.concat([df4,df5],ignore_index=True).drop_duplicates()`

In [54]:
df4 = df.iloc[100:105,:]
df5 = df.iloc[103:110,:]
pd.concat([df4,df5],ignore_index=True).drop_duplicates()

Unnamed: 0,序号,姓名,学号,所属学校,院系,专业,班级,笔试准考证号,笔试科目名称,是否缺考,是否违纪,违纪类型,是否听力障碍,是否有成绩单号,成绩单号,笔试成绩总分,听力分数,阅读分数,综合分数,作文分数
0,101,咸杰,201910085078,华南理工大学广州学院,汽车与交通工程学院,车辆工程,2019车辆工程2班,445090203109014,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,356,107,107,0,142
1,102,居子昂,201810094097,华南理工大学广州学院,机械工程学院,工业设计,2018工业设计1班,445090203108417,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,353,130,112,0,111
2,103,林佩珊,201910091030,华南理工大学广州学院,经济学院,国际经济与贸易,2019国际经济与贸易1班,445090203105016,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,394,130,123,0,141
3,104,尹涵,201910110083,华南理工大学广州学院,通信工程学院,通信工程,2019通信工程4班,445090203108725,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,410,130,157,0,123
4,105,邱寿海,201910118064,华南理工大学广州学院,机械工程学院,机械工程,2019机械工程1班,445090203100221,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,377,141,104,0,132
7,106,王彤,201910135010,华南理工大学广州学院,国际商学院,会计学（双语注会班）,2019会计学（双语注会班）1班,445090203111707,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,529,185,178,0,166
8,107,宋宇杰,201910118063,华南理工大学广州学院,机械工程学院,机械工程(创新班),2019机械工程(创新班)1班,445090203111407,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,437,113,164,0,160
9,108,万丽娅,201710107177,华南理工大学广州学院,管理学院,财务管理,2017财务管理2班,445090203104611,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,473,185,146,0,142
10,109,王汉臣,201910087094,华南理工大学广州学院,电子信息工程学院,自动化,2019自动化1班,445090203101922,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,416,152,127,0,137
11,110,严隽文,201910110076,华南理工大学广州学院,通信工程学院,通信工程,2019通信工程1班,445090203101226,（1）英语四级笔试,否,否,--,否,有,203144500000000.0,276,87,89,0,100
