### 数据的合并与连接 concat函数

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None)

objs：指定需要合并的对象，可以是序列、数据框或面板数据构成的列表 
axis：指定数据合并的轴，默认为0，表示合并多个数据的行，如果为1，就表示合并多个数据的列 
join：指定合并的方式，默认为outer，表示合并所有数据，如果改为inner，表示合并公共部分的数据 
join_axes：合并数据后，指定保留的数据轴 
ignore_index：bool类型的参数，表示是否忽略原数据集的索引，默认为False，如果设为True，就表示 忽略原索引并生成新索引 
keys：为合并后的数据添加新索引，用于区分各个数据部分

In [25]:
import pandas as pd
# 构造数据集df1和df2 
df1 = pd.DataFrame({'name':['张三','李四','王二'], 'age':[21,25,22],'gender':['男','女','男']}) 
df2 = pd.DataFrame({'name':['丁一','赵五'], 'age':[23,22], 'gender':['女','女']}) 
# 数据集的纵向合并 
pd.concat([df1,df2],keys=['df1','df2']) 

Unnamed: 0,Unnamed: 1,name,age,gender
df1,0,张三,21,男
df1,1,李四,25,女
df1,2,王二,22,男
df2,0,丁一,23,女
df2,1,赵五,22,女


In [22]:
pd.concat([df1,df2],keys=['df1','df2']).reset_index()

Unnamed: 0,level_0,level_1,name,age,gender
0,df1,0,张三,21,男
1,df1,1,李四,25,女
2,df1,2,王二,22,男
3,df2,0,丁一,23,女
4,df2,1,赵五,22,女


In [23]:
pd.concat([df1,df2],keys=['df1','df2']).reset_index().drop(labels='level_1',axis=1)

Unnamed: 0,level_0,name,age,gender
0,df1,张三,21,男
1,df1,李四,25,女
2,df1,王二,22,男
3,df2,丁一,23,女
4,df2,赵五,22,女


###  数据合并与连接 merge函数

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'))

left：指定需要连接的主 
right：指定需要连接的辅表 
how：指定连接方式，默认为inner内连，还有其他选项，如左连left、右连right和外连outer 
on：指定连接两张表的共同字段
left_on：指定主表中需要连接的共同字段 
right_on：指定辅表中需要连接的共同字段 
left_index：bool类型参数，是否将主表中的行索引用作表连接的共同字段，默认为False 
right_index：bool类型参数，是否将辅表中的行索引用作表连接的共同字段，默认为False 
sort：bool类型参数，是否对连接后的数据按照共同字段排序，默认为False 
suffixes：如果数据连接的结果中存在重叠的变量名，则使用各自的前缀进行区分

In [23]:
# 构造数据集 
df3 = pd.DataFrame({'id':[1,2,3,4,5],'name':['张三','李四','王二','丁一','赵五'],'age':[27,24,25,23,25],'gender':['男','男','男','女','女']}) 
df4 = pd.DataFrame({'Id':[1,2,2,4,4,4,5],'score':[83,81,87,75,86,74,88],'kemu':['科目1','科目1','科目2','科目1','科目2','科目3','科目1']}) 
df5 = pd.DataFrame({'id':[1,3,5],'name':['张三','王二','赵五'],'income':[13500,18000,15000]})

df6 = pd.merge(left=df3,right=df4,how='left',left_on='id',right_on='Id')
df6

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Unnamed: 0,id,name,age,gender,Id,score,kemu
0,1,张三,27,男,1.0,83.0,科目1
1,2,李四,24,男,2.0,81.0,科目1
2,2,李四,24,男,2.0,87.0,科目2
3,3,王二,25,男,,,
4,4,丁一,23,女,4.0,75.0,科目1
5,4,丁一,23,女,4.0,86.0,科目2
6,4,丁一,23,女,4.0,74.0,科目3
7,5,赵五,25,女,5.0,88.0,科目1


In [19]:
pd.merge(left=df6,right=df5,how='left')

<IPython.core.display.Javascript object>

Unnamed: 0,id,name,age,gender,Id,score,kemu,income
0,1,张三,27,男,1.0,83.0,科目1,13500.0
1,2,李四,24,男,2.0,81.0,科目1,
2,2,李四,24,男,2.0,87.0,科目2,
3,3,王二,25,男,,,,18000.0
4,4,丁一,23,女,4.0,75.0,科目1,
5,4,丁一,23,女,4.0,86.0,科目2,
6,4,丁一,23,女,4.0,74.0,科目3,
7,5,赵五,25,女,5.0,88.0,科目1,15000.0
