<b>Pandas之DataFrame合并</b>

In [1]:
import pandas as pd

Pandas提供了几个和数据合并相关的方法，merge、concat

<b>1. merge</b>  
  
  
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)  
   
用于通过一个或多个键将两个数据集的行连接起来，类似于 SQL 中的 JOIN。该函数的典型应用场景是，针对同一个主键存在两张包含不同字段的表，现在我们想把他们整合到一张表里。在此典型情况下，结果集的行数并没有增加，列数则为两个元数据的列数和减去连接键的数量。  
  
参数：  
right：DataFrame，  
how：{'left', 'right', 'outer', 'inner'}, default 'inner'。inner取交集，outer取并集，left 和 right 分别为取一边。  
on：用于指定连接的键名。  
suffixes=('_x','_y')： 指的是当左右对象中存在除连接键外的同名列时，结果集中的区分方式

1.1 构建数据

In [2]:
df1 = pd.DataFrame({'name_df1':['Linda','Jacker','Ken','Alice'],'age':[12,16,13,10],'city':['A','B','C','D']},columns = ['name_df1','age','city'])
df1

Unnamed: 0,name_df1,age,city
0,Linda,12,A
1,Jacker,16,B
2,Ken,13,C
3,Alice,10,D


In [3]:
df2 = pd.DataFrame({'name_df2':['Tom','Linda','Ken','Joy'],'sex':['male','female','male','female'],'city':['A','A','C','D']},columns = ['name_df2','sex','city'])
df2

Unnamed: 0,name_df2,sex,city
0,Tom,male,A
1,Linda,female,A
2,Ken,male,C
3,Joy,female,D


1.2 使用默认参数进行merge，即按照city进行拼接

In [4]:
pd.merge(df1,df2)

Unnamed: 0,name_df1,age,city,name_df2,sex
0,Linda,12,A,Tom,male
1,Linda,12,A,Linda,female
2,Ken,13,C,Ken,male
3,Alice,10,D,Joy,female


1.3 指定on

In [5]:
pd.merge(df1,df2,left_on='name_df1',right_on='name_df2')

Unnamed: 0,name_df1,age,city_x,name_df2,sex,city_y
0,Linda,12,A,Linda,female,A
1,Ken,13,C,Ken,male,C


1.4 指定how

In [6]:
pd.merge(df1,df2,how='left',left_on='name_df1',right_on='name_df2',)

Unnamed: 0,name_df1,age,city_x,name_df2,sex,city_y
0,Linda,12,A,Linda,female,A
1,Jacker,16,B,,,
2,Ken,13,C,Ken,male,C
3,Alice,10,D,,,


1.5 指定left_index、right_index

In [7]:
pd.merge(df1,df2,how='left',left_on='name_df1',right_on='name_df2',left_index=True,right_index=True)

Unnamed: 0,name_df1,age,city_x,name_df2,sex,city_y
0,Linda,12,A,Tom,male,A
1,Jacker,16,B,Linda,female,A
2,Ken,13,C,Ken,male,C
3,Alice,10,D,Joy,female,D


1.6 指定suffixes

In [8]:
pd.merge(df1,df2,how='left',left_on='name_df1',right_on='name_df2',left_index=True,right_index=True,suffixes=('_df1','_df2'))

Unnamed: 0,name_df1,age,city_df1,name_df2,sex,city_df2
0,Linda,12,A,Tom,male,A
1,Jacker,16,B,Linda,female,A
2,Ken,13,C,Ken,male,C
3,Alice,10,D,Joy,female,D


<b>2. concat</b>
  
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)  
  
参数：  

objs：Series or DataFrame。  
axis：{0, 1, ...}, 默认值为0，指定按照哪个轴进行联结（0按行，1按列）。在axis=0时，pd.concat([obj1,obj2]) 函数的效果与 obj1.append(obj2) 是相同的；而在 axis=1时，pd.concat([df1,df2],axis=1) 的效果与 pd.merge(df1,df2,left_index=True,right_index=True,how='outer') 是相同的。可以理解为 concat 函数使用索引作为“连接键”。  
join：{'inner', 'outer'}, 默认值为'outer' 设定在选定的轴方向上如何处理索引（inner为交集，outer为并集）。  
ignore_index：赋值为True，将不会使用index。  
keys：参数的作用是在结果集中对源数据进行区分。使用一个列表型的 keys 参数可以在连接轴上创建一个层次化索引；另一个隐式使用 keys 参数的方法是传入objs 参数时使用字典，字典的键就会被当做 keys。  
verify_integrity：参数用于检查结果对象新连接轴上的索引是否有重复项，有的话引发 ValueError，可以看到这个参数的作用与 ignore_index 是互斥的。

2.1 使用默认参数进行concat

In [9]:
pd.concat([df1,df2])

Unnamed: 0,age,city,name_df1,name_df2,sex
0,12.0,A,Linda,,
1,16.0,B,Jacker,,
2,13.0,C,Ken,,
3,10.0,D,Alice,,
0,,A,,Tom,male
1,,A,,Linda,female
2,,C,,Ken,male
3,,D,,Joy,female


2.2 指定axis和keys

In [10]:
pd.concat([df1,df2],axis=1,keys=['df1','df2'])

Unnamed: 0_level_0,df1,df1,df1,df2,df2,df2
Unnamed: 0_level_1,name_df1,age,city,name_df2,sex,city
0,Linda,12,A,Tom,male,A
1,Jacker,16,B,Linda,female,A
2,Ken,13,C,Ken,male,C
3,Alice,10,D,Joy,female,D


2.3 指定join

In [11]:
pd.concat([df1,df2],join='outer',keys=['df1','df2'])

Unnamed: 0,Unnamed: 1,age,city,name_df1,name_df2,sex
df1,0,12.0,A,Linda,,
df1,1,16.0,B,Jacker,,
df1,2,13.0,C,Ken,,
df1,3,10.0,D,Alice,,
df2,0,,A,,Tom,male
df2,1,,A,,Linda,female
df2,2,,C,,Ken,male
df2,3,,D,,Joy,female


In [12]:
pd.concat([df1,df2],join='inner',keys=['df1','df2'])

Unnamed: 0,Unnamed: 1,city
df1,0,A
df1,1,B
df1,2,C
df1,3,D
df2,0,A
df2,1,A
df2,2,C
df2,3,D


2.4 指定ignore_index=True

In [13]:
pd.concat([df1,df2],join='inner',keys=['df1','df2'],ignore_index=True)

Unnamed: 0,city
0,A
1,B
2,C
3,D
4,A
5,A
6,C
7,D


<b>join</b>

In [14]:
df1.join(df2,rsuffix='')

ValueError: columns overlap but no suffix specified: Index([u'city'], dtype='object')