In [8]:
#merge函数使用，merge用于连接多个数据库类型的DataFrame。
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'Num1':[1,2,3,4,5,6],'Key':['a','b','c','d','a','b']})
df2 = pd.DataFrame({'Num2':[1,2,3,4],'Key':['a','b','c','d']})

In [9]:
df1

Unnamed: 0,Num1,Key
0,1,a
1,2,b
2,3,c
3,4,d
4,5,a
5,6,b


In [10]:
df2

Unnamed: 0,Num2,Key
0,1,a
1,2,b
2,3,c
3,4,d


In [12]:
'''
merge函数参数详解。
pd.merge(left, right, how='', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
left只左边的数据，right指右边的数据。how指代连接方式。on指是以哪一列作为主键。left_on指将左侧数据的哪一列作为键，right_on指将右侧数据的哪
一列作为键。left_index若为True，则将左侧数据的索引作为键。right_index类似。sort默认为True，对连接后的dataframe进行排序。copy默认为True，即
复制原数据，不修改原数据。
'''

pd.merge(df1,df2,on='Key')
#使用merge，最好要指定参数on=''，指定以哪一个列作为主键来连接。从结果可以看出来，以key为主键，将df2整合到df1中，不替代数据。

Unnamed: 0,Num1,Key,Num2
0,1,a,1
1,5,a,1
2,2,b,2
3,6,b,2
4,3,c,3
5,4,d,4


In [16]:
df3 = pd.DataFrame({'Num1':[1,2,3,4,5,6],'Key1':['a','b','c','d','a','b']})
df4 = pd.DataFrame({'Num2':[1,2,3,4],'Key2':['a','b','c','d']})
pd.merge(df3,df4,left_on='Key1',right_on='Key2')
#这里的两个df没有相同的列索引，不传递任何参数的话不能连接，需要传递left_on和right_on，指按照这两个列作为键来连接数据。

Unnamed: 0,Num1,Key1,Num2,Key2
0,1,a,1,a
1,5,a,1,a
2,2,b,2,b
3,6,b,2,b
4,3,c,3,c
5,4,d,4,d


In [17]:
df5 = pd.DataFrame({'Num1':[1,2,3,4,5,6],'Key1':['a','b','c','d','e','b']})
df6 = pd.DataFrame({'Num2':[1,2,3,4],'Key2':['a','b','c','d']})
pd.merge(df5,df6,left_on = 'Key1',right_on = 'Key2')
'''
how参数默认的是inner，指内连接，即返回两个df的交集。可见，df5的e键并没有出现。参数how有'left'、'right'、'outer'方式，left指对左表的所有键联合.
right指对右表的所有键联合，outer指返回两个表的并集。
'''

Unnamed: 0,Num1,Key1,Num2,Key2
0,1,a,1,a
1,2,b,2,b
2,6,b,2,b
3,3,c,3,c
4,4,d,4,d


In [18]:
#按左表df的键来连接。右表没有的都返回NaN.
pd.merge(df5,df6,left_on = 'Key1',right_on = 'Key2',how='left')

Unnamed: 0,Num1,Key1,Num2,Key2
0,1,a,1.0,a
1,2,b,2.0,b
2,3,c,3.0,c
3,4,d,4.0,d
4,5,e,,
5,6,b,2.0,b


In [19]:
#按右表df的键来连接，左表多余的删除。
pd.merge(df5,df6,left_on = 'Key1',right_on = 'Key2',how='right')

Unnamed: 0,Num1,Key1,Num2,Key2
0,1,a,1,a
1,2,b,2,b
2,6,b,2,b
3,3,c,3,c
4,4,d,4,d


In [20]:
#返回两个表的并集。
pd.merge(df5,df6,left_on = 'Key1',right_on = 'Key2',how='outer')

Unnamed: 0,Num1,Key1,Num2,Key2
0,1,a,1.0,a
1,2,b,2.0,b
2,6,b,2.0,b
3,3,c,3.0,c
4,4,d,4.0,d
5,5,e,,


In [21]:
#创建两个df，演示通过行索引来连接
df7 = pd.DataFrame({'Num1':[1,2,3,4,5,6],'Key1':['a','b','c','d','e','b']},index=['A','B','C','D','E','F'])
df8 = pd.DataFrame({'Num2':[1,2,3,4],'Key2':['a','b','c','d']},index=['A','B','C','D'])

In [24]:
pd.merge(df7,df8,left_index=True,right_index=True,how='outer')
#用行索引连接则不需要传递on，on是 指代列索引的。左右两表的index参数必须都为True才可以。

Unnamed: 0,Num1,Key1,Num2,Key2
A,1,a,1.0,a
B,2,b,2.0,b
C,3,c,3.0,c
D,4,d,4.0,d
E,5,e,,
F,6,b,,


In [29]:
#若两个df的索引不同，其中某个df的索引和另一个的一个列内容有相同，则可以使用下面例子所使用的方法。定义一个表的列为键，另一个表的索引为True。
df7 = pd.DataFrame({'Num1':[1,2,3,4,5,6],'Key1':['a','b','c','d','e','b']},index=['A','B','C','D','E','F'])
df8 = pd.DataFrame({'Num2':[1,2,3,4]},index=['a','b','c','d'])

In [31]:
pd.merge(df7,df8,left_on='Key1',right_index=True,how='outer')

Unnamed: 0,Num1,Key1,Num2
A,1,a,1.0
B,2,b,2.0
F,6,b,2.0
C,3,c,3.0
D,4,d,4.0
E,5,e,


In [50]:
'''
join方法也可以用于连接，但是其是主要根据索引连接df的函数。其默认按左表的索引来连接，即完全保留左表的索引。传递on参数和merge作用一样。
'''
df7.join(df8,how='outer',on='Key1')

Unnamed: 0,Num1,Key1,Num2
A,1,a,1.0
B,2,b,2.0
F,6,b,2.0
C,3,c,3.0
D,4,d,4.0
E,5,e,


In [None]:
'''
使用concat函数让df在轴向上进行拼接。
pd.concat(objs,axis=0,join='outer',join_axes,keys,levels,names,verify_integrity,ignore_index)
objs是要连接的多个数据，必选参数。多个df或series用[]包起。
axis指要在哪个轴上拼接，默认axis=0，即在行方向上拼接，传递axis=1在列方向上拼接。
join默认为outer，指是进行内连接还是外连接。传递join='inner'使成为内连接。
join_axes指定其他轴的特定索引。
keys指给拼接的多个df命名形成一个外层索引，用以拼接形成一个df之后区分各个原来的df。
levels指可以用字典赋值keys
names指当赋值了keys时，为多层索引命名。
ignore_index默认为False，传递True，则形成新df时不会保存原有行索引而是形成新的索引。
verify_integrity检查df中的新轴是否重复，默认为False，即允许有重复。
'''

In [57]:
df1 = pd.DataFrame(np.arange(4).reshape(2,2),index=['a','b'],columns=['A','B'])
df2 = pd.DataFrame(np.arange(4).reshape(2,2),index=['a','d'],columns=['C','D'])

In [59]:
pd.concat([df1,df2],sort=False)

Unnamed: 0,A,B,C,D
a,0.0,1.0,,
b,2.0,3.0,,
a,,,0.0,1.0
d,,,2.0,3.0


In [63]:
#keys和names参数的使用。
pd.concat([df1,df2],axis=1,keys=['One','Two'],names=['Out','Inner'])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Out,One,One,Two,Two
Inner,A,B,C,D
a,0.0,1.0,0.0,1.0
b,2.0,3.0,,
d,,,2.0,3.0


In [66]:
#level参数的使用。
pd.concat({'One':df1,'Two':df2},axis=1,names=['Out','Inner'])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Out,One,One,Two,Two
Inner,A,B,C,D
a,0.0,1.0,0.0,1.0
b,2.0,3.0,,
d,,,2.0,3.0


In [68]:
#ignore_index使用
pd.concat([df1,df2],axis=1,sort=False,ignore_index=True)

Unnamed: 0,0,1,2,3
a,0.0,1.0,0.0,1.0
b,2.0,3.0,,
d,,,2.0,3.0


In [69]:
pd.concat([df1,df2],sort=False,ignore_index=True)

Unnamed: 0,A,B,C,D
0,0.0,1.0,,
1,2.0,3.0,,
2,,,0.0,1.0
3,,,2.0,3.0
