In [1]:
##-------------------------##
## -----Pandas数据合并2-----##
##-------------------------##

In [2]:
import numpy as np
import pandas as pd

In [None]:
#关系型数据的合并pd.merge
#pd.merge() 函数实现了三种数据连接的类型：
#一对一、 多对一和多对多。 这三种数据连接类型都通过 pd.merge() 接口进行调用， 根据不同的数据连接需求进行不同的操作。

In [4]:
###一对一连接: 关系型数据中，某列的列名完全和另一个表的列名对应，对这样的数据merge是一对一连接
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],'hire_date': [2004, 2008, 2012, 2014]})
print(f"{df1}\n\n{df2}")

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [11]:
#merge数据
'''pd.merge() 方法会发现两个 DataFrame 都有“employee”列， 并会自动以这列作为键进行连接。 两个输入的合并结果是一个新的DataFrame。 
需要注意的是， 共同列的位置可以是不一致的。
例如在这个例子中， 虽然 df1 与 df2 中“employee”列的位置是不一样的， 但是 pd.merge() 函数会正确处理这个问题。 
另外还需要注意的是， pd.merge() 会默认丢弃原来的行索引， 不过也可以自定义'''
df3 = pd.merge(left=df1,right=df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [12]:
##多对一连接:在需要连接的两个列中， 有一列的值有重复。如本例子，将df4的信息加入到df3中,类似物种注释
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],'supervisor': ['Carly', 'Guido', 'Steve']})
print(f"{df3}\n\n{df4}")

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014

         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve


In [13]:
pd.merge(left=df3,right=df4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [14]:
##多对多连接：如果左右两个输入的共同列都包含重复值， 那么合并的结果就是一种多对多连接。要合并的列 同一个名称对应多个数据, 被并表格对应的列也是存在重复
#下面的例子， 里面有一个 DataFrame 显示不同岗位人员的一种或多种能力。
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting','Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux','spreadsheets', 'organization']})
print(f"{df1}\n\n{df5}")

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR

         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization


In [15]:
pd.merge(left=df1,right=df5)

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


In [16]:
##设置数据合并的键，使用on left_on与right_on设定用于合并的键
#on参数的用法
print(f"{df1}\n\n{df2}")

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [17]:
#只有数据含有共同列名的时候才能使用
pd.merge(left=df1,right=df2,on = "employee")

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [19]:
'''有时你也需要合并两个列名不同的数据集， 例如前面的员工信息表中有一个字段不是“employee”而是“name”。 在这种情况下， 就可以用
left_on 和 right_on 参数来指定列名：'''
df6 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],'salary': [70000, 80000, 120000, 90000]})
print(f"{df1}\n\n{df6}")

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR

   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


In [23]:
#合并后会出现多余的一列，使用drop()方法去掉
pd.merge(left=df1,left_on="employee",right = df6,right_on="name").drop('name',axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [25]:
#设置数据连接的集合操作规则
#当一个值出现在一列， 却没有出现在另一列时， 就需要考虑集合操作规则了。
df7 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],'food': ['fish', 'beans', 'bread']},columns=['name', 'food'])
df8 = pd.DataFrame({'name': ['Mary', 'Joseph'],'drink': ['wine', 'beer']},columns=['name', 'drink'])
在“name”列中只有一个共同的值： Mary。 print(f"{df7}\n\n{df8}")

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread

     name drink
0    Mary  wine
1  Joseph  beer


In [26]:
#在“name”列中只有一个共同的值： Mary.如果直接连接会仅仅保留marry
pd.merge(left=df7,right=df8)

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [27]:
#因此需要设定how参数，默认值为 'inner'即为取交集，还有 'outer'、 'left' 和 'right'。
#这四种数据连接的集合操作规则都可以直接应用于前面介绍过的连接类型
#outer: 全部数据保留 缺失部分用NAN代替
pd.merge(left=df7,right=df8,how="outer")

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


In [28]:
#左连接，左边数据保留
pd.merge(left=df7,right=df8,how="left")

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


In [29]:
#右连接，右边数据保留
pd.merge(left=df7,right=df8,how="right")

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer


In [32]:
#两个输入 DataFrame 有重名列的情况, 比如以下例子rank列重复
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],'rank': [1, 2, 3, 4]})
df10 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],'rank': [3, 1, 4, 2]})
print(f"{df9}\n\n{df10}")

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4

   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2


In [34]:
#首选指定需要合并的列
pd.merge(left=df9,right=df10,on = 'name')

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [37]:
#可以看出pd.merge() 函数会自动为它们增加后缀 _x 或 _y， 当然也可以通过 suffixes 参数自定义后缀名
#suffixes 参数同样适用于任何连接方式， 即使有三个及三个以上的重复列名时也同样适用。
pd.merge(left=df9,right=df10,on = 'name',suffixes=["_Left","_Right"])

Unnamed: 0,name,rank_Left,rank_Right
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2
