In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

### 合并操作 
- pd.merge(left, right)

In [2]:
# 创建员工表 emp(id, name, age, dept_id)
# 创建部门表 dept (dept_id, dept_name)
# 创建管理者 manager(dept_id, supervisor_id)
dept = DataFrame({
    'dept_id': ['1001', '1002', '1003'],
    'dept_name': ['软件部', '会计部', '生产部'],
    
})

emp = DataFrame({
    'id': ['01', '02', '03', '04', '05'],
    'name': ['disen', 'lucy', 'jack', 'judy', 'mack'],
    'age': [16, 17, 20, 19, 21],
    'dept_id': ['1001', '1002', '1001', '1001', '1003'],
})

In [3]:
dept

Unnamed: 0,dept_id,dept_name
0,1001,软件部
1,1002,会计部
2,1003,生产部


In [4]:
emp

Unnamed: 0,id,name,age,dept_id
0,1,disen,16,1001
1,2,lucy,17,1002
2,3,jack,20,1001
3,4,judy,19,1001
4,5,mack,21,1003


In [5]:
# 将部门表和员工表进行合并
pd.merge(emp, dept)

Unnamed: 0,id,name,age,dept_id,dept_name
0,1,disen,16,1001,软件部
1,3,jack,20,1001,软件部
2,4,judy,19,1001,软件部
3,2,lucy,17,1002,会计部
4,5,mack,21,1003,生产部


In [10]:
# 添加新的员工, 部门是新成立：1004部门
emp = emp.append(Series({
    'id': '06',
    'name': 'jerry',
    'age': 33,
    'dept_id': '1004'
}, name=5))  # append(Series) 增加一行数据时，Series中必须指定行索引标签

In [11]:
emp

Unnamed: 0,id,name,age,dept_id
0,1,disen,16,1001
1,2,lucy,17,1002
2,3,jack,20,1001
3,4,judy,19,1001
4,5,mack,21,1003
5,6,jerry,33,1004


In [13]:
# how 指定的合并方式， {'inner', 'outer', 'left', 'right'}
# inner 两个表都存在的数据，进行合并， 类似数据库的内连接
# outer 两个表的数据全部显示，不管是否都存在, 类似数据库的全外连接
# left 除了共有的数据之外，额外将左表中数据也显示
# right 除了共有的数据之外，额外将右表中的数据也显示
# 注： outer/left/right都可能会出现Nan值
pd.merge(emp, dept, how='outer')

Unnamed: 0,id,name,age,dept_id,dept_name
0,1,disen,16,1001,软件部
1,3,jack,20,1001,软件部
2,4,judy,19,1001,软件部
3,2,lucy,17,1002,会计部
4,5,mack,21,1003,生产部
5,6,jerry,33,1004,


In [14]:
dept = dept.append({
    'dept_id': '1005',
    'dept_name': '测试部'
}, ignore_index=True)  # ignore_index=True重新创建行索引
dept

Unnamed: 0,dept_id,dept_name
0,1001,软件部
1,1002,会计部
2,1003,生产部
3,1005,测试部


In [15]:
pd.merge(emp, dept, how='outer')

Unnamed: 0,id,name,age,dept_id,dept_name
0,1.0,disen,16.0,1001,软件部
1,3.0,jack,20.0,1001,软件部
2,4.0,judy,19.0,1001,软件部
3,2.0,lucy,17.0,1002,会计部
4,5.0,mack,21.0,1003,生产部
5,6.0,jerry,33.0,1004,
6,,,,1005,测试部


In [18]:
manager = DataFrame({
    'manage_id': ['01', '02', '03'],  # 管理层的员工的id
    'department_id':   ['1001', '1001', '1003'], # 部门的id
    'mgr_name':  ['Rose', 'Kobe', 'Oleay']
})
manager

Unnamed: 0,manage_id,department_id,mgr_name
0,1,1001,Rose
1,2,1001,Kobe
2,3,1003,Oleay


In [21]:
# 将员工表和管理者的表进行合并
# 如果两个表合并时没有相同的列标签，则使用left_on和right_on 指定两个表连接字段
# 如果两个表中出现了相同列标签超出2个以上，则使用on指定使用哪一个字段进行连接
pd.merge(emp, manager, left_on='dept_id', right_on='department_id')

Unnamed: 0,id,name,age,dept_id,manage_id,mgr_name
0,1,disen,16,1001,1,Rose
1,1,disen,16,1001,2,Kobe
2,3,jack,20,1001,1,Rose
3,3,jack,20,1001,2,Kobe
4,4,judy,19,1001,1,Rose
5,4,judy,19,1001,2,Kobe
6,5,mack,21,1003,3,Oleay


In [23]:
emp.shape

(6, 4)

In [29]:
# 扩展drop(index=, columns=) 删除行或列
# 修改字段名
manager.rename(columns={'department_id': 'dept_id',
                        'manage_id': 'mgr_id'}, inplace=True)
manager

Unnamed: 0,mgr_id,dept_id,mgr_name
0,1,1001,Rose
1,2,1001,Kobe
2,3,1003,Oleay


In [24]:
# 增加员工表的 mgr_id
emp['mgr_id'] = Series(['01', '01', '02', '03', '01', '02'], 
                       index=emp.index)
emp

Unnamed: 0,id,name,age,dept_id,mgr_id
0,1,disen,16,1001,1
1,2,lucy,17,1002,1
2,3,jack,20,1001,2
3,4,judy,19,1001,3
4,5,mack,21,1003,1
5,6,jerry,33,1004,2


In [32]:
# on指定两个表使用哪一列进行合并
pd.merge(emp, manager, on='dept_id', suffixes=['_北京', '_西安'])

Unnamed: 0,id,name,age,dept_id,mgr_id_北京,mgr_id_西安,mgr_name
0,1,disen,16,1001,1,1,Rose
1,1,disen,16,1001,1,2,Kobe
2,3,jack,20,1001,2,1,Rose
3,3,jack,20,1001,2,2,Kobe
4,4,judy,19,1001,3,1,Rose
5,4,judy,19,1001,3,2,Kobe
6,5,mack,21,1003,1,3,Oleay
