# 部门工资最高的员工

In [None]:
表： Employee

+--------------+---------+
| 列名          | 类型    |
+--------------+---------+
| id           | int     |
| name         | varchar |
| salary       | int     |
| departmentId | int     |
+--------------+---------+
在 SQL 中，id是此表的主键。
departmentId 是 Department 表中 id 的外键（在 Pandas 中称为 join key）。
此表的每一行都表示员工的 id、姓名和工资。它还包含他们所在部门的 id。
 

表： Department

+-------------+---------+
| 列名         | 类型    |
+-------------+---------+
| id          | int     |
| name        | varchar |
+-------------+---------+
在 SQL 中，id 是此表的主键列。
此表的每一行都表示一个部门的 id 及其名称。
 

查找出每个部门中薪资最高的员工。
按 任意顺序 返回结果表。
查询结果格式如下例所示。

 

示例 1:

输入：
Employee 表:
+----+-------+--------+--------------+
| id | name  | salary | departmentId |
+----+-------+--------+--------------+
| 1  | Joe   | 70000  | 1            |
| 2  | Jim   | 90000  | 1            |
| 3  | Henry | 80000  | 2            |
| 4  | Sam   | 60000  | 2            |
| 5  | Max   | 90000  | 1            |
+----+-------+--------+--------------+
Department 表:
+----+-------+
| id | name  |
+----+-------+
| 1  | IT    |
| 2  | Sales |
+----+-------+
输出：
+------------+----------+--------+
| Department | Employee | Salary |
+------------+----------+--------+
| IT         | Jim      | 90000  |
| Sales      | Henry    | 80000  |
| IT         | Max      | 90000  |
+------------+----------+--------+
解释：Max 和 Jim 在 IT 部门的工资都是最高的，Henry 在销售部的工资最高。

In [1]:
import pandas as pd
"""
思路：有两个表，考虑merge()合并以链接两个表格中的ID，后使用groupby()来分别考虑不同组下的最大薪水(transform("max"))，最后通过与max_salary相等来选取最大薪水
Tips: merge(left_on, right_on, how), rename(columns), groupby().transform("max"), df.[<condition1>==<condition2>]
"""
def department_highest_salary(employee: pd.DataFrame, department: pd.DataFrame) -> pd.DataFrame:
    
    # 使用merge()来合并两表，通过"departmentId"链接部门
    full_employee = employee.merge(department, left_on = 'departmentId', right_on = 'id', how = 'left')
    
    # 按正式列名来重命名
    full_employee.rename(columns={'name_x': 'Employee', 'name_y': 'Department', 'salary': 'Salary'}, inplace=True)
    
    # 对完整员工薪水表以部门分组groupby()，通过transform("max")来分别选取各部门最大值， 最大值添加到新列： max_salary
    full_employee['max_salary'] = full_employee.groupby('Department')['Salary'].transform('max')
    
    # 使用新列max_salary与员工实际薪水salary进行比较，来选取最大薪水行
    max_salary_employee = full_employee[full_employee['max_salary']==full_employee['Salary']]
    
    # 选取目标列输出df
    return max_salary_employee[['Department', 'Employee', 'Salary']]

In [3]:
data = [[1, 'Joe', 70000, 1], [2, 'Jim', 90000, 1], [3, 'Henry', 80000, 2], [4, 'Sam', 60000, 2], [5, 'Max', 90000, 1]]
employee = pd.DataFrame(data, columns=['id', 'name', 'salary', 'departmentId']).astype({'id':'Int64', 'name':'object', 'salary':'Int64', 'departmentId':'Int64'})
data = [[1, 'IT'], [2, 'Sales']]
department = pd.DataFrame(data, columns=['id', 'name']).astype({'id':'Int64', 'name':'object'})
department_highest_salary(employee, department)

Unnamed: 0,Department,Employee,Salary
1,IT,Jim,90000
2,Sales,Henry,80000
4,IT,Max,90000
