# 数据聚合

```{admonition} 在线刷题
:class: seealso

检查 or 强化 `Pandas` 数据分析操作？<a href="https://www.heywhale.com/mw/project/6146c0318447b8001769ff20" target="_blank">👉在线体验「Pandas进阶修炼300题」</a>
```

```{note} 
本页面代码可以[在线编辑、执行](../指引/在线执行.md)！
```

数据聚合可以在数据分组的基础上，进一步对不同列采取不同的计算规则，例如查看不同地区的员工薪资最大、最小、均值以及工作年限的均值，过程图解如下

```{figure} https://pic.liuzaoqi.com/picgo/202112231931438.png
:width: 100%
:align: center
```

下面是更多相关案例，你可以修改相关代码来验证自己的想法！

## 本页数据说明

为了更好的介绍相关操作，本页面使用 **某招聘网站数据.csv** 数据进行展开，你应该对数据**字段、数值、类型**等相关信息做一个大致了解！

In [3]:
import pandas as pd
pd.set_option('display.max_colwidth',8)
df = pd.read_csv("某招聘网站数据.csv",parse_dates=['createTime'])
df.head()

Unnamed: 0,positionName,companySize,industryField,financeStage,companyLabelList,firstType,secondType,thirdType,createTime,district,salary,workYear,jobNature,education,positionAdvantage,imState,score,matchScore,famousCompany
0,数据分析,50-150人,移动互联...,A轮,['绩效...,产品|需...,数据分析,数据分析,2020-...,余杭区,37500,1-3年,全职,本科,五险一金...,today,233,15.1...,False
1,数据建模,150-...,电商,B轮,['年终...,开发|测...,数据开发,建模,2020-...,滨江区,15000,3-5年,全职,本科,六险一金...,disa...,176,32.5...,False
2,数据分析,2000人以上,移动互联...,上市公司,['节日...,产品|需...,数据分析,数据分析,2020-...,江干区,3500,1-3年,全职,本科,五险一金...,today,80,14.9...,False
3,数据分析,500-...,电商,D轮及以上,['生日...,开发|测...,数据开发,数据分析,2020-...,江干区,45000,3-5年,全职,本科,年终奖等,thre...,68,12.8...,True
4,数据分析,2000人以上,物流丨运输,上市公司,['技能...,产品|需...,数据分析,数据分析,2020-...,余杭区,30000,3-5年,全职,大专,五险一金,disa...,66,12.7...,True


## 聚合统计

### 计算指标

分组计算不同行政区，薪水的最小值、最大值和平均值

In [326]:
import numpy as np
df.groupby('district')['salary'].agg([min, max, np.mean])

Unnamed: 0_level_0,min,max,mean
district,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上城区,22500,30000,26250.0
下沙,30000,30000,30000.0
余杭区,7500,60000,33583.333333
拱墅区,24000,30000,28500.0
江干区,3500,45000,25250.0
滨江区,7500,50000,31428.571429
萧山区,25000,45000,36250.0
西湖区,6500,45000,30893.939394


### 修改列名

将上一题的列名（包括索引名）修改为中文

In [327]:
df.groupby('district').agg(最低工资=('salary', 'min'), 最高工资=(
    'salary', 'max'), 平均工资=('salary', 'mean')).rename_axis(["行政区"])

Unnamed: 0_level_0,最低工资,最高工资,平均工资
行政区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上城区,22500,30000,26250.0
下沙,30000,30000,30000.0
余杭区,7500,60000,33583.333333
拱墅区,24000,30000,28500.0
江干区,3500,45000,25250.0
滨江区,7500,50000,31428.571429
萧山区,25000,45000,36250.0
西湖区,6500,45000,30893.939394


### 组合计算

对不同岗位(`positionName`)进行分组，并统计其薪水(`salary`)中位数和得分(`score`)均值

In [None]:
df.groupby('positionName').agg({'salary': np.median, 'score': np.mean})

### 多层统计

对不同行政区进行分组，并统计薪水的均值、中位数、方差，以及得分的均值

In [302]:
df.groupby('district').agg(
    {'salary': [np.mean, np.median, np.std], 'score': np.mean})

Unnamed: 0_level_0,salary,salary,salary,score
Unnamed: 0_level_1,mean,median,std,mean
district,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
上城区,26250.0,26250,5303.300859,2.0
下沙,30000.0,30000,,6.0
余杭区,33583.333333,30000,10857.847721,15.166667
拱墅区,28500.0,30000,3000.0,2.75
江干区,25250.0,26250,17255.433927,39.25
滨江区,31428.571429,30000,10445.436461,12.952381
萧山区,36250.0,37500,10307.764064,18.25
西湖区,30893.939394,30000,7962.566302,8.060606


### 自定义函数

在 18 题基础上，在聚合计算时新增一列计算最大值与平均值的差值

In [345]:
def myfunc(x):

    return x.max()-x.mean()

df.groupby('district').agg(最低工资=('salary', 'min'), 最高工资=(
    'salary', 'max'), 平均工资=('salary', 'mean'), 最大值与均值差值=('salary', myfunc)).rename_axis(["行政区"])

Unnamed: 0_level_0,最低工资,最高工资,平均工资,最大值与均值差值
行政区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上城区,22500,30000,26250.0,3750.0
下沙,30000,30000,30000.0,0.0
余杭区,7500,60000,33583.333333,26416.666667
拱墅区,24000,30000,28500.0,1500.0
江干区,3500,45000,25250.0,19750.0
滨江区,7500,50000,31428.571429,18571.428571
萧山区,25000,45000,36250.0,8750.0
西湖区,6500,45000,30893.939394,14106.060606
