# DataFrame分组函数groupby+聚合/迭代/过滤

## 分组+聚合

**分组聚合（Group Aggregation）** 是数据分析中的常见操作，用于根据某些特定的列对数据进行分组，并对分组后的数据执行聚合操作（如求和、平均值、最大值等）

### 核心概念
- 分组（GroupBy）：
    - 按照某些列对数据进行分组，分组后的每个组可以看作一个独立的数据子集。
- 聚合（Aggregation）：
    - 在分组的基础上，对每个组执行某种聚合操作，如求和、求平均值、计数、最大值等。

### 基本语法
**df.groupby(by)[col].agg(func)**：
- **by**：分组的列名，可以是单列或多列。
- **col**：要进行聚合操作的目标列（可选）。
- **func**：聚合函数，如 sum、mean、count 等。

### 常用聚合函数

| 函数 | 描述 |
| --- | --- |
| sum() | 求和 |
| mean() | 求平均值 |
| count() | 统计非空值个数 |
| max() | 最大值 |
| min() | 最小值 |
| median() | 中位数 |
| std() | 标准差 |
| var() | 方差 |
| size() | 统计每组的大小（包括空值） |
| 自定义函数 | 用户自定义的函数，用于聚合 |

### 分组聚合实际案例

In [1]:
import pandas as pd

# 创建示例数据
data = {
    "Department": ["HR", "IT", "HR", "IT", "Finance", "Finance", "HR"],
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve", "Frank", "Grace"],
    "Salary": [5000, 7000, 4000, 9000, 6000, 8000, 3000],
    "Age": [25, 30, 22, 35, 29, 40, 23],
}
df = pd.DataFrame(data)
df

Unnamed: 0,Department,Name,Salary,Age
0,HR,Alice,5000,25
1,IT,Bob,7000,30
2,HR,Charlie,4000,22
3,IT,David,9000,35
4,Finance,Eve,6000,29
5,Finance,Frank,8000,40
6,HR,Grace,3000,23


#### 按单列分组并聚合

In [2]:
# 按 Department 分组，计算每组的 Salary 总和
df.groupby("Department")["Salary"].sum()

Department
Finance    14000
HR         12000
IT         16000
Name: Salary, dtype: int64

In [3]:
# 按 Department 分组，计算每组的 Salary 平均值
df.groupby("Department")["Salary"].mean()

Department
Finance    7000.0
HR         4000.0
IT         8000.0
Name: Salary, dtype: float64

#### 对多列进行聚合

In [4]:
# 按 Department 分组，计算每组的 Salary 和 Age 平均值
df.groupby("Department")[["Salary", "Age"]].mean()

Unnamed: 0_level_0,Salary,Age
Department,Unnamed: 1_level_1,Unnamed: 2_level_1
Finance,7000.0,34.5
HR,4000.0,23.333333
IT,8000.0,32.5


#### 聚合多个函数

In [5]:
# 按 Department 分组，对 Salary 计算总和、平均值和最大值
df.groupby("Department")["Salary"].agg(["sum", "mean", "max"])

Unnamed: 0_level_0,sum,mean,max
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Finance,14000,7000.0,8000
HR,12000,4000.0,5000
IT,16000,8000.0,9000


#### 多列分组

In [7]:
# 按 Department 和 Age 分组，统计每组的 Salary 总和
df.groupby(["Department", "Age"])["Salary"].sum()

Department  Age
Finance     29     6000
            40     8000
HR          22     4000
            23     3000
            25     5000
IT          30     7000
            35     9000
Name: Salary, dtype: int64

#### 使用匿名函数

In [8]:
# 按 Department 分组，对 Salary 自定义一个求范围（最大值减最小值）的函数
df.groupby("Department")["Salary"].agg(lambda x: x.max() - x.min())

Department
Finance    2000
HR         2000
IT         2000
Name: Salary, dtype: int64

#### 使用自定义函数

In [9]:
# 定义一个自定义函数来计算最大值和最小值之间的差异
def salary_difference(x):
    return x.max() - x.min()

# 按 Department 分组，对 Salary 自定义一个求范围（最大值减最小值）的函数
df.groupby("Department")["Salary"].agg(salary_difference)

Department
Finance    2000
HR         2000
IT         2000
Name: Salary, dtype: int64

## 分组+迭代

In [10]:
# 分组后的 GroupBy 对象可以直接迭代查看每个组
grouped = df.groupby("Department")
for name, group in grouped:
    print(f"组名：{name}")
    print(group)
    print()

组名：Finance
  Department   Name  Salary  Age
4    Finance    Eve    6000   29
5    Finance  Frank    8000   40

组名：HR
  Department     Name  Salary  Age
0         HR    Alice    5000   25
2         HR  Charlie    4000   22
6         HR    Grace    3000   23

组名：IT
  Department   Name  Salary  Age
1         IT    Bob    7000   30
3         IT  David    9000   35



## 分组+过滤

In [13]:
# 只保留分组中总 Salary 大于 13000 的组
df.groupby("Department").filter(lambda x: x["Salary"].sum() > 13000)

Unnamed: 0,Department,Name,Salary,Age
1,IT,Bob,7000,30
3,IT,David,9000,35
4,Finance,Eve,6000,29
5,Finance,Frank,8000,40
