# 使用分组聚合进行组内计算

什么是分组聚合？

分组聚合（Group Aggregation） 是一种常见的数据分析操作，用来：
- 按某个字段进行分组（比如按“部门”或“城市”）
- 对每组数据进行统计计算（比如求平均值、总和、最大值等）


In [None]:
import pandas as pd

In [None]:
# 设置每列最大宽度（比如 100）
pd.set_option('display.max_colwidth', 100)

# 设置显示的最大列数（比如 20）
pd.set_option('display.max_columns', 20)

# 设置显示宽度（比如 1000）
pd.set_option('display.width', 1000)


In [None]:
musicdata = pd.read_table('pd_data/musicdata.csv', sep=',', encoding='gbk')

## 使用groupby()方法拆分数据

pandas 的 groupby() 方法是数据分析中非常强大且常用的工具，用于对数据进行分组，然后对每组应用聚合（aggregation）、转换（transformation）或过滤（filtering）等操作


```
DataFrame.groupby(
    by=None,
    axis=0,
    level=None,
    as_index=True,
    sort=True,
    group_keys=True,
    observed=False,
    dropna=True
)
```

### groupby方法的常用参数及说明

参数说明
| 参数名 | 类型 | 说明 | 
|-|-|-|
| by | str, list, dict, Series, function | 指定用于分组的键，可以是列名、多个列名组成的列表、字典、Series 或函数。最常用的就是列名或列名列表。 | 
| axis | {0 or 'index', 1 or 'columns'} |指定分组的方向，默认是按行（axis=0），也可以按列分组。| 
| level | int or label | 如果是多层索引（MultiIndex），可以指定按哪一层分组。 | 
| as_index | bool | 默认 True，表示分组键作为结果的索引。如果设为 False，分组键会变成普通列。 | 
| sort | bool | 是否对分组键排序，默认 True。设为 False 可以提高性能。 | 
| group_keys | bool | 是否在结果中包含分组键，默认 True。 | 
| observed | bool | 用于分类变量分组时，是否只显示实际出现的组合（而不是所有可能组合）。默认 False。 | 
| dropna | bool | 是否在分组时排除缺失值（NaN），默认 True。设为 False 会保留 NaN 分组。 | 






In [None]:
# musicdataGroup = musicdata[['format', 'metric', 'value_actual']].groupby(by='format')
musicdataGroup = musicdata[['format', 'value_actual']].groupby(by='format')

In [None]:
musicdataGroup

- 分组后的结果不能直接查看，而是被存在内存中，输出的是内存地址。
- groupby() 返回的是一个 GroupBy 对象，你需要用聚合函数来“触发”计算。 
- 分组后的数据对象（DataFrameGroupBy），类似于Serier于DataFrame，是pandas提供的一种对象

### groupby常用描述性统计方法及说明

常用描述性统计方法及说明
| 方法名 | 作用说明 | 示例代码 | 
|-|-|-|
| count() | 每组非空值的数量 | df.groupby('部门')['工资'].count() | 
|size()|每组的行数（即每组的大小）|df.groupby('部门')['工资'].size()|
| sum() | 每组的总和 | df.groupby('部门')['工资'].sum() | 
| mean() | 每组的平均值| df.groupby('部门')['工资'].mean() | 
| median() | 每组的中位数 | df.groupby('部门')['工资'].median() | 
| min() | 每组的最小值 | df.groupby('部门')['工资'].min() | 
| max() | 每组的最大值 | df.groupby('部门')['工资'].max() | 
| std() | 每组的标准差（衡量波动性） | df.groupby('部门')['工资'].std() | 
| var() | 每组的方差 | df.groupby('部门')['工资'].var() | 
| describe() | 一次性输出多个统计指标（如均值、标准差、最小值、最大值等） | df.groupby('部门')['工资'].describe() | 







In [None]:
musicdataGroup.mean()

In [None]:
musicdataGroup.std()

In [None]:
musicdataGroup.size()

## 使用agg()方法聚合数据

在 pandas 中，.agg() 和 .aggregate() 是完全等价的方法，用于对分组或整个 DataFrame/Series 执行多个聚合操作。


.agg() 和 .aggregate() 是什么？
- 它们是 同义方法，功能完全一样。
- 用于对数据执行一个或多个聚合函数（如 mean, sum, max, min 等）。
- 可以用于：
- DataFrame
- Series
- groupby 对象


### agg方法的常用参数及说明

基本语法
```
df.agg(func)
df.aggregate(func)
```
- func 可以是字符串、函数、函数列表，或字典（用于多列多函数组合）


常用参数及说明
```
DataFrame.agg(func, axis=0, *args, **kwargs)
```

| 参数名 | 类型 | 说明 | 
|-|-|-|
| func | str、function、list、dict | 指定要执行的聚合函数，可以是单个函数、多个函数列表，或列与函数的映射字典 | 
| axis | {0 or 'index', 1 or 'columns'} | 指定聚合的方向，默认是 axis=0（按列聚合）；设为 axis=1 时按行聚合 | 
| *args | 可选参数 | 传递给聚合函数的额外参数 | 
| **kwargs | 可选参数 | 传递给聚合函数的命名参数 | 


### 使用agg方法聚合数据

In [None]:
import numpy as np

求number_of_records与value_actual的总和与平均值

In [None]:
musicdata[['number_of_records', 'value_actual']].agg([np.sum, np.mean])

出现FutureWarning
- 使用了 np.sum 和 np.mean 作为 .agg() 的参数。
- pandas 当前会自动将这些 NumPy 函数映射到其内部的 Series.sum() 和 Series.mean() 方法。
- 未来版本中，pandas 会直接使用传入的函数本身（即 np.sum），这可能导致行为不同。
- 为了保持当前行为，建议改用字符串形式的函数名，如 "sum" 和 "mean"。



对number_of_records求和，并对value_actual求平均值

In [None]:
musicdata.agg({'number_of_records': np.sum, 'value_actual': np.mean})

In [None]:
musicdata.agg({'number_of_records': np.sum, 'value_actual': [np.mean, np.sum]})

### 在agg方法中使用自定义函数

In [None]:
def DoubleSum(data):
    s = data.sum() * 2
    return s

In [None]:
musicdata.agg({'value_actual': DoubleSum})

### 在agg方法中使用自定义函数含np中的函数

np库中的函数能够在agg方法中直接使用，但是在自定义函数中使用np库的函数时，如果计算的时候使用单个序列，则无法得出想要的结果；但是使用多列数据重新计算则不会出现问题

In [None]:
def DoubleSum1(data):
    s = np.sum(data) * 2
    return s

In [None]:
musicdata.agg({'value_actual': DoubleSum1})

In [None]:
musicdata[['number_of_records', 'value_actual']].agg(DoubleSum1)

In [None]:
musicdata[['number_of_records', 'value_actual']].agg(DoubleSum)

### 使用agg方法做简单聚合

In [None]:
musicdataGroup.agg(np.mean)
#musicdataGroup.mean()

In [None]:
musicdataGroup.agg(np.std)
#musicdataGroup.std()

### 使用agg方法对分组数据使用不同的聚合函数

In [None]:
musicdataGroup.agg([('number_of_records', 'count'), ('value_actual', 'mean')])
#信息表分组前3组每种销售形式的记录数和销售价格均值

## 使用apply方法聚合数据

pandas 的 .apply() 方法是一个非常灵活且强大的工具，它允许你对 Series 或 DataFrame 的每一行或每一列 应用自定义函数或内置函数，实现复杂的数据处理逻辑


- .apply() 可以将一个函数“应用”到：
    - Series（一列数据）上的每个元素
    - DataFrame 的每一行或每一列
- 支持使用：
    - 内置函数（如 sum, len, str.upper）
    - 自定义函数（如 lambda 表达式）


### apply方法的常用参数及其说明

```
df.apply( func,axis=0,raw=false,result_type=None)
```

参数说明
| 参数 | 说明 | 
|-|-|
| func | 要应用的函数，可以是内置函数、自定义函数或 lambda 表达式 | 
| axis | 0 表示按列（默认），1 表示按行 | 
| raw | 是否以 ndarray 形式传入（默认 False，传入 Series） | 
| result_type | 控制返回值的格式（如 'expand', 'reduce', 'broadcast'） | 



.apply() vs .agg() vs .map()
| 方法 |适用对象  | 用途 | 特点 | 
|-|-|-|-|
| apply() |Series / DataFrame | 灵活地应用任意函数 | 最通用 | 
| agg() | Series / DataFrame / GroupBy | 聚合统计 | 多函数组合 | 
| map() | 仅 Series | 元素级映射 | 更轻量 | 


### 使用apply方法聚合数据

In [None]:
musicdata[['number_of_records', 'value_actual']].apply(np.mean)

In [None]:
musicdataGroup.apply(np.mean)

In [None]:
musicdataGroup.apply(np.std)

## 使用transform方法聚合数据

pandas 的 .transform() 方法是一个非常强大的工具，常用于分组后对每个元素进行转换，它与 .apply() 和 .agg() 有些相似，但用途更特殊。


.transform() 是什么？

.transform() 用于对 Series 或 GroupBy 对象中的每个元素进行转换，返回的结果与原始数据的形状一致。

特点：
- 返回的结果与原始数据 行数相同
- 常用于 分组标准化、归一化、填充等逐行操作
- 支持单个函数、多个函数、lambda 表达式、

使用场景
- 分组后做标准化、归一化
- 分组填充缺失值
- 构造新列用于建模或分析


.transform() vs .apply() vs .agg()
| 方法 |返回形状  | 用途 | 特点 | 
|-|-|-|-|
| transform | 与原始数据相同 | 元素级转换（如标准化） | 保持原行数 | 
| apply | 可变 | 灵活处理每组数据 | 可返回标量或序列 | 
| agg | 聚合结果 | 汇总统计（如平均值） | 返回缩减后的结果 | 


### transform方法的常用参数及说明

```
df.transform(func, axis=0)
```
- func：可以是字符串函数名、函数对象或 lambda 表达式
- axis：默认是按列（axis=0）


### 使用transform方法聚合数据

In [None]:
musicdata[['number_of_records', 'value_actual']].transform(lambda x: x * 2)
#收入信息表销售数量和销售价格的两倍

In [None]:
musicdataGroup.transform(lambda x: (x.mean()- x.min()) / (x.max() - x.min()))
#收入信息表分组后实现组内离差标准化后