In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Pandas 分组与聚合

分组与聚合通常是分析数据的一种方式，通常与一些统计函数一起使用，查看数据的分组情况。

想一想其实上一节的交叉表与透视表也有分组的功能，所以算是分组的一种形式，只不过他们主要是计算次数或者计算比例。

## 1 什么是分组聚合

一个表示分组聚合运算的术语"split-apply-combine"（拆分-应用-合并）共三个阶段。
* split：在第一个阶段，pandas对象（Series或者DataFrame）中的数据会根据你提供的一个或多个键被拆分（split）为多组。
* apply：在第二个阶段，将一个函数应用（apply）到各个分组并产生一个新值。
* combine：在第三个阶段，所有这些函数的执行结果会被合并（combine）到最终的结果对象中。

举例：假如有这样一组数据,分别求ABC组的和。

| key | data |
| :-----:| :----: |
| A | 0 |
| B | 5 |
| C | 10 |
| A | 5 |
| B | 10 |
| C | 15 |
| A | 10 |
| B | 15 |
| C | 20 |

* 1. split：将这份数据按照'key'键拆分成3组

| key | data |
| :-----:| :----: |
| A | 0 |
| A | 5 | 
| A | 10 | 

| key | data |
| :-----:| :----: |
| B | 5 |
| B | 10 | 
| B | 15 | 

| key | data |
| :-----:| :----: |
| C | 10 |
| C | 15 | 
| C | 20 | 

* 2. apply:将函数sum应用到每一组，分别计算结果。

| key | sum |
| :-----:| :----: |
| A | 15 |

| key | sum |
| :-----:| :----: |
| B | 30 |

| key | sum |
| :-----:| :----: |
| C | 45 |


* 3. combine：将每组的结果合并到一起。

| key | sum |
| :-----:| :----: |
| A | 15 |
| B | 30 | 
| C | 45 | 

## 2 分组grouoby

pandas实现分组操作的是groupby函数

* df.groupby(by=None)
    * by: 根据什么进行分组，用于确定groupby的组

举例说明：

In [2]:
# 新建一个DataFrame
df1 = pd.DataFrame({'fruit':['apple','banana','orange','apple','banana'],
                    'color':['red','yellow','yellow','cyan','cyan'],
                   'price':[8.5,6.8,5.6,7.8,6.4]})
df1

Unnamed: 0,fruit,color,price
0,apple,red,8.5
1,banana,yellow,6.8
2,orange,yellow,5.6
3,apple,cyan,7.8
4,banana,cyan,6.4


In [3]:
# 对‘fruit’列进行分组，查看其类型
type(df1.groupby('fruit'))

pandas.core.groupby.generic.DataFrameGroupBy

* pandas.core.groupby.generic.DataFrameGroupBy 是一个Groupby对象，它是一个包含组名和数据块的2维元祖序列，支持迭代（可使用for循环进行迭代）

In [4]:
# 对groupby对象进行迭代
for name, group in df1.groupby('fruit'):
    print(name)
    print(group)
    print('-------------------------')  

apple
   fruit color  price
0  apple   red    8.5
3  apple  cyan    7.8
-------------------------
banana
    fruit   color  price
1  banana  yellow    6.8
4  banana    cyan    6.4
-------------------------
orange
    fruit   color  price
2  orange  yellow    5.6
-------------------------


## 3 聚合函数
* 常见的聚合函数如下表所示：

| 函数名 | 描述 | 
| :--- | :--- | 
| count | 分组中非NA值的数量 | 
| sum | 非NA值的和 | 
| mean | 非NA值的平均值 | 
| median | 非NA值的中位数 | 
| std, var | 标准差和方差 | 
| min, max | 非NA的最小值，最大值 | 
| prod | 非NA值的乘积 |
| first, last | 非NA值的第一个,最后一个 |

* 上表显示的是pandas已封装好的聚合函数，也可以自定义聚合函数，将函数传递给agg函数即可。


* 举例说明：

In [5]:
# 假设我们想要根据fruit来求price的平均值
df1['price'].groupby(df1['fruit']).mean()

fruit
apple     8.15
banana    6.60
orange    5.60
Name: price, dtype: float64

In [6]:
# 假设我们想要得到每种水果价格最大值和最小值的差值,把自定义的聚合函数传入agg参数即可
df1['price'].groupby(df1['fruit']).agg(lambda x: x.max() - x.min())

fruit
apple     0.7
banana    0.4
orange    0.0
Name: price, dtype: float64