In [2]:
import numpy as np
import pandas as pd

## 九、 数据分组聚合

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

### 分组

数据聚合处理：

- 分组：先把数据分为几组
- 用函数处理：为不同组的数据应用不同的函数以转换数据
- 合并：把不同组得到的结果合并起来

数据分类处理的核心： groupby()函数

In [6]:
# 创建DataFrame
df = pd.DataFrame(
    {
        'color': ['green', 'green', 'yellow', 'blue', 'blue', 'yellow', 'yellow'],
        'price': [4, 5, 3, 2, 1, 7, 6]
    }
)
df

Unnamed: 0,color,price
0,green,4
1,green,5
2,yellow,3
3,blue,2
4,blue,1
5,yellow,7
6,yellow,6


In [9]:
# 按照颜色进行分组
g = df.groupby(by='color')
g

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000294F3125400>

使用.groups属性查看各行的分组情况

In [10]:
g.groups

{'blue': [3, 4], 'green': [0, 1], 'yellow': [2, 5, 6]}

In [11]:
# 分组 + 聚合
g.sum()

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
blue,3
green,9
yellow,16


### 分组聚合练习：

假设菜市场张大妈在卖菜，有以下属性：

- 菜品(item)：萝卜，白菜，辣椒，冬瓜

- 颜色(color)：白，青，红

- 重量(weight)

- 价格(price)

1. 要求以属性作为列索引，新建一个ddd
2. 对ddd进行聚合操作，求出颜色为白色的价格总和
3. 对ddd进行聚合操作，求出萝卜的所有重量以及平均价格
4. 使用merge合并总重量及平均价格

In [12]:
ddd = pd.DataFrame(
    data={
        "item": ["萝卜","白菜","辣椒","冬瓜","萝卜","白菜","辣椒","冬瓜"],
        'color':["白","青","红","白","青","红","白","青"],
        'weight': [10,20,10,10,30,40,50,60],
        'price': [0.99, 1.99, 2.99, 3.99, 4, 5, 6,7]
    }
)
ddd

Unnamed: 0,item,color,weight,price
0,萝卜,白,10,0.99
1,白菜,青,20,1.99
2,辣椒,红,10,2.99
3,冬瓜,白,10,3.99
4,萝卜,青,30,4.0
5,白菜,红,40,5.0
6,辣椒,白,50,6.0
7,冬瓜,青,60,7.0


In [103]:
# 对ddd进行聚合操作，求出颜色为白色的价格总和
group = ddd.groupby(by='color')
display(group)
gs = ddd.groupby(by='color').groups
sum = group['price'].sum()
display(sum.loc['白'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000294F9FC0F50>

np.float64(10.98)

In [105]:
# 对ddd进行聚合操作，求出萝卜的所有重量以及平均价格
items = ddd.groupby('item')
display(items.groups)

{'冬瓜': [3, 7], '白菜': [1, 5], '萝卜': [0, 4], '辣椒': [2, 6]}

In [108]:
sum2 = items[['weight']].sum().loc['萝卜']
display(sum2)
display(items[['price']].mean().loc['萝卜'])

weight    40
Name: 萝卜, dtype: int64

price    2.495
Name: 萝卜, dtype: float64

In [111]:
# 使用merge合并总重量及平均价格
display(ddd)
items = ddd.groupby('item')
display(items[['weight']].sum())
display(items[['price']].mean())

Unnamed: 0,item,color,weight,price
0,萝卜,白,10,0.99
1,白菜,青,20,1.99
2,辣椒,红,10,2.99
3,冬瓜,白,10,3.99
4,萝卜,青,30,4.0
5,白菜,红,40,5.0
6,辣椒,白,50,6.0
7,冬瓜,青,60,7.0


Unnamed: 0_level_0,weight
item,Unnamed: 1_level_1
冬瓜,70
白菜,60
萝卜,40
辣椒,60


Unnamed: 0_level_0,price
item,Unnamed: 1_level_1
冬瓜,5.495
白菜,3.495
萝卜,2.495
辣椒,4.495


In [112]:
ddd.merge(items[['weight']].sum(),on='item',suffixes=[None,'_sum']).merge(items[['price']].mean(),on='item',suffixes=[None,'_mean'])

Unnamed: 0,item,color,weight,price,weight_sum,price_mean
0,萝卜,白,10,0.99,40,2.495
1,白菜,青,20,1.99,60,3.495
2,辣椒,红,10,2.99,60,4.495
3,冬瓜,白,10,3.99,70,5.495
4,萝卜,青,30,4.0,40,2.495
5,白菜,红,40,5.0,60,3.495
6,辣椒,白,50,6.0,60,4.495
7,冬瓜,青,60,7.0,70,5.495
