### Pandas数据分组聚合

In [1]:
import numpy as np
import pandas as pd

数据聚合是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

数据分类处理：

 - 分组：先把数据分为几组
 - 用函数处理：为不同组的数据应用不同的函数以转换数据
 - 合并：把不同组得到的结果合并起来
 
数据分类处理的核心：
     groupby()函数

In [2]:
# 创建DataFrame
df = pd.DataFrame(
    {
        'color': ['green', 'green', 'yellow', 'blue', 'blue', 'yellow', 'yellow'],
        'price': [4, 5, 3, 2, 1, 7, 6]
    }
)
df

Unnamed: 0,color,price
0,green,4
1,green,5
2,yellow,3
3,blue,2
4,blue,1
5,yellow,7
6,yellow,6


In [3]:
# 按 color 来进行分组
df.groupby(by='color')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001EF7CF82C40>

使用.groups属性查看各行的分组情况：

In [4]:
 df.groupby(by='color').groups

{'blue': [3, 4], 'green': [0, 1], 'yellow': [2, 5, 6]}

In [5]:
# 分组 + 聚合
df.groupby('color').sum()

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
blue,3
green,9
yellow,16


============================================

练习：

   假设菜市场张大妈在卖菜，有以下属性：
   
   菜品(item)：萝卜，白菜，辣椒，冬瓜
   
   颜色(color)：白，青，红
   
   重量(weight)
   
   价格(price)
   
1. 要求以属性作为列索引，新建一个ddd
2. 对ddd进行聚合操作，求出颜色为白色的价格总和
3. 对ddd进行聚合操作，分别求出萝卜的所有重量以及平均价格
4. 使用merge合并总重量及平均价格

```Python
ddd = DataFrame(
    data={
        "item": ["萝卜","白菜","辣椒","冬瓜","萝卜","白菜","辣椒","冬瓜"],
        'color':["白","青","红","白","青","红","白","青"],
        'weight': [10,20,10,10,30,40,50,60],
        'price': [0.99, 1.99, 2.99, 3.99, 4, 5, 6,7]
    }
)
```
============================================

In [6]:
ddd = pd.DataFrame(
    data={
        "item": ["萝卜","白菜","辣椒","冬瓜","萝卜","白菜","辣椒","冬瓜"],
        'color':["白","青","红","白","青","红","白","青"],
        'weight': [10,20,10,10,30,40,50,60],
        'price': [0.99, 1.99, 2.99, 3.99, 4, 5, 6,7]
    }
)
ddd

Unnamed: 0,item,color,weight,price
0,萝卜,白,10,0.99
1,白菜,青,20,1.99
2,辣椒,红,10,2.99
3,冬瓜,白,10,3.99
4,萝卜,青,30,4.0
5,白菜,红,40,5.0
6,辣椒,白,50,6.0
7,冬瓜,青,60,7.0


In [7]:
# 对ddd进行聚合操作，求出颜色为白色的价格总和
ddd.groupby('color')['price'].sum()  # Series
ddd.groupby('color')[['price']].sum()  # DataFrame

ddd.groupby('color')[['price']].sum().loc[['白']]

Unnamed: 0_level_0,price
color,Unnamed: 1_level_1
白,10.98


In [8]:
ddd

Unnamed: 0,item,color,weight,price
0,萝卜,白,10,0.99
1,白菜,青,20,1.99
2,辣椒,红,10,2.99
3,冬瓜,白,10,3.99
4,萝卜,青,30,4.0
5,白菜,红,40,5.0
6,辣椒,白,50,6.0
7,冬瓜,青,60,7.0


In [9]:
# 对ddd进行聚合操作，分别求出萝卜的所有重量以及平均价格
df1 = ddd.groupby('item')[['weight']].sum()

df2 = ddd.groupby('item')[['price']].mean()

In [10]:
# 使用merge合并总重量及平均价格
display(df1, df2)

df1.merge(df2, left_index=True, right_index=True)

Unnamed: 0_level_0,weight
item,Unnamed: 1_level_1
冬瓜,70
白菜,60
萝卜,40
辣椒,60


Unnamed: 0_level_0,price
item,Unnamed: 1_level_1
冬瓜,5.495
白菜,3.495
萝卜,2.495
辣椒,4.495


Unnamed: 0_level_0,weight,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1
冬瓜,70,5.495
白菜,60,3.495
萝卜,40,2.495
辣椒,60,4.495
