In [1]:
import pandas as pd
import numpy as np

## 对DataFrame进行分组运算

In [2]:
df = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})

In [3]:
df

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [11]:
# df_group = df.groupby("分店编号") 相当于是一个实例可以从中提取单列或者多列

In [16]:
# 把df针对分店编号进行分组，计算销售额平均值
# 聚合运算前如果选的是单个变量，那么得到的就是一个Series
df.groupby("分店编号")["销售额"].mean()

分店编号
001    2375.0
002    2350.0
Name: 销售额, dtype: float64

销售额在这里是一个Series，能从一堆数据得到一个数字的方法就是聚合函数，包括求和sum，求平均mean等


In [14]:
df.groupby("分店编号")["销售数量"].mean()

分店编号
001    110.50
002    113.25
Name: 销售数量, dtype: float64

In [17]:
# 把df针对分店编号进行分组，计算销售额和销售数量的平均值
# 聚合运算前如果选的是多个变量，那么得到的就是一个DataFrame
df.groupby("分店编号")[["销售额", "销售数量"]].mean()

Unnamed: 0_level_0,销售额,销售数量
分店编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2375.0,110.5
2,2350.0,113.25


In [18]:
# 把df针对分店编号和时间段进行分组，计算销售额和销售数量的平均值
df.groupby(["分店编号", "时间段"])[["销售额", "销售数量"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


In [19]:
df.groupby(["时间段", "分店编号"])[["销售额", "销售数量"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
时间段,分店编号,Unnamed: 2_level_1,Unnamed: 3_level_1
2022Q1,1,2250.0,138.0
2022Q1,2,2250.0,123.0
2022Q2,1,2500.0,83.0
2022Q2,2,2450.0,103.5


In [22]:
def max_plus_10(nums):
    return nums.max() + 10
# 该函数符合将从一堆数字得到一个数字的标准，因此可以当作聚合函数使用

In [23]:
# 把df针对分店编号和时间段进行分组，对销售额和销售数量进行max_plus_10操作
df.groupby(["分店编号", "时间段"])[["销售额", "销售数量"]].apply(max_plus_10)

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3010,181
1,2022Q2,3210,109
2,2022Q1,2510,172
2,2022Q2,2710,160


In [24]:
df.groupby(["分店编号", "时间段"])[["销售额", "销售数量"]].max()

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000,171
1,2022Q2,3200,99
2,2022Q1,2500,162
2,2022Q2,2700,150


## 使用透视表

In [25]:
df

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [26]:
# 把df的分店编号和时间段作为索引，商品类别作为列，计算销售额的总和
pd.pivot_table(df, index=['分店编号', '时间段'], 
                   columns='商品类别', 
                   values='销售额', 
                   aggfunc=np.sum)  # Series的底层实现就是Numpy的数组，所以针对数组的函数也可以用在Series上

  pd.pivot_table(df, index=['分店编号', '时间段'],


Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000,1500
1,2022Q2,3200,1800
2,2022Q1,2500,2000
2,2022Q2,2700,2200


In [27]:
# 把df的分店编号和时间段作为索引，商品类别作为列，计算销售额的平均值
pd.pivot_table(df, index=['分店编号', '时间段'], columns='商品类别', values='销售额')

Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000.0,1500.0
1,2022Q2,3200.0,1800.0
2,2022Q1,2500.0,2000.0
2,2022Q2,2700.0,2200.0


In [28]:
# 把df的商品类别作为索引，分店编号作为列，计算销售额的平均值
pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额', aggfunc=np.mean)

  pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额', aggfunc=np.mean)


分店编号,001,002
商品类别,Unnamed: 1_level_1,Unnamed: 2_level_1
休闲食品,3100.0,2600.0
生鲜食品,1650.0,2100.0


In [29]:
# 把df的商品类别作为索引，分店编号作为列，计算销售额的总和
pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额', aggfunc=np.sum)

  pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额', aggfunc=np.sum)


分店编号,001,002
商品类别,Unnamed: 1_level_1,Unnamed: 2_level_1
休闲食品,6200,5200
生鲜食品,3300,4200
