# 数据整理—分组聚合操作

In [1]:
import pandas as pd
import numpy as np

## 一、分组聚合运算

In [2]:
#传入需要处理的数据
df1 = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})
df1

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


### 1.基本分组聚合运算

#### （1）对dataframe进行分组操作

In [3]:
#对df1按照“分店编号”进行分组——groupby方法
df1.groupby("分店编号")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1127aa200>

注：此时返回的并不是两个dataframe，而是已经按照“分店编号”划分好的两组数据对象

#### （2）对groupby分组的特定数据聚合运算

In [4]:
#对“分店编号”分组后的“销售额”进行求最大值
df1.groupby("分店编号")["销售额"].max()

分店编号
001    3200
002    2700
Name: 销售额, dtype: int64

In [5]:
df1.groupby("分店编号")["销售额"].min()

分店编号
001    1500
002    2000
Name: 销售额, dtype: int64

In [6]:
#对“分店编号”分组后的“销售数量”进行求和
df1.groupby("分店编号")["销售数量"].sum()

分店编号
001    442
002    453
Name: 销售数量, dtype: int64

In [7]:
#对“分店编号”分组后的“销售额”和“销售数量”进行求平均值
df1.groupby("分店编号")[["销售额", "销售数量"]].mean()

Unnamed: 0_level_0,销售额,销售数量
分店编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2375.0,110.5
2,2350.0,113.25


补充：聚合函数有很多，除了上述还有：

- count( )  得到元素数量
- mean( )   得到所有元素平均值
- median( ) 得到所有元素中位数
- min( )    得到所有元素的最小值
- max( )    得到所有元素的最大值
- std( )    得到所有元素的标准差
- var( )    得到所有元素的方差
- prod( )   得到所有元素的积
- sum( )    得到所有元素的和

#### （3）对dataframe进行多类分组并进行聚合运算

In [8]:
#对df1按照“分店编号”和“时间段”进行分组，并计算“销售额”和“销售数量”的平均值
df1.groupby(["分店编号", "时间段"])[["销售额", "销售数量"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


#### （4）自定义聚合运算

In [46]:
#定义计算最大值与最小值的平均值的函数
def mean_max_min(nums): 
    return (nums.max() + nums.min())/2

In [47]:
mean_max_min(df1["销售额"])

2350.0

In [49]:
#对df1按照“分店编号”和“时间段”进行分组，并运用自定义函数（分别计算“销售额”和“销售数量”最大最小值的平均值）
df1.groupby(["分店编号","时间段"])[["销售额", "销售数量"]].apply(mean_max_min)

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


注：对df1采用group函数后再使用apply方法调用定义的函数

## 二、数据透视表

#### 数据透视表：基于原始数据表对其结构进行重塑，更直观地得到想要的数据信息

    pd.pivot_table( dataframe，index= "索引名"，columns= "列名"，values= "值"，aggfunc= “函数” )

In [51]:
df1

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [53]:
#对df1以“时间段”和“分店编号”作为索引，“商品类别”作为列，计算“销售额”的总和
pd.pivot_table(df1, index=["时间段", "分店编号"], columns="商品类别", values="销售额", aggfunc=np.sum)

  pd.pivot_table(df1, index=["时间段", "分店编号"], columns="商品类别", values="销售额", aggfunc=np.sum)


Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
时间段,分店编号,Unnamed: 2_level_1,Unnamed: 3_level_1
2022Q1,1,3000,1500
2022Q1,2,2500,2000
2022Q2,1,3200,1800
2022Q2,2,2700,2200


In [59]:
# 对df的“商品类别”作为索引，“分店编号”作为列，计算“销售数量”的平均值
pd.pivot_table(df1, index=["商品类别", "分店编号"], columns="时间段", values="销售数量", aggfunc=np.mean)

  pd.pivot_table(df1, index=["商品类别", "分店编号"], columns="时间段", values="销售数量", aggfunc=np.mean)


Unnamed: 0_level_0,时间段,2022Q1,2022Q2
商品类别,分店编号,Unnamed: 2_level_1,Unnamed: 3_level_1
休闲食品,1,171.0,99.0
休闲食品,2,162.0,57.0
生鲜食品,1,105.0,67.0
生鲜食品,2,84.0,150.0


## 补充：对分组聚合和透视表的总结

### 分组聚合和透视表两种方法殊途同归，两种方法都是对dataframe中的数据进行结构重组并计算

#### 分组聚合在逻辑上更加清晰，也更常用

分组聚合的逻辑线：

- 根据什么属性进行分组
- 提取分组后的什么数据
- 对相关的数据进行什么样的运算

    groupby("分组编号")       ["销售额"]        .mean()
    根据分组编号进行分组        提取销售额数据      计算平均值

#### 透视表通过一个标准的函数，输出想要的表
#### 分组聚合的个性化输出更强一些，透视表则更规范一些，两种方法各有其特点

## 三、自定义分组类别

In [61]:
#传入数据集
df2 = pd.read_csv("/Users/hardy/Desktop/Python_file/Python_DataAnalyst/Data_Organize/residents_data.csv")
df2

Unnamed: 0,性别,居住地,年龄,工资
0,男,北京,38,18053
1,女,上海,42,9382
2,男,广州,23,6376
3,女,深圳,36,10746
4,男,杭州,20,5284
5,女,南京,34,9828
6,男,成都,33,9366
7,男,重庆,47,22820
8,男,武汉,36,16927
9,女,西安,42,11591


In [62]:
#对df2按照“年龄”进行分组，并计算“工资”的平均值
df2.groupby("年龄")["工资"].mean()

年龄
20     5284.0
23     5540.5
27     7426.0
32    10610.0
33     9366.0
34     9828.0
36    13836.5
38    18053.0
41    24117.0
42    10763.0
47    22820.0
50    69153.0
56     6391.0
59    68189.0
60    11020.0
Name: 工资, dtype: float64

注：此时会面临一个问题，即年龄数字过多会导致按照年龄分组得到的组别太多且不直观

### 1.自定义分组类别

    自定义分组类别——cut函数
    pd.cut(dataframe中的某列, 分组列表, 类别标签)

In [65]:
#设置年龄的分组列表
age_bins = [0, 10, 20, 30, 40, 50, 60, 120]

In [66]:
#根据设定的列表自定义年龄分组类别——cut函数
pd.cut(df2["年龄"], age_bins)

0     (30, 40]
1     (40, 50]
2     (20, 30]
3     (30, 40]
4     (10, 20]
5     (30, 40]
6     (30, 40]
7     (40, 50]
8     (30, 40]
9     (40, 50]
10    (40, 50]
11    (20, 30]
12    (20, 30]
13    (40, 50]
14    (40, 50]
15    (30, 40]
16    (50, 60]
17    (50, 60]
18    (50, 60]
19    (30, 40]
Name: 年龄, dtype: category
Categories (7, interval[int64, right]): [(0, 10] < (10, 20] < (20, 30] < (30, 40] < (40, 50] < (50, 60] < (60, 120]]

注：此时会对df2中的“年龄”列按照分组列表归类，并返回各“年龄”列表中的值属于的类别

In [73]:
#设置年龄分组的标签
age_labels = ["儿童", "青少年", "青年", "壮年", "中年", "中老年", "老年"]

In [74]:
#根据分组列表及标签列表，自定义年龄分组类比的标签
pd.cut(df2["年龄"], age_bins, labels=age_labels)

0      壮年
1      中年
2      青年
3      壮年
4     青少年
5      壮年
6      壮年
7      中年
8      壮年
9      中年
10     中年
11     青年
12     青年
13     中年
14     中年
15     壮年
16    中老年
17    中老年
18    中老年
19     壮年
Name: 年龄, dtype: category
Categories (7, object): ['儿童' < '青少年' < '青年' < '壮年' < '中年' < '中老年' < '老年']

注：此时返回的仍然是一个category类型的Series

### 2.对自定义分组类别进行聚合运算

In [76]:
#在df2中插入一个新的列，列名为“年龄组”
df2["年龄组"] = pd.cut(df2["年龄"], age_bins, labels=age_labels)
df2

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


In [78]:
#对df2中“年龄组”进行分组后的“工资”求平均值
df2.groupby("年龄组")["工资"].mean()

  df2.groupby("年龄组")["工资"].mean()


年龄组
儿童              NaN
青少年     5284.000000
青年      6169.000000
壮年     12305.714286
中年     24729.833333
中老年    28533.333333
老年              NaN
Name: 工资, dtype: float64

## 四、筛选特定条件的值

### 1.提取与重置索引

In [86]:
#对df1按照“分店编号”和“时间段”进行分组，并计算“销售额”和“销售数量”的平均值
grouped_df1 = df1.groupby(["分店编号", "时间段"])[["销售额", "销售数量"]].mean()
grouped_df1 

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


In [87]:
#提取grouped_df1中索引为001的行
grouped_df1.loc["001"]

Unnamed: 0_level_0,销售额,销售数量
时间段,Unnamed: 1_level_1,Unnamed: 2_level_1
2022Q1,2250.0,138.0
2022Q2,2500.0,83.0


In [88]:
#提取grouped_df1中外层索引为001，内层索引为2022Q1的行
grouped_df1.loc["001"].loc["2022Q1"]

销售额     2250.0
销售数量     138.0
Name: 2022Q1, dtype: float64

In [89]:
#重置grouped_df1索引
grouped_df1.reset_index()

Unnamed: 0,分店编号,时间段,销售额,销售数量
0,1,2022Q1,2250.0,138.0
1,1,2022Q2,2500.0,83.0
2,2,2022Q1,2250.0,123.0
3,2,2022Q2,2450.0,103.5


### 2.根据特定条件筛选行

In [90]:
df2

Unnamed: 0,性别,居住地,年龄,工资,年龄组
0,男,北京,38,18053,壮年
1,女,上海,42,9382,中年
2,男,广州,23,6376,青年
3,女,深圳,36,10746,壮年
4,男,杭州,20,5284,青少年
5,女,南京,34,9828,壮年
6,男,成都,33,9366,壮年
7,男,重庆,47,22820,中年
8,男,武汉,36,16927,壮年
9,女,西安,42,11591,中年


In [96]:
#筛选“性别”为男，“年龄”在20-30之间的行——提取df2种符合条件的值
df2[(df2["性别"] == "男") & (df2["年龄"] <= 30)]

Unnamed: 0,性别,居住地,年龄,工资,年龄组
2,男,广州,23,6376,青年
4,男,杭州,20,5284,青少年
11,男,合肥,27,7426,青年
12,男,长沙,23,4705,青年


In [97]:
#筛选“性别”为男，“年龄”在20-30之间的行——运用query方法
df2.query('(性别 =="男") & (年龄 <= 30)')

Unnamed: 0,性别,居住地,年龄,工资,年龄组
2,男,广州,23,6376,青年
4,男,杭州,20,5284,青少年
11,男,合肥,27,7426,青年
12,男,长沙,23,4705,青年
