# **5.35_shape_data**

In [1]:
import pandas as pd
import numpy as np

### 一、聚合函数

定义好的聚合函数包括：

1. count()，得到元素的数量

2. first()，得到第一个元素

3. last()，得到最后一个元素

4. mean()，得到所有元素平均值

5. median()，得到所有元素中位数

6. min()，得到所有元素最小值

7. max()，得到所有元素最大值

8. std()，得到所有元素的标准差

9. var()，得到所有元素的方差

10. prod()，得到所有元素的积

11. sum()，得到所有元素的和

### 二、对DataFrame进行分组聚合运算

#### (一)、根据单个变量进行分组聚合运算

In [3]:
df = pd.DataFrame({
    '分店编号': ['001', '002', '001', '002', '001', '002', '001', '002'],
    '时间段': ['2022Q1', '2022Q1', '2022Q1', '2022Q1', '2022Q2', '2022Q2', '2022Q2', '2022Q2'],
    '商品类别': ['生鲜食品', '生鲜食品', '休闲食品', '休闲食品', '生鲜食品', '生鲜食品', '休闲食品', '休闲食品'],
    '销售额': [1500, 2000, 3000, 2500, 1800, 2200, 3200, 2700],
    '销售数量': [105,  84, 171, 162,  67, 150,  99,  57]
})
df

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


DataFrame的groupby方法

1. 根据变量进行分组，得到一个叫做DataFrameGroupBy的实例

    `df.groupby('变量')`

2. 底层逻辑

    groupby方法，会自动把变量值相同的行分组组合到一起，并返回一个叫做DataFrameGroupBy的实例。

   分组组合，可以看成把变量值相同的许多数据组合进，以组为单位的单元格中，这时一个单元格里面有多个数据，并不是有效的表格数据，无法返回DataFrame。

   因此，最后需要通过聚合函数，生成有效表格数据。

3. 提取变量，对DataFrameGroupBy的实例，提取出要进行聚合运算的单列或多列

   1)单列

     `df.groupby('变量')['要进行聚合运算的单列']`

   2)多列

     在方括号里传入一个列表

     `df.groupby('变量')[['变量1', '变量2']]`

4. 进行聚合运算

    `df.groupby('变量')['要进行聚合运算的单列'].聚合函数()`

5. 结果

   返回的结果的索引，是我们给groupby传入的变量名

   返回的结果，是Series还是DataFrame，取决于聚合运算前提取出的变量是单个还是多个

In [4]:
df.groupby('分店编号')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F57F84C390>

In [8]:
df.groupby('分店编号')['销售额']

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001F57905BAD0>

In [13]:
df.groupby('分店编号')[['销售额', '销售数量']]

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F51882FC10>

In [10]:
df.groupby('分店编号')['销售额'].mean()

分店编号
001    2375.0
002    2350.0
Name: 销售额, dtype: float64

In [12]:
df.groupby('分店编号')[['销售额', '销售数量']].mean()

Unnamed: 0_level_0,销售额,销售数量
分店编号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2375.0,110.5
2,2350.0,113.25


#### (二)、根据多个变量进行分组聚合运算

给groupby方法传入一个列表，里面放上多个变量

In [15]:
df.groupby(['分店编号', '时间段'])[['销售额', '销售数量']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,2250.0,138.0
1,2022Q2,2500.0,83.0
2,2022Q1,2250.0,123.0
2,2022Q2,2450.0,103.5


#### (三)、自定义聚合函数

自定义聚合函数的要求是，它能把Series里一堆数字汇总成一个数字

In [16]:
def max_plus_10(nums):
    return nums.max() + 10

可以用apply方法，参数传入自定义聚合函数的函数名，详见2.17-二、

In [17]:
df.groupby(['分店编号', '时间段'])[['销售额', '销售数量']].apply(max_plus_10)

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数量
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3010,181
1,2022Q2,3210,109
2,2022Q1,2510,172
2,2022Q2,2710,160


### 三、透视表

Pandas的pivot_table函数

1. 功能

   基于原始数据对表进行重塑，让表变得更加直观，方便我们阅读和理解

2. 语法
  
    `pd.pivot_table(DataFrame, index=['列名1', '列名2'], columns='列名3', values='列名4', aggfunc='函数名')`

   把包含数据的DataFrame和想设定的索引、列、值以及聚合函数的函数名，都作为参数，传入pivot_table函数

   需要两层索引，可以给`index`传入一个列表

   **由于重塑得到的表格，每个单元格，相当于包含经索引和列分组后的数据，大多数情况下不是一个数据，所以需要聚合函数**

   **不指定`aggfunc`时，默认是NumPy的`mean`函数**

In [18]:
df

Unnamed: 0,分店编号,时间段,商品类别,销售额,销售数量
0,1,2022Q1,生鲜食品,1500,105
1,2,2022Q1,生鲜食品,2000,84
2,1,2022Q1,休闲食品,3000,171
3,2,2022Q1,休闲食品,2500,162
4,1,2022Q2,生鲜食品,1800,67
5,2,2022Q2,生鲜食品,2200,150
6,1,2022Q2,休闲食品,3200,99
7,2,2022Q2,休闲食品,2700,57


In [29]:
# 把df的分店编号和时间段作为索引，商品类别作为列，计算销售额的总和
pd.pivot_table(df, index=['分店编号', '时间段'], columns='商品类别', values='销售额', aggfunc=np.sum)

Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000,1500
1,2022Q2,3200,1800
2,2022Q1,2500,2000
2,2022Q2,2700,2200


**由于Series底层实现就是NumPy的数组，所以针对数组的函数也可以用在Pandas的Series上**

In [30]:
pd.pivot_table(df, index=['分店编号', '时间段'], columns='商品类别', values='销售额', aggfunc=sum)

Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000,1500
1,2022Q2,3200,1800
2,2022Q1,2500,2000
2,2022Q2,2700,2200


**因为sum是Python内置函数，所以也不一定调用NumPy数据库**

In [25]:
# 把df的分店编号和时间段作为索引，商品类别作为列，计算销售额的平均值
# 由于这里重塑的表格每个单元格只包含原来DataFrame的一个单元格的数据，所以求和和求平均的结果一致
pd.pivot_table(df, index=['分店编号', '时间段'], columns='商品类别', values='销售额')

Unnamed: 0_level_0,商品类别,休闲食品,生鲜食品
分店编号,时间段,Unnamed: 2_level_1,Unnamed: 3_level_1
1,2022Q1,3000,1500
1,2022Q2,3200,1800
2,2022Q1,2500,2000
2,2022Q2,2700,2200


In [26]:
# 把df的商品类别作为索引，分店编号作为列，计算销售额的平均值
pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额')

分店编号,001,002
商品类别,Unnamed: 1_level_1,Unnamed: 2_level_1
休闲食品,3100,2600
生鲜食品,1650,2100


In [27]:
# 把df的商品类别作为索引，分店编号作为列，计算销售额的总和
pd.pivot_table(df, index='商品类别', columns='分店编号', values='销售额', aggfunc=np.sum)

分店编号,001,002
商品类别,Unnamed: 1_level_1,Unnamed: 2_level_1
休闲食品,6200,5200
生鲜食品,3300,4200


1. **groupby方法和pivot_table函数的相同之处：**

   **都可以进行分组聚合运算**

2. **groupby方法和pivot_table函数的不同之处：**

    **pivot_table函数可以把变量作为索引分组，也可以把变量作为列进行分组；groupby方法把数据分组后，用于分组的变量只能作为索引**

   **当主要目的是分组聚合运算时，groupby方法会更加常用，因为根据什么分组，提取什么变量，做什么聚合操作，这个逻辑更加直接**

分组聚合操作是数据分析中的重要方法。

针对某个数据集，假如想把地区作为切入点，看地区之间是否有差异，就可以对数据用地区变量进行分组，进行聚合分析