# 数据透视


```{admonition} 在线刷题
:class: seealso

检查 or 强化 `Pandas` 数据分析操作？<a href="https://www.heywhale.com/mw/project/6146c0318447b8001769ff20" target="_blank">👉在线体验「Pandas进阶修炼300题」</a>
```

```{note} 
本页面代码可以[在线编辑、执行](../指引/在线执行.md)！
```

## 本页数据说明

为了更好的介绍相关操作，本页面使用 **某超市销售数据** 进行展开，你应该对数据字段、数值、类型等相关信息做一个大致了解！

In [1]:
import pandas as pd
df = pd.read_csv("某超市销售数据.csv",thousands=',')
df.head()

Unnamed: 0,订单ID,订单日期,邮寄方式,国家,地区,省/自治区,细分,类别,子类别,制造商,产品名称,数量,销售额,利润
0,A1000001,2013/1/1,二级,中国,中南,湖南,公司,办公用品,收纳具,Rogers,"Rogers 文件车, 单宽度",5,3305,1322
1,A1000001,2013/1/1,二级,中国,中南,湖南,公司,家具,桌子,Barricks,"Barricks 圆桌, 白色",3,5289,-635
2,A1000001,2013/1/1,二级,中国,中南,湖南,公司,技术,电话,诺基亚,"诺基亚 智能手机, 整包",3,1725,69
3,A1000001,2013/1/1,二级,中国,中南,湖南,公司,技术,配件,贝尔金,"贝尔金 记忆卡, 实惠",3,1607,611
4,A1000003,2013/1/2,二级,中国,华东,福建,消费者,办公用品,收纳具,Rogers,"Rogers 盒, 工业",4,456,128


## 默认方法

制作各省「平均销售额」的数据透视表

In [2]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区')

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,1875.712934
云南,1863.78903
内蒙古,1314.826316
北京,1726.857143
吉林,1701.563567
四川,1157.875536
天津,1611.206667
宁夏,1651.68
安徽,1477.868251
山东,1642.659111


```{admonition} 思考
:class: hint

用分组如何实现？
```

In [3]:
df.groupby("省/自治区")['销售额'].mean() 

省/自治区
上海     1875.712934
云南     1863.789030
内蒙古    1314.826316
北京     1726.857143
吉林     1701.563567
四川     1157.875536
天津     1611.206667
宁夏     1651.680000
安徽     1477.868251
山东     1642.659111
山西     1751.359184
广东     1592.185340
广西     1675.061135
新疆     1402.384615
江苏     1279.898089
江西     1966.477876
河北     1780.275248
河南     1558.400335
浙江     1347.277778
海南     1721.982759
湖北     1324.808442
湖南     1603.702222
甘肃     1602.893443
福建     1732.044693
西藏      201.000000
贵州     1425.978723
辽宁     1363.381982
重庆     1383.082927
陕西     1880.606635
青海     2978.954545
黑龙江    1800.438503
Name: 销售额, dtype: float64

## 指定维度

制作各省「销售总额」的数据透视表

In [4]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区',aggfunc = sum)

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,594601
云南,441718
内蒙古,249817
北京,350552
吉林,896724
四川,269785
天津,483362
宁夏,41292
安徽,684253
山东,1884130


## 组合计算

制作各省「销售总额」与「平均销售额」的数据透视表

In [5]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区',aggfunc = ['mean',sum])

Unnamed: 0_level_0,mean,sum
Unnamed: 0_level_1,销售额,销售额
省/自治区,Unnamed: 1_level_2,Unnamed: 2_level_2
上海,1875.712934,594601
云南,1863.78903,441718
内蒙古,1314.826316,249817
北京,1726.857143,350552
吉林,1701.563567,896724
四川,1157.875536,269785
天津,1611.206667,483362
宁夏,1651.68,41292
安徽,1477.868251,684253
山东,1642.659111,1884130


## 组合多列

制作各省市「销售总额」与「利润总额」的数据透视表

In [6]:
pd.pivot_table(df,values = ['销售额','利润','数量'],index = '类别',aggfunc = sum)

Unnamed: 0_level_0,利润,数量,销售额
类别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
办公用品,752124,21389,4844936
家具,628052,8434,5696531
技术,742264,7613,5442876


## 组合索引

制作「各省市」与「不同类别」产品「销售总额」的数据透视表

In [7]:
pd.pivot_table(df,values = ['销售额'],index = ['省/自治区','类别'],aggfunc = sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额
省/自治区,类别,Unnamed: 2_level_1
上海,办公用品,198529
上海,家具,221058
上海,技术,175014
云南,办公用品,123051
云南,家具,174155
...,...,...
青海,家具,25923
青海,技术,22896
黑龙江,办公用品,473319
黑龙江,家具,497504


## 多层透视

制作各省市「不同类别」产品的「销售总额」透视表

In [8]:
pd.pivot_table(df,values = ['销售额'],index = ['省/自治区'], columns='类别',aggfunc = sum)

Unnamed: 0_level_0,销售额,销售额,销售额
类别,办公用品,家具,技术
省/自治区,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
上海,198529.0,221058.0,175014.0
云南,123051.0,174155.0,144512.0
内蒙古,74058.0,95426.0,80333.0
北京,144232.0,127407.0,78913.0
吉林,215143.0,287498.0,394083.0
四川,111393.0,88297.0,70095.0
天津,142526.0,149452.0,191384.0
宁夏,19529.0,16449.0,5314.0
安徽,200511.0,215901.0,267841.0
山东,575520.0,664339.0,644271.0


## 综合使用

制作「各省市」、「不同类别」产品「销售量与销售额」的「均值与总和」的数据透视表，并在最后追加一行『合计』

In [9]:
pd.pivot_table(df,values = ['销售额','数量'],index = ['省/自治区','类别'],aggfunc = ['mean',sum],margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,数量,销售额,数量,销售额
省/自治区,类别,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海,办公用品,3.706897,1140.971264,645,198529
上海,家具,4.132530,2663.349398,343,221058
上海,技术,3.616667,2916.900000,217,175014
云南,办公用品,3.913043,891.673913,540,123051
云南,家具,4.224490,3554.183673,207,174155
...,...,...,...,...,...
青海,技术,3.833333,3816.000000,23,22896
黑龙江,办公用品,3.657471,1088.089655,1591,473319
黑龙江,家具,3.921687,2997.012048,651,497504
黑龙江,技术,3.442177,2557.176871,506,375905


## 透视筛选

在上一题的基础上，查询 **「类别」** 等于 **「办公用品」** 的详情

In [10]:
table = pd.pivot_table(df,values = ['销售额','数量'],index = ['省/自治区','类别'],aggfunc = ['mean',sum],margins=True)
table.query('类别 == ["办公用品"]')

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,数量,销售额,数量,销售额
省/自治区,类别,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
上海,办公用品,3.706897,1140.971264,645,198529
云南,办公用品,3.913043,891.673913,540,123051
内蒙古,办公用品,3.391304,643.982609,390,74058
北京,办公用品,3.75,1163.16129,465,144232
吉林,办公用品,3.52027,726.834459,1042,215143
四川,办公用品,3.947368,837.541353,525,111393
天津,办公用品,3.917127,787.436464,709,142526
宁夏,办公用品,3.75,1627.416667,45,19529
安徽,办公用品,3.710526,753.800752,987,200511
山东,办公用品,3.775112,862.848576,2518,575520


## 逆透视

逆透视就是将宽的表转换为长的表，例如将第 5 题的透视表进行逆透视，其中不需要转换的列为『数量』列

In [11]:
table = pd.pivot_table(df,values = ['销售额','利润','数量'],index = '类别',aggfunc = sum)
table.melt(id_vars=['数量'],var_name='分类',value_name='金额')

Unnamed: 0,数量,分类,金额
0,21389,利润,752124
1,8434,利润,628052
2,7613,利润,742264
3,21389,销售额,4844936
4,8434,销售额,5696531
5,7613,销售额,5442876
