# 数据透视


```{admonition} 在线刷题
:class: seealso

检查 or 强化 `Pandas` 数据分析操作？<a href="https://www.heywhale.com/mw/project/6146c0318447b8001769ff20" target="_blank">👉在线体验「Pandas进阶修炼300题」</a>
```

```{note} 
本页面代码可以[在线编辑、执行](../指引/在线执行.md)！
```

**数据透视** 可以算是利用 Pandas 进行数据分析最核心的操作，在 pandas 中可以通过 `pivot_table` 实现，
如果你能熟练使用 `Pandas` 进行数据透视，将会极大提高工作销效率，因为：
- 更快的速度，并且可以自动化
- 更易理解（看代码你就知道它做了什么）
- 易于使用以生成报告或电子邮件
- 更灵活，因为您可以定义自定义聚合函数
  
但其中复杂的参数设置很容易弄混淆，本章第一部分就将通过真实的数据以期望帮助你快速熟悉、使用该函数，在开始之前还是先分享图解来帮助记忆👇
```{figure} https://pic.liuzaoqi.com/picgo/202112201848914.png
:width: 800px
:align: center
```

## 本页数据说明

为了更好的介绍相关操作，本页面使用 **某超市销售数据** 进行展开，你应该对数据字段、数值、类型等相关信息做一个大致了解！

In [1]:
import pandas as pd
df = pd.read_csv("某超市销售数据.csv",thousands=',')
df.head()

Unnamed: 0,订单ID,订单日期,邮寄方式,国家,地区,省/自治区,细分,类别,子类别,制造商,产品名称,数量,销售额,利润
0,A1000001,2013/1/1,二级,中国,中南,湖南,公司,办公用品,收纳具,Rogers,"Rogers 文件车, 单宽度",5,3305,1322
1,A1000001,2013/1/1,二级,中国,中南,湖南,公司,家具,桌子,Barricks,"Barricks 圆桌, 白色",3,5289,-635
2,A1000001,2013/1/1,二级,中国,中南,湖南,公司,技术,电话,诺基亚,"诺基亚 智能手机, 整包",3,1725,69
3,A1000001,2013/1/1,二级,中国,中南,湖南,公司,技术,配件,贝尔金,"贝尔金 记忆卡, 实惠",3,1607,611
4,A1000003,2013/1/2,二级,中国,华东,福建,消费者,办公用品,收纳具,Rogers,"Rogers 盒, 工业",4,456,128


## 默认方法

制作各省「平均销售额」的数据透视表

In [2]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区')

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,1875.712934
云南,1863.78903
内蒙古,1314.826316
北京,1726.857143
吉林,1701.563567
四川,1157.875536
天津,1611.206667
宁夏,1651.68
安徽,1477.868251
山东,1642.659111


```{admonition} 思考
:class: hint

用分组如何实现？
```

In [3]:
df.groupby("省/自治区")['销售额'].mean() 

省/自治区
上海     1875.712934
云南     1863.789030
内蒙古    1314.826316
北京     1726.857143
吉林     1701.563567
四川     1157.875536
天津     1611.206667
宁夏     1651.680000
安徽     1477.868251
山东     1642.659111
山西     1751.359184
广东     1592.185340
广西     1675.061135
新疆     1402.384615
江苏     1279.898089
江西     1966.477876
河北     1780.275248
河南     1558.400335
浙江     1347.277778
海南     1721.982759
湖北     1324.808442
湖南     1603.702222
甘肃     1602.893443
福建     1732.044693
西藏      201.000000
贵州     1425.978723
辽宁     1363.381982
重庆     1383.082927
陕西     1880.606635
青海     2978.954545
黑龙江    1800.438503
Name: 销售额, dtype: float64

## 指定维度

制作各省「销售总额」的数据透视表

In [4]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区',aggfunc = sum)

Unnamed: 0_level_0,销售额
省/自治区,Unnamed: 1_level_1
上海,594601
云南,441718
内蒙古,249817
北京,350552
吉林,896724
四川,269785
天津,483362
宁夏,41292
安徽,684253
山东,1884130


## 组合计算

制作各省「销售总额」与「平均销售额」的数据透视表

In [None]:
pd.pivot_table(df,values = ['销售额'],index = '省/自治区',aggfunc = ['mean',sum])

## 组合多列

制作各省市「销售总额」与「利润总额」的数据透视表

In [None]:
pd.pivot_table(df,values = ['销售额','利润','数量'],index = '类别',aggfunc = sum)

## 组合索引

制作「各省市」与「不同类别」产品「销售总额」的数据透视表

In [None]:
pd.pivot_table(df,values = ['销售额'],index = ['省/自治区','类别'],aggfunc = sum)

## 多层透视

制作各省市「不同类别」产品的「销售总额」透视表

In [None]:
pd.pivot_table(df,values = ['销售额'],index = ['省/自治区'], columns='类别',aggfunc = sum)

## 综合使用

制作「各省市」、「不同类别」产品「销售量与销售额」的「均值与总和」的数据透视表，并在最后追加一行『合计』

In [None]:
pd.pivot_table(df,values = ['销售额','数量'],index = ['省/自治区','类别'],aggfunc = ['mean',sum],margins=True)

## 透视筛选

在上一题的基础上，查询 **「类别」** 等于 **「办公用品」** 的详情

In [81]:
table = pd.pivot_table(df,values = ['销售额','数量'],index = ['省/自治区','类别'],aggfunc = ['mean',sum],margins=True)
table.query('类别 == ["办公用品"]')

## 逆透视

逆透视就是将宽的表转换为长的表，例如将第 5 题的透视表进行逆透视，其中不需要转换的列为『数量』列

In [None]:
table = pd.pivot_table(df,values = ['销售额','利润','数量'],index = '类别',aggfunc = sum)
table.melt(id_vars=['数量'],var_name='分类',value_name='金额')