# 创建透视表与交叉表

In [None]:
import pandas as pd
import numpy as np

In [None]:
musicdata = pd.read_csv('pd_data/musicdata.csv')

数据透视表是用于对数据进行灵活汇总和分析的工具，Pandas 中通过 pivot_table 和 crosstab 实现透视表和交叉表功能。

# 数据透视表

## 什么是数据透视表（Pivot Table）

数据透视表是一种将原始数据按照指定维度进行分组、聚合并以表格形式展示的工具。它可以快速计算总和、平均值、计数、最大值、最小值等统计指标，常用于销售分析、市场调研、客户细分等场景。

## 使用pivot_table函数创建透视表

```
pivot = pd.pivot_table(values='', index='', columns='', aggfunc='',margins=False,dropna=True)
```
常用参数及说明
|参数名称|参数说明|
|-|-|
|values|接收scr，用于指定要聚合的数据值，默认使用全部数据，默认为None|
|index|接收列、组、数组或前一列数据的列表，表示行分组键，默认为None|
|columns|接收列、组、数组或前一列数据的列表，表示列分组键，默认为None|
|aggfunc|接收函数、函数列表、字典，表示聚合函数，默认为mean|
|margins|接收bool，表示添加所有行/列（如小计/总计），默认为False|
|dropna|接收bool，表示是否删掉全为NaN的列，默认为True|

In [None]:
musicdataPivot = pd.pivot_table(musicdata[['format', 'number_of_records', 'value_actual']],index='format')
#以format作为分组键创建透视表

In [None]:
musicdataPivot


当不指定参数aggfunc时，会默认使用np.mean（平均数）进行聚合运算，np.mean会自动过滤掉非数值型数据

In [None]:
musicdataPivot1 = pd.pivot_table(musicdata[['format', 'number_of_records', 'value_actual']],index='format', aggfunc=np.sum)
#以format作为分组键创建销售数量与销售价格总和的透视表

In [None]:
musicdataPivot1

In [None]:
musicdataPivot2 = pd.pivot_table(musicdata[['format', 'metric', 'number_of_records', 'value_actual']],index=['format', 'metric'],aggfunc=np.sum)
#以format和metric作为分组键创建销售数量与销售价格总和的透视表

In [None]:
musicdataPivot2

In [None]:
musicdataPivot3 = pd.pivot_table(musicdata[['format', 'metric', 'number_of_records', 'value_actual']],index='format', columns='metric', aggfunc=np.sum)
#以format和metric作为行列分组键创建的透视表

In [None]:
musicdataPivot3

In [None]:
musicdataPivot4 = pd.pivot_table(musicdata[['format', 'metric', 'number_of_records', 'value_actual']],index = 'format', values='value_actual', aggfunc=np.sum)
#以format作为行分组键value_actual作为值创建的透视表

In [None]:
musicdataPivot4

In [None]:
musicdataPivot5 = pd.pivot_table(musicdata[['format', 'metric', 'number_of_records', 'value_actual']],index='format', columns='metric', aggfunc=np.sum, fill_value=0)
#使用fill_value对缺失值进行填充

In [None]:
musicdataPivot5

In [None]:
musicdataPivot6 = pd.pivot_table(musicdata[['format', 'metric', 'number_of_records', 'value_actual']],index='format', columns='metric', aggfunc=np.sum,fill_value=0, margins=True)
#添加margins参数，查看汇总数据

In [None]:
musicdataPivot6

# 创建交叉表

## 什么是交叉表

交叉表是一种特殊形式的数据透视表，主要用于统计两个分类变量之间的频数或关系。它更适合用于分类变量的分析，比如性别与购买偏好之间的关系

## 使用crosstab函数创建交叉表

```
cross = pd.crosstab(index='',columns='',values='',rownames='',colnames='',aggfunc='',margins=False,dropna=True)
```
常用参数及说明
|参数名称|参数说明|
|-|-|
|index|接收类数组或数组列表，表示行分组键，无默认值|
|columns|接收类数组或数组列表，表示列分组键，无默认值|
|values|接收数组，表示聚合数据，默认为None|
|rownames|接收sequence，表示行分组键，默认为None|
|colnames|接收sequence，表示列分组键，默认为None|
|aggfunc|接收函数，表示聚合函数，默认为None|
|margins|接收bool，表示汇总（Total）功能的开关，设置为True后，结果集中会出现名为“ALL”的行和列，默认为False|
|dropna|接收bool，表示是否删掉全为NaN的列，默认为True|
|normalize|接收bool，表示是否对值进行标准化，默认为False|

In [None]:
musicdataCross = pd.crosstab(index=musicdata['format'],columns=musicdata['metric'],values=musicdata['value_actual'], aggfunc = np.sum)
#以format和metric为分组键value_actual为值的透视表

In [None]:
musicdataCross