## 1. 透视表pivot_table
`pivot_table()` 根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。  
**参数**  
- `index`/`columns`：指定分组键，且分组键作为列还是行
- `aggfunc`：函数或函数列表、函数字典等，默认'mean'，用来对数据进行聚合运算
- `fill_value`：填充缺失值，默认'None'
- `dropna`：跳过缺失值，默认'True'
- `margins`：是否对行/列进行合计，默认'False'，合计是对原始数据进行聚合运算，而非对已经聚合后的结果再进行运算
- `margins_name`：设置合计栏名称，默认'All'

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
    'key1': list('ABBCBCAA'),
    'key2': list('YZXYZXYZ'),
    'data1': np.random.randint(100, size=8),
    'data2': np.random.randint(10, size=8)
})
df

Unnamed: 0,key1,key2,data1,data2
0,A,Y,30,9
1,B,Z,90,6
2,B,X,13,0
3,C,Y,62,1
4,B,Z,25,1
5,C,X,29,6
6,A,Y,30,9
7,A,Z,77,4


In [3]:
# 将分组键都作为行，默认聚合函数为'mean'
# 运行结果同：df.groupby(['key1','key2']).mean()
df.pivot_table(index=['key1','key2'])

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Y,30.0,9.0
A,Z,77.0,4.0
B,X,13.0,0.0
B,Z,57.5,3.5
C,X,29.0,6.0
C,Y,62.0,1.0


In [4]:
# key1作为行，key2作为列进行分组
# 对data1使用mean求平均值，对data2使用sum求和
# 缺失值使用0代替
# 设置margins对行和列进行合计，并设置合计栏名称
# 这个合计是对原始数据进行合计，而不是聚合后的运算结果进行合计
# 如A的data1合计是将A的3个data1值进行平均值计算
df.pivot_table(
                values=['data1', 'data2'],
                index='key1', 
                columns='key2',
                aggfunc={'data1': np.mean, 'data2': np.sum},
                margins=True,
                margins_name='合计',
                fill_value=0
                )

Unnamed: 0_level_0,data1,data1,data1,data1,data2,data2,data2,data2
key2,X,Y,Z,合计,X,Y,Z,合计
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,0,30,77.0,45.666667,0,18,4,22
B,13,0,57.5,42.666667,0,0,7,7
C,29,62,0.0,45.5,6,1,0,7
合计,21,40,64.0,44.5,6,19,11,36


## 2. 交叉表crosstab
`crosstab()`交叉表可以用来计算分组的出现频率次数，同样的功能使用`pivot_table()`也可以实现，但`crosstab()`实现起来更简单  


In [5]:
pd.crosstab(df['key1'],df['key2'],margins=True)

key2,X,Y,Z,All
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,0,2,1,3
B,1,0,2,3
C,1,1,0,2
All,2,3,3,8
