# 数据透视 

   - Excel中数据透视表的使用非常广泛，Pandas也提供了一个类似的方法：pivot_table();（数据透视表（Pivot Table）是一种交互式的表，可以进行某些计算，如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。）
   - 之所以称为数据透视表，是因为**可以动态地改变它们的版面布置，以便按照不同方式分析数据**，也可以重新安排行号、列标和页字段。每一次改变版面布置时，数据透视表会立即按照新的布置重新计算数据。

In [1]:
import numpy as np
import pandas as pd
df = pd.read_excel('data/city.xls')
df.head()

Unnamed: 0,地区,2018年,2017年,2016年,2015年,2014年
0,北京,30319.98,28014.94,25669.13,23014.59,21330.83
1,天津,18809.64,18549.19,17885.39,16538.19,15726.93
2,石家庄,,6460.88,5927.73,5440.6,5170.27
3,太原,,3382.18,2955.6,2735.34,2531.09
4,呼和浩特,,2743.72,3173.59,3090.52,2894.05


### 基础形式

In [2]:
#以2017年为索引
pd.pivot_table(df,index=['2017年'])

Unnamed: 0_level_0,2014年,2015年,2016年,2018年
2017年,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
479.25,347.45,376.73,424.95,
1284.91,1065.78,1131.62,1248.17,
1390.58,1091.7,1161.96,1257.67,
1803.26,1388.62,1493.86,1617.71,
2523.54,2000.94,2095.99,2264.23,
2743.72,2894.05,3090.52,3173.59,
2743.82,2461.47,2631.64,2458.98,
3382.18,2531.09,2735.34,2955.6,
3537.96,2497.27,2891.16,3157.7,
4118.83,3148.3,3410.09,3703.39,


### 也可有多个索引，大多数的pivot_table参数可以通过列表获取多个值

In [3]:
pd.pivot_table(df, index=['2017年','地区'])

Unnamed: 0_level_0,Unnamed: 1_level_0,2014年,2015年,2016年,2018年
2017年,地区,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
479.25,拉萨,347.45,376.73,424.95,
1284.91,西宁,1065.78,1131.62,1248.17,
1390.58,海口,1091.7,1161.96,1257.67,
1803.26,银川,1388.62,1493.86,1617.71,
2523.54,兰州,2000.94,2095.99,2264.23,
2743.72,呼和浩特,2894.05,3090.52,3173.59,
2743.82,乌鲁木齐,2461.47,2631.64,2458.98,
3382.18,太原,2531.09,2735.34,2955.6,
3537.96,贵阳,2497.27,2891.16,3157.7,
4118.83,南宁,3148.3,3410.09,3703.39,


### 也可指定需要汇总的数据

In [4]:
pd.pivot_table(df, index=['地区'] ,values=['2017年'])

Unnamed: 0_level_0,2017年
地区,Unnamed: 1_level_1
上海,30632.99
乌鲁木齐,2743.82
兰州,2523.54
北京,28014.94
南京,11715.1
南宁,4118.83
南昌,5003.19
厦门,4351.7
合肥,7213.45
呼和浩特,2743.72


### 还可以指定函数，来统计不同的统计值

In [5]:
pd.pivot_table(df, index=['地区'],values=['2017年','2016年'],aggfunc=np.sum)

Unnamed: 0_level_0,2016年,2017年
地区,Unnamed: 1_level_1,Unnamed: 2_level_1
上海,28178.65,30632.99
乌鲁木齐,2458.98,2743.82
兰州,2264.23,2523.54
北京,25669.13,28014.94
南京,10503.02,11715.1
南宁,3703.39,4118.83
南昌,4354.99,5003.19
厦门,3784.27,4351.7
合肥,6274.38,7213.45
呼和浩特,3173.59,2743.72


#### 非数值（NaN）难以处理，若想移除它们，可以使用‘fill_value’将其设置为0

In [10]:
pd.pivot_table(df,index=['2018年'],fill_value=0)

Unnamed: 0_level_0,2014年,2015年,2016年,2017年
2018年,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
18809.64,15726.93,16538.19,17885.39,18549.19
20363.19,14262.6,15717.27,17740.59,19424.73
30319.98,21330.83,23014.59,25669.13,28014.94
32679.87,23567.7,25123.45,28178.65,30632.99


#### 加入margins=True,可以在下方显示一些总和数据

In [12]:
pd.pivot_table(df,index=['2018年'],fill_value=0,margins=True)

Unnamed: 0_level_0,2014年,2015年,2016年,2017年
2018年,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
18809.64,15726.93,16538.19,17885.39,18549.19
20363.19,14262.6,15717.27,17740.59,19424.73
30319.98,21330.83,23014.59,25669.13,28014.94
32679.87,23567.7,25123.45,28178.65,30632.99
All,18722.015,20098.375,22368.44,24155.4625


#### 对不同的直执行不同的函数：可向aggfunc传递一个字典

In [13]:
 pd.pivot_table(df,index=['地区'], values=['2017年','2016年'], aggfunc={'2017年':np.sum,'2016年':np.mean})

Unnamed: 0_level_0,2016年,2017年
地区,Unnamed: 1_level_1,Unnamed: 2_level_1
上海,28178.65,30632.99
乌鲁木齐,2458.98,2743.82
兰州,2264.23,2523.54
北京,25669.13,28014.94
南京,10503.02,11715.1
南宁,3703.39,4118.83
南昌,4354.99,5003.19
厦门,3784.27,4351.7
合肥,6274.38,7213.45
呼和浩特,3173.59,2743.72


### 透视表过滤