In [1]:
import pandas as pd
import numpy as np

In [2]:
# 10.2 数据透视表
# 数据分组是在一维（行）方向上不断拆分
# 数据透视表是在行、列方向上同时拆分

In [5]:
# Pivot_table( )方法的全部参数如下
# data 表示要做数据透视表的整个表
# values对应Excel中值那个框
# index对应Excel中行那个框
# columns对应Excel中列那个框
# aggfunc表示对values的计算类型
# fill_value表示对空值的填充值
# margins表示是否显示合计列
# dropna表示是否删除缺失，如果为真时，则把一整行全作为缺失值删除
# margins_name表示合计列的列名
pd.pivot_table(data,values=None, index=None, columns=None, aggfunc='mean',
fill_value=None, margins=False,dropna=True,margins_name='All')

In [15]:
# 实例
# 客户分类作为index, 区域作为columns，用户ID作为values,对values执行count运算

In [16]:
df1 = pd.DataFrame([['59224','A类','一线城市','是',6,20,0],
                    ['55295','B类','三线城市','否',37,27,35],
                    ['46035','A类','二线城市','是',8,1,8],
                    ['2459','C类','一线城市','是',7,8,14],
                    ['22179','B类','三线城市','否',9,12,4],
                    ['22557','A类','二线城市','是',42,20,55]],
                  columns = ('用户ID','客户分类','区域','是否省会','7月销量','8月销量','9月销量'))
df1

Unnamed: 0,用户ID,客户分类,区域,是否省会,7月销量,8月销量,9月销量
0,59224,A类,一线城市,是,6,20,0
1,55295,B类,三线城市,否,37,27,35
2,46035,A类,二线城市,是,8,1,8
3,2459,C类,一线城市,是,7,8,14
4,22179,B类,三线城市,否,9,12,4
5,22557,A类,二线城市,是,42,20,55


In [17]:
# Python运行结果和Excel的不同之处就是没有合计列
# Python数据透视表中的合计列默认是关闭的，让其等于True就可以显示出来
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count')

区域,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A类,1.0,,2.0
B类,,2.0,
C类,1.0,,


In [18]:
# Python数据透视表中的合计列默认是关闭的，让其等于True就可以显示出来
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count',margins=True)

区域,一线城市,三线城市,二线城市,All
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1.0,,2.0,3
B类,,2.0,,2
C类,1.0,,,1
All,2.0,2.0,2.0,6


In [20]:
# 合计列的名称默认为All,可以通过设置参数margins_name的值进行修改
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count',margins=True,margins_name='总计')

区域,一线城市,三线城市,二线城市,总计
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1.0,,2.0,3
B类,,2.0,,2
C类,1.0,,,1
总计,2.0,2.0,2.0,6


In [21]:
# NaN表示缺失值，通过设置参数fill_value的值对缺失值进行填充
# 将缺失值填充为0
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count',margins='True',fill_value=0)

区域,一线城市,三线城市,二线城市,All
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A类,1,0,2,3
B类,0,2,0,2
C类,1,0,0,1
All,2,2,2,6


In [22]:
# aggfunc用来表示计算类型，当只传入一种类型时，表示对所有的值字段都进行同样的计算
# 如果需要对不同的值进行不同的计算类型，则需要传入一个字典
# 其中键为列名，值为计算方式
# 下面对用户ID进行计数，对7月销量进行求和
pd.pivot_table(df1,values=['用户ID','7月销量'],columns='区域',index='客户分类',aggfunc={'用户ID':'count','7月销量':'sum'})

Unnamed: 0_level_0,7月销量,7月销量,7月销量,用户ID,用户ID,用户ID
区域,一线城市,三线城市,二线城市,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A类,6.0,,50.0,1.0,,2.0
B类,,46.0,,,2.0,
C类,7.0,,,1.0,,


In [23]:
# 对数据透视表的结果重置索引，利用reset_index()方法
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count')

区域,一线城市,三线城市,二线城市
客户分类,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A类,1.0,,2.0
B类,,2.0,
C类,1.0,,


In [24]:
pd.pivot_table(df1,values='用户ID',columns='区域',index='客户分类',aggfunc='count').reset_index()

区域,客户分类,一线城市,三线城市,二线城市
0,A类,1.0,,2.0
1,B类,,2.0,
2,C类,1.0,,
