In [None]:
'''
    透视表及交叉表

    类似excel数据透视 - pivot table / crosstab
'''

In [None]:
import numpy as np
import pandas as pd

In [None]:
# 透视表：pivot_table
'''    
    源码:
    pd.pivot_table(data, values=None, index=None, columns=None, 
        aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
        
    data：DataFrame对象
    values：要聚合的列或列的列表
    index：数据透视表的index，从原数据的列中筛选
    columns：数据透视表的columns，从原数据的列中筛选
    aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法
    fill_value:将NaN值填充为设置的值
    margins: 为True时,对所有列数据汇总
    pivot_table中一个令人困惑的地方是“columns（列）”和“values（值）”的使用。
    记住，变量“columns（列）”是可选的，它提供一种额外的方法来分割你所关心的实际值。
    然而，聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。
    
    详细请参考:https://www.cnblogs.com/onemorepoint/p/8425300.html
'''
date = ['2019-12-1','2019-12-2','2019-12-3']*3
rng = pd.to_datetime(date)
print('rng:',rng,sep='\n')

df = pd.DataFrame({'date':date,
                   'key':list('abcdabcda'),
                   'values':np.random.rand(9)*100})
print('df:',df,sep='\n')

# 透视表
p_table = pd.pivot_table(df,values='values',index='date',columns='key',
                         aggfunc=[np.sum],fill_value=0,margins=True)
print('透视表:',p_table,sep='\n')
# aggfunc 参数看似没有起作用,是因为每个元素都有一个,所以求和后没有变化

In [26]:
# 交叉表：crosstab
# 默认情况下，crosstab计算 因子 的频率表，比如用于str的数据透视分析
'''
    源码:
    pd.crosstab(index, columns, values=None, rownames=None, colnames=None, 
                aggfunc=None, margins=False, dropna=True, normalize=False)
                
                
    详细请参考::https://learnku.com/articles/27452
'''
df = pd.DataFrame({'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print('df:',df,sep='\n')
print('--------------------------------')

ab_cro = pd.crosstab(df.A,df.B)  # 也可以写为:(df['A'],df['B']0 
                                 # 第一个参数是index，第二个参数是columns
print('A和B列作交叉表:',ab_cro,sep='\n')  # 用A的唯一值，统计B唯一值的出现次数
print('type(ab_cro):',type(ab_cro))

# normalize参数：默认False，将所有值除以值的总和进行归一化 → 为True时候显示百分比
print('百分比显示:',pd.crosstab(df.A,df.B,normalize=True),sep='\n')

# values参数：可选，根据因子聚合的值数组
# print('value参数:',pd.crosstab(df.A,df.B,values=df.C))   报错,必须加aggfunc关键字参数,对value做函数计算
'''
    ValueError: values cannot be used without an aggfunc.
'''
print('value参数:',pd.crosstab(df.A,df.B,values=df.C,aggfunc=np.sum),sep='\n')
# 对C列的值遍历,如果A,B列确定的坐标,在C列能找到则填充在坐标处(求和后的值)

# margins参数：布尔值，默认值False，添加行/列边距（小计,汇总）
print('margin参数:',pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum, margins=True),sep='\n')
# NaN值参与计算,按0处理

df:
   A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0
--------------------------------
A和B列作交叉表:
B  3  4
A      
1  1  0
2  1  3
type(ab_cro): <class 'pandas.core.frame.DataFrame'>
百分比显示:
B    3    4
A          
1  0.2  0.0
2  0.2  0.6
value参数:
B    3    4
A          
1  1.0  NaN
2  1.0  2.0
margin参数:
B      3    4  All
A                 
1    1.0  NaN  1.0
2    1.0  2.0  3.0
All  2.0  2.0  4.0
