'''
【课程2.21】  透视表及交叉表

类似excel数据透视 - pivot table / crosstab
 
'''


In [2]:
import numpy as np
import pandas as pd

In [5]:
# 透视表：pivot_table
# pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
date = ['2017-5-1','2017-5-2','2017-5-3'] * 3
rng = pd.to_datetime(date)
df = pd.DataFrame({
    'date':rng,
    'key':list('abcdabcda'),
    'values':np.random.rand(9)*10
})
print(df)

print(pd.pivot_table(df,values='values',index='date',columns='key',aggfunc=np.sum))
'''
 data：DataFrame对象
 values：要聚合的列或列的列表
 index：数据透视表的index，从原数据的列中筛选
 columns：数据透视表的columns，从原数据的列中筛选
 aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法

'''
print(pd.pivot_table(df,values='values',index=['date','key'],aggfunc=len))
'''
 这里就分别以date、key共同做数据透视，值为values：统计不同（date，key）情况下values的平均值
 aggfunc=len(或者count)：计数
'''

        date key    values
0 2017-05-01   a  9.295282
1 2017-05-02   b  8.491184
2 2017-05-03   c  3.029650
3 2017-05-01   d  1.591114
4 2017-05-02   a  9.289687
5 2017-05-03   b  7.143987
6 2017-05-01   c  4.785452
7 2017-05-02   d  2.228403
8 2017-05-03   a  1.886222
key                a         b         c         d
date                                              
2017-05-01  9.295282       NaN  4.785452  1.591114
2017-05-02  9.289687  8.491184       NaN  2.228403
2017-05-03  1.886222  7.143987  3.029650       NaN
                values
date       key        
2017-05-01 a       1.0
           c       1.0
           d       1.0
2017-05-02 a       1.0
           b       1.0
           d       1.0
2017-05-03 a       1.0
           b       1.0
           c       1.0


In [11]:
# 交叉表：crosstab
# 默认情况下，crosstab计算因子的频率表，比如用于str的数据透视分析
# pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

df = pd.DataFrame({'A': [1, 2, 2, 2, 2],
                   'B': [3, 3, 4, 4, 4],
                   'C': [1, 1, np.nan, 1, 1]})
print(df)
print('-------')
print(pd.crosstab(df['A'],df['B']))                    # 如果crosstab只接收两个Series，它将提供一个频率表。
                                                       # 用A的唯一值，统计B唯一值的出现次数
print(pd.crosstab(df['A'],df['B'],normalize=True))     # normalize：默认False，将所有值除以值的总和进行归一化 → 为True时候显示百分比
print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum))
'''
 values：可选，根据因子聚合的值数组
 aggfunc：可选，如果未传递values数组，则计算频率表，如果传递数组，则按照指定计算
 这里相当于以A和B界定分组，计算出每组中第三个系列C的值
 
'''
print(pd.crosstab(df['A'],df['B'],values=df['C'],aggfunc=np.sum,margins=True))
                                                       # margins：布尔值，默认值False，添加行/列边距（小计）

   A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0
-------
B  3  4
A      
1  1  0
2  1  3
B    3    4
A          
1  0.2  0.0
2  0.2  0.6
B    3    4
A          
1  1.0  NaN
2  1.0  2.0
B      3    4  All
A                 
1    1.0  NaN  1.0
2    1.0  2.0  3.0
All  2.0  2.0  4.0


	作业1：按要求创建Dataframe df，并通过数据透视表或交叉表得到以下结果
① 以A列聚合，求出C,D的平均值
② 以A,B列聚合，求出D,E的均值、求和
③ 以B聚合，计算A列的元素频率


In [17]:
df = pd.DataFrame({
    'A':['one','two','three','one','two','three','one','two'],
    'B':['h','h','h','h','f','f','f','f'],
    'C':np.arange(10,26,2),
    'D':np.random.rand(8),
    'E':np.random.rand(8)
})
print(df)
print(pd.pivot_table(df,values=['C','D'],index='A',aggfunc=np.mean))
print(pd.pivot_table(df,values=['D','E'],index=['A','B'],aggfunc=[np.mean,np.sum]))
print(pd.crosstab(df['A'],df['B']))

       A  B   C         D         E
0    one  h  10  0.429369  0.438175
1    two  h  12  0.467645  0.638196
2  three  h  14  0.373192  0.147754
3    one  h  16  0.082769  0.228125
4    two  f  18  0.831291  0.200339
5  three  f  20  0.551076  0.864849
6    one  f  22  0.027660  0.587087
7    two  f  24  0.815381  0.567561
        C         D
A                  
one    16  0.179933
three  17  0.462134
two    18  0.704772
             mean                 sum          
                D         E         D         E
A     B                                        
one   f  0.027660  0.587087  0.027660  0.587087
      h  0.256069  0.333150  0.512138  0.666299
three f  0.551076  0.864849  0.551076  0.864849
      h  0.373192  0.147754  0.373192  0.147754
two   f  0.823336  0.383950  1.646672  0.767900
      h  0.467645  0.638196  0.467645  0.638196
B      f  h
A          
one    1  2
three  1  1
two    2  1


In [18]:
'''
【课程2.22】  数据读取

核心：read_table, read_csv, read_excel
 
'''

'\n【课程2.22】  数据读取\n\n核心：read_table, read_csv, read_excel\n \n'

In [19]:
import os
os.chdir(r'D:\user_profile\python\4\CLASSDATA_ch03重点工具掌握：数据解析核心技巧\CH02数据分析工具：Pandas')

data1 = pd.read_table('data1.txt',delimiter=',',header=0,index_col=1)
print(data1)
'''
 delimiter：用于拆分的字符，也可以用sep：sep = ','
 header：用做列名的序号，默认为0（第一行）
 index_col：指定某列为行索引，否则自动索引0, 1, .....

 read_table主要用于读取简单的数据，txt/csv

'''

     va1  va3  va4
va2               
2      1    3    4
3      2    4    5
4      3    5    6
5      4    6    7


In [20]:
# 读取csv数据：read_csv

data2 = pd.read_csv('data2.csv',engine='python')
print(data2)
# engine：使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。
# encoding：指定字符集类型，即编码，通常指定为'utf-8'

# 大多数情况先将excel导出csv，再读取

FileNotFoundError: [Errno 2] No such file or directory: 'data2.csv'

In [21]:
# 读取excel数据：read_excel

data3 = pd.read_excel('地市级党委书记数据库（2000-10）.xlsx',sheet_name='中国人民共和国地市级党委书记数据库（2000-10）',header=0)
print(data3)
'''
 io ：文件路径。
 sheetname：返回多表使用sheetname=[0,1],若sheetname=None是返回全表 → ① int/string 返回的是dataframe ②而none和list返回的是dict
 header：指定列名行，默认0，即取第一行
 index_col：指定列为索引列，也可以使用u”strings”
'''

      省级政区代码    省级政区名称  地市级政区代码   地市级政区名称    年份 党委书记姓名  出生年份  出生月份  籍贯省份代码  \
0     130000       河北省   130100      石家庄市  2000    陈来立   NaN   NaN     NaN   
1     130000       河北省   130100      石家庄市  2001    吴振华   NaN   NaN     NaN   
2     130000       河北省   130100      石家庄市  2002    吴振华   NaN   NaN     NaN   
3     130000       河北省   130100      石家庄市  2003    吴振华   NaN   NaN     NaN   
4     130000       河北省   130100      石家庄市  2004    吴振华   NaN   NaN     NaN   
5     130000       河北省   130100      石家庄市  2005    吴振华   NaN   NaN     NaN   
6     130000       河北省   130100      石家庄市  2006    吴振华   NaN   NaN     NaN   
7     130000       河北省   130100      石家庄市  2007    吴显国   NaN   NaN     NaN   
8     130000       河北省   130100      石家庄市  2008    吴显国   NaN   NaN     NaN   
9     130000       河北省   130100      石家庄市  2009     车俊   NaN   NaN     NaN   
10    130000       河北省   130100      石家庄市  2010    孙瑞彬   NaN   NaN     NaN   
11    130000       河北省   130200       唐山市  2000    白润璋   NaN   N