# データ集計（pivot_table）の方法
Pandasでのデータ集計の方法についてカテゴリごとに合計や平均等の集計をしたり、関数を使用して集計方法をカスタマイズしたりすることもできる。こちらはpovot_tableメソッド編。

In [4]:
import pandas as pd

In [3]:
# 表示する列数・行数を変更
pd.set_option('display.max_rows',10)
pd.set_option('display.max_columns', None) # 列は制限なし

In [8]:
# エクセルのシートを指定して読込
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df

Unnamed: 0,売上日,社員ID,氏名,性別,商品分類,商品名,単価,数量,売上金額（円）
0,2020-01-04,a023,河野 利香,女,ボトムス,ロングパンツ,7000,8,56000
1,2020-01-05,a003,石崎 和香菜,女,ボトムス,ジーンズ,6000,10,60000
2,2020-01-05,a052,井上 真,女,アウター,ジャケット,10000,7,70000
3,2020-01-06,a003,石崎 和香菜,女,ボトムス,ロングパンツ,7000,10,70000
4,2020-01-07,a036,西尾 謙,男,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...,...,...,...
219,2020-12-26,a052,井上 真,女,アウター,ダウン,18000,4,72000
220,2020-12-28,a036,西尾 謙,男,アウター,ダウン,18000,3,54000
221,2020-12-30,a003,石崎 和香菜,女,アウター,ダウン,18000,4,72000
222,2020-12-30,a047,上瀬 由和,男,ボトムス,ハーフパンツ,3000,3,9000


## ピポッドテーブルとは？
簡単にいってしまうと、クロス集計表。
2つのカテゴリデータを同時に集計

クロス集計法はエクセル・pnadasではピボットテーブルと言います。


ピボット = 軸<br>
テーブル = 表<br>
つまり、軸を変えて表にできる


In [24]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df_pivot = df.pivot_table(index='氏名', columns='商品分類', values='売上金額（円）', aggfunc='sum') # aggfuncのデフォルトはmean()
df_pivot.applymap('{:,.0f}'.format)

商品分類,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,636000,296000,416000
井上 真,560000,200000,176000
宮瀬 尚紀,464000,340000,883000
河野 利香,918000,424000,458000
石崎 和香菜,1022000,564000,883000
西尾 謙,786000,292000,361000


In [23]:
# columnsを消せばgroupbyのような集計ができる
df_pivot = df.pivot_table(index='氏名', values='売上金額（円）', aggfunc='sum')
df_pivot.applymap('{:,.0f}'.format)

Unnamed: 0_level_0,売上金額（円）
氏名,Unnamed: 1_level_1
上瀬 由和,1348000
井上 真,936000
宮瀬 尚紀,1687000
河野 利香,1800000
石崎 和香菜,2469000
西尾 謙,1439000


## 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込み、'都道府県名'ごとに'元号'の'人口（総数）'の合計を算出し、’平成'のデータを降順に並び替え、最初の10行を表示

In [38]:
df = pd.read_excel('xlsx_files/data04.xlsx')
df_pivot = df.pivot_table(index='都道府県名', columns='元号', values='人口（総数）', aggfunc='sum')
df_pivot.sort_values(by='平成', ascending=False).head(10)

元号,大正,平成,昭和
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
東京都,16369144.0,149102146.0,207972589.0
大阪府,11294698.0,105371968.0,138190945.0
神奈川県,5480364.0,103143729.0,94018478.0
愛知県,8818512.0,85273794.0,103204630.0
埼玉県,5427988.0,83089370.0,72931516.0
千葉県,5470824.0,71310485.0,66636610.0
北海道,9715724.0,66987891.0,107452598.0
兵庫県,9512956.0,65998100.0,93655195.0
福岡県,8979834.0,59811700.0,88145220.0
静岡県,6443208.0,44812496.0,64371558.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'売上金額（円）'の平均を算出

In [43]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
pd.reset_option('display.float_format') # 表示形式を元に戻す
df.pivot_table(index='氏名', columns='商品分類', values='売上金額（円）', aggfunc='mean') # aggfuncのデフォルトはmean()

商品分類,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,106000.0,42285.714286,29714.285714
井上 真,70000.0,25000.0,22000.0
宮瀬 尚紀,77333.333333,42500.0,35320.0
河野 利香,76500.0,35333.333333,26941.176471
石崎 和香菜,63875.0,37600.0,31535.714286
西尾 謙,78600.0,26545.454545,27769.230769


## 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込み、'都道府県名'ごとに'元号'の'人口（総数）'の平均を算出し、’昭和'列を軸に昇順に並び替える

In [52]:
df = pd.read_excel('xlsx_files/data04.xlsx')
pd.set_option('display.max_rows', None) # 表示オプションを変更してすべての行を表示する
df.pivot_table(index='都道府県名', columns='元号', values='人口（総数）', aggfunc='mean').sort_values(by='昭和')

元号,大正,平成,昭和
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
鳥取県,50102.972973,63286.95,60362.88
福井県,64705.621622,85687.88,77980.915556
山梨県,64006.918919,91188.45,81113.568889
高知県,73425.567568,83080.41,85393.213333
徳島県,73514.918919,84726.4,85998.666667
島根県,77681.837838,78255.08,86770.213333
佐賀県,73444.648649,90941.35,89462.631111
沖縄県,61037.513514,140009.7,89709.363636
奈良県,62077.567568,147771.6,91425.253333
滋賀県,70997.945946,141064.5,93238.986667


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'売上金額（円）'の平均を算出
カンマで3桁区切りをして、小数点以下を丸めて表示

In [56]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index='氏名', columns='商品分類', values='売上金額（円）', aggfunc='mean').applymap('{:,.0f}'.format)

商品分類,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,106000,42286,29714
井上 真,70000,25000,22000
宮瀬 尚紀,77333,42500,35320
河野 利香,76500,35333,26941
石崎 和香菜,63875,37600,31536
西尾 謙,78600,26545,27769


## 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込み、'都道府県名'ごとに'元号'の'人口（総数）'の平均を算出

In [58]:
df = pd.read_excel('xlsx_files/data04.xlsx')
pd.set_option('display.max_rows', None) # 表示オプションを変更してすべての行を表示する
df.pivot_table(index='都道府県名', columns='元号', values='人口（総数）', aggfunc='mean').applymap('{:,.2f}'.format)

元号,大正,平成,昭和
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
三重県,117673.62,193174.73,155327.55
京都府,145596.16,275387.44,215470.64
佐賀県,73444.65,90941.35,89462.63
兵庫県,257106.92,578930.7,416245.31
北海道,262587.14,587613.08,477567.1
千葉県,147860.11,625530.57,296162.71
和歌山県,83130.92,109095.14,104907.41
埼玉県,146702.38,728854.12,324140.07
大分県,95968.54,127186.04,122715.04
大阪府,305262.11,924315.51,614181.98


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'単価'、'数量'、'売上金額（円）'の平均を算出

In [60]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index='氏名', columns='商品分類', values=['単価', '数量', '売上金額（円）'], aggfunc='mean').applymap('{:,.0f}'.format)

Unnamed: 0_level_0,単価,単価,単価,売上金額（円）,売上金額（円）,売上金額（円）,数量,数量,数量
商品分類,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
上瀬 由和,14000,6286,5429,106000,42286,29714,8,7,6
井上 真,13000,4500,4875,70000,25000,22000,6,5,4
宮瀬 尚紀,12667,6500,5840,77333,42500,35320,6,6,6
河野 利香,14000,6333,5529,76500,35333,26941,5,5,5
石崎 和香菜,13500,6667,5607,63875,37600,31536,5,5,5
西尾 謙,14800,5455,5231,78600,26545,27769,5,5,5


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'、'売上日'ごとに'商品分類'ごとの'売上金額（円）'の合計を算出


・カンマで3桁区切りをして、小数点以下を丸めて表示


In [77]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
pd.set_option('display.max_rows',10)
# df.pivot_table(index=['氏名', '売上日'], columns='商品分類', values=['売上金額（円）'], aggfunc='mean').applymap('{:,.0f}'.format) # 右上に売上金額（円）が表示される
df.pivot_table(index=['氏名', '売上日'], columns='商品分類', values='売上金額（円）', aggfunc='mean').applymap('{:,.0f}'.format)

Unnamed: 0_level_0,商品分類,アウター,トップス,ボトムス
氏名,売上日,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上瀬 由和,2020-01-10,126000,,
上瀬 由和,2020-01-11,,,7000
上瀬 由和,2020-01-22,,4000,
上瀬 由和,2020-02-03,144000,,
上瀬 由和,2020-02-07,,,27000
...,...,...,...,...
西尾 謙,2020-11-10,10000,,
西尾 謙,2020-11-11,70000,,
西尾 謙,2020-12-22,,24000,
西尾 謙,2020-12-28,54000,,


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'と'売上日'ごとに'商品分類'の'売上金額（円）'の合計を算出

・欠損値は「0」に置き換え<br>
・カンマで3桁区切りをして、小数点以下を丸めて表示

In [81]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index=['氏名', '売上日'], columns='商品分類', values='売上金額（円）', aggfunc='sum', fill_value=0).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,商品分類,アウター,トップス,ボトムス
氏名,売上日,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上瀬 由和,2020-01-10,126000,0,0
上瀬 由和,2020-01-11,0,0,7000
上瀬 由和,2020-01-22,0,4000,0
上瀬 由和,2020-02-03,144000,0,0
上瀬 由和,2020-02-07,0,0,27000
...,...,...,...,...
西尾 謙,2020-11-10,10000,0,0
西尾 謙,2020-11-11,70000,0,0
西尾 謙,2020-12-22,0,24000,0
西尾 謙,2020-12-28,54000,0,0


##  1920年から2015年までの各都道府県の人口推移データが含まれる Excelファイルを読み込み、'元号'ごとに'年齢5歳階級'の'人口（総数）'の平均を算出

・欠損値は「-」に置き換え

In [93]:
df = pd.read_excel('xlsx_files/data04.xlsx')
df.pivot_table(index='元号', 
               columns='年齢5歳階級', 
               values='人口（総数）', 
               aggfunc='mean', 
               fill_value='-')

年齢5歳階級,0〜4歳,10〜14歳,11〜15歳,15〜19歳,16〜20歳,1〜5歳,20〜24歳,21〜25歳,25〜29歳,26〜30歳,30〜34歳,31〜35歳,35〜39歳,36〜40歳,40〜44歳,41〜45歳,45〜49歳,46〜50歳,50〜54歳,51〜55歳,55〜59歳,56〜60歳,5〜9歳,60〜64歳,61〜65歳,65〜69歳,66〜70歳,6〜10歳,70〜74歳,70歳以上,71〜75歳,75〜79歳,76〜80歳,80〜84歳,80歳以上,81〜85歳,85歳以上,86歳以上,総数
元号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1
大正,167258.489362,136559.542553,-,120258.87234,-,-,102870.606383,-,88483.191489,-,77931.244681,-,72979.946809,-,68782.223404,-,60784.212766,-,49847.5,-,40754.361702,-,146610.12766,34299.425532,-,27732.734043,-,-,19317.0,-,-,10691.765957,-,4592.212766,5323.170213,-,1461.595745,-,1230850.0
平成,121470.886525,142149.666667,-,158487.003546,-,-,166176.382979,-,172455.762411,-,177581.496454,-,183614.01773,-,191557.659574,-,187851.656028,-,183771.588652,-,180307.390071,-,130648.794326,173733.489362,-,155646.251773,-,-,126630.804965,-,-,99072.87234,-,69001.379433,-,-,58668.904255,-,2691586.0
昭和,192046.87234,187617.827853,184973.829787,179231.686654,167103.829787,197602.06383,168946.098646,116619.319149,160850.854932,94276.93617,152076.800774,94940.382979,140376.487427,91950.617021,124149.313346,87316.489362,110685.779497,76663.553191,97732.102515,63086.255319,82774.858801,55568.276596,191470.249516,67611.50677,45852.787234,52889.73501,37076.06383,183657.042553,39144.673786,24986.0,23454.93617,24742.299029,11818.468085,15054.272,7596.835714,5069.255319,7165.362667,1793.914894,1953035.0


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'と'売上日'ごとの'売上金額（円）'と'数量'の合計を算出


・カンマで3桁区切りをして、小数点以下を丸めて表示

In [97]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
pd.set_option('display.max_rows',10)
df.pivot_table(index=['氏名', '売上日'], values=['売上金額（円）', '数量'], aggfunc='sum').applymap('{:,.0f}'.format)

Unnamed: 0_level_0,Unnamed: 1_level_0,売上金額（円）,数量
氏名,売上日,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,2020-01-10,126000,7
上瀬 由和,2020-01-11,7000,1
上瀬 由和,2020-01-22,4000,1
上瀬 由和,2020-02-03,144000,8
上瀬 由和,2020-02-07,27000,9
...,...,...,...
西尾 謙,2020-11-10,10000,1
西尾 謙,2020-11-11,70000,7
西尾 謙,2020-12-22,24000,6
西尾 謙,2020-12-28,54000,3


## 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込み、'都道府県名'から'東京都'のデータを抽出し、東京都の'元号'と'年齢5歳階級'ごとの'人口（男）'、'人口（女）'、'人口（総数）'の合計を算出


・カンマで3桁区切りをして、小数点以下を丸めて表示させます。

In [110]:
df = pd.read_excel('xlsx_files/data04.xlsx')
# df # debug
# df[df['都道府県名']=='東京都'] # debug
df[df['都道府県名']=='東京都'].pivot_table(index=['元号', '年齢5歳階級'],  
               values=['人口（女）','人口（男）','人口（総数）'], 
               aggfunc='sum').applymap('{:,.0f}'.format)

# 考え方としては、先にカラムの値が東京都のものを抽出し、そのあとにpivot_tableを作成する

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（女）,人口（男）,人口（総数）
元号,年齢5歳階級,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
大正,0〜4歳,495723,501741,997464
大正,10〜14歳,379090,418946,798036
大正,15〜19歳,438715,561962,1000677
大正,20〜24歳,426661,539392,966053
大正,25〜29歳,350634,426557,777191
...,...,...,...,...
昭和,80歳以上,26871,11597,38468
昭和,81〜85歳,3839,1873,5712
昭和,85歳以上,123894,59326,183220
昭和,86歳以上,1191,513,1704


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'売上金額（円）'の合計を算出し、併せて各列、各行の合計も表示


・カンマで3桁区切りをして、小数点以下を丸めて表示

In [116]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index='氏名',
               columns='商品分類',
               values='売上金額（円）', 
               aggfunc='sum',
               margins=True).applymap('{:,.0f}'.format)

商品分類,アウター,トップス,ボトムス,All
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上瀬 由和,636000,296000,416000,1348000
井上 真,560000,200000,176000,936000
宮瀬 尚紀,464000,340000,883000,1687000
河野 利香,918000,424000,458000,1800000
石崎 和香菜,1022000,564000,883000,2469000
西尾 謙,786000,292000,361000,1439000
All,4386000,2116000,3177000,9679000


## 下記のデータフレームは、1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込み、'元号'と'年齢5歳階級'ごとに、都道府県ごとの'人口（総数）'の合計を算出


・各列と各行の合計も表示させ、合計のインデックス名とカラム名を'合計'とする<br>
・カンマで3桁区切りをして、小数点以下を丸めて表示

In [123]:
df = pd.read_excel('xlsx_files/data04.xlsx')
df.pivot_table(index=['元号','年齢5歳階級'], 
               columns='都道府県名', 
               values='人口（総数）', 
               aggfunc='sum',
               margins=True,
               margins_name='合計').applymap('{:,.0f}'.format)

Unnamed: 0_level_0,都道府県名,三重県,京都府,佐賀県,兵庫県,北海道,千葉県,和歌山県,埼玉県,大分県,大阪府,奈良県,宮城県,宮崎県,富山県,山口県,山形県,山梨県,岐阜県,岡山県,岩手県,島根県,広島県,徳島県,愛媛県,愛知県,新潟県,東京都,栃木県,沖縄県,滋賀県,熊本県,石川県,神奈川県,福井県,福岡県,福島県,秋田県,群馬県,茨城県,長崎県,長野県,青森県,静岡県,香川県,高知県,鳥取県,鹿児島県,合計
元号,年齢5歳階級,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1
大正,0〜4歳,286518,310266,186208,602521,782283,359704,203208,382140,234834,640254,149630,308556,191068,207159,270354,291963,174720,311266,295254,262485,178041,419360,183900,295191,582321,521745,997464,325257,161238,167639,342017,194999,371810,159773,599320,421479,280043,311874,394208,312441,426032,243285,472329,191748,173214,122478,422701,15722298
大正,10〜14歳,246216,289318,157693,513116,570833,292371,181707,310105,193932,581812,134874,229140,147359,179447,232112,230614,134474,245284,267725,192956,145854,355162,153237,245969,507575,416990,798036,249023,128497,144931,277510,175756,285933,136655,487483,320220,214670,248514,302957,246269,363628,188733,367002,163480,141623,98417,341385,12836597
大正,15〜19歳,198554,306168,132419,488889,491367,228187,143479,263657,160988,703967,110698,191615,120775,131022,190681,194016,102009,195498,232589,159364,113360,290138,118060,196873,456048,317208,1000677,196884,104457,108946,235503,136417,267807,102756,451719,263306,177761,215873,239844,217742,316938,154486,300874,120526,117537,81908,254744,11304334
大正,20〜24歳,161732,260051,106067,431900,423728,214336,117185,205906,131748,617064,90138,159789,102363,106780,160223,156160,84357,163738,190617,132277,100969,263188,96273,156932,371314,251594,966053,160054,83428,90790,197386,112415,269795,85988,412713,214091,145283,174361,196166,201350,247873,132283,251325,99884,104788,67953,199429,9669837
大正,25〜29歳,142796,210067,92210,375204,361416,177896,101966,178532,116815,518430,76510,135474,93133,91909,145656,135267,74367,145369,162194,117250,91836,214954,81973,136672,312847,224194,777191,141573,77811,82685,172081,91920,232553,74259,358573,192477,129407,149861,181683,171998,213703,109474,220738,85510,94818,59512,184656,8317420
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
昭和,81〜85歳,5230,4382,3040,8658,7832,8070,3695,6123,4974,4938,2341,3644,3824,2546,5587,2639,2878,5533,7101,3772,4508,8460,4572,6799,9748,6164,5712,4263,1514,2949,7545,3158,4547,2863,8702,5155,1656,3982,7489,6321,6456,2275,8219,3674,4770,3071,6876,238255
昭和,85歳以上,52019,62362,29155,115560,102524,77884,36543,64949,44508,113141,27239,42797,35417,28097,55119,29437,27250,51430,68982,33835,40326,89523,33890,60938,105625,62769,183220,40470,36572,28426,69239,28879,89066,25510,111669,51162,23407,42092,61168,50711,63212,27002,83846,37315,40716,24954,77056,2687011
昭和,86歳以上,1854,1484,932,2969,2863,2836,1372,1890,1809,1323,721,1116,1359,840,1989,696,999,2048,2565,1301,1906,3845,2233,2995,3619,1877,1704,1339,363,871,2652,1129,1526,1002,2854,1566,399,1222,2672,2453,2149,737,2984,1433,2016,1340,2462,84314
昭和,総数,17474534,24241645,10064620,46833810,53728599,33322830,11802462,36470106,13805683,69106409,10286227,20030760,12248155,11764511,17528173,14896735,9125577,19270280,19485995,15591286,9761726,26587983,9675136,16776538,51605158,27841187,104010763,18159359,9869674,10489633,20059020,11391663,47015695,8772972,44076673,22897278,14547419,18857666,24575752,18339293,23479665,15383773,32186354,10676598,9608022,6791010,20997524,1101511931


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'売上金額（円）'の合計、平均、個数を算出


・カンマで3桁区切りをして、小数点以下を丸めて表示する

In [130]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index=['氏名'], 
               columns='商品分類', 
               values='売上金額（円）',
               aggfunc=['sum','mean', 'count']).applymap('{:,.0f}'.format)

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean,count,count,count
商品分類,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
上瀬 由和,636000,296000,416000,106000,42286,29714,6,7,14
井上 真,560000,200000,176000,70000,25000,22000,8,8,8
宮瀬 尚紀,464000,340000,883000,77333,42500,35320,6,8,25
河野 利香,918000,424000,458000,76500,35333,26941,12,12,17
石崎 和香菜,1022000,564000,883000,63875,37600,31536,16,15,28
西尾 謙,786000,292000,361000,78600,26545,27769,10,11,13


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、'氏名'ごとに'商品分類'の'売上金額（円）'の要約統計量（四分位数や平均、標準偏差、最大値など）をまとめて集計


・カンマで3桁区切りをして、小数点以下を丸めて表示する

In [133]:
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index=['氏名'], 
               columns='商品分類', 
               values='売上金額（円）',
               aggfunc='describe').applymap('{:,.0f}'.format)

Unnamed: 0_level_0,25%,25%,25%,50%,50%,50%,75%,75%,75%,count,count,count,max,max,max,mean,mean,mean,min,min,min,std,std,std
商品分類,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2
上瀬 由和,90000,22000,18750,108000,40000,27500,126000,64000,40250,6,7,14,144000,80000,63000,106000,42286,29714,60000,4000,7000,31215,28082,17273
井上 真,53000,17000,7500,65000,22000,21500,79000,26000,35000,8,8,8,144000,64000,48000,70000,25000,22000,10000,8000,3000,39163,17728,16861
宮瀬 尚紀,62500,27000,27000,71000,40000,36000,78000,56000,48000,6,8,25,162000,80000,70000,77333,42500,35320,20000,16000,3000,46573,20833,19241
河野 利香,35000,8000,12000,70000,32000,24000,126000,52000,35000,12,12,17,162000,80000,63000,76500,35333,26941,10000,4000,6000,51798,28583,17764
石崎 和香菜,42500,16000,15000,65000,40000,27500,76500,60000,43750,16,15,28,180000,64000,70000,63875,37600,31536,10000,4000,3000,42133,23461,18602
西尾 謙,36000,20000,14000,62000,24000,18000,119500,32000,48000,10,11,13,180000,56000,70000,78600,26545,27769,10000,4000,6000,57046,13538,21657


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込み、引数に代入する値の合計に10%の税込表示をするcal_tax関数をdef文で作成します。
作成したcal_tax関数を使って、完成イメージの通りに'氏名'ごとに'商品分類'の'売上金額（円）'の合計を税込表示で集計


・カンマで3桁区切りをして、小数点以下を丸めて表示。<br>
・cal_tax関数の引数名はsとする。<br>
・合計の算出には、NumPyライブラリのnp.sum関数を使用。<br>

In [142]:
import numpy as np


def cal_tax(s):
        return np.sum(s)


df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index=['氏名'], 
               columns='商品分類', 
               values='売上金額（円）',
               aggfunc=cal_tax).applymap('{:,.0f}'.format)

商品分類,アウター,トップス,ボトムス
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上瀬 由和,636000,296000,416000
井上 真,560000,200000,176000
宮瀬 尚紀,464000,340000,883000
河野 利香,918000,424000,458000
石崎 和香菜,1022000,564000,883000
西尾 謙,786000,292000,361000


## アパレル会社の社員ごとの売上金額に関するデータが含まれるExcelファイルを読み込む。
まず、以下のように'売上金額（円）'の数値に応じて文字列を返すjudge関数をdef文で作成すること。
- 300,000以上の場合、'30万円以上'
- 200,000以上300,000未満の場合、'20万円以上'
- 100,000以上200,000未満の場合、'10万円以上'
- 50,000以上100,000未満の場合、'5万円以上'
- 50,000未満の場合、'5万円未満'

作成したjudge関数を使って、完成イメージの通りに'氏名'ごとに'商品名'の'売上金額（円）'の合計に対して文字列を表示すること。

#### ポイント

- judge関数の引数名はxとする。<br>
- 合計の算出には、NumPyライブラリのnp.sum関数を使用。<br>

In [153]:
import numpy as np

def judge(x):
    if np.sum(x) >= 300000:
        return '30万円以上'
    elif np.sum(x) >= 200000:
        return '20万円以上'
    elif np.sum(x) >= 100000:
        return '10万円以上'
    elif np.sum(x) >= 50000:
        return '5万円以上'
    else:
        return '5万円未満'
    
df = pd.read_excel('xlsx_files/sample.xlsx' ,sheet_name='実績管理表')
df.pivot_table(index=['氏名'], 
               columns='商品名', 
               values='売上金額（円）',
               aggfunc=judge)

商品名,シャツ,ジャケット,ジーンズ,ダウン,ニット,ハーフパンツ,ロングパンツ
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
上瀬 由和,5万円以上,20万円以上,5万円以上,30万円以上,20万円以上,5万円以上,20万円以上
井上 真,10万円以上,20万円以上,5万円未満,20万円以上,5万円以上,5万円未満,5万円以上
宮瀬 尚紀,5万円以上,20万円以上,30万円以上,20万円以上,20万円以上,5万円以上,30万円以上
河野 利香,5万円以上,20万円以上,20万円以上,30万円以上,30万円以上,5万円以上,10万円以上
石崎 和香菜,5万円以上,30万円以上,10万円以上,30万円以上,30万円以上,10万円以上,30万円以上
西尾 謙,10万円以上,20万円以上,10万円以上,30万円以上,10万円以上,5万円以上,10万円以上


In [155]:
df = pd.DataFrame({'col01':['A', 'A', 'B', 'B'],
                   'col02':['a', 'b', 'a', 'b'],
                   'col03':[1, 2, 3, 4]})
df


Unnamed: 0,col01,col02,col03
0,A,a,1
1,A,b,2
2,B,a,3
3,B,b,4


In [164]:
df.pivot_table(index='col01', columns='col02', values='col03')

col02,a,b
col01,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1,2
B,3,4


## 1920年から2015年までの各都道府県の人口推移データが含まれるExcelファイルを読み込みます。
まず、'都道府県名'から'北海道'の行を抽出。<br>
pivotメソッドを使用して、北海道の'年齢5歳階級'ごとに'西暦（年）'の'人口（総数）'を集計し、最初の10行を表示。
### ポイント

- 最大表示列数を8列に設定
- カンマで3桁区切りをして、小数点以下を丸めて表示

In [169]:
df = pd.read_excel('xlsx_files/data04.xlsx')
df[df['都道府県名']=='北海道'].pivot_table(index='年齢5歳階級', 
               columns='西暦（年）', 
               values='人口（総数）', 
               aggfunc='sum').applymap('{:,.0f}'.format).head(10)

西暦（年）,1920.0,1925.0,1930.0,1935.0,1940.0,1945.0,1950.0,1955.0,1960.0,1965.0,1970.0,1975.0,1980.0,1985.0,1990.0,1995.0,2000.0,2005.0,2010.0,2015.0
年齢5歳階級,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0〜4歳,376676.0,405607.0,445457.0,462550.0,456318.0,,663628.0,578015.0,455213.0,451390.0,438566.0,462080.0,407498.0,352073.0,291820.0,260027.0,238264.0,220680.0,200977.0,186010.0
10〜14歳,270012.0,300821.0,329334.0,372110.0,401194.0,,472030.0,520095.0,650036.0,564190.0,434497.0,423527.0,425549.0,460660.0,396605.0,344617.0,293367.0,259579.0,237155.0,220017.0
11〜15歳,,,,,,436104.0,,,,,,,,,,,,,,
15〜19歳,239092.0,252275.0,296826.0,317212.0,354389.0,,455200.0,478640.0,508799.0,599110.0,499412.0,397272.0,410100.0,412479.0,443367.0,394609.0,341843.0,292235.0,258530.0,239098.0
16〜20歳,,,,,,398031.0,,,,,,,,,,,,,,
1〜5歳,,,,,,497219.0,,,,,,,,,,,,,,
20〜24歳,208337.0,215391.0,248258.0,278229.0,291584.0,,414482.0,477693.0,466201.0,451306.0,514232.0,443148.0,376820.0,376187.0,364934.0,415477.0,358051.0,314753.0,264185.0,234274.0
21〜25歳,,,,,,296266.0,,,,,,,,,,,,,,
25〜29歳,175257.0,186159.0,214713.0,234977.0,259621.0,,334066.0,417087.0,456601.0,443552.0,432539.0,515030.0,460048.0,372732.0,355206.0,359523.0,398170.0,343983.0,289677.0,247587.0
26〜30歳,,,,,,251138.0,,,,,,,,,,,,,,
