## pandasのインポート

In [1]:
import pandas as pd

## csvファイルの読み込み
「1920年から2015年までの全国の人口推移のデータ」を使用します。

In [2]:
df = pd.read_csv('data.csv', encoding='shift-jis')
df

Unnamed: 0,都道府県コード,都道府県名,元号,和暦（年）,西暦（年）,人口（総数）,人口（男）,人口（女）
0,1,北海道,大正,9.0,1920.0,2359183,1244322,1114861
1,2,青森県,大正,9.0,1920.0,756454,381293,375161
2,3,岩手県,大正,9.0,1920.0,845540,421069,424471
3,4,宮城県,大正,9.0,1920.0,961768,485309,476459
4,5,秋田県,大正,9.0,1920.0,898537,453682,444855
...,...,...,...,...,...,...,...,...
934,43,熊本県,平成,27.0,2015.0,1786170,841046,945124
935,44,大分県,平成,27.0,2015.0,1166338,551932,614406
936,45,宮崎県,平成,27.0,2015.0,1104069,519242,584827
937,46,鹿児島県,平成,27.0,2015.0,1648177,773061,875116


私のGitHubに「data.csv」としてアップロードしてあるので、下記コマンドでダウンロードすれば簡単に準備できます。

```Shell
$ curl https://raw.githubusercontent.com/nakachan-ing/python-references/master/Pandas/data.csv -O
```

## データを集計する | groupby

`groupby`メソッドを使用すると、DataFrameの要素をもとにデータをグループ分けして、簡単に集計することができます。

引数`by`にグループ分けしたカラムを指定します。

読み込んだcsvファイルから「都道府県別」に、「人口（総数）」、「人口（男）」、「人口（女）」それぞれを集計してみます。

In [9]:
df_mean1 = df.groupby(by='都道府県名').mean()[['人口（総数）', '人口（男）', '人口（女）']]
df_mean1.head(10)

Unnamed: 0_level_0,人口（総数）,人口（男）,人口（女）
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
三重県,1534021.4,743366.55,790654.85
京都府,2135317.95,1044093.7,1091224.25
佐賀県,830574.25,395550.75,435023.5
兵庫県,4233525.0,2067583.1,2165941.9
北海道,4606104.3,2272235.25,2333869.05
千葉県,3591668.1,1789946.8,1801721.3
和歌山県,978371.25,471085.7,507285.55
埼玉県,4040109.05,2023428.05,2016681.0
大分県,1142165.05,544737.95,597427.1
大阪府,6380772.25,3167758.65,3213013.6


**ポイント**

- DataFrameに対して、はじめに「都道府県名」でグループ分けしてから、「人口（総数）」、「人口（男）」、「人口（女）」の平均を抽出しています。
- DataFrameに対して、はじめに「都道府県名」、「人口（総数）」、「人口（男）」、「人口（女）」のデータを抽出してから「都道府県名」でグループ分けして平均を求めることもできます。

In [10]:
df_mean2 = df[['都道府県名', '人口（総数）', '人口（男）', '人口（女）']].groupby(by='都道府県名').mean()
df_mean2.head(10)

Unnamed: 0_level_0,人口（総数）,人口（男）,人口（女）
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
三重県,1534021.4,743366.55,790654.85
京都府,2135317.95,1044093.7,1091224.25
佐賀県,830574.25,395550.75,435023.5
兵庫県,4233525.0,2067583.1,2165941.9
北海道,4606104.3,2272235.25,2333869.05
千葉県,3591668.1,1789946.8,1801721.3
和歌山県,978371.25,471085.7,507285.55
埼玉県,4040109.05,2023428.05,2016681.0
大分県,1142165.05,544737.95,597427.1
大阪府,6380772.25,3167758.65,3213013.6


`groupby`メソッドで集計できるものとしては、

- mean（平均）
- sum（合計）
- count（個数）
- max（最大値）
- min（最小値）
- std（標準偏差）
- var（分散）

などがあります。

### 複数要素でグルーピングする

`groupby`メソッドの引数`by`にリストで複数のカラムを指定することで、複数要素での集計が可能です。

「都道府県名」と「元号」をリスト形式で指定して、「人口（総数）」、「人口（男）」、「人口（女）」それぞれの平均を集計してみます。

In [14]:
df_mean3 = df[['都道府県名', '元号', '人口（総数）', '人口（男）', '人口（女）']].groupby(by=['都道府県名', '元号']).mean()
df_mean3

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（総数）,人口（男）,人口（女）
都道府県名,元号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
三重県,大正,1.088481e+06,5.353545e+05,5.531265e+05
三重県,平成,1.838127e+06,8.931675e+05,9.449597e+05
三重県,昭和,1.456225e+06,7.031348e+05,7.530905e+05
京都府,大正,1.346764e+06,6.841220e+05,6.626425e+05
京都府,平成,2.628425e+06,1.268325e+06,1.360099e+06
...,...,...,...,...
鳥取県,平成,6.021767e+05,2.878853e+05,3.142913e+05
鳥取県,昭和,5.659245e+05,2.707558e+05,2.951688e+05
鹿児島県,大正,1.443888e+06,6.979725e+05,7.459150e+05
鹿児島県,平成,1.747640e+06,8.185060e+05,9.291340e+05


このままだと人口が指数表示となってしまい、ひと目では何人なのか分かりにくいですね。

※指数表現は数値を1桁にして、その分10を何乗したかで表現しています。

ひと目で人口が分かるように、`round(0)`とすることで、小数点以下を切り捨てて表現します。

In [15]:
df_mean3.round(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（総数）,人口（男）,人口（女）
都道府県名,元号,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
三重県,大正,1088481.0,535354.0,553126.0
三重県,平成,1838127.0,893168.0,944960.0
三重県,昭和,1456225.0,703135.0,753090.0
京都府,大正,1346764.0,684122.0,662642.0
京都府,平成,2628425.0,1268325.0,1360099.0
...,...,...,...,...
鳥取県,平成,602177.0,287885.0,314291.0
鳥取県,昭和,565924.0,270756.0,295169.0
鹿児島県,大正,1443888.0,697972.0,745915.0
鹿児島県,平成,1747640.0,818506.0,929134.0


### aggメソッドを使って集計する

`agg`メソッドは平均や合計などを同時に集計することができます。

集計したい計算方法を`agg`メソッドの引数にリストで指定します。

「都道府県名」と「元号」をリスト形式で指定して、「人口（総数）」、「人口（男）」、「人口（女）」それぞれの平均、最大値、最小値を集計してみます。

In [21]:
df_culc1 = df[['都道府県名', '元号', '人口（総数）', '人口（男）', '人口（女）']].groupby(by=['都道府県名', '元号']).agg(['mean', 'max', 'min'])
df_culc1.round(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（総数）,人口（総数）,人口（総数）,人口（男）,人口（男）,人口（男）,人口（女）,人口（女）,人口（女）
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,min,mean,max,min,mean,max,min
都道府県名,元号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
三重県,大正,1088481.0,1107692,1069270,535354.0,544752,525957,553126.0,562940,543313
三重県,平成,1838127.0,1866963,1792514,893168.0,907214,869515,944960.0,959749,922999
三重県,昭和,1456225.0,1747311,1157407,703135.0,847420,571000,753090.0,899891,586407
京都府,大正,1346764.0,1406382,1287147,684122.0,717464,650780,662642.0,688918,636367
京都府,平成,2628425.0,2647660,2602460,1268325.0,1278142,1248972,1360099.0,1374667,1334840
...,...,...,...,...,...,...,...,...,...,...
鳥取県,平成,602177.0,615722,573441,287885.0,294899,273705,314291.0,320823,299736
鳥取県,昭和,565924.0,616024,484390,270756.0,297015,233964,295169.0,320513,250182
鹿児島県,大正,1443888.0,1472193,1415582,697972.0,713702,682243,745915.0,758491,733339
鹿児島県,平成,1747640.0,1797824,1648177,818506.0,842474,773061,929134.0,955350,875116


**ポイント**

統計量を算出したい場合は、`agg`メソッドの引数に`describe`を指定します。

「都道府県名」と「元号」をリスト形式で指定して、「人口（総数）」の平均、最大値、最小値を集計してみます。

In [25]:
df_culc2 = df[['都道府県名', '元号', '人口（総数）']].groupby(by=['都道府県名', '元号']).agg('describe')
df_culc2.round(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
都道府県名,元号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
三重県,大正,2.0,1088481.0,27168.0,1069270.0,1078876.0,1088481.0,1098086.0,1107692.0
三重県,平成,6.0,1838127.0,28505.0,1792514.0,1822238.0,1848041.0,1856685.0,1866963.0
三重県,昭和,12.0,1456225.0,194973.0,1157407.0,1345410.0,1485318.0,1563813.0,1747311.0
京都府,大正,2.0,1346764.0,84312.0,1287147.0,1316956.0,1346764.0,1376573.0,1406382.0
京都府,平成,6.0,2628425.0,18362.0,2602460.0,2615163.0,2632842.0,2642316.0,2647660.0
...,...,...,...,...,...,...,...,...,...
鳥取県,平成,6.0,602177.0,17328.0,573441.0,593253.0,610150.0,614519.0,615722.0
鳥取県,昭和,12.0,565924.0,49776.0,484390.0,545030.0,580582.0,601188.0,616024.0
鹿児島県,大正,2.0,1443888.0,40030.0,1415582.0,1429735.0,1443888.0,1458040.0,1472193.0
鹿児島県,平成,6.0,1747640.0,59686.0,1648177.0,1717976.0,1769686.0,1792216.0,1797824.0


小数点以下を切り捨てたことで見やすくなっていますが、桁区切り表示させることでより分かりやすくできます。

`applymap`メソッドと`format`メソッドを使って3桁区切りにします。

In [30]:
df_culc2.applymap('{:,.0f}'.format)

Unnamed: 0_level_0,Unnamed: 1_level_0,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）,人口（総数）
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
都道府県名,元号,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
三重県,大正,2,1088481,27168,1069270,1078876,1088481,1098086,1107692
三重県,平成,6,1838127,28505,1792514,1822238,1848041,1856685,1866963
三重県,昭和,12,1456225,194973,1157407,1345410,1485318,1563813,1747311
京都府,大正,2,1346764,84312,1287147,1316956,1346764,1376573,1406382
京都府,平成,6,2628425,18362,2602460,2615163,2632842,2642316,2647660
...,...,...,...,...,...,...,...,...,...
鳥取県,平成,6,602177,17328,573441,593253,610150,614519,615722
鳥取県,昭和,12,565924,49776,484390,545030,580582,601188,616024
鹿児島県,大正,2,1443888,40030,1415582,1429735,1443888,1458040,1472193
鹿児島県,平成,6,1747640,59686,1648177,1717976,1769686,1792216,1797824


## データを集計する | pivot_table

`groupby`メソッドではカラム（縦方向）でグルーピングして集計をしましたが、`pivot_table`メソッドでは横方向にも項目を追加して集計することができます。

引数`index`には縦方向に表示させたい項目、`columns`には横方向に表示させたい項目を指定します。

引数`values`に集計するデータのカラムを指定します。

引数`aggfunc`には集計方法を指定します。

`index`に「都道府県名」、`columns`に「元号」を指定して、「人口（総数）」の平均を集計してみます。

In [33]:
df_pivot1 = df.pivot_table(index='都道府県名', columns='元号', values='人口（総数）', aggfunc='mean')
df_pivot1.round(0).head(10)

元号,大正,平成,昭和
都道府県名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
三重県,1088481.0,1838127.0,1456225.0
京都府,1346764.0,2628425.0,2020190.0
佐賀県,679363.0,864635.0,838746.0
兵庫県,2378239.0,5511838.0,3903583.0
北海道,2428931.0,5589153.0,4477442.0
千葉県,1367706.0,5962486.0,2776920.0
和歌山県,768961.0,1037736.0,983590.0
埼玉県,1356997.0,6936328.0,3039185.0
大分県,887709.0,1210304.0,1150505.0
大阪府,2823674.0,8809791.0,5759113.0


### 複数のデータを集計する

複数データを同時に集計することができます。

`index`に「都道府県名」、`columns`に「元号」を指定して、「人口（総数）」、「人口（男）」、「人口（女）」人口の平均を集計してみます。

In [34]:
df_pivot2 = df.pivot_table(index='都道府県名', columns='元号', values=['人口（総数）', '人口（男）', '人口（女）'], aggfunc='mean')
df_pivot2.round(0).head(10)

Unnamed: 0_level_0,人口（女）,人口（女）,人口（女）,人口（男）,人口（男）,人口（男）,人口（総数）,人口（総数）,人口（総数）
元号,大正,平成,昭和,大正,平成,昭和,大正,平成,昭和
都道府県名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
三重県,553126.0,944960.0,753090.0,535354.0,893168.0,703135.0,1088481.0,1838127.0,1456225.0
京都府,662642.0,1360099.0,1028217.0,684122.0,1268325.0,991973.0,1346764.0,2628425.0,2020190.0
佐賀県,346270.0,456442.0,439106.0,333092.0,408192.0,399640.0,679363.0,864635.0,838746.0
兵庫県,1170863.0,2861527.0,1983996.0,1207376.0,2650310.0,1919587.0,2378239.0,5511838.0,3903583.0
北海道,1154034.0,2923372.0,2235757.0,1274898.0,2665781.0,2241685.0,2428931.0,5589153.0,4477442.0
千葉県,693601.0,2974638.0,1399949.0,674105.0,2987847.0,1376970.0,1367706.0,5962486.0,2776920.0
和歌山県,386836.0,547112.0,507447.0,382124.0,490624.0,476143.0,768961.0,1037736.0,983590.0
埼玉県,695390.0,3443448.0,1523513.0,661606.0,3492880.0,1515672.0,1356997.0,6936328.0,3039185.0
大分県,450706.0,638774.0,601207.0,437003.0,571531.0,549297.0,887709.0,1210304.0,1150505.0
大阪府,1354138.0,4517115.0,2870776.0,1469536.0,4292676.0,2888337.0,2823674.0,8809791.0,5759113.0


### 複数の集計方法を同時に実行する

引数`aggfunc`にリストで集計方法を指定することで、複数の集計方法を同時に実行することができます。

`index`に「都道府県名」、`columns`に「元号」を指定して、「人口（総数）」の平均、最大値、最小値を集計してみます。

In [35]:
df_pivot3 = df.pivot_table(index='都道府県名', columns='元号', values='人口（総数）', aggfunc=['mean', 'max', 'min'])
df_pivot3.round(0).head(10)

Unnamed: 0_level_0,mean,mean,mean,max,max,max,min,min,min
元号,大正,平成,昭和,大正,平成,昭和,大正,平成,昭和
都道府県名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
三重県,1088481.0,1838127.0,1456225.0,1107692,1866963,1747311,1069270,1792514,1157407
京都府,1346764.0,2628425.0,2020190.0,1406382,2647660,2586574,1287147,2602460,1552832
佐賀県,679363.0,864635.0,838746.0,684831,884316,973749,673895,832832,686117
兵庫県,2378239.0,5511838.0,3903583.0,2454679,5590601,5278050,2301799,5401877,2646301
北海道,2428931.0,5589153.0,4477442.0,2498679,5692321,5679439,2359183,5381733,2812335
千葉県,1367706.0,5962486.0,2776920.0,1399257,6222666,5148163,1336155,5555429,1470121
和歌山県,768961.0,1037736.0,983590.0,787511,1080435,1087206,750411,963579,830748
埼玉県,1356997.0,6936328.0,3039185.0,1394461,7266534,5863678,1319533,6405319,1459172
大分県,887709.0,1210304.0,1150505.0,915136,1236942,1277199,860282,1166338,945771
大阪府,2823674.0,8809791.0,5759113.0,3059502,8865245,8668095,2587847,8734516,2800958
