# 国勢調査データの加工

- 加工データセット：国勢調査 / 都道府県・市区町村別統計表（国勢調査） / 都道府県・市区町村別統計表（男女別人口，年齢３区分・割合，就業者，昼間人口など）
- URL:https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200521&tstat=000001049104&cycle=0&tclass1=000001049105&stat_infid=000031594311&tclass2val=0

- 目的:上記データを都道府県別と市町村別に分離する。
- インプット、アウトプットのファイルは保存しません。

In [1]:
# ライブラリの読み込み
import numpy as np
import pandas as pd

In [3]:
# ファイルの読み込みと結果の表示
df = pd.read_excel(
    '2015.xls',         
    usecols=[1,6,7,8,13,14,21,22],
    names=[
        '都道府県市町村コード',
        '都道府県',
        '市町村',
        '人口',
        '人口密度（人/km2）',
        '平均年齢',
        '生産人口割合',
        '高齢化率'
    ],
    dtype={'都道府県市町村コード':'object'},
    skiprows=10
)
df

Unnamed: 0,都道府県市町村コード,都道府県,市町村,人口,人口密度（人/km2）,平均年齢,生産人口割合,高齢化率
0,00000,全国,全国,127094745,340.8,46.3979,60.7196,26.6358
1,01000,北海道,北海道,5381733,68.6,48.2688,59.5578,29.088
2,01100,北海道,札幌市,1952356,1741.2,46.2126,63.6843,24.9236
3,01101,北海道,札幌市 中央区,237627,5119.1,44.9858,68.2665,21.5164
4,01102,北海道,札幌市 北区,285321,4488.3,45.6165,63.7227,24.5561
...,...,...,...,...,...,...,...,...
1960,47361,沖縄県,久米島町,7755,121.8,47.2796,57.7792,26.4945
1961,47362,沖縄県,八重瀬町,29066,1078.1,41.686,62.2456,19.3869
1962,47375,沖縄県,多良間村,1194,54.3,46.4271,56.1977,26.3819
1963,47381,沖縄県,竹富町,3998,12.0,43.6946,62.5538,20.2179


In [6]:
# 都道府県市町村コードから都道府県コードと市町村コードに分離する。
df_2=df.assign(都道府県コード=df['都道府県市町村コード'].str[0:2])
df_2=df_2.assign(市町村コード=df_2['都道府県市町村コード'].str[2:])
df_2

Unnamed: 0,都道府県市町村コード,都道府県,市町村,人口,人口密度（人/km2）,平均年齢,生産人口割合,高齢化率,都道府県コード,市町村コード
0,00000,全国,全国,127094745,340.8,46.3979,60.7196,26.6358,00,000
1,01000,北海道,北海道,5381733,68.6,48.2688,59.5578,29.088,01,000
2,01100,北海道,札幌市,1952356,1741.2,46.2126,63.6843,24.9236,01,100
3,01101,北海道,札幌市 中央区,237627,5119.1,44.9858,68.2665,21.5164,01,101
4,01102,北海道,札幌市 北区,285321,4488.3,45.6165,63.7227,24.5561,01,102
...,...,...,...,...,...,...,...,...,...,...
1960,47361,沖縄県,久米島町,7755,121.8,47.2796,57.7792,26.4945,47,361
1961,47362,沖縄県,八重瀬町,29066,1078.1,41.686,62.2456,19.3869,47,362
1962,47375,沖縄県,多良間村,1194,54.3,46.4271,56.1977,26.3819,47,375
1963,47381,沖縄県,竹富町,3998,12.0,43.6946,62.5538,20.2179,47,381


In [14]:
# 都道府県別の加工
df_3=df_2.copy()
df_3=df_3[(df_3['市町村コード']=='000') & ~(df_3['都道府県コード']=='00') ]
df_3=df_3[['都道府県コード','都道府県','人口','人口密度（人/km2）','平均年齢','生産人口割合','高齢化率']]
df_3.head()

Unnamed: 0,都道府県コード,都道府県,人口,人口密度（人/km2）,平均年齢,生産人口割合,高齢化率
1,1,北海道,5381733,68.6,48.2688,59.5578,29.088
191,2,青森県,1308265,135.6,49.0147,58.4316,30.1415
232,3,岩手県,1279594,83.8,48.9889,57.7536,30.3802
266,4,宮城県,2333899,320.5,46.2325,61.7326,25.7484
307,5,秋田県,1023119,87.9,51.2719,55.7115,33.8368


In [None]:
# 都道府県別のデータをCSVファイルに出力
df_3.to_csv(
    'PBL_census_by_pref.csv',
    index=False,
    header=True, # 列名を出力する
    sep=',',  #csvファイルなので区切り文字はカンマ
)

In [15]:
# 市町村のデータ加工
df_4=df_2.copy()
# サマリに該当する市町村コード000と人口=0を除外
df_4=df_4[~(df_4['市町村コード']=='000')& ~(df_4['人口']==0)]
df_4=df_4[['都道府県市町村コード','都道府県コード','市町村コード','人口','人口密度（人/km2）','平均年齢','生産人口割合','高齢化率']]
df_4.head()

Unnamed: 0,都道府県市町村コード,都道府県コード,市町村コード,人口,人口密度（人/km2）,平均年齢,生産人口割合,高齢化率
2,1100,1,100,1952356,1741.2,46.2126,63.6843,24.9236
3,1101,1,101,237627,5119.1,44.9858,68.2665,21.5164
4,1102,1,102,285321,4488.3,45.6165,63.7227,24.5561
5,1103,1,103,261912,4597.4,45.277,64.6157,23.5916
6,1104,1,104,209584,6080.2,45.2999,65.6973,22.9803


In [47]:
# 市区町村別のデータをCSVファイルに出力
df_4.to_csv(
    'PBL_census_by_city.csv',
    index=False,
    header=True, # 列名を出力する
    sep=',',  #csvファイルなので区切り文字はカンマ
)
