<a href="https://colab.research.google.com/github/yumehara/hackday_2022/blob/main/notebooks/e_stat_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# e-Statで取得したデータの加工
- https://www.e-stat.go.jp/regional-statistics/ssdsview/municipality
- 地域選択
    - 表示データ: 現在の市区町村
    - 地域区分: 都道府県すべて
    - 絞り込み: 特別区、市（特別区部を除く）、町・村
- 表示項目選択
    - 絞り込み: 基礎データ
    - 各種データを選択
- ダウンロード
    - ダウンロード範囲: 全ての調査年
    - ファイル形式: CSV形式
    - ヘッダの出力: 出力しない
    - コードの出力: 出力する
    - 階層コードの出力: 出力しない
    - 凡例の出力: 出力しない
    - 注釈を表示する: チェックOFF
    - データがない行を表示しない: チェックON
    - データがない列を表示しない: チェックON
    - 桁区切りを使用しない
    - 特殊文字の選択: 置き換えない

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
!pip install -q japanize-matplotlib

import os
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import glob
import numpy as np

In [3]:
DIR_NAME = '/content/drive/MyDrive/hackday/'

In [4]:
org_csv_list = glob.glob(os.path.join(DIR_NAME, 'org/*.csv'))
org_csv_list.sort()
org_csv_list

['/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(1).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(2).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(3).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(4).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(1).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(2).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(3).csv',
 '/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(4).csv']

In [5]:
df_org = pd.DataFrame()
for file in org_csv_list:
    _tmp = pd.read_csv(file, encoding='shift-jis', skiprows=1).replace('***', np.NaN).replace('-', np.NaN)
    print(file, _tmp.shape)
    df_org = pd.concat([df_org, _tmp])

print(df_org.shape)

/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(1).csv (20833, 29)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(2).csv (20833, 29)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(3).csv (20833, 29)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915090310(4).csv (8882, 29)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(1).csv (21739, 28)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(2).csv (21739, 28)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(3).csv (21739, 28)
/content/drive/MyDrive/hackday/org/FEI_CITY_220915095416(4).csv (6164, 28)
(142762, 52)


In [6]:
df_org.columns

Index(['調査年 コード', '調査年', '地域 コード', '地域', '/項目', 'C2107_事業所数（経済センサス‐基礎調査結果）【所】',
       'C5401_標準価格（平均価格）（住宅地）【円／ｍ2】', 'D1202_一般行政部門職員数（市区町村）【人】',
       'D2201_財政力指数（市町村財政）【‐】', 'D2202_実質収支比率（市町村財政）【％】',
       'D2204_公債費比率（市町村財政）【％】', 'D2209_一般財源（市町村財政）【千円】',
       'D2214_実質赤字比率（市町村財政）【％】', 'D320401_人件費（市町村財政）【千円】', 'G1201_公民館数【館】',
       'G1401_図書館数【館】', 'H6101_小売店数（事業所・企業統計調査結果）【事業所】',
       'H6102_飲食店数（事業所・企業統計調査結果）【事業所】', 'I5101_病院数【施設】', 'I5211_病院病床数【床】',
       'I6100_医師数【人】', 'I6300_薬剤師数【人】', 'J2503_保育所等数（詳細票）【所】',
       'J250301_公営保育所等数（詳細票）【所】', 'J250302_保育所等数（基本票）【所】',
       'J250303_公営保育所等数（基本票）【所】', 'J2506_保育所等在所児数（詳細票）【人】',
       'K3101_交通事故発生件数【件】', 'K4201_刑法犯認知件数【件】', 'A1101_総人口【人】',
       'A1301_15歳未満人口【人】', 'A1302_15〜64歳人口【人】', 'A1303_65歳以上人口【人】',
       'A7101_世帯数【世帯】', 'B1101_総面積（北方地域及び竹島を除く）【ｈａ】', 'B1103_可住地面積【ｈａ】',
       'B1105_林野面積【ｈａ】', 'B1106_森林面積【ｈａ】', 'B1107_森林以外の草生地面積【ｈａ】',
       'E1101_幼稚園数【園】', 'E1501_幼稚園在園者数【人】', 'E2101_小学校数【校】', 'E2401_小学校教員数【人】

In [7]:
column_year = []
for col in df_org.columns[5:]:
    column_year.append((col, sorted(df_org[df_org[col].notna()]['調査年'].unique(), reverse=True)[0]))

    df_org[col] = df_org[col].astype(float)

In [8]:
df_recent_year = df_org[['地域 コード', '地域']].drop_duplicates()
print(len(df_recent_year))

1741


In [9]:
for col, year in column_year:
    _tmp = df_org[(df_org['調査年']==year)&(df_org[col].notna())][['地域 コード', '地域', col]]
    print(col, len(_tmp))
    df_recent_year = pd.merge(
        df_recent_year,
        _tmp.rename(columns={col: col+'_'+year}),
        on=['地域 コード', '地域'], how='left'
    )

print(df_recent_year.shape)

C2107_事業所数（経済センサス‐基礎調査結果）【所】 1741
C5401_標準価格（平均価格）（住宅地）【円／ｍ2】 1602
D1202_一般行政部門職員数（市区町村）【人】 1741
D2201_財政力指数（市町村財政）【‐】 1718
D2202_実質収支比率（市町村財政）【％】 1718
D2204_公債費比率（市町村財政）【％】 1673
D2209_一般財源（市町村財政）【千円】 1741
D2214_実質赤字比率（市町村財政）【％】 1741
D320401_人件費（市町村財政）【千円】 1741
G1201_公民館数【館】 1741
G1401_図書館数【館】 1741
H6101_小売店数（事業所・企業統計調査結果）【事業所】 1741
H6102_飲食店数（事業所・企業統計調査結果）【事業所】 1741
I5101_病院数【施設】 1741
I5211_病院病床数【床】 1741
I6100_医師数【人】 1741
I6300_薬剤師数【人】 1741
J2503_保育所等数（詳細票）【所】 1741
J250301_公営保育所等数（詳細票）【所】 1741
J250302_保育所等数（基本票）【所】 1741
J250303_公営保育所等数（基本票）【所】 1741
J2506_保育所等在所児数（詳細票）【人】 1741
K3101_交通事故発生件数【件】 1741
K4201_刑法犯認知件数【件】 1741
A1101_総人口【人】 1741
A1301_15歳未満人口【人】 1741
A1302_15〜64歳人口【人】 1741
A1303_65歳以上人口【人】 1741
A7101_世帯数【世帯】 1741
B1101_総面積（北方地域及び竹島を除く）【ｈａ】 1741
B1103_可住地面積【ｈａ】 1741
B1105_林野面積【ｈａ】 1741
B1106_森林面積【ｈａ】 1741
B1107_森林以外の草生地面積【ｈａ】 1741
E1101_幼稚園数【園】 1741
E1501_幼稚園在園者数【人】 1741
E2101_小学校数【校】 1741
E2401_小学校教員数【人】 1741
E2501_小学校児童数【人】 1741
E3101_中学校数【校】 1741
E3401_中学校教員数【人】 1741
E3501_

In [10]:
df_recent_year.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1741 entries, 0 to 1740
Data columns (total 49 columns):
 #   Column                                                   Non-Null Count  Dtype  
---  ------                                                   --------------  -----  
 0   地域 コード                                                   1741 non-null   int64  
 1   地域                                                       1741 non-null   object 
 2   C2107_事業所数（経済センサス‐基礎調査結果）【所】_2019年度                      1741 non-null   float64
 3   C5401_標準価格（平均価格）（住宅地）【円／ｍ2】_2009年度                       1602 non-null   float64
 4   D1202_一般行政部門職員数（市区町村）【人】_2020年度                          1741 non-null   float64
 5   D2201_財政力指数（市町村財政）【‐】_2019年度                             1718 non-null   float64
 6   D2202_実質収支比率（市町村財政）【％】_2019年度                            1718 non-null   float64
 7   D2204_公債費比率（市町村財政）【％】_2007年度                             1673 non-null   float64
 8   D2209_一般財源（市町村財政）【千円】_2019年度

In [15]:
df_recent_year.to_csv(os.path.join(DIR_NAME, 'e_stat_data.csv'), index=False)