<a href="https://colab.research.google.com/github/sasuraibito1125/google_colab/blob/main/e_Stat_Excel%E3%83%87%E3%83%BC%E3%82%BF%E3%83%AD%E3%83%BC%E3%83%89.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 「社会・人口統計体系」のExcelファイルのデータロード

以下のサイトのExcelファイルのデータをロードして`DataFrame`にするためのユーティリティ関数。

[統計データを探す \| 政府統計の総合窓口](https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00200502&metadata=1&data=1)

### 関数定義

In [1]:
#@title #### e-StatのExcelファイルのデータロード { display-mode: "form" }
#@markdown 関数名: `load_estat_excel`
#@markdown * 引数：`excel`, `column_pairs`, `start_col='A'`, `start_row=13`, `nrows=47`
#@markdown * 戻り値：`DataFrame`
def load_estat_excel(excel, column_pairs, start_col='A', start_row=15, nrows=47):
  '''Load data of each prefecture in e-Stat Excel file except data of nationwide.
  Default values are based on data in 2015.

  Parameters
  ----------
  excel: name of Excel file.
  column_pairs: list of tuples of excel target column name and column name of loaded DataFrame.
    ex) `[ ('D', '平均気温/2001'), ('E', '平均気温/2011') ]`
  start_col: the starting column index to load. Default value is 0.
  start_row: the index of the first prefecture to load. Default value is 13.
  nrows: a number of rows to load. Default value is 49.

  Returns
  -------
  DataFrame
    data in Excel file that have only target columns.
  '''
  import pandas as pd

  def generate_col_names():
    '''Generate Excel column names.
    '''
    singles = [chr(ord("A")+i) for i in range(26)]
    return [*singles, *[l1+l2 for l1 in singles for l2 in singles]]

  col_names = generate_col_names()
  target_indexes = [col_names.index(c[0]) for c in column_pairs]
  new_column_names = [c[1] for c in column_pairs]

  start_col_index = col_names.index(start_col)
  df = pd.read_excel(excel, header=None, index_col=[0], nrows=nrows, skiprows=start_row-1,
                    usecols=[start_col_index, start_col_index+1, *target_indexes])
  df.index.name = ''
  df.columns = ['都道府県', *new_column_names]
  df.dropna(subset=['都道府県'], inplace=True)
  return df

### 利用例

In [2]:
# @title #### [社会・人口統計体系 社会生活統計指標－都道府県の指標－2023 社会生活統計指標](https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001201620&cycle=0&tclass1=000001201621&tclass2val=0&metadata=1&data=1) の「B. 自然環境」のExcelデータロード { display-mode: "form" }
# @markdown ファイル名: a102.xls
load_estat_excel('a102.xls', start_col='H', start_row=13,
                 column_pairs=[
                  ('O', '森林面積割合/2009'),
                  ('P', '森林面積割合/2014'),
                  ('Q', '森林面積割合/2019'),
                  ('AJ', '年平均気温/2015'),
                  ('AK', '年平均気温/2020'),
                  ('AH', '年平均気温/2021'),
                  ('BB', '降水日数（年間）/2015'),
                  ('BC', '降水日数（年間）/2020'),
                  ('BD', '降水日数（年間）/2021')
                ]).head()


Unnamed: 0,都道府県,森林面積割合/2009,森林面積割合/2014,森林面積割合/2019,年平均気温/2015,年平均気温/2020,年平均気温/2021,降水日数（年間）/2015,降水日数（年間）/2020,降水日数（年間）/2021
,,,,,,,,,,
1.0,北海道,68.0,67.9,67.7,3.8,10.0,10.0,144.0,151.0,122.0
2.0,青森県,63.8,63.8,63.6,7.5,11.5,11.6,131.0,159.0,152.0
3.0,岩手県,75.1,74.9,74.6,4.1,11.6,11.4,119.0,131.0,131.0
4.0,宮城県,56.1,55.9,55.4,10.9,13.7,13.7,100.0,99.0,106.0
5.0,秋田県,70.5,70.5,70.3,5.8,12.7,12.8,142.0,192.0,175.0


In [3]:
# @title #### [社会・人口統計体系 社会生活統計指標－都道府県の指標－2023 社会生活統計指標](https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001201620&cycle=0&tclass1=000001201621&tclass2val=0&metadata=1&data=1) の「B. 自然環境」のExcelデータロード { display-mode: "form" }
# @markdown ファイル名: a102.xls
load_estat_excel('a102.xls', start_col='H', start_row=13, column_pairs=[
                  ('O', '森林面積割合/2009'),
                  ('P', '森林面積割合/2014'),
                  ('Q', '森林面積割合/2019'),
                  ('AJ', '年平均気温/2015'),
                  ('AK', '年平均気温/2020'),
                  ('AH', '年平均気温/2021'),
                  ('BB', '降水日数（年間）/2015'),
                  ('BC', '降水日数（年間）/2020'),
                  ('BD', '降水日数（年間）/2021')
                ]).head()


Unnamed: 0,都道府県,森林面積割合/2009,森林面積割合/2014,森林面積割合/2019,年平均気温/2015,年平均気温/2020,年平均気温/2021,降水日数（年間）/2015,降水日数（年間）/2020,降水日数（年間）/2021
,,,,,,,,,,
1.0,北海道,68.0,67.9,67.7,3.8,10.0,10.0,144.0,151.0,122.0
2.0,青森県,63.8,63.8,63.6,7.5,11.5,11.6,131.0,159.0,152.0
3.0,岩手県,75.1,74.9,74.6,4.1,11.6,11.4,119.0,131.0,131.0
4.0,宮城県,56.1,55.9,55.4,10.9,13.7,13.7,100.0,99.0,106.0
5.0,秋田県,70.5,70.5,70.3,5.8,12.7,12.8,142.0,192.0,175.0


In [4]:
# @title #### [社会・人口統計体系 統計でみる都道府県のすがた2023 社会生活統計指標](https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001201623&cycle=0&tclass1=000001201624&tclass2val=0&metadata=1&data=1) の「B. 自然環境」のExcelデータロード { display-mode: "form" }
# @markdown ファイル名: a202.xls
load_estat_excel('a202.xls', start_col='H', start_row=14, column_pairs=[
                  ('P', '森林面積割合/2021'),
                  ('V', '年平均気温/2021'),
                  ('AH', '降水日数（年間）/2021')
                ]).head()


Unnamed: 0,都道府県,森林面積割合/2021,年平均気温/2021,降水日数（年間）/2021
,,,,
1.0,北海道,67.7,10.2,122.0
2.0,青森県,63.6,11.5,152.0
3.0,岩手県,74.6,11.4,131.0
4.0,宮城県,55.4,13.7,106.0
5.0,秋田県,70.3,12.9,175.0


In [5]:
# @title #### [社会・人口統計体系 社会生活統計指標－都道府県の指標－2015 社会生活統計指標](https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001067959&cycle=0&tclass1=000001067960&result_page=1&cycle_facet=cycle&tclass2val=0&metadata=1&data=1) の「B. 自然環境」のExcelデータロード { display-mode: "form" }
# @markdown ファイル名: shihyou-b.xls
load_estat_excel('shihyou-b.xls', column_pairs=[
                  ('H', '森林面積割合/1990'),
                  ('I', '森林面積割合/2000'),
                  ('J', '森林面積割合/2009'),
                  ('AH', '年平均気温/2005'),
                  ('AI', '年平均気温/2010'),
                  ('AJ', '年平均気温/2013'),
                  ('BK', '雪日数（年間）/2005'),
                  ('BL', '雪日数（年間）/2010'),
                  ('BM', '雪日数（年間）/2013')
                ]).head()


Unnamed: 0,都道府県,森林面積割合/1990,森林面積割合/2000,森林面積割合/2009,年平均気温/2005,年平均気温/2010,年平均気温/2013,雪日数（年間）/2005,雪日数（年間）/2010,雪日数（年間）/2013
,,,,,,,,,,
1.0,北 海 道,68.3,67.9,68.0,8.9,9.8,9.2,134.0,129.0,138.0
2.0,青 森 県,64.9,64.3,63.8,10.1,11.1,10.5,114.0,111.0,116.0
3.0,岩 手 県,75.4,75.0,75.1,10.0,11.0,10.6,106.0,107.0,104.0
4.0,宮 城 県,56.9,56.2,56.1,12.2,13.2,12.7,73.0,72.0,81.0
5.0,秋 田 県,70.8,70.8,70.5,11.7,12.3,11.9,103.0,99.0,110.0


In [6]:
# @title #### [社会・人口統計体系 社会生活統計指標－都道府県の指標－2007 社会生活統計指標 B．自然環境](https://www.e-stat.go.jp/stat-search/files?page=1&layout=datalist&toukei=00200502&tstat=000001013150&cycle=0&tclass1=000001013151&tclass2=000001013153&tclass3val=0&metadata=1&data=1)  の「2. 気象」のExcelデータロード { display-mode: "form" }
# @markdown ファイル名: 5-2-2.xls
load_estat_excel('5-2-2.xls', start_row=16, nrows=56, column_pairs=[
                  ('E', '年平均気温/1995'),
                  ('F', '年平均気温/2000'),
                  ('G', '年平均気温/2005'),
                  ('AC', '雪日数（年間）/1995'),
                  ('AD', '雪日数（年間）/2000'),
                  ('AE', '雪日数（年間）/2005')
                ]).head()


Unnamed: 0,都道府県,年平均気温/1995,年平均気温/2000,年平均気温/2005,雪日数（年間）/1995,雪日数（年間）/2000,雪日数（年間）/2005
,,,,,,,
1.0,北 海 道,9.2,9.0,8.9,130.0,145.0,134.0
2.0,青 森 県,10.7,10.7,10.1,115.0,119.0,114.0
3.0,岩 手 県,10.3,10.6,10.0,110.0,110.0,106.0
4.0,宮 城 県,12.6,12.9,12.2,68.0,73.0,73.0
5.0,秋 田 県,11.8,12.2,11.7,107.0,112.0,103.0
