# 人口データの取得・可視化・分析


In [1]:
# 環境変数とパス設定に用いるライブラリ
import os
from dotenv import load_dotenv
from pathlib import Path
# データ取得に用いるライブラリ
import requests
# データ処理に用いるライブラリ
import numpy as np
import pandas as pd
# 可視化に用いるライブラリ
import plotly
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

In [None]:
from estat import (
    get_metainfo,
    get_statsdata,
    cleansing_statsdata,
    colname_to_japanese,
)

# estat.py から get_metainfo などの関数を直接インポートしているので、後のセルで関数名だけで呼び出して使うことができるようになる

In [None]:
# .envファイルから環境変数を読む
load_dotenv()
appId = os.getenv("ESTAT_APP_ID")

In [4]:
current_dir = Path.cwd()
data_path = (current_dir / "data" / "ch07").resolve()

## 人口と国勢調査

- [国勢調査](https://www.e-stat.go.jp/statistics/00200521)
- [令和2 年国勢調査（2020 年）の公表](https://www.stat.go.jp/data/kokusei/2020/pdf/schedule.pdf)


In [None]:
pop_statsDataId = "0003410380"
pop_meta = get_metainfo(appId, pop_statsDataId)                     # estat.py で定義した get_metainfo 関数を呼び出して使う
pop_metadata = pop_meta["GET_META_INFO"]["METADATA_INF"]
pop_total_num = pop_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
pop_total_num

3752

In [6]:
pop_data = get_statsdata(appId, pop_statsDataId)                    # estat.py で定義した get_statsdata 関数を呼び出して使う
pop_value = colname_to_japanese(cleansing_statsdata(pop_data))      # estat.py で定義した cleansing_statsdata 関数を呼び出して使う
pop_value.columns

Index(['表章項目コード', '男女_時系列コード', '年齢（５歳階級）_時系列コード', '時間軸（調査年）コード', '単位', '値',
       '表章項目', '表章項目階層レベル', '表章項目単位', '男女_時系列', '男女_時系列階層レベル', '年齢（５歳階級）_時系列',
       '年齢（５歳階級）_時系列階層レベル', '時間軸（調査年）', '時間軸（調査年）階層レベル'],
      dtype='object')

In [29]:
pop_value

Unnamed: 0,表章項目コード,男女_時系列コード,年齢（５歳階級）_時系列コード,時間軸（調査年）コード,単位,値,表章項目,表章項目階層レベル,表章項目単位,男女_時系列,男女_時系列階層レベル,年齢（５歳階級）_時系列,年齢（５歳階級）_時系列階層レベル,時間軸（調査年）,時間軸（調査年）階層レベル
0,020,100,100,1920000000,人,5.596305e+07,人口,,人,総数,1,総数,1,1920年,1
1,020,100,100,1925000000,人,5.973682e+07,人口,,人,総数,1,総数,1,1925年,1
2,020,100,100,1930000000,人,6.445000e+07,人口,,人,総数,1,総数,1,1930年,1
3,020,100,100,1935000000,人,6.925415e+07,人口,,人,総数,1,総数,1,1935年,1
4,020,100,100,1940000000,人,7.307507e+07,人口,,人,総数,1,総数,1,1940年,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3747,1120,100,400,2010000000,,7.433806e+01,人口性比,,,総数,1,（再掲）65歳以上,1,2010年,1
3748,1120,100,400,2015000000,,7.631976e+01,人口性比,,,総数,1,（再掲）65歳以上,1,2015年,1
3749,1120,100,400,2020000000,,7.675986e+01,人口性比,,,総数,1,（再掲）65歳以上,1,2020年,1
3750,1120,100,400,2015000010,,7.643550e+01,人口性比,,,総数,1,（再掲）65歳以上,1,2015年_不詳補完値,1


### 人口ピラミッド


In [14]:
pop_value["男女_時系列"].unique()

array(['総数', '男', '女'], dtype=object)

In [None]:
# 1. 最終的に取り出したい「列」の名前をリストにまとめる
# （年齢コード、年齢名称、性別、人口の数値）
pyramid_cols = ["年齢（５歳階級）_時系列コード", "年齢（５歳階級）_時系列", "男女_時系列", "値"]

# 2. 抽出するための「条件」を作っていく（pyramid_cond）
# まず、項目が「人口」であるものだけを指定
pyramid_cond = pop_value["表章項目"] == "人口"

# さらに条件を追加：性別の「総数」は除外（男・女に分けたいので）
pyramid_cond &= pop_value["男女_時系列"] != "総数"

# さらに条件を追加：年齢の「総数」も除外
pyramid_cond &= pop_value["年齢（５歳階級）_時系列"] != "総数"

# さらに条件を追加：名前に「再掲」が含まれる行（重複データ）を除外
pyramid_cond &= ~ pop_value["年齢（５歳階級）_時系列"].str.contains("再掲")

# さらに条件を追加：2020年の「不詳補完値（詳細な集計データ）」のみを対象にする
pyramid_cond &= pop_value["時間軸（調査年）"] == "2020年_不詳補完値"

# 3. 作成した全ての条件（pyramid_cond）に一致する行と、
# 選んだ列（pyramid_cols）だけを抜き出して、新しい変数 pyramid_df に入れる
pyramid_df = pop_value.loc[pyramid_cond, pyramid_cols]

In [16]:
pop_pyramid = pyramid_df.sort_values("年齢（５歳階級）_時系列コード").assign(**
    {"人口": pyramid_df["値"].mask(pyramid_df["男女_時系列"] == "男", -pyramid_df["値"])}
).rename(columns={"年齢（５歳階級）_時系列": "年齢（５歳階級）", "男女_時系列": "性別"})
pop_pyramid.head()

Unnamed: 0,年齢（５歳階級）_時系列コード,年齢（５歳階級）,性別,値,人口
581,110,０～４歳,男,2324576.0,-2324576.0
1117,110,０～４歳,女,2216784.0,2216784.0
604,120,５～９歳,男,2619882.0,-2619882.0
1140,120,５～９歳,女,2494293.0,2494293.0
627,130,10～14歳,男,2755578.0,-2755578.0


In [None]:
pyramid_fig = px.bar(
    pop_pyramid, 
    x="人口", 
    y="年齢（５歳階級）", 
    color="性別", 
    orientation="h"  # "h"は水平方向(横棒グラフ)
)
pyramid_fig.update_layout(width=900, height=600, font={"size": 14},
    xaxis=go.layout.XAxis(
       tickvals=[-4_000_000, -2_000_000, 0, 2_000_000, 4_000_000],
       ticktext=["400万","200万", "0", "200万", "400万"],
    ))
pyramid_fig.update_layout(         # タイトルを付ける
    title_text="人口ピラミッド",    # タイトルの表示名 
    title_x=0.5                    # 真ん中に表示
)
pyramid_fig.show()

### 人口推移

In [20]:
pop_cols = ["時間軸（調査年）コード", "年齢（５歳階級）_時系列コード", "年齢（５歳階級）_時系列", "値"]
pop_cond = pop_value["表章項目"] == "人口"
pop_cond &= pop_value["男女_時系列"] == "総数"
pop_cond &= pop_value["年齢（５歳階級）_時系列"] != "総数"
pop_cond &= ~ pop_value["年齢（５歳階級）_時系列"].str.contains("再掲")
pop_cond &= ~ pop_value["時間軸（調査年）"].str.contains("不詳補完値")
pop_df = pop_value.loc[pop_cond, pop_cols]

In [21]:
pop_df = pop_df.assign(**{
    "年": pop_df["時間軸（調査年）コード"].astype(int) // 1_000_000,
    "年齢（５歳階級）": pop_df["年齢（５歳階級）_時系列コード"] + "_" + pop_df["年齢（５歳階級）_時系列"]
})

In [None]:
# 1. 3つの異なるカラーテーマから、必要な数だけ色を抜き出して合体させています
# 「dense（濃い青系）」から最初の3色を取得 -> 最初の0～14歳に適用される
pop_colors = px.colors.sequential.dense[:3]

# 「matter（赤・桃系）」から最初の10色を追加 -> 15～64歳に適用される
pop_colors += px.colors.sequential.matter[:10]

# 「deep（深い緑・青系）」から最初の11色を追加 -> 65歳以上に適用される
pop_colors += px.colors.sequential.deep[:11]
# これで、合計24色（3 + 10 + 11）のカラフルな特製リストができました。

# 2. 作成した色のリスト（pop_colors）を使ってグラフを描画します
pop_fig = px.bar(
    pop_df, 
    x="年", 
    y="値", 
    color="年齢（５歳階級）",           # 「年齢」の項目ごとに色を変える
    color_discrete_sequence=pop_colors # さっき作った24色のリストを順番に使う
)

# 3. グラフの見た目を整える設定
pop_fig.update_layout(
    width=900, height=700, font={"size": 14},
    xaxis={"ticksuffix": "年", "title": None}, # X軸に「年」をつける
    yaxis={"tickformat": ",.0f", "ticksuffix": "人", "title": None} # Y軸にカンマと「人」をつける
)

# 4. タイトルの設定（中央寄せ）
pop_fig.update_layout(
    title_text="人口推移",
    title_x=0.5 # 0.5は中央
)

pop_fig.show()

## 人口動態

- [人口動態調査](https://www.mhlw.go.jp/toukei/list/81-1.html)
- [公表](https://www.mhlw.go.jp/toukei/kouhyou/e-stat_81-1.xml)


In [None]:
vital_statsDataId = "0003411561"
vital_meta = get_metainfo(appId, vital_statsDataId)     # get_metainfo 関数の利用
vital_metadata = vital_meta["GET_META_INFO"]["METADATA_INF"]
vital_total_num = vital_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
vital_total_num

3294

In [None]:
vital_data = get_statsdata(appId, vital_statsDataId)    # get_statsdata 関数の利用
vital_value_df = colname_to_japanese(cleansing_statsdata(vital_data))
vital_value_df.columns

Index(['人口動態総覧コード', '時間軸(年次)コード', '単位', '値', '人口動態総覧', '人口動態総覧階層レベル',
       '人口動態総覧単位', '人口動態総覧親コード', '時間軸(年次)', '時間軸(年次)階層レベル'],
      dtype='object')

In [28]:
vital_value_df

Unnamed: 0,人口動態総覧コード,時間軸(年次)コード,単位,値,人口動態総覧,人口動態総覧階層レベル,人口動態総覧単位,人口動態総覧親コード,時間軸(年次),時間軸(年次)階層レベル
0,00110,2023000000,人,727288.00,出生数,1,人,,2023年,1
1,00110,2022000000,人,770759.00,出生数,1,人,,2022年,1
2,00110,2021000000,人,811622.00,出生数,1,人,,2021年,1
3,00110,2020000000,人,840835.00,出生数,1,人,,2020年,1
4,00110,2019000000,人,865239.00,出生数,1,人,,2019年,1
...,...,...,...,...,...,...,...,...,...,...
3289,00430,1903000000,人口千対,1.44,離婚率,1,人口千対,,1903年,1
3290,00430,1902000000,人口千対,1.43,離婚率,1,人口千対,,1902年,1
3291,00430,1901000000,人口千対,1.43,離婚率,1,人口千対,,1901年,1
3292,00430,1900000000,人口千対,1.46,離婚率,1,人口千対,,1900年,1


### 出生数と死亡数


In [None]:
# 1. 「年」という新しい列を追加する
# e-Statの「時間軸コード」は、例えば2020年なら "2020000000" という10桁の数値/文字列になっています。
# これを「2020」という数値にするために、以下の処理をしています：
# .astype(int) で整数に変換し、
# // 1000000 で「100万」で割って余りを切り捨てる（＝最初の4〜5桁だけを取り出す）
vital_value = vital_value_df.assign(**{
    "年": vital_value_df["時間軸(年次)コード"].astype(int) // 1_000_000
})

# 2. 欲しいデータだけに絞り込むための「条件」を作る
# 「人口動態総覧」という列の中に「出生数」か「死亡数」が入っている行だけを探します
# vital_cond にはTrueとFalseが入る
vital_cond = vital_value["人口動態総覧"].isin(["出生数", "死亡数"])

# 3. 条件に合う「行」と、必要な3つの「列」だけを抜き出す
# .loc[条件, [列名のリスト]] の形になっています -> vital_condがTrueの行について、["年", "人口動態総覧", "値"]の列を抽出して vital_dfに代入している
vital_df = vital_value.loc[vital_cond, ["年", "人口動態総覧", "値"]]

# 4. 出来上がったデータの先頭5行を表示
vital_df.head()

Unnamed: 0,年,人口動態総覧,値
0,2023,出生数,727288.0
1,2022,出生数,770759.0
2,2021,出生数,811622.0
3,2020,出生数,840835.0
4,2019,出生数,865239.0


In [33]:
print(vital_cond)

0        True
1        True
2        True
3        True
4        True
        ...  
3289    False
3290    False
3291    False
3292    False
3293    False
Name: 人口動態総覧, Length: 3294, dtype: bool


In [35]:
vital_value["人口動態総覧"].unique()

array(['出生数', '死亡数', '乳児死亡数', '新生児死亡数', '自然増減数', '死産数', '自然死産数', '人工死産数',
       '周産期死亡数', '満22週以後の死産数', '早期新生児死亡', '婚姻件数', '離婚件数', '出生率',
       '合計特殊出生率', '死亡率', '乳児死亡率', '新生児死亡率', '自然増減率', '死産率', '自然死産率',
       '人工死産率', '周産期死亡率', '満22週以後の死産率', '早期新生児死亡率', '婚姻率', '離婚率'],
      dtype=object)

In [34]:
vital_delta = vital_value.loc[vital_value["人口動態総覧"] == "自然増減数", ["年", "値"]]
delta_pop = vital_delta.sort_values("年").rename(columns={"値": "自然増減数"})

In [42]:
vital_fig = px.line(vital_df, x="年", y="値", color="人口動態総覧", markers=True)   # vital_dfには、人口動態総覧に出生数と死亡数が格納されている年、人口動態総覧（出生数・死亡数の別）、値が格納されている
vital_fig.add_bar(x=delta_pop["年"], y=delta_pop["自然増減数"], name="自然増減数")
vital_fig.update_layout(width=1200, height=650, font={"size": 20},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis={"tickformat": ",.0f", "ticksuffix": "人", "title": None}
)
vital_fig.update_layout(
    title_text="出生数、死亡数、および自然増減数",
    title_x=0.5
)
vital_fig.show()

### 合計特殊出生率

-[人口置換水準](https://www.ipss.go.jp/syoushika/tohkei/Popular/Popular2020.asp?chap=0)


In [43]:
vital_value

Unnamed: 0,人口動態総覧コード,時間軸(年次)コード,単位,値,人口動態総覧,人口動態総覧階層レベル,人口動態総覧単位,人口動態総覧親コード,時間軸(年次),時間軸(年次)階層レベル,年
0,00110,2023000000,人,727288.00,出生数,1,人,,2023年,1,2023
1,00110,2022000000,人,770759.00,出生数,1,人,,2022年,1,2022
2,00110,2021000000,人,811622.00,出生数,1,人,,2021年,1,2021
3,00110,2020000000,人,840835.00,出生数,1,人,,2020年,1,2020
4,00110,2019000000,人,865239.00,出生数,1,人,,2019年,1,2019
...,...,...,...,...,...,...,...,...,...,...,...
3289,00430,1903000000,人口千対,1.44,離婚率,1,人口千対,,1903年,1,1903
3290,00430,1902000000,人口千対,1.43,離婚率,1,人口千対,,1902年,1,1902
3291,00430,1901000000,人口千対,1.43,離婚率,1,人口千対,,1901年,1,1901
3292,00430,1900000000,人口千対,1.46,離婚率,1,人口千対,,1900年,1,1900


In [None]:
tfr_cond = vital_value["人口動態総覧"] == "合計特殊出生率"

# tfr_cond = tfr_cond & vital_value["値"].notna()を短く書いたものが下のコード
# 人口動態総覧における合計特殊出生率の行で値がNanでないものをtfr_condに代入し直す
tfr_cond &= vital_value["値"].notna()

tfr_df = vital_value.loc[tfr_cond, ["年", "人口動態総覧", "値"]]
tfr_df.head()

Unnamed: 0,年,人口動態総覧,値
1708,2023,合計特殊出生率,1.2
1709,2022,合計特殊出生率,1.26
1710,2021,合計特殊出生率,1.3
1711,2020,合計特殊出生率,1.33
1712,2019,合計特殊出生率,1.36


In [49]:
tfr_fig = px.line(tfr_df, x="年", y="値", color="人口動態総覧")
tfr_fig.add_trace(go.Scatter(
    # データの「年」の最小と最大を自動で使う
x = [tfr_df["年"].min(), tfr_df["年"].max()], 
    y=[2.07, 2.07],
    mode="lines", 
    line={"dash": "dash"},
    name="人口置換水準"))
tfr_fig.update_layout(width=900, height=450, font={"size": 18},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis= {"ticksuffix": "人", "title": None}
)
tfr_fig.show()

In [51]:
tfr_fig = px.line(tfr_df, x="年", y="値", color="人口動態総覧")
tfr_fig.add_trace(go.Scatter(
    x = [tfr_df["年"].min(), tfr_df["年"].max()],  # データの「年」の最小と最大を自動で使う
    y=[2.07, 2.07],
    mode="lines", 
    line={"dash": "dash"},
    name="人口置換水準"))
tfr_fig.update_layout(width=900, height=450, font={"size": 18},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis= {"ticksuffix": "人", "title": None}
)
tfr_fig.show()

### 婚姻件数と離婚件数


In [52]:
divorce_statsDataId = "0003411864"
divorce_meta = get_metainfo(appId, divorce_statsDataId)
divorce_metadata = divorce_meta["GET_META_INFO"]["METADATA_INF"]
divorce_total_num = divorce_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
divorce_total_num

1085

In [53]:
divorce_data = get_statsdata(appId, divorce_statsDataId)
divorce_value = colname_to_japanese(cleansing_statsdata(divorce_data))
divorce_value.columns

Index(['同居期間コード', '時間軸(年次)コード', '単位', '値', '同居期間', '同居期間階層レベル', '同居期間単位',
       '同居期間親コード', '時間軸(年次)', '時間軸(年次)階層レベル'],
      dtype='object')

In [58]:
divorce_value["単位"].unique()

array(['件', '%', '年'], dtype=object)

In [76]:
divorce_value["同居期間"].unique()

array(['離婚件数_総数', '離婚件数_5年未満', '離婚件数_1年未満', '離婚件数_1～2年未満', '離婚件数_2～3年未満',
       '離婚件数_3～4年未満', '離婚件数_4～5年未満', '離婚件数_5～10年未満', '離婚件数_10～15年未満',
       '離婚件数_15～20年未満', '離婚件数_20～25年未満', '離婚件数_25～30年未満', '離婚件数_30～35年未満',
       '離婚件数_35年以上', '離婚件数_不詳', '百分率_総数', '百分率_5年未満', '百分率_1年未満',
       '百分率_1～2年未満', '百分率_2～3年未満', '百分率_3～4年未満', '百分率_4～5年未満',
       '百分率_5～10年未満', '百分率_10～15年未満', '百分率_15～20年未満', '百分率_20～25年未満',
       '百分率_25～30年未満', '百分率_30～35年未満', '百分率_35年以上', '百分率_不詳', '平均同居期間'],
      dtype=object)

In [77]:
divorce_cols = ["時間軸(年次)コード", "同居期間コード", "同居期間", "値"]
divorce_cond = divorce_value["単位"] == "件"
divorce_cond &= ~divorce_value["同居期間"].isin(["離婚件数_総数", "離婚件数_5年未満"])
divorce_df = divorce_value.loc[divorce_cond, divorce_cols]

In [None]:
# このセルは実行回数分だけ同居期間コードの後ろ3桁が追加されてしまうので注意

divorce_df = divorce_df.assign(**{
    "同居期間": divorce_df["同居期間コード"].str[-3:] + "_" + divorce_df["同居期間"],
    "年": divorce_df["時間軸(年次)コード"].astype(int) // 1_000_000
})

In [81]:
pd.DataFrame(divorce_df)

Unnamed: 0,時間軸(年次)コード,同居期間コード,同居期間,値,年
70,2023000000,00120,120_離婚件数_1年未満,8814.0,2023
71,2022000000,00120,120_離婚件数_1年未満,8971.0,2022
72,2021000000,00120,120_離婚件数_1年未満,9853.0,2021
73,2020000000,00120,120_離婚件数_1年未満,10973.0,2020
74,2019000000,00120,120_離婚件数_1年未満,11834.0,2019
...,...,...,...,...,...
520,1965000000,00240,240_離婚件数_不詳,75.0,1965
521,1960000000,00240,240_離婚件数_不詳,51.0,1960
522,1955000000,00240,240_離婚件数_不詳,53.0,1955
523,1950000000,00240,240_離婚件数_不詳,939.0,1950


In [69]:
marriage_cond = vital_value["人口動態総覧"].isin(["婚姻件数", "離婚件数"])
marriage_cond &= vital_value["年"] >= 1947
marriage_df = vital_value.loc[marriage_cond, ["年", "人口動態総覧", "値"]]
pivot_df = marriage_df.pivot(columns="人口動態総覧", index="年", values="値")
pivot_df.head()

人口動態総覧,婚姻件数,離婚件数
年,Unnamed: 1_level_1,Unnamed: 2_level_1
1947,934170.0,79551.0
1948,953999.0,79032.0
1949,842170.0,82575.0
1950,715081.0,83689.0
1951,671905.0,82331.0


In [88]:
# サブプロットの作成
marriage_fig = make_subplots(rows=1, cols=2, subplot_titles=("婚姻・離婚件数", "離婚内訳"))
# 左側の婚姻・離婚件数グラフ
marriage_fig.add_trace(go.Scatter(
    x=pivot_df.index, 
    y=pivot_df["婚姻件数"],
    mode="lines", 
    name="婚姻件数"
), row=1, col=1)
marriage_fig.add_trace(go.Scatter(
    x=pivot_df.index, 
    y=pivot_df["離婚件数"],
    mode="lines", 
    name="離婚件数"
), row=1, col=1)    #1行1列目に描画
# 右側の離婚内訳エリアグラフ(matterのカラーが不足するので一つカラーコード追加)
divorce_colors = px.colors.sequential.matter + ["#EF553B"]
for n, t in enumerate(divorce_df["同居期間"].unique()):
    df_filtered = divorce_df[divorce_df["同居期間"] == t]
    marriage_fig.add_trace(go.Scatter(
        x=df_filtered["年"], 
        y=df_filtered["値"],
        name=t, 
        marker={"color": divorce_colors[n]},
        stackgroup="divorcegroup"
    ), row=1, col=2)    #1行2列目に描画
marriage_fig.update_layout(width=1200, height=550, font={"size": 14})
# 左側グラフのX軸とY軸の設定（row=1, col=1)
marriage_fig.update_xaxes(ticksuffix="年", row=1, col=1)
marriage_fig.update_yaxes(tickformat=",", ticksuffix="人", row=1, col=1)
# 右側グラフのX軸とY軸の設定(row=1, col=2)
marriage_fig.update_xaxes(ticksuffix="年", row=1, col=2)
marriage_fig.update_yaxes(tickformat=",", ticksuffix="人", row=1, col=2)
marriage_fig.show()

## 人口推計

- [人口推計](https://www.stat.go.jp/data/jinsui/index.html)
- [公表](https://www.stat.go.jp/data/kouhyou/e-stat_jinsui.xml)


In [89]:
pop_estimates_statsDataId = "0003448228"
estimates_meta = get_metainfo(appId, pop_estimates_statsDataId)
estimates_metadata = estimates_meta["GET_META_INFO"]["METADATA_INF"]
estimates_total_num = estimates_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
estimates_total_num

3876

In [90]:
estimates_data = get_statsdata(appId, pop_estimates_statsDataId)
estimates_value = colname_to_japanese(cleansing_statsdata(estimates_data))
estimates_value.columns

Index(['男女別・性比コード', '人口コード', '年齢各歳コード', '全国コード', '時間軸（年月日現在）コード', '単位', '値',
       '男女別・性比', '男女別・性比階層レベル', '男女別・性比単位', '人口', '人口階層レベル', '年齢各歳',
       '年齢各歳階層レベル', '全国', '全国階層レベル', '時間軸（年月日現在）', '時間軸（年月日現在）階層レベル'],
      dtype='object')

In [91]:
estimates_cols = ["男女別・性比", "年齢各歳コード", "年齢各歳", "値"]
estimates_cond = estimates_value["男女別・性比"].isin(["男", "女"])
estimates_cond &= estimates_value["人口"] == "総人口"
estimates_cond &= estimates_value["時間軸（年月日現在）"] == "2024年10月1日現在"
estimates_cond &= estimates_value["年齢各歳"] != "総数"
estimates_df = estimates_value.loc[estimates_cond, estimates_cols]

In [92]:
estimates_df = estimates_df.assign(**{
    "人口": estimates_df["値"].mask(estimates_df["男女別・性比"] == "男", -estimates_df["値"]),
    "年齢": estimates_df["年齢各歳コード"].str[-3:].astype(int) - 1
})

In [None]:
estimates_fig = px.bar(estimates_df, x="人口", y="年齢", color="男女別・性比", orientation="h")
estimates_fig.update_layout(width=1000, height=450, font={"size": 18},
    xaxis=go.layout.XAxis(
       tickvals=[-1000, -500, 0, 500, 1000],
       ticktext=["1000千","500千", "0", "500千", "1000千"],
    ),
    yaxis={"ticksuffix": "歳", "title": None}
)
estimates_fig.show()

: 

## 将来推計人口

- [国立社会保障・人口問題研究](https://www.ipss.go.jp/)
- [国立社会保障・人口問題研究所のサイトの「将来推計人口・世帯数」のページ](https://www.ipss.go.jp/syoushika/tohkei/Mainmenu.asp)
- [著作権・リンク許可について](https://www.ipss.go.jp/site-ad/link/anlink.html)
- [openpyxl](https://openpyxl.readthedocs.io/en/stable/)


In [None]:
#!pip install openpyxl

In [None]:
pop_projections_df = pd.read_excel(data_path / "1-1.xlsx", header=[0, 1], skiprows=2, skipfooter=2)

In [None]:
url_path = "https://www.ipss.go.jp/pp-zenkoku/j/zenkoku2023/db_zenkoku2023/s_tables/1-1.xlsx"
#pop_projections_df = pd.read_excel(url_path, header=[0, 1], skiprows=2, skipfooter=2)
pop_projections_df.head()

In [None]:
pop_projections_df = pop_projections_df.set_axis(
    [(i + j.replace("Unnamed: 0_level_1", "和暦").replace("Unnamed: 1_level_1", "西暦"))
      .replace("　", "")
      for i, j in pop_projections_df.columns],
    axis=1
)

In [None]:
value_vars = ["人口（1,000人）0～14歳", "人口（1,000人）15～64歳", "人口（1,000人）65歳以上"]
pop_tidy_df = pd.melt(
    pop_projections_df, 
    id_vars="年次西暦", 
    value_vars=value_vars, 
    var_name="年齢", 
    value_name="人口"
)
pop_tidy_df.tail()

In [None]:
pop_totals = pop_tidy_df[["年次西暦", "人口"]].groupby("年次西暦").sum().reset_index()
totals_per_10year = pop_totals.loc[pop_totals["年次西暦"] % 10 == 0]
annotations = (totals_per_10year["人口"] // 1000).map(lambda x: f"{x:.0f}百万")

In [None]:
pop_projections_fig = px.bar(pop_tidy_df, x="年次西暦", y="人口", color="年齢")
pop_projections_fig.add_trace(go.Scatter(
    x=totals_per_10year["年次西暦"],
    y=totals_per_10year["人口"] + 5000,
    text=annotations,
    mode="text",
    showlegend=False
))
pop_projections_fig.update_layout(width=1000, height=400, font={"size": 18},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis={"tickformat": ",.0f", "ticksuffix": "千人"},
)
pop_projections_fig.show()

## 世界の人口

- [World Population Prospects](https://population.un.org/wpp/)
- [World Population Prospects サイト 人口のグラフ](https://population.un.org/wpp/graphs)
- [download](https://population.un.org/wpp/downloads?folder=Standard%20Projections&group=CSV%20format)
- [国際標準化機構](https://www.iso.org/iso-3166-country-codes.html)


In [None]:
world_pop = pd.read_csv(data_path / "WPP2024_TotalPopulationBySex.csv", low_memory=False)
world_pop.columns

In [None]:
world_pop["ISO3_code"].unique()[-10:]

In [None]:
world_pop_cond = world_pop["ISO3_code"].notna()
world_pop_cond &= world_pop["Variant"] == "Medium"
pop_med = world_pop[world_pop_cond]
pop_med.iloc[:5, np.r_[0:5, len(pop_med.columns)-5:len(pop_med.columns)]]

In [None]:
pop_med["Location"].nunique()

### 将来人口推移


In [None]:
pop2020 =  pop_med.loc[pop_med["Time"]==2020, ["ISO3_code", "Location", "PopTotal"]]
pop2020 = pop2020.assign(**{"Rank2020": pop2020["PopTotal"].rank(ascending=False)})
pop_rank = pop2020.nlargest(20, "PopTotal")

In [None]:
sorted_df = pop_rank.sort_values("PopTotal")
pop_bar_fig = go.Figure(go.Bar(
    x=sorted_df["PopTotal"], 
    y=sorted_df["Location"],
    text=sorted_df["PopTotal"].astype(int), 
    textposition="outside",
    orientation="h",
))
max_value = max(sorted_df["PopTotal"]) * 1.2  # 最大値の120%までx軸を拡張する
pop_bar_fig.update_layout(width=800, height=600, font={"size": 14},
    xaxis={
        "tickformat": ",.0f", 
        "ticksuffix": "千人",
        "title": "人口", 
        "range": [0, max_value]  # x軸の範囲を手動で設定
    },
    yaxis_title="国",
    margin={"l": 100, "r": 50}
)
pop_bar_fig.show()

In [None]:
pop_top20 = pop_med.merge(pop_rank[["Location", "Rank2020"]], on="Location", how="inner")
pop_top20.sort_values(["Rank2020", "Time"], inplace=True)
pop_colors = plotly.colors.qualitative.Plotly + plotly.colors.qualitative.Set3
pop_line_fig = px.line(
    pop_top20, 
    x="Time", 
    y="PopTotal",
    color="Location", 
    color_discrete_sequence=pop_colors
)
pop_line_fig.update_layout(width=900, height=700, font={"size": 16},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis={"tickformat": ",.0f", "ticksuffix": "千人", "title": None}
)
pop_line_fig.show()

### 人口の世界地図

In [None]:
choropleth_fig = px.choropleth(
    pop2020, 
    color="PopTotal",
    locations="ISO3_code", # 位置を ISO 3166-1 alpha-3 形式で指定
    hover_name="Location")  # ホバーツールのタイトル
choropleth_fig.show()

In [None]:
pop_geo_fig = px.scatter_geo(
    pop_med, 
    size="PopTotal",  # 要素のサイズ
    locations="ISO3_code",  # 位置を ISO 3166-1 alpha-3 形式で指定
    hover_name="Location",  # ホバーツールのタイトル
    animation_frame="Time")  # アニメーション
pop_geo_fig.show()

## 生命表と寿命

- [生命表](https://www.mhlw.go.jp/toukei/list/list54-57.html)
- [公表](https://www.mhlw.go.jp/toukei/kouhyou/e-stat_55-18.xml)
- [標準生命表](https://www.actuaries.jp/lib/standard-life-table/)

### 完全生命表と簡易生命表


In [None]:
life_table_statsDataId = "0003109570" 
life_meta = get_metainfo(appId, life_table_statsDataId)
life_metadata = life_meta["GET_META_INFO"]["METADATA_INF"]
life_total_num = life_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
life_total_num

In [None]:
life_data = get_statsdata(appId, life_table_statsDataId)
life_value = colname_to_japanese(cleansing_statsdata(life_data))
life_value.columns

In [None]:
life_cols = ["表章項目", "性別", "年齢区分（完全生命表）", "値"]
life_df = life_value.loc[life_value["時間軸（年次）"]=="2015年", life_cols]

In [None]:
life_df = life_df.assign(**{
    "年齢": life_df["年齢区分（完全生命表）"].str[:-1].astype(int),
    "週月年": life_df["年齢区分（完全生命表）"].str[-1]
})
life_df = life_df.loc[life_df["週月年"]=="年", ["表章項目", "性別", "年齢", "値"]]

In [None]:
pivot_df = life_df.pivot(columns="表章項目", index=["性別", "年齢"], values="値")
pivot_df = (pivot_df
    .set_axis([c.replace("\u3000", "") for c in pivot_df.columns], axis=1)
    .reset_index()
)
pivot_df.head()

In [None]:
def calc_leb(df, gender):
    return df.loc[
        (df["年齢"]==0)&(df["性別"]==gender), "平均余命(ex)"
    ].iat[0]
lifespan_male = calc_leb(pivot_df, "男")
lifespan_female = calc_leb(pivot_df, "女")
print("男:", lifespan_male, ", 女:", lifespan_female)

In [None]:
def calc_med_lifespan(df, gender):
    data = df[df["性別"] == gender].sort_values("年齢")
    half = data["生存数(lx)"].iloc[0] / 2
    # 厳密な計算ではありません
    return data[data["生存数(lx)"] < half]["年齢"].iloc[0]
print("男:", calc_med_lifespan(pivot_df, "男"), ", 女:", calc_med_lifespan(pivot_df, "女"))

In [None]:
ndx = pivot_df[["性別", "年齢", "死亡数(ndx)"]]
male_ndx = ndx.loc[ndx["性別"]=="男"]
female_ndx = ndx.loc[ndx["性別"]=="女"]
life_fig = go.Figure(data=[
    go.Bar(x=male_ndx["年齢"], y=male_ndx["死亡数(ndx)"], name="男性"),
    go.Bar(x=female_ndx["年齢"], y=female_ndx["死亡数(ndx)"], name="女性")
])
life_fig.add_trace(go.Scatter(
    x=[lifespan_male, lifespan_male], 
    y=[0, 5000],
    name="男性平均寿命", 
    mode="lines", line={"dash": "dash"},
    marker_color=px.colors.qualitative.Plotly[0]))
life_fig.add_trace(go.Scatter(
    x=[lifespan_female, lifespan_female], 
    y=[0, 5000],
    name="女性平均寿命", 
    mode="lines", line={"dash": "dash"},
    marker_color=px.colors.qualitative.Plotly[1]))
life_fig.update_layout(width=800, height=450, font={"size": 18},
    xaxis={"ticksuffix": "歳", "title": None},
    yaxis={"tickformat": ",.0f", "ticksuffix": "人", "title": None},
    title="10万人あたり死亡数", 
    barmode="group"
)
life_fig.show()

### 世界の平均寿命・健康寿命

- [GHO](https://www.who.int/data/gho)
- [OData API](https://www.who.int/data/gho/info/gho-odata-api)
- [Terms and conditions for WHO datasets](https://data.who.int/about/data/terms-and-conditions)


In [None]:
base_url = "https://ghoapi.azureedge.net/api/"
contain_name = "Life expectancy"
contain_params = {"$filter": f"contains(IndicatorName,'{contain_name}')"}
indicator_contain_res = requests.get(base_url + "Indicator", params=contain_params)
indicator_contain_res.json()

In [None]:
eq_name = "Life expectancy at birth (years)"
eq_params = {"$filter": f"IndicatorName eq '{eq_name}'"}
indicator_eq_res = requests.get(base_url + "Indicator", params=eq_params)
indicator_eq_res.json()

In [None]:
lifeexp_res = requests.get(base_url + "WHOSIS_000001")
lifeexp_value = pd.json_normalize(lifeexp_res.json(), record_path=["value"])
lifeexp_value.columns

In [None]:
lifeexp_cond = lifeexp_value["TimeDim"] == 2020
lifeexp_cond &= lifeexp_value["Dim1"] == "SEX_BTSX"
lifeexp_df = lifeexp_value.loc[lifeexp_cond, ["Dim1", "SpatialDim", "NumericValue"]]
lifeexp_df.head()

In [None]:
country_df = pop2020.merge(lifeexp_df, left_on="ISO3_code", right_on="SpatialDim", how="inner")
top30_df = country_df.nlargest(30, "PopTotal").loc[:, ["Location", "PopTotal", "NumericValue"]]

In [None]:
lifeexp_fig = px.scatter(
    x=top30_df["PopTotal"], 
    y=top30_df["NumericValue"], 
    text=top30_df["Location"]
)
lifeexp_fig.update_traces(textposition="bottom right")
lifeexp_fig.update_layout(width=800, height=600, font={"size": 14},
    xaxis={
        "tickformat": ",.0f", 
        "ticksuffix": "千人", 
        "title": "人口", 
        "range": [0, top30_df["PopTotal"].max() * 1.1]
    },
    yaxis={"ticksuffix": "歳", "title": "平均寿命"}
)
lifeexp_fig.show()

In [None]:
contain_healthy = "Healthy"
healthy_params = {"$filter": f"contains(IndicatorName,'{contain_name}')"}
healthy_res = requests.get(base_url + "Indicator", params=contain_params)
healthy_res.json()

In [None]:
hale_res = requests.get(base_url + "WHOSIS_000002")
hale_value = pd.json_normalize(hale_res.json(), record_path=["value"])
cond = hale_value["TimeDim"] == 2020
cond &= hale_value["Dim1"] != "BTSX"
hale_df = hale_value.loc[cond, ["Dim1", "SpatialDim", "NumericValue"]]
hale_df.head()


- [保健指標評価研究所]((https://www.healthdata.org/))
- [ihme_data](https://ghdx.healthdata.org/ihme_data)
- [terms-and-conditions](https://www.healthdata.org/data-tools-practices/data-practices/terms-and-conditions)


## 疾病と感染症

### 人口動態と死因の国際疾病分類

- [International
Statistical Classification of Diseases and Related Health Problems：ICD](https://www.mhlw.go.jp/toukei/sippei/)

#### 死因年次推移


In [None]:
disease_statsDataId = "0003411656"
disease_meta = get_metainfo(appId, disease_statsDataId)
disease_metadata = disease_meta["GET_META_INFO"]["METADATA_INF"]
disease_total_num = disease_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
disease_total_num

In [None]:
disease_data = get_statsdata(appId, disease_statsDataId)
disease_value = colname_to_japanese(cleansing_statsdata(disease_data))
disease_value.columns

In [None]:
disease_cond = disease_value["死因年次推移分類"] != "総数"
disease_cond &= disease_value["単位"] == "人口10万対"
disease_cond &= disease_value["性別"] == "総数"
disease_df = disease_value.loc[
    disease_cond, ["死因年次推移分類", "時間軸(年次)コード", "値"]
].sort_values(["時間軸(年次)コード", "死因年次推移分類"])
disease_df = disease_df.assign(**{
    "年": disease_df["時間軸(年次)コード"].astype(int) // 1_000_000
})
disease_df.head()

In [None]:
disease_colors = px.colors.qualitative.Plotly + px.colors.qualitative.Set3
disease_fig = px.line(disease_df, x="年", y="値",
    color="死因年次推移分類", color_discrete_sequence=disease_colors)
disease_fig.update_layout(width=900, height=600, font={"size": 16},
    xaxis={"ticksuffix": "年", "title": None},
    yaxis={"ticksuffix": "人", "tickformat": ",.0f", "title": "人口10万対"}
)
disease_fig.show()

#### 年齢ごと死因


In [None]:
icd_statsDataId = "0003411691"
icd_meta = get_metainfo(appId, icd_statsDataId)
icd_metadata = icd_meta["GET_META_INFO"]["METADATA_INF"]
icd_total_num = icd_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
icd_total_num

In [None]:
%%time
icd_statsDataIds = ["0003411691", "0003411692", "0003411693", "0004018620"]
icd_params = {"lvCat03": "3", "cdTime": "2023000000"}
cat = "死因基本分類"
icd_dfs = []
for n, sdi in enumerate(icd_statsDataIds):
    print(sdi, "取得開始")
    icd_data = get_statsdata(appId, sdi, params=icd_params)
    icd_value = colname_to_japanese(cleansing_statsdata(icd_data))
    icd_cols = ["年齢(5歳階級)", "性別", f"死因基本分類_{n+1}", "値"]
    icd_cond = icd_value["性別"] != "総数"
    icd_cond &= ~icd_value["年齢(5歳階級)"].isin(["総数", "不詳"])
    icd_df = icd_value.loc[icd_cond, icd_cols].rename(columns={f"{cat}_{n+1}": cat})
    icd_dfs += [icd_df]
icd = pd.concat(icd_dfs)
icd.head()

In [None]:
age_dict = {
    "0～4歳": ["0～4歳"],
    "5～9歳": ["5～9歳"],
    "10～19歳": ["10～14歳", "15～19歳"],
    "20～29歳": ["20～24歳", "25～29歳"],
    "30～39歳": ["30～34歳", "35～39歳"],
    "40～49歳": ["40～44歳", "45～49歳"],
    "50～69歳": ["50～54歳", "55～59歳", "60～64歳", "65～69歳"],
    "70～89歳": ["70～74歳", "75～79歳", "80～84歳", "85～89歳"],
    "90～歳": ["90～94歳", "95～99歳", "100歳以上"],
}

In [None]:
def top_causes_by_age(icd, age_dict, cat, sex, top_n=5):
    death_cause = []
    for age_label, age_list in age_dict.items():
        cond = icd["年齢(5歳階級)"].isin(age_list) & (icd["性別"] == sex)
        icd_rank = (icd
            .loc[cond, [cat, "値"]]
            .groupby(cat, as_index=False).sum()
            .sort_values("値", ascending=False)
        )
        top = icd_rank[cat].head(top_n).reset_index(drop=True)
        top.name = age_label
        death_cause.append(top)
    return pd.concat(death_cause, axis=1)
top_causes_by_age(icd, age_dict, cat, sex="男")

In [None]:
top_causes_by_age(icd, age_dict, cat, sex="女")

### COVID-19


#### 厚生労働省のCOVID-19データ

- [厚生労働省のCOVID-19 のオープンデータのサイト](https://www.mhlw.go.jp/stf/covid-19/open-data.html)


In [None]:
covid_path = data_path / "severe_cases_daily.csv"
#covid_path = "https://covid19.mhlw.go.jp/public/opendata/severe_cases_daily.csv"
covid_df = pd.read_csv(covid_path, parse_dates=["Date"])
covid_tidy = (covid_df[["Date", "ALL"]]
    .rename(columns={"ALL": "重症者数の推移"})
    .set_index("Date")
    .resample("MS").sum()
    .reset_index()
)
covid_tidy.head()

#### WHOのCOVID-19データ

- [WHO のサイト](https://data.who.int/dashboards/covid19/data)


In [None]:
csvname = "WHO-COVID-19-global-daily-data.csv"
who_covid_data = pd.read_csv(data_path / csvname, parse_dates=["Date_reported"])
who_covid_data.head()

In [None]:
max_deaths = (who_covid_data
    .sort_values("Date_reported")[["Country", "Cumulative_deaths"]]
    .groupby("Country").last()
    .reset_index()
)
rank_deaths = max_deaths.nlargest(25, "Cumulative_deaths")
who_covid_daily = rank_deaths.merge(who_covid_data, on="Country", suffixes=("_rank", ""))
who_covid_monthly = (who_covid_daily[["Date_reported", "Country", "New_deaths"]]
    .groupby([pd.Grouper(key="Date_reported", freq="ME"), "Country"]).sum()
    .reset_index()
)

In [None]:
covid_fig = px.line(who_covid_monthly, x="Date_reported", y="New_deaths", 
    color="Country", color_discrete_sequence=px.colors.qualitative.Alphabet)
covid_fig.update_layout(width=1200, height=800, font={"size": 16},
    xaxis={"ticksuffix": "年"},
    yaxis={"tickformat": ",.0f", "ticksuffix": "人"}
)
covid_fig.show()