# 家計・生活・労働データの取得・可視化・分析


In [None]:
# 環境変数とパス設定に用いるライブラリ
import os
from dotenv import load_dotenv
from pathlib import Path
# データ取得に用いるライブラリ
import json
import requests
# データ処理に用いるライブラリ
import numpy as np
import pandas as pd
# 可視化に用いるライブラリ
import plotly
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

In [None]:
from estat import (
    get_metainfo,
    get_statsdata,
    cleansing_statsdata,
    colname_to_japanese,
    create_hierarchy_dataframe
)

In [None]:
load_dotenv()
appId = os.getenv("ESTAT_APP_ID")
bls_api_key = os.getenv("BLS_API_KEY")

In [None]:
current_dir = Path.cwd()
data_path = (current_dir / "data" / "ch08").resolve()

## 家計に関する統計データ

### 家計調査

- [家計調査](https://www.stat.go.jp/data/kakei/)

#### 家計収支の前年同月比と月次推移

- [家計調査　収支項目分類](https://www.stat.go.jp/data/kakei/9.html)


In [None]:
monthly_statsDataId = "0002070010"
monthly_meta = get_metainfo(appId, monthly_statsDataId)
monthly_metadata = monthly_meta["GET_META_INFO"]["METADATA_INF"]
monthly_total_num = monthly_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
monthly_total_num

In [None]:
meta_cat01 = pd.DataFrame(
    monthly_metadata["CLASS_INF"]["CLASS_OBJ"][1]["CLASS"]
)
meta_cat01.iloc[55:65, :]  # 支払のcodeがわかる行を抽出しています

In [None]:
monthly_params = {
    "lvCat01": "4",  # "用途分類"のlevelを"4"に絞る
    "cdCat02": "04",  # "世帯区分"を"二人以上の世帯のうち勤労者世帯（2000年～）"に絞る
    "cdCat03": "A00",  # "世帯主の年齢階級"を"平均"に絞る
    "cdTimeFrom": "2018000101",  # "時間軸（月次）"を2018年以降に絞る
}
monthly_data = get_statsdata(appId, monthly_statsDataId, params=monthly_params)
monthly_value = colname_to_japanese(cleansing_statsdata(monthly_data))
monthly_value.columns

In [None]:
monthly_df = monthly_value.assign(**{
    "年": monthly_value["時間軸（月次）コード"].astype(int) // 1_000_000,
    "月": monthly_value["時間軸（月次）コード"].str[-2:].astype(int)
})[["年", "月", "用途分類", "値"]]

##### 前年同月比の折れ線グラフ



In [None]:
# 2019年から2024年まで6年分の年範囲を作成
year = 2024
year_range = range(year - 5, year + 1)
# 使用する色をPlotlyの定義済みカラーパレットから選択
yoy_colors = px.colors.qualitative.Plotly[: len(year_range)]
# X軸の目盛りテキスト用に"1月"から"12月"までの文字列を用意
months = [f"{mm}月" for mm in range(1, 13)]
# 使用する用途分類のリストを用意
yoy_cats = ["食料", "光熱・水道", "教養娯楽", "勤め先収入"]
# 2*2 のサブプロット用の行・列のペア
row_col_pair = [(i, j) for i in range(1, 3) for j in range(1, 3)]
# 2*2のサブプロットを作成
yoy_fig = make_subplots(rows=2, cols=2, subplot_titles=yoy_cats)
# 各年度ごとに各用途分類のトレースを追加
for cat, (row, col) in zip(yoy_cats, row_col_pair):
    for n, yyyy in enumerate(year_range):
        # 指定した用途分類と年に対する条件を作成
        yoy_cond = monthly_df["用途分類"] == cat
        yoy_cond &= monthly_df["年"] == yyyy
        # 最初の用途分類のトレースのみに凡例を表示
        show_legend = True if (row == 1 and col == 1) else False
        # 折れ線グラフのトレースをサブプロットに追加
        yoy_fig.add_trace(
            go.Scatter(
                x=list(range(1, 13)),
                y=monthly_df.loc[yoy_cond, "値"],
                name=f"{yyyy}年",
                marker={"color": yoy_colors[n]},
                showlegend=show_legend,  # 最初のトレースのみ凡例を表示
            ),
            row=row, col=col,
        )
        # X軸とY軸の設定を更新
        yoy_fig.update_xaxes(
            tickvals=list(range(1, 13)),  # X軸の目盛り値。1月から12月までの数値
            ticktext=months,  # X軸の目盛りテキスト。"1月"から"12月"までの文字列
            row=row, col=col,
        )
        yoy_fig.update_yaxes(
            tickformat=",.0f",
            ticksuffix="円",
            row=row, col=col,
        )
yoy_fig.update_layout(width=1000, height=800,
    legend={
        "orientation": "h",  # "h" は水平(horizontal)を意味し、凡例の項目が水平方向に並ぶ
        "x": 0.5,  # 0.5 はグラフの水平方向の中央
        "y": -0.1,  # -0.1 は、グラフ領域外の下部(グラフの下端からさらに10%下)に凡例を配置
        "xanchor": "center",  # 凡例の中央がxで指定された位置に配置
        "yanchor": "top",  # 凡例の上端がyで指定された位置に配置
    },
)
yoy_fig.show()

##### 月次推移とCOVID-19



In [None]:
covid_path = (current_dir / "data" / "ch07").resolve() / "severe_cases_daily.csv"
#covid_path = "https://covid19.mhlw.go.jp/public/opendata/severe_cases_daily.csv"
daily_covid = pd.read_csv(
    covid_path,
    parse_dates=["Date"],
)
monthly_covid = (daily_covid[["Date", "ALL"]]
    .rename(columns={"ALL": "重症者数の推移"})
    .set_index("Date")
    .resample("MS").sum()
    .reset_index()
)

In [None]:
# "年"列と"月"列から"年月"の日付型データを作成して新しい列に追加
monthly_df = monthly_df.assign(**{
    "年月": pd.to_datetime(
        monthly_df["年"].astype(str) + "-" + monthly_df["月"].astype(str) + "-01"
    )
})
# 可視化する用途分類をリストで指定
cats = ["光熱・水道", "教養娯楽"]
colors = px.colors.qualitative.Plotly
# 1つのプロットに複数のy軸を持つサブプロットを作成
monthly_fig = make_subplots(specs=[[{"secondary_y": True}]])
# 用途分類ごとに処理を実行
for n, cat in enumerate(cats):
    # 指定した用途分類のデータを選択し、"年月"でソート
    tmp_df = monthly_df[monthly_df["用途分類"] == cat].sort_values("年月")
    # 選択した用途分類の平均値を計算
    monthly_mean = tmp_df["値"].mean()
    # 折れ線グラフを追加
    monthly_fig.add_trace(
        go.Scatter(
            x=tmp_df["年月"],
            y=tmp_df["値"],
            name=cat,
            mode="lines+markers",
            marker={"color": colors[n]},
        ),
        secondary_y=False,  # このトレースは第一のY軸を使用
    )
    # 平均値のラインを追加
    monthly_fig.add_trace(
        go.Scatter(
            x=[monthly_df["年月"].min(), monthly_df["年月"].max()],  # 全期間をカバー
            y=[monthly_mean, monthly_mean],  # 平均値で固定
            name=cat + "(期間平均)",
            mode="lines",
            marker={"color": colors[n]},
            opacity=0.5,  # 半透明で表示
        ),
        secondary_y=False,  # このトレースも第一のY軸を使用
    )
# COVID-19重症者数の棒グラフを追加
monthly_fig.add_trace(
    go.Bar(
        x=monthly_covid["Date"],
        y=monthly_covid["重症者数の推移"],
        name="COVID-19重症者数",
        marker={"color": colors[len(cats)]},  # 新しい色を指定
        opacity=0.5,  # 半透明で表示
    ),
    secondary_y=True,  # このトレースは第二のY軸を使用
)
monthly_fig.update_layout(width=1200, height=450, font={"size": 16},
    xaxis={"ticksuffix": "年"},
    yaxis={"tickformat": ",.0f", "ticksuffix": "円"},
)
monthly_fig.update_yaxes(secondary_y=True, tickformat=",.0f", ticksuffix="人")
monthly_fig.show()

#### 年齢ごと収支



In [None]:
annual_statsDataId = "0002070011"
annual_meta = get_metainfo(appId, annual_statsDataId)
annual_metadata = annual_meta["GET_META_INFO"]["METADATA_INF"]
annual_total_num = annual_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
annual_total_num

In [None]:
yyyy = 2024
age_params = {
    "cdCat01": "009",  # 用途分類を世帯主の年齢に絞る
    "cdCat02": "04",  # 世帯区分を二人以上の世帯のうち勤労者世帯（2000年～）に絞る
    "cdTime": f"{yyyy}000000",
}
age_data = get_statsdata(appId, annual_statsDataId, params=age_params)
age_value = colname_to_japanese(cleansing_statsdata(age_data))
age_cond = ~age_value["世帯主の年齢階級"].isin(["平均", "65歳以上"])
cols = ["時間軸（年次）", "世帯主の年齢階級", "値"]
age_df = age_value.loc[age_cond, cols].rename(columns={"値": "世帯主の年齢"})
age_df.head()

In [None]:
#  世帯主の年齢階級ごとの家計項目のデータを取得するための関数を用意
def get_filtered_statsdata(
        app_id: str, stats_id: str, cat01: str, value_name: str
    ) -> pd.DataFrame:
    params = {
        "cdCat01": cat01,
        "cdCat02": "04",
        "cdTime": f"{yyyy}000000",
    }
    data = get_statsdata(app_id, stats_id, params=params)
    value = colname_to_japanese(cleansing_statsdata(data))
    cols = ["時間軸（年次）", "世帯主の年齢階級", "値"]
    df = value.loc[~value["世帯主の年齢階級"].isin(["平均", "65歳以上"]), cols]
    return df.rename(columns={"値": value_name})

# 各家計項目のデータ取得
income_df = get_filtered_statsdata(appId, annual_statsDataId, "233", "可処分所得")
expenditure_df = get_filtered_statsdata(appId, annual_statsDataId, "059", "消費支出")
surplus_df = get_filtered_statsdata(appId, annual_statsDataId, "234", "黒字")
# 世帯主の年齢、可処分所得、消費支出のデータを結合
on = ["時間軸（年次）", "世帯主の年齢階級"]
fie_df = age_df.merge(income_df, on=on).merge(expenditure_df, on=on)
fie_df.head()

In [None]:
id_var = "世帯主の年齢"
value_vars = ["可処分所得", "消費支出"]
long_df = pd.melt(
    fie_df[[id_var] + value_vars],
    id_vars=id_var,
    value_vars=value_vars,
    var_name="収支",
    value_name="金額",
)

In [None]:
# 可処分所得と消費支出の折れ線グラフ
fie_fig = px.line(long_df, x="世帯主の年齢", y="金額", color="収支", markers=True)
# 黒字を棒グラフで追加
fie_fig.add_trace(
    go.Bar(x=age_df["世帯主の年齢"], y=surplus_df["黒字"], name="黒字", width=2.0)
)
# レイアウトに追加
fie_fig.update_layout(width=600, height=400, font={"size": 18},
    yaxis={"tickformat": ",.0f", "ticksuffix": "円", "title": None},
    xaxis={"ticksuffix": "歳"},
)
fie_fig.show()

#### 支出ツリーマップ

In [None]:
oneperson_statsDataId = "0003000795"
oneperson_meta = get_metainfo(appId, oneperson_statsDataId)
oneperson_metadata = oneperson_meta["GET_META_INFO"]["METADATA_INF"]
oneperson_total_num = oneperson_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
oneperson_total_num

In [None]:
oneperson_params = {
    "cdCat02": "22",  # 世帯区分を（単身）勤労者世帯で絞る
    "cdCat03": "A00",  # 世帯主の年齢階級を平均で絞る
    "cdCat04": "0",  # 性別を男女平均で絞る
    "cdTimeFrom": "2024000000",  # 時間軸（四半期）を2024以降で絞る
    "cdTimeTo": "2025000000",  # 時間軸（四半期）を2025以前で絞る
}
oneperson_data = get_statsdata(appId, oneperson_statsDataId, params=oneperson_params)
oneperson_value = colname_to_japanese(cleansing_statsdata(oneperson_data))
oneperson_df = oneperson_value.loc[
    oneperson_value["単位"] == "円", ["用途分類コード", "時間軸（四半期）コード", "値"]
]

In [None]:
household_levels = create_hierarchy_dataframe(annual_meta, cat_key=1)
household_levels.iloc[35:45, 5:]

In [None]:
merged_df = oneperson_df.merge(
    household_levels, left_on="用途分類コード", right_on="level6", how="inner"
)

In [None]:
oneperson_value.loc[
    oneperson_value["用途分類"].str.contains("再掲"),
    ["用途分類コード", "用途分類", "用途分類階層レベル"],
].drop_duplicates()

In [None]:
lv_cols = [f"用途分類階層{i}" for i in range(2, 8) if i != 3]
# 受取018、可処分所得233、黒字234、繰越金216を除外
tree_cond = ~merged_df["level1"].isin(["018", "233", "234", "216"])
# 実支出"058"に絞る
tree_cond &= merged_df["level2"] == "058"
tree_cond &= ~merged_df["用途分類階層4"].str.contains("再掲")
tree_df = merged_df.loc[tree_cond, lv_cols + ["値"]]
tree_crosstab = (tree_df
    .groupby(lv_cols)
    .agg({"値": "sum"})
    .reset_index()
)
tree_crosstab.head()

In [None]:
tree_fig = px.treemap(tree_crosstab, path=lv_cols, values="値")
tree_fig.data[0].textinfo = "label+value+percent root+percent parent"
tree_fig.show()

#### 家計資産・負債の可視化


In [None]:
balance_statsDataId = "0002210017"
balance_meta = get_metainfo(appId, balance_statsDataId)
balance_metadata = balance_meta["GET_META_INFO"]["METADATA_INF"]
balance_total_num = balance_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
balance_total_num

In [None]:
balance_data = get_statsdata(appId, balance_statsDataId)
balance_value = colname_to_japanese(cleansing_statsdata(balance_data))
balance_value.columns

In [None]:
balance_value = balance_value.assign(**{
    "年": balance_value["時間軸（四半期）コード"].astype(int) // 1_000_000
})
balance_cond = balance_value["時間軸（四半期）"] == "2024年1～3月期"
balance_cond &= balance_value["単位"] == "万円"
balance_cond &= (
    balance_value["世帯区分"] == "二人以上の世帯のうち勤労者世帯（2000年～）"
)
balance_cond &= ~balance_value["世帯主の年齢階級"].isin(["59歳以下", "60歳以上"])
balance_df = balance_value.loc[
    balance_cond, ["世帯主の年齢階級", "貯蓄・負債コード", "値"]
]

In [None]:
balance_levels = create_hierarchy_dataframe(balance_meta, cat_key=1, level_to=3)

In [None]:
merged_balance = balance_df.merge(
    balance_levels, left_on="貯蓄・負債コード", right_on="level3", how="inner"
)
balance_cols = ["世帯主の年齢階級", "貯蓄・負債階層1", "貯蓄・負債階層3"]
balance_crosstab = (
    merged_balance[balance_cols + ["値"]].groupby(balance_cols).sum().reset_index()
)
balance_crosstab.head()

In [None]:
# 後でグラフのX軸として使用する
age_cats = np.sort(merged_balance["世帯主の年齢階級"].unique())
# グラフで貯蓄の各カテゴリごとにデータを分類して表示するために使用
asset_cats = merged_balance.loc[
    merged_balance["貯蓄・負債階層1"] == "012_貯蓄", "貯蓄・負債階層3"
].unique()
# グラフで負債の各カテゴリごとにデータを分類して表示するために使用
liability_cats = merged_balance.loc[
    merged_balance["貯蓄・負債階層1"] == "028_負債", "貯蓄・負債階層3"
].unique()
# 貯蓄カテゴリのデータを表示する棒グラフで使用。各カテゴリが異なる青系の色で表示
asset_colors = plotly.colors.sequential.Blues[2 : len(asset_cats) + 2]
# 負債カテゴリのデータを表示する棒グラフで使用。各カテゴリが異なる赤系の色で表示
liability_colors = plotly.colors.sequential.OrRd[2 : len(liability_cats) + 2]
print("年齢リスト: ", age_cats, "\n資産リスト: ", asset_cats, "\n負債リスト: ", liability_cats)

In [None]:
balance_fig = go.Figure()
lv = "貯蓄・負債階層3"
# 最初の資産カテゴリに対応する値を取得
asset_val = balance_crosstab.loc[balance_crosstab[lv] == asset_cats[0], "値"]
# 最初の資産カテゴリに対応する棒グラフを追加
balance_fig.add_trace(go.Bar(
    x=age_cats,
    y=asset_val.values,
    name=asset_cats[0],
    marker_color=asset_colors[0],
    offsetgroup=1,  # オフセットグループを1に設定して負債グループと区別
))  
# 最初の資産カテゴリの値を基準としてコピーし、積み上げの基準とする
asset_stack = asset_val.copy().values
# 最初の資産カテゴリを除く各資産カテゴリについてループ
for i in range(len(asset_cats) - 1):
    stack_values = balance_crosstab.loc[
        balance_crosstab[lv] == asset_cats[i + 1], "値"
    ].values
    # 次(i+1)の資産カテゴリに対応する棒グラフを追加
    balance_fig.add_trace(go.Bar(
        x=age_cats,
        y=stack_values,
        name=asset_cats[i + 1],
        marker_color=asset_colors[i + 1],
        base=asset_stack,  # 前の資産カテゴリの値を基準にして積み上げ
        offsetgroup=1,  # オフセットグループを1に設定
    ))
    # 積上値の更新。前のカテゴリの値にこのカテゴリの値を加算して、次の積上の基準にする
    asset_stack += stack_values
# 最初の負債カテゴリに対応する値を取得
liability_val = balance_crosstab.loc[balance_crosstab[lv] == liability_cats[0], "値"]
# 最初の負債カテゴリに対応する棒グラフを追加
balance_fig.add_trace(go.Bar(
    x=age_cats,
    y=liability_val,
    name=liability_cats[0],
    marker_color=liability_colors[0],
    offsetgroup=2,  # オフセットグループを1に設定して資産グループと区別
))
# 最初の負債カテゴリの値を基準としてコピーし、積み上げの基準とする
liability_stack = liability_val.copy().values
# 最初の負債カテゴリを除く各負債カテゴリについてループ
for i in range(len(liability_cats) - 1):
    stack_values = balance_crosstab.loc[
        balance_crosstab[lv] == liability_cats[i + 1], "値"
    ].values
    # 次(i+1)の負債カテゴリに対応する棒グラフを追加
    balance_fig.add_trace(go.Bar(
        x=age_cats,
        y=stack_values,
        name=liability_cats[i + 1],
        marker_color=liability_colors[i + 1],
        base=liability_stack,
        offsetgroup=2,
    ))
    # 積上値の更新。前のカテゴリの値にこのカテゴリの値を加算して、次の積上の基準にする
    liability_stack += stack_values
balance_fig.update_layout(
    go.Layout(width=700, height=500, font={"size": 14},
        barmode="group",
        yaxis={"tickformat": ".0f", "ticksuffix": "万円"},
    )
)
balance_fig.show()

### 全国家計構造調査

- [全国家計構造調査](https://www.stat.go.jp/data/zenkokukakei/2024/index.html)


In [None]:
ficw_statsDataId = "0003424621"
ficw_meta = get_metainfo(appId, ficw_statsDataId)
ficw_metadata = ficw_meta["GET_META_INFO"]["METADATA_INF"]
ficw_total_num = ficw_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
ficw_total_num

In [None]:
cat4 = pd.DataFrame(ficw_metadata["CLASS_INF"]["CLASS_OBJ"][4]["CLASS"])
cat4.iloc[380:390, :]

#### 年齢ごと収支


In [None]:
# 世帯主の年齢階級32区分ごとの家計項目データ取得のための関数を用意
def get_statsdata_by_cdCat04(
        appId: str, statsDataId: str, cdCat04: str, name: str
    ) -> pd.DataFrame:
    params = {
        "cdCat01": "1",  # 世帯の種類３区分を二人以上の世帯で絞る
        "cdCat02": "1",  # 世帯区分４区分を勤労者世帯で絞る
        "cdCat03": "0",  # 世帯主の性別３区分を平均で絞る
        "cdCat04": cdCat04,
    }
    data = get_statsdata(appId, statsDataId, params=params)
    value = colname_to_japanese(cleansing_statsdata(data))
    cond = value["世帯主の年齢階級32区分"].str.contains("５歳階級")
    df = value.loc[cond, ["世帯主の年齢階級32区分", "値"]]
    return df.rename(columns={"値": name})
# 可処分所得データの取得
income_df = get_statsdata_by_cdCat04(appId, ficw_statsDataId, "4", "可処分所得")
# 消費支出データの取得
expenditure_df = get_statsdata_by_cdCat04(appId, ficw_statsDataId, "2101", "消費支出")
# 両データを「世帯主の年齢階級32区分」で結合
ficw_df = pd.merge(income_df, expenditure_df, on="世帯主の年齢階級32区分")
# データを整然データ形式に変換
ficw_crosstab = (ficw_df
    .set_index("世帯主の年齢階級32区分")
    .stack()
    .reset_index()
    .rename(columns={"level_1": "収支", 0: "金額"})
)
ficw_crosstab.head()

In [None]:
ficw_fig = px.line(ficw_crosstab, x="世帯主の年齢階級32区分", y="金額", color="収支", markers=True)
ficw_fig.update_layout(width=900, height=400, font={"size": 18},
    xaxis={"title": None},
    yaxis={"tickformat": ",.0f", "ticksuffix": "円"})
ficw_fig.show()

## 生活に関する統計データ

###  国民生活基礎調査

- [国民生活基礎調査](https://www.mhlw.go.jp/toukei/list/20-21.html)


In [None]:
living_statsDataId = "0002042803"
living_meta = get_metainfo(appId, living_statsDataId)
living_metadata = living_meta["GET_META_INFO"]["METADATA_INF"]
living_total_num = living_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
living_total_num

In [None]:
living_data = get_statsdata(appId, living_statsDataId)
living_value = colname_to_japanese(cleansing_statsdata(living_data))
living_value.columns

In [None]:
living_cols = ["世帯類型_103", "所得金額階級_2015コード", "所得金額階級_2015", "値"]
living_cond = living_value["単位"] != "万円"
living_cond &= living_value["世帯類型_103"].isin(["総数", "高齢者世帯以外の世帯"])
living_cond &= living_value["所得金額階級_2015"] != "総数"
living_df = living_value.loc[living_cond, living_cols]
living_df.head()

In [None]:
pivot_df = living_df.pivot(
    columns="世帯類型_103",
    index=["所得金額階級_2015コード", "所得金額階級_2015"],
    values="値",
)
# 所得金額階級の降順でソートし、各列について累積和を計算
cumsum_df = pivot_df.sort_index(level=0, ascending=False).cumsum()
# cumsum_dfをロングテーブル形式にし、パーセントのデータが入る列名を "パーセント" に変更
icdf_df = cumsum_df.stack().reset_index().rename(columns={0: "パーセント"})

In [None]:
# 所得金額階級分布
dist_fig = px.bar(
    living_df, x="所得金額階級_2015", y="値", color="世帯類型_103", barmode="group"
)
dist_fig.update_layout(
    yaxis={"tickformat": ".0f", "ticksuffix": "%", "title": None},
    legend_title_text="世帯類型"
)

In [None]:
# 所得金額階級の逆累積分布
icdf_fig = px.bar(
    icdf_df, x="所得金額階級_2015", y="パーセント", color="世帯類型_103", barmode="group"
)
icdf_fig.update_layout(
    yaxis={"tickformat": ".0f", "ticksuffix": "%", "title": None},
    legend_title_text="世帯類型"
)

In [None]:
# サブプロットを作成
subplot_fig = make_subplots(rows=1, cols=2, subplot_titles=("所得金額分布", "逆累積分布"))
# 各グラフの trace を対応セルに追加
for trace in dist_fig.data:
    subplot_fig.add_trace(trace, row=1, col=1)
for trace in icdf_fig.data:
    trace.showlegend = False
    subplot_fig.add_trace(trace, row=1, col=2)
# 全体レイアウト調整
subplot_fig.update_layout(width=1400, height=600, font={"size": 14}, 
    title_text="所得金額階級", legend_title_text="世帯類型")
subplot_fig.update_xaxes(title_text=None, row=1, col=1)
subplot_fig.update_yaxes(tickformat=".0f", ticksuffix="%", title_text=None, row=1, col=1)
subplot_fig.update_xaxes(title_text=None, row=1, col=2)
subplot_fig.update_yaxes(tickformat=".0f", ticksuffix="%", title_text=None, row=1, col=2)
subplot_fig.show()

### 社会生活基本調査と生活時間

- [社会生活基本調査](https://www.stat.go.jp/data/shakai/2021/index.htm)


In [None]:
timeuse_statsDataId = "0003462382"
timeuse_meta = get_metainfo(appId, timeuse_statsDataId)
timeuse_metadata = timeuse_meta["GET_META_INFO"]["METADATA_INF"]
timeuse_total_num = timeuse_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
timeuse_total_num

In [None]:
cat06_meta = pd.DataFrame(
    timeuse_metadata["CLASS_INF"]["CLASS_OBJ"][6]["CLASS"]
)
cat06_meta.head()

#### 生活時間円グラフ

In [None]:
male_params = {
    "cdCat01": "1",  # 曜日を"1_週全体"に絞る
    "cdCat02": "1",  # 男女を"1_男"に絞る
    "cdCat03": "0",  # ふだんの就業状態を"0_総数"に絞る
    "cdCat04": "0",  # ふだんの健康状態を"0_総数"に絞る
    "cdCat05": "0",  # 年齢を"0_総数"に絞る
    "lvCat06": "2",  # 行動の種類をレベル2に絞る
}
male_data = get_statsdata(appId, timeuse_statsDataId, params=male_params)
male_value = colname_to_japanese(cleansing_statsdata(male_data))
male_df = male_value.loc[:, ["行動の種類", "値"]]
male_df.head()

In [None]:
male_hours = (male_df["値"] / 60).astype(str).str[:3] + "時間"
male_minutes = male_df["値"].astype(int).astype(str) + "分"
male_timeuse = male_minutes.mask(male_df["値"] / 60 >= 1, male_hours)
male_df = male_df.assign(**{
    "ラベル": male_df["行動の種類"].str[3:] + ":" + male_timeuse
})

In [None]:
female_params = {
    "cdCat01": "1",
    "cdCat02": "2",  # 男女を"2_女"に絞る
    "cdCat03": "0",
    "cdCat04": "0",
    "cdCat05": "0",
    "lvCat06": "2",
}
female_data = get_statsdata(appId, timeuse_statsDataId, params=female_params)
female_value = colname_to_japanese(cleansing_statsdata(female_data))
female_df = female_value.loc[:, ["行動の種類", "値"]]
female_hours = (female_df["値"] / 60).astype(str).str[:3] + "時間"
female_minutes = female_df["値"].astype(int).astype(str) + "分"
female_timeuse = female_minutes.mask(female_df["値"] / 60 >= 1, female_hours)
female_df = female_df.assign(**{
    "ラベル": female_df["行動の種類"].str[3:] + ":" + female_timeuse
})

In [None]:
pie_colors = px.colors.qualitative.Plotly + px.colors.qualitative.Pastel
male_trace = go.Pie(
    labels=male_df["ラベル"],
    values=male_df["値"],
    marker={"colors": pie_colors},  # カラーパレットをグラフの色として設定
    textinfo="label",  # 各セグメントにラベルを表示
    sort=False,  # データのソートを行わない
    rotation=0,  # グラフの回転を0度に設定
)
female_trace = go.Pie(
    labels=female_df["ラベル"],
    values=female_df["値"],
    marker={"colors": pie_colors},
    textinfo="label",
    sort=False,
    rotation=0,
)
# 1行2列のサブプロットを作成し、各サブプロットに円グラフタイプを指定
pie_fig = make_subplots(rows=1, cols=2,
    specs=[[{"type": "pie"}, {"type": "pie"}]],  # 各サブプロットに円グラフタイプを指定
    subplot_titles=("男性", "女性"),  # 各サブプロットのタイトルを設定
    horizontal_spacing=0.3,  # サブプロット間の水平方向の間隔を設定
)  
# 作成した男性データの円グラフを1列目に、女性データを2列目に配置
pie_fig.add_trace(male_trace, row=1, col=1)
pie_fig.add_trace(female_trace, row=1, col=2)
# 全ての円グラフの描画方向を時計回りに設定
pie_fig.update_traces(direction="clockwise", selector={"type": "pie"})
pie_fig.update_layout(width=1400, height=650, font={"size": 14},
    showlegend=False
)
pie_fig.show()

#### 生活時間サンバーストグラフ

In [None]:
# "0_総数"、"R1_(再掲)無償労働(国際比較)"を除外
cat06_cond = ~cat06_meta["@code"].isin(["0", "R1"])
# 階層1について
lv_cond = cat06_meta["@code"].str.len() == 1  # コードの長さが1のものを選択
timeuse_levels = cat06_meta.loc[cat06_cond & lv_cond, ["@code"]]
timeuse_levels = timeuse_levels.set_axis(["level1"], axis=1)  # 抽出した列の列名を "level1" に変更
# 階層2,3についてループ処理
for lv in range(2, 4):
    lv_cond = cat06_meta["@code"].str.len() == lv  # コードの長さがlvの条件を設定
    child_code = cat06_meta.loc[cat06_cond & lv_cond, ["@code"]]
    child_code.columns = ["level" + str(lv)]
    # 抽出した列の列名をその階層のlevel名に変更
    child_code["level" + str(lv - 1)] = child_code["level" + str(lv)].str[: (lv - 1)]
    timeuse_levels = timeuse_levels.merge(
        child_code, on="level" + str(lv - 1), how="left"
    )  # 既存のlevelsデータフレームに新しく作成したchild_codeをマージ
# レベル1から3までの各レベルでメタデータと結合し、行動の種類を列名に設定
for lv in range(1, 4):
    timeuse_levels = timeuse_levels.merge(
        cat06_meta[["@code", "@name"]],
        left_on="level" + str(lv),
        right_on="@code",
        how="left",
    )
    timeuse_levels = timeuse_levels.drop("@code", axis=1).rename(
        columns={"@name": "行動の種類" + str(lv)}
    )
# Nullを前方から補完
timeuse_levels = timeuse_levels.ffill(axis=1)
timeuse_levels.head()

In [None]:
timeuse_params = {
    "cdCat01": "1",  # 曜日を1_週全体に絞る
    "cdCat02": "1",  # 男女を1_男に絞る
    "cdCat03": "0",  # ふだんの就業状態を'0_総数'に絞る
    "cdCat04": "0",  # ふだんの健康状態を'0_総数'に絞る
    "cdCat05": "0",  # 年齢を'0_総数'に絞る
}
timeuse_data = get_statsdata(appId, timeuse_statsDataId, params=timeuse_params)
timeuse_value = colname_to_japanese(cleansing_statsdata(timeuse_data))

In [None]:
act_list = [f"行動の種類{i}" for i in range(1, 4)]
timeuse_df = timeuse_value.loc[
    cat06_cond, ["行動の種類コード", "行動の種類", "行動の種類階層レベル", "値"]
]
lvmerged_timeuse = timeuse_df.merge(
    timeuse_levels, left_on="行動の種類", right_on="行動の種類3", how="left"
)
sunburst_df = lvmerged_timeuse.loc[lvmerged_timeuse["行動の種類3"].notnull(), act_list + ["値"]]
sunburst_df.head()

In [None]:
sunburst_fig = px.sunburst(sunburst_df, path=act_list, values="値")
# サンバースト図の各セグメントに、ラベルとそのセグメントが全体に占める割合を表示する設定を追加
sunburst_fig.update_traces(textinfo="label+percent root")
sunburst_fig.show()

#### 生活時間エリアチャート


In [None]:
area_params = {
    "cdCat01": "1",  # 曜日を"1_週全体"に絞る
    "cdCat02": "1",  # 男女を"1_男"に絞る
    "cdCat03": "0",  # ふだんの就業状態を"0_総数"に絞る
    "cdCat04": "0",  # ふだんの健康状態を"0_総数"に絞る
    "lvCat06": "2",  # 行動の種類をレベル2に絞る
}
area_data = get_statsdata(appId, timeuse_statsDataId, params=area_params)
area_value = colname_to_japanese(cleansing_statsdata(area_data))
# 年齢と行動の種類の重複して集計してしまう項目を除外
area_cond = ~area_value["行動の種類コード"].isin(
    ["0", "R1"]
)  # "0_総数"、"R1_(再掲)無償労働(国際比較)"を除外
area_cond &= ~area_value["年齢"].isin(
    ["0_総数", "R1_(再掲)35歳以上", "R2_(再掲)65歳以上"]
)
area_df = area_value.loc[area_cond, ["年齢", "行動の種類", "値"]]
# 時間を分に変換
area_df = area_df.assign(**{"時間": area_df["値"] / 60})
area_df.head()

In [None]:
area_colors = px.colors.qualitative.Plotly + px.colors.qualitative.Pastel
area_fig = px.area(
    area_df, x="年齢", y="時間", color="行動の種類", color_discrete_sequence=area_colors
)
area_fig.update_layout(width=1000, height=650, font={"size": 14})
area_fig.show()

## 労働に関する統計データ

- [労働力調査](https://www.stat.go.jp/data/roudou/)
- [就業構造基本調査](https://www.stat.go.jp/data/shugyou/2022/index.html)
- [毎月勤労統計調査](https://www.mhlw.go.jp/toukei/list/30-1.html)
- [賃金構造基本統計調査](https://www.mhlw.go.jp/toukei/list/chinginkouzou.html)
- [労働統計局](https://www.bls.gov/)


### 労働力調査と失業率

- [労働力調査](https://www.stat.go.jp/data/roudou/index.html)
- [労働力調査の解説](https://www.stat.go.jp/data/roudou/pdf/hndbk.pdf)
- [就業構造基本調査](https://www.stat.go.jp/data/shugyou/2022/gaiyou.html)


In [None]:
labour_force_statsDataId = "0003005865" 
labour_meta = get_metainfo(appId, labour_force_statsDataId)
labour_metadata = labour_meta["GET_META_INFO"]["METADATA_INF"]
labour_total_num = labour_metadata["TABLE_INF"]["OVERALL_TOTAL_NUMBER"]
labour_total_num

In [None]:
labour_data = get_statsdata(appId, labour_force_statsDataId)
labour_value = colname_to_japanese(cleansing_statsdata(labour_data))
labour_value.columns

In [None]:
labour_value = labour_value.assign(**{
    "年": labour_value["時間軸（月次）コード"].str[:4],
    "月": labour_value["時間軸（月次）コード"].str[-2:],
    "年月": lambda df: pd.to_datetime(df["年"] + "-" + df["月"])
})
labour_cond = labour_value["就業状態"] == "完全失業者"
labour_cond &= labour_value["性別"] == "総数"
labour_df = labour_value.loc[labour_cond, ["年月", "値"]]

### 米国雇用統計

- [労働統計局](https://www.bls.gov/)
- [BLS Public Data API](https://www.bls.gov/developers/)
- [registration page](https://www.bls.gov/developers/api_faqs.htm?#register1)
- [Help & Tutorials](https://www.bls.gov/help/hlpforma.htm)
- [Accessing the Public Data API with Python](https://www.bls.gov/developers/api_python.htm)



In [None]:
# BLS APIを使用してデータを取得する関数を定義
def get_bls_data(
        bls_api_key: str, series_id: str, start_year: int, end_year: int
    ) -> pd.DataFrame:
    bls_data_url = "https://api.bls.gov/publicAPI/v2/timeseries/data/"
    bls_headers = {"Content-Type": "application/json"}
    series_ids = [series_id]
    bls_payload = {
        "registrationkey": bls_api_key,
        "seriesid": series_ids,
        "startyear": start_year,
        "endyear": end_year,
        "catalog": True,  # データカタログを含める
    }
    bls_res = requests.post(bls_data_url, data=json.dumps(bls_payload), headers=bls_headers)
    bls_json = bls_res.json()
    return bls_json

bls_json = get_bls_data(bls_api_key, "LNS14000000", 2000, 2010)

In [None]:
lns_data1 = pd.DataFrame(bls_json["Results"]["series"][0]["data"])
bls_json2 = get_bls_data(bls_api_key, "LNS14000000", 2011, 2024)
lns_data2 = pd.DataFrame(bls_json2["Results"]["series"][0]["data"])
lns_data = pd.concat([lns_data1, lns_data2], ignore_index=True)
lns_data.head()

In [None]:
lns_df = lns_data.assign(
    month=lns_data["period"].str.extract(r"M(\d+)").astype(int)
).assign(
    date=lambda df: pd.to_datetime(
        df["year"].astype(str) + "-" + df["month"].astype(str) + "-01")
).sort_values(by="date")
unrate = (lns_df[["date", "value"]].copy()
    .rename(columns={"date": "年月", "value": "失業率"})
    .assign(**{"国": "米国"})
)
unrate.head()

In [None]:
unrate_jp = (labour_df
    .rename(columns={"値": "失業率"})
    .assign(**{"国": "日本"})
)
unrate_df = pd.concat([unrate_jp, unrate])

In [None]:
labour_fig = px.line(unrate_df, x="年月", y="失業率", color="国")
labour_fig.update_layout(width=900, height=500, font={"size": 18},
    xaxis={"ticksuffix": "年"},
    yaxis={"ticksuffix": "%"}
)
labour_fig.show()

### 毎月勤労統計と賃金

- [賃金構造基本調査](https://www.mhlw.go.jp/toukei/list/chinginkouzou.html)
- [毎月勤労統計調査](https://www.e-stat.go.jp/stat-search?page=1&toukei=00450071)
- [賃金構造基本統計調査と毎月勤労統計調査の相違](https://www.mhlw.go.jp/toukei/list/chinginkouzou_sankou_a.html)
- [労働力調査と毎月勤労統計調査の相違](https://www.stat.go.jp/data/roudou/qa-1.html)
- [毎月勤労統計調査全国調査で作成している指数等の解説](https://www.mhlw.go.jp/toukei/itiran/roudou/monthly/sisuu/sisuu_r04.html)
- [毎月勤労統計調査を巡る不適切な取扱いに係る 事実関係とその評価等に関する報告書](https://www.mhlw.go.jp/content/10108000/000472506.pdf)
- [毎月勤労統計調査を巡る不適切な取扱いに係る 事実関係とその評価等に関する追加報告書](https://www.soumu.go.jp/main_content/000605455.pdf)


In [None]:
monthly_labour = pd.read_csv(data_path / "hon-maikin-k-kicho.csv", encoding="shift_jis")
monthly_labour.columns

In [None]:
monthly_labour["種別"].unique()

In [None]:
wage_cond = monthly_labour["年"] >= 2019
wage_cond &= monthly_labour["年"] < 2025
wage_cond &= monthly_labour["種別"] == "季節調整済指数伸び率（前月比）"
wage_cond &= monthly_labour["産業分類"].str.startswith("TL")
wage_cond &= monthly_labour["規模"] == "T"
wage_cond &= monthly_labour["就業形態"] == 0
wage_ym = monthly_labour.loc[wage_cond, ["年", "月", "現金給与総額"]].assign(**{
    "年月": lambda df: pd.to_datetime(df["年"].astype(str) + "-" + df["月"].astype(str))
})
wage_ym.tail()

In [None]:
wage = wage_ym[["年月", "現金給与総額"]].rename(columns={"現金給与総額": "賃金上昇率"})
unemployment_rate = labour_df.rename(columns={"値": "失業率"})
wp_df = wage.merge(unemployment_rate, on="年月", how="inner")

In [None]:
y = wage["年月"].min().year
m = wage["年月"].min().month
wpc_fig = px.scatter(wp_df.reset_index(), x="失業率", y="賃金上昇率", color="index")
wpc_fig.update_layout(
    xaxis={"ticksuffix": "%"},
    yaxis={"ticksuffix": "%"},
    coloraxis={"colorbar": {"title": {"text": f"経過月数({y}/{m}基準)"}}},
)
wpc_fig.show()