In [2]:
from causallib.datasets import load_nhefs
from causallib.estimation import IPW, PropensityMatching, StratifiedStandardization
from causallib.evaluation import evaluate
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LogisticRegression

In [3]:
from causallib.datasets import load_nhefs

# ============================================================
# NHEFS データセットの読み込み
# ============================================================
# load_nhefs() は、causallib に同梱されている
#   NHEFS (National Health and Nutrition Examination Follow-up Study)
# の禁煙 × 体重変化データを読み込むユーティリティ関数。
#
# このデータは Hernán & Robins『Causal Inference: What If』の
# 典型例としても使われている、因果推論の「教科書的」データセットで、
#
#   - 対象：1970–80年代のコホート
#   - 介入（treatment）: 喫煙をやめたか否か（quit smoking）
#   - アウトカム（outcome）: 1971–1982 年の体重変化（wt82_71）
#   - 共変量（covariates）: 年齢・性別・喫煙歴・健康状態など多数
#
# といった構造を持つ「観察研究デザイン」のデータである。
#
# causallib の load_nhefs() は、単なる DataFrame ではなく
# sklearn の Bunch に似たオブジェクトを返し、
#
#   data.X : 共変量（交絡因子を含む特徴量）の DataFrame
#   data.a : 介入変数（禁煙したかどうか, 0/1）の Series
#   data.y : 観測アウトカム（体重差 wt82_71）の Series
#   data.po: 可能性アウトカム（ポテンシャルアウトカム）への擬似的な真値
#   data.descriptors : 各変数の意味に関するメタデータ
#
# といった属性にアクセスできる。
#
# 理論的な位置づけ：
# - この一行で「IPW（逆確率重み付け）」「標準化」「ダブルロバスト推定」など、
#   さまざまな因果推定アルゴリズムを試せる実験用データが手に入る。
# - 特に、data.X をバックドア調整集合として扱い、
#   data.a を処置変数、data.y をアウトカムとして ATE/ATT を推定する、
#   というポテンシャルアウトカム・フレームワークの典型的な流れを
#   そのままコードで体験できる。
data = load_nhefs()