<a href="https://colab.research.google.com/github/platypus2000jp/Colaboratory/blob/main/%E8%AA%BF%E6%9F%BB%E8%A6%B3%E5%AF%9F%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E5%88%86%E6%9E%90.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# prompt: サンプルとして調査観察データを生成し、SPIRIT 2013 声明のチェックリストを作成しながら傾向スコアマッチングによる結果を示してください。plotlyで作表、作図してください。

!pip install plotly
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

# サンプルデータの生成
np.random.seed(123)
n = 1000
data = pd.DataFrame({
    'treatment': np.random.choice([0, 1], size=n, p=[0.5, 0.5]),
    'outcome': np.random.normal(loc=10, scale=2, size=n),
    'x1': np.random.normal(loc=0, scale=1, size=n),
    'x2': np.random.choice(['A', 'B', 'C'], size=n, p=[0.3, 0.4, 0.3]),
})
data['outcome'] = data['outcome'] + data['treatment'] * 2  # treatmentの効果を付与

# 傾向スコアの計算（ロジスティック回帰モデルを使用）
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
X = pd.get_dummies(data[['x1', 'x2']], drop_first=True)
y = data['treatment']
model.fit(X, y)
data['propensity_score'] = model.predict_proba(X)[:, 1]

# 傾向スコアマッチング
from sklearn.neighbors import NearestNeighbors
treated = data[data['treatment'] == 1]
control = data[data['treatment'] == 0]
nbrs = NearestNeighbors(n_neighbors=1, algorithm='ball_tree').fit(control[['propensity_score']])
distances, indices = nbrs.kneighbors(treated[['propensity_score']])
matched_control = control.iloc[indices.flatten()]

# マッチング後のデータ
matched_data = pd.concat([treated, matched_control])

# SPIRIT 2013 声明のチェックリストに基づいた分析
# 1. Interventionの定義と介入の割り当てがランダムでない理由の特定
# 2. 潜在的アウトカムの定義
# 3. 共変量の定義
# 4. 傾向スコアモデルの構築
# 5. マッチングアルゴリズムの選択
# 6. マッチングの品質の評価
# 7. 処置効果の推定
# 8. 推定値の頑健性の評価

# 処置効果の推定（平均処置効果：ATE）
ate = matched_data[matched_data['treatment'] == 1]['outcome'].mean() - matched_data[matched_data['treatment'] == 0]['outcome'].mean()

# plotlyによる可視化
# 傾向スコア分布
fig = px.histogram(data, x='propensity_score', color='treatment', nbins=20, title='傾向スコア分布')
fig.show()

# マッチング後のアウトカム分布
fig = px.histogram(matched_data, x='outcome', color='treatment', nbins=20, title='マッチング後のアウトカム分布')
fig.show()

# 共変量の分布（x1）
fig = px.histogram(matched_data, x='x1', color='treatment', nbins=20, title='マッチング後の共変量x1の分布')
fig.show()

# 共変量の分布（x2）
fig = px.histogram(matched_data, x='x2', color='treatment', title='マッチング後の共変量x2の分布')
fig.show()

# 平均処置効果の結果
print(f'平均処置効果 (ATE): {ate}')

# その他、SPIRIT 2013 声明のチェックリストに基づいた分析結果を記述します。
# 例：
# - 介入は、...である。
# - 介入の割り当ては、...であるためランダムではない。
# - 潜在的アウトカムは、...である。
# - 共変量は、...である。
# - 傾向スコアモデルは、...である。
# - マッチングアルゴリズムは、...である。
# - マッチングの品質は、...である。
# - 処置効果の推定値は、...である。
# - 推定値の頑健性は、...である。




平均処置効果 (ATE): 1.976776241050235


In [None]:
# prompt: SPIRIT 2013 声明のチェックリストにもとづく、チェック表を作表してください。plotlyを使用します。

import plotly.figure_factory as ff

# SPIRIT 2013 声明のチェックリストに基づいたチェック表データ
checklist_data = [
    ['Interventionの定義', '介入の定義と介入の割り当てがランダムでない理由の特定', '介入は、treatment変数で、1が介入あり、0が介入なしを示す。割り当てはランダムではない。'],
    ['潜在的アウトカムの定義', '潜在的アウトカムの定義', '潜在的アウトカムは、outcome変数である。'],
    ['共変量の定義', '共変量の定義', '共変量は、x1とx2である。'],
    ['傾向スコアモデルの構築', '傾向スコアモデルの構築', 'ロジスティック回帰モデルを用いて傾向スコアを計算した。'],
    ['マッチングアルゴリズムの選択', 'マッチングアルゴリズムの選択', 'NearestNeighborsを用いた最近傍法を採用した。'],
    ['マッチングの品質の評価', 'マッチングの品質の評価', '傾向スコアの分布、アウトカム分布、共変量の分布を比較して評価した。'],
    ['処置効果の推定', '処置効果の推定', '平均処置効果(ATE)を推定した。'],
    ['推定値の頑健性の評価', '推定値の頑健性の評価', '推定値の頑健性は、sensitivity analysisなどにより評価する必要がある。']
]

# 表を作成
table = ff.create_table(checklist_data)

# 表を表示
table.show()
