# 簡述

傾向分數是觀察性研究和實驗性研究中廣泛使用的統計概念, 用於解決 選擇偏差(Selection Bias) 和 混雜性(Confounding) 的問題.

傾向分數是一個用來衡量個體被分配到某個處理組(例如接受治療)的機率.

[參考資料](https://www.yongxi-stat.com/psm_score/)

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

# 创建一个示例数据集
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# 假设我们想要估算 Sepal Length (cm) 对是否属于类别 0 的影响
# 这里我们使用 Logistic 回归模型来估算傾向分數

# 将数据集拆分为 X (协变量) 和 Y (目标)
X = df[['sepal length (cm)']]
Y = (df['target'] == 0).astype(int)  # 将目标变量转换为二进制，0 表示属于类别 0

# 使用 Logistic 回归模型来估算傾向分數
logistic_model = LogisticRegression()
logistic_model.fit(X, Y)

# 预测每个样本属于类别 0 的概率，这就是傾向分數
propensity_scores = logistic_model.predict_proba(X)[:, 1]

# 将傾向分數添加到数据框
df['propensity_score'] = propensity_scores

# 现在您可以使用傾向分數进行匹配或加权分析
