# 中介分析基本框架

假定\\(Y\\)是因变量，\\(X\\)是自变量，\\(M\\)是中介变量；其中，\\(X\\)部分（或完全）通过影响\\(M\\)而影响\\(Y\\)。这一关系可以表述为：

$$Y = \alpha_y + \beta_{yx} X + \epsilon_y$$

$$M = \alpha_m + \beta_{mx} X + \epsilon_m$$

$$Y = \alpha + \beta_{m} M + \beta_{x} X + \epsilon$$

如果我们将第二个公式代入到第三个公式，然后与第一个公式进行比较可以发现：

$$ \beta_{mx}\beta_m = \beta_{yx} - \beta_x$$

因此，只要我们估计第一个和第三个模型就可以得到中介效应 $\beta_{mx}\beta_m$。然而，为了估计中介效应是否显著，我们还需要估计相应的标准误$\widehat{\sigma_{\beta_{mx}\beta_m}}$。其中一种估计方法（Sobel，1982）如下：

$$\widehat{\sigma_{\beta_{mx}\beta_m}} = \sqrt{\widehat{\beta_{mx}^2} \widehat{\sigma^2_{\beta_{m}}}+\widehat{\beta_{m}^2} \widehat{\sigma^2_{\beta_{mx}}} }$$

可见，为了估计中介效应的标准误，需要同时估计第二和第三个模型。

得到标准误后，可以使用正态分布来估计其置信区间。然而，值得注意的是，由于中介效应呈偏态分布，根据上述标准误计算的置信区间无法很好反映真实的区间。

In [None]:
library(car)
names(Prestige)

#### 例子:教育程度在多大程度上通过收入而影响职业声望？

通过拟合三个模型，我们可以通过两种不同的方法计算中介效应。

In [None]:
mod_y <- lm(prestige ~ education, data = Prestige)
mod_m <- lm(income ~ education, data = Prestige)
mod_full <- lm(prestige ~ income + education, data = Prestige)
coef(mod_m)['education'] * coef(mod_full)['income'] ## mediation effect by multiplication
med_eff <- coef(mod_y)['education'] - coef(mod_full)['education'] ## mediation effect by subtraction
med_eff ## save for futher use

下面我们直接计算中介效应的标准误，以及对95%置信的估计。

In [None]:
sd_eff_sq <- coef(mod_m)['education']^2 * vcov(mod_full)['income', 'income'] + coef(mod_full)['income']^2 * vcov(mod_m)['education', 'education']
sd_eff <- sqrt(sd_eff_sq) ## SE of mediation effect
c(med_eff - 1.96*sd_eff, med_eff + 1.96*sd_eff) # 95% CI

我们可以把上面的计算过程封装起来，从而得到计算中介效应及其区间的函数。

## 贝叶斯中介分析：单层次回归

通过贝叶斯方法计算上述中介分析可以得到中介效应的分布，从而可以直接计算中介效应的置信区间，而无需依赖对中介效应抽样分布的假定。我们可以使用rjags程序包进行计算。

首先，我们使用JAGS语言编写上述模型，并将模型以一个字符对象的形式保存起来。在下面的模型设定中：
* N表示样本量
* 在BUGS语言中，~ 表示分布，<- 则表示确定性关系
* 在BUGS语言中， dnorm(正态分布)的第二个参数是precision，是方差的倒数
* 在BUGS语言中，dgamma表示gamma分布，该分布描述方差先验分布，a和b这两个参数设置为0.001 意味着无信息先验分布
* 通过定义theta =  beta_mx * beta_m，我们可以得到中介效应

In [None]:
mediation_model <- "
model {
   for(i in 1:N)
   {
      m[i] ~ dnorm(mean.m[i], prec.m)
      mean.m[i] <- alpha_m + beta_mx * x[i]
      y[i] ~ dnorm(mean.y[i], prec.y)
      mean.y[i] <- alpha + beta_m * m[i] + beta_x * x[i]
   }
   alpha_m ~ dnorm(0, 1.0E-6)
   beta_mx ~ dnorm(0, 1.0E-6)
   alpha ~ dnorm(0, 1.0E-6)
   beta_m ~ dnorm(0, 1.0E-6)
   beta_x ~ dnorm(0, 1.0E-6)
   # dgamma (a, b) is a gamma distribution with the shape parameter a and
   # inverse scale parameter b.
   prec.y ~ dgamma(0.001, 0.001)
   prec.m ~ dgamma(0.001, 0.001)
   theta <-  beta_mx * beta_m
}
"

第二，将所需要的数据构建成一个列表。

第三，加载rjags程序包，调用jags.model生成一个BUGS模型。值得注意的是，jags.model的第一个参数是文本连接（或保存在电脑中的文本文件），因此我们需要通过textConnect函数将上述字符格式的BUGS模型定义转换为文本连接。

第四，通过update函数，开始更新模型。

第五，通过coda.samples函数抽样，得到我们所需要的信息（在这里例子中，我们关心的是theta）。

最后，通过summary函数和plot函数得到theta的分布。

In [None]:
DL <- list(N = nrow(Prestige),
           y = Prestige$prestige,
           x = Prestige$education,
           m = Prestige$income
          )

library(rjags)
jags <- jags.model(textConnection(mediation_model), data=DL,n.chains=4, n.adapt=100)
update(jags, 3000)
samps <- coda.samples(jags, c("theta"), 3000)
summary(samps)
plot(samps)

从上述图形可知，模型混合得良好，得到的分布可认为接近理论分布。
* 分析结果现实，中介效应的分别略呈右偏态。
* 比较贝叶斯中介分析和Sobel方法的结果可知，Sobel方法略高估了中介效应。

## 贝叶斯中介分析：多层次回归

贝叶斯中介分析可以容易地延伸至多层次回归的中介分析。对于如下模型：
$$M_{ij} = \alpha_{m,j} + \beta_{mx,j} X_{ij} + \epsilon_{m,ij}$$

$$Y_{ij} = \alpha_j + \beta_{m,j} M_{ij} + \beta_{x,j} X_{ij} + \epsilon_{ij}$$

我们设定上述模型的参数分布，从而可以生成模拟数据集。其中，

$$\alpha_{m,j} \sim\ N(0, 0.6)$$
$$\alpha_{j} \sim\ N(0, 0.4)$$
$$\epsilon_{m,ij} \sim\ N(0, 0.65)$$
$$\beta_{x,j} \sim\ N(0.2, 0.04)$$
$$\epsilon_{ij} \sim\ N(0, 0.45)$$

系数$(\beta_{mx, j}, \beta_{x,j})$对应的期望为$(0.6, 0.6)$，方差分别是$(0.3, 0.4)$，协方差矩阵为0.13。

此外，第一层次有N1=50单位，第二层次有N2=30单位。

下面的命令生成符合上述设定的随机数：

In [6]:
N1 <- 50 ## the i-th measure for a specific subject
N2 <- 30 ## the j-th subject
N <- N1 * N2
Xij <- rnorm(n = N, mean = 30, sd = 5)
measures <- rep(1:N1, times = N2)
subjects <- rep(1:N2, each=N1)

In [2]:
med_mlm <- "
model
{
# specify the multilevel model
# N1 and N2 are the number of first-level units and second-level units, 
respectively.
for( j in 1:N2){
  for(i in 1:N1){
    m[j, i] ~ dnorm(mean.m[j, i], prec.m)
    mean.m[j, i] <-  Beta2[j] + AlphaBeta[j, 1]*x[j, i]
    # Specify the first-level model
    y[j, i] ~ dnorm(mean.y[j, i], prec.y)
    mean.y[j, i] <-  Beta3[j] + AlphaBeta[j, 2]*m[j,i] + Tau.p[j]*x[j, i]
  }
  # Specify the second-level models
  Beta2[j] ~ dnorm(beta2, prec.beta2)
  Beta3[j] ~ dnorm(beta3, prec.beta3)
  Tau.p[j] ~ dnorm(tau.p, prec.taup)
  # bivariate normal distribution for  α_i and β_i
  AlphaBeta[j, 1:2] ~ dmnorm(alphabeta[ ], prec.ab[,])
}
# vague bivariate normal prior for  α  and  β
alphabeta[1:2] ~ dmnorm(mean[ ], prec[,])
mean[1] <- 0
mean[2] <-  0
prec[1,1] <-  1.0E-6
prec[1,2] <-  0
prec[2,1] <-  0
prec[2,2] <-  1.0E-6
# vague inverse-Wishart prior for the covariance of  α_j and  β_j;
# dwish(·) is the Wishart distribution
prec.ab[1:2 , 1:2] ~ dwish(Omega[,] , 2)
Omega[1,1] <-  0.001
Omega[1,2] <-  0.0
Omega[2,1] <-  0.0
Omega[2,2] <-  0.001
# vague normal priors for  β2,  β3 and  τ′
beta2 ~ dnorm(0.0, 1.0E-6)
beta3 ~ dnorm(0.0, 1.0E-6)
tau.p ~ dnorm(0.0, 1.0E-6)
# vague inverse-gamma prior for variances of the first level model
prec.y ~ dgamma(0.001, 0.001)
prec.m ~ dgamma(0.001, 0.001)
# vague uniform priors for standard deviations of the second level model
sigma.beta2 ~ dunif(0, 100)
sigma.taup ~ dunif(0, 100)
sigma.beta3 ~ dunif(0, 100)
prec.beta2 <-  1/(sigma.beta2*sigma.beta2)
prec.taup <-  1/(sigma.taup*sigma.taup)
prec.beta3 <-  1/(sigma.beta3*sigma.beta3)

## define quantities of interest
# covariance matrix of  α_i and  β_i
var.ab[1,1] <-  prec.ab[2,2]/(prec.ab[1,1]*prec.ab[2,2]-prec.ab[1,2]*prec.ab[2,1])
var.ab[1,2] <-  -prec.ab[1,2]/(prec.ab[1,1]*prec.ab[2,2]-prec.ab[1,2]*prec.ab[2,1])
var.ab[2,1] <-  -prec.ab[2,1]/(prec.ab[1,1]*prec.ab[2,2]-prec.ab[1,2]*prec.ab[2,1])
var.ab[2,2] <-  prec.ab[1,1]/(prec.ab[1,1]*prec.ab[2,2]-prec.ab[1,2]*prec.ab[2,1])
# average mediated effect ab, total effect c and relative mediated effect 
r = ab / c
ab <- alphabeta[1]*alphabeta[2]+ var.ab[1,2]
c <-  alphabeta[1]*alphabeta[2]+ var.ab[1,2]+tau.p
r <-  ab/c
}
"