# 1. 背景

在进行变量筛选后，通常我们需要：
- 根据临床专家的意见加入一些重要变量，如受试者年龄、性别；
- 处理多分类变量问题（通常是如果多分类变量对应的某一虚拟变量被纳入模型，则所有该多分类变量的所有虚拟变量都纳入模型中）；
- 采用存在限制条件的筛选方法对变量进行筛选。

存在以上三种情况，需对模型进行重新拟合（Model refit）。

下面我们以采用采用存在限制条件的筛选方法筛选变量后重新拟合模型为例。

# 2. 导入数据和筛选变量

In [1]:
load("model_train_binary_workspace.Rdata")

In [2]:
# Install required packages and library them
packages <- c("plyr",
              "dplyr",
              "glmnet")

for (i in packages) {
    if (!suppressMessages(require(i, character.only = TRUE, quietly = TRUE))) {
        install.packages(i, quietly = TRUE)
    }
}

## 3. 根据已筛选变量生成模型

In [3]:
train_model_lasso

此前经Lasso回归生成的新模型包括的变量有 age，age_square，male，TC_rcs_1，TC_rcs_2，TC_rcs_3，albuminuria_moderate，
albuminuria_severe，CKD_stage_G3a，CKD_stage_G3b，CKD_stage_G4，male_CKD_stage_G3a，male_CKD_stage_G3b，male_CKD_stage_G4，age_TC，age_BMI_TC。

## 4. 采用logit回归重新拟合模型

In [4]:
train_model_lasso_refit <- glm(as.formula(train_model_lasso),
                               data = dataset,
                              family = binomial(link = "logit"))

In [5]:
summary(train_model_lasso_refit)


Call:
glm(formula = as.formula(train_model_lasso), family = binomial(link = "logit"), 
    data = dataset)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.7884  -0.4810  -0.4078  -0.3332   2.6232  

Coefficients:
                       Estimate Std. Error z value Pr(>|z|)    
(Intercept)           2.729e+00  5.989e+00   0.456  0.64864    
age                  -4.955e-02  1.833e-01  -0.270  0.78695    
age_square           -4.634e-04  1.475e-03  -0.314  0.75332    
male                  2.641e-01  2.312e-01   1.142  0.25342    
TC_rcs_1             -1.682e+00  5.842e-01  -2.879  0.00399 ** 
TC_rcs_2              8.241e-02  3.187e-02   2.585  0.00973 ** 
TC_rcs_3             -3.828e-01  1.370e-01  -2.794  0.00520 ** 
albuminuria_moderate -7.089e-01  1.506e-01  -4.706 2.53e-06 ***
albuminuria_severe   -3.461e-01  1.630e-01  -2.123  0.03377 *  
CKD_stage_G3a        -2.816e-01  2.027e-01  -1.390  0.16467    
CKD_stage_G3b         1.792e-02  2.177e-01   0.082  0.93440

In [6]:
formula(train_model_lasso_refit)

AKI_binary ~ age + age_square + male + TC_rcs_1 + TC_rcs_2 + 
    TC_rcs_3 + albuminuria_moderate + albuminuria_severe + CKD_stage_G3a + 
    CKD_stage_G3b + CKD_stage_G4 + male_CKD_stage_G3a + male_CKD_stage_G3b + 
    male_CKD_stage_G4 + age_TC + age_BMI_TC

采用logit回归重新拟合模型后新模型的预测变量包括age，age_square，male，TC_rcs_1，TC_rcs_2，TC_rcs_3，albuminuria_moderate，
albuminuria_severe，CKD_stage_G3a，CKD_stage_G3b，CKD_stage_G4，male_CKD_stage_G3a，male_CKD_stage_G3b，male_CKD_stage_G4，
age_TC，age_BMI_TC

In [7]:
save.image("model_refit_binary_workspace.Rdata")