---
title: "12-SAS 相关与回归分析"
author: "Simon Zhou"
date: "2025-06-03"
date-modified: "2025-06-03"
format: 
    html:
        code-fold: true
        code-line-numbers: true
        code-highlight: true
        fig_caption: true
        number-sections: true
        toc: true
        toc-depth: 3
---

In [1]:
%load_ext saspy.sas_magic

## 直线相关分析

两个变量之间的相关关系分析可以使用 corr过程。如两个变量都来自正态分布的总体,可以作直线相关分析,计算 Pearson 相关系数。

以下数据和程序用来说明如何计算直线相关系数。

数据集可从 [Data-collection](https://github.com/zhoulvbang/DATA-collection/tree/main/SAS) 处下载。

如可以选择如下方式载入数据集：

1. 数据集载入 libname 目录下：

```sas
libname libname ‘C:\syp\data’;
data = dataset;
    set libname.spec-data;
    where spec-condition;
    keep var1 var2...;
    drop var1 var2...;
    format var1 dollar12. var2 monyy.;
run;
```

程序说明：
- `libname` 语句定义了将在 SAS 的环境中的 SAS 资源管理器下新建一个工作目录；
- `‘C:\syp\data’` 是数据集所在的路径，指定了你想要导入的数据；
- `data = dataset` 是创建一个新的数据集，`dataset` 是数据集的名称；
- `set libname.spec-data` 是从指定的库中读取数据集；
- `where spec-condition` 是指定数据集的条件筛选；
- `keep var1 var2...` 是指定保留的数据变量；
- `drop var1 var2...` 是指定删除的数据变量；
- `format var1 dollar12. var2 monyy.` 是指定变量的格式。
- `run;` 语句结束数据步。

2. 或者直接使用 infile 语句读取数据：

```sas
data 数据集名;
    infile ‘文件路径+文件名’ <可选参数>;
    input 变量1 变量2...;
run;
```

3. 使用 `input` 语句和 `datalines` 语句直接输入数据：

In [2]:
%%SAS
data prg7_1;
    input x y @@;
cards;
12.81 10.23
11.89 10.01
13.51 11.02
10.82 9.08
14.12 12.89
12.53 11.28
11.94 10.59
11.23 10.88
14.72 12.6
12.45 11.26
11.30 10.02
12.08 11.55
;
proc corr;
    var x y;
run;

Using SAS Config named: winlocal
SAS Connection established. Subprocess id is 17040



0,1
2 变量:,x y

简单统计量,简单统计量,简单统计量,简单统计量,简单统计量,简单统计量,简单统计量
变量,数目,均值,标准差,总和,最小值,最大值
x,12,12.45,1.18244,149.4,10.82,14.72
y,12,10.95083,1.0852,131.41,9.08,12.89

"Pearson 相关系数, N = 12 Prob > |r|, H0: Rho=0","Pearson 相关系数, N = 12 Prob > |r|, H0: Rho=0","Pearson 相关系数, N = 12 Prob > |r|, H0: Rho=0"
Unnamed: 0_level_1,x,y
x,1.00000,0.81599 0.0012
y,0.81599 0.0012,1.00000


### 结果说明

`corr` 过程首先给出两个变量的一些简单统计量,如例数、均数、标准差、总和、最小值和最大值。

随后输出相关分析的结果,结果中有 Pearson 相关系数,即直线相关系数,还有判断该相关系数是否来自总体相关系数为0的总体假设检验的 *P* 值(当 $H_0:Rho=0$ 时,$Prob>r$),这两个值位于两个变量名所交叉处,相关系数位于上方,检验结果的 *P* 值位于下方。

这里 Pearson 相关系数为 r=0.815 99,所对应的 P=0.001 2<0.05说明两个变量之间存在正相关关系,即一个变量的值增大时,另一个变量的值也相应增大。

## 直线回归分析

直线回归分析是研究一个因变量与一个或多个自变量之间的线性关系。SAS 中可以使用 `reg` 过程和 `nlin` 过程进行直线回归分析。

直线回归分析是回归分析中较为简单的一种,即两个变量的数值在散点图上呈直线变化,完成直线回归可用 `reg` 过程。

In [3]:
%%SAS
data prg_reg;
    input x y @@;
cards;
56 5.32 32 3.21 41 4.67 51 5.03 25 3.01
35 3.57 21 2.98 47 3.93 62 5.62
;
proc reg;
    model y = x;
run;

0,1
读取的观测数,9
使用的观测数,9

方差分析,方差分析,方差分析,方差分析,方差分析,方差分析
源,自由度,平方 和,均方,F 值,Pr > F
模型,1,7.61077,7.61077,59.15,0.0001
误差,7,0.90072,0.12867,,
校正合计,8,8.51149,,,

0,1,2,3
均方根误差,0.35871,R 方,0.8942
因变量均值,4.14889,调整 R 方,0.8791
变异系数,8.64598,,

参数估计,参数估计,参数估计,参数估计,参数估计,参数估计
变量,自由度,参数 估计,标准 误差,t 值,Pr > |t|
Intercept,1,1.29098,0.39037,3.31,0.013
x,1,0.06952,0.00904,7.69,0.0001


### model 语句常用选项

1. `stb` 选项：`model y = x / stb` 计算标准化回归系数,即将自变量和因变量都标准化后进行回归分析,得到的回归系数可以直接比较各个自变量对因变量的影响大小。
2. `p` 选项：`model y = x / p` 计算预测值和残差,即在回归分析中计算每个观测值的预测值和残差,可以用于评估模型的拟合效果。
3. `clb` 选项：`model y = x / clb` 计算回归系数的置信区间,即在回归分析中计算每个回归系数的置信区间,可以用于评估回归系数的可靠性。
4. `cli` 输出每个观测预测值的双侧 95%容许区间。
5. `clm` 输出每个观测预测值均数的双侧95% 置信区间。
6. `r` 输出残差分析的结果,除了输出p选项要求的内容外,还包括预测值和残差的标准误、`student` 残差和 `Conk` 的 `D` 统计量。如果使用了 `cli`、`clm` 和 `r` 选项,`p` 选项就可以省略。语句为 `model y=x/cli clm r`;

In [6]:
%%SAS
data prg_reg;
    input x y @@;
cards;
56 5.32 32 3.21 41 4.67 51 5.03 25 3.01
35 3.57 21 2.98 47 3.93 62 5.62
;
proc reg;
    model y = x / cli clm r;
run;

0,1
读取的观测数,9
使用的观测数,9

方差分析,方差分析,方差分析,方差分析,方差分析,方差分析
源,自由度,平方 和,均方,F 值,Pr > F
模型,1,7.61077,7.61077,59.15,0.0001
误差,7,0.90072,0.12867,,
校正合计,8,8.51149,,,

0,1,2,3
均方根误差,0.35871,R 方,0.8942
因变量均值,4.14889,调整 R 方,0.8791
变异系数,8.64598,,

参数估计,参数估计,参数估计,参数估计,参数估计,参数估计
变量,自由度,参数 估计,标准 误差,t 值,Pr > |t|
Intercept,1,1.29098,0.39037,3.31,0.013
x,1,0.06952,0.00904,7.69,0.0001

输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量,输出统计量
观测,因 变量,预测 值,标准 误差 均值 预测,95% 置信均值,95% 置信均值.1,95% 置信预测,95% 置信预测.1,残差,标砖误差 残差,Student 残差,Cook D
1,5.32,5.1839,0.18,4.7582,5.6096,4.2349,6.133,0.1361,0.31,0.439,0.032
2,3.21,3.5155,0.1452,3.1722,3.8588,2.6005,4.4306,-0.3055,0.328,-0.931,0.085
3,4.67,4.1412,0.1196,3.8584,4.4239,3.2471,5.0353,0.5288,0.338,1.564,0.153
4,5.03,4.8363,0.1493,4.4833,5.1893,3.9176,5.7551,0.1937,0.326,0.594,0.037
5,3.01,3.0289,0.1884,2.5833,3.4745,2.0708,3.987,-0.0189,0.305,-0.062,0.001
6,3.57,3.7241,0.1317,3.4126,4.0355,2.8205,4.6277,-0.1541,0.334,-0.462,0.017
7,2.98,2.7508,0.2176,2.2363,3.2653,1.7588,3.7429,0.2292,0.285,0.804,0.188
8,3.93,4.5583,0.1309,4.2488,4.8678,3.6553,5.4612,-0.6283,0.334,-1.881,0.272
9,5.62,5.601,0.2235,5.0725,6.1295,4.6016,6.6004,0.019,0.281,0.068,0.001

0,1
残差和,0.0
残差平方和,0.90072
预测残差 SS (PRESS),1.26549


#### 结果说明

- 第 5、6 列为 clm 选项的结果,为预测值均数的 95% 置信区间(95% CL Mean );
- 第 7、8 列为 cli选项的结果,为预测值的 95%容许区间(95%CPredict);第9列为残差值(Residual);
- 第 10~12 列为选项r的结果,分别为残差标准误(Sld ErrorResidual)、student 残差值( Student Residual)、和Cook D统计量(Cook'sD),从 Cook's D统计量可以看出第8观测与其他观测有很大差异,在实际工作中应仔细考察这个观测的情况。

### 两条回归直线的比较

使用 `glm` 过程可以比较两条回归直线,即比较两个不同组别的回归直线是否有显著差异。

In [7]:
%%SAS
data two_liner;
    input x y c @@;
datalines;
13 3.54 1 11 3.01 1 9 3.09 1 6 2.48 1 8 2.56 1 10 3.36 1 12 3.18 1 7 2.65 1
10 3.01 2 9 2.83 2 11 2.92 2 12 3.09 2 15 3.98 2 16 3.89 2 8 2.21 2 7 2.39 2
10 2.74 2 15 3.36 2
;
proc glm data = two_liner;
    class c;
    model y= x c x*c;
run;
proc glm data = two_liner;
    class c;
    model y = x c;
run;

分类水平信息,分类水平信息,分类水平信息
分类,水平,值
c,2,1 2

0,1
读取的观测数,18
使用的观测数,18

源,自由度,平方和,均方,F 值,Pr > F
模型,3,3.44201996,1.14733999,27.18,<.0001
误差,14,0.59100782,0.04221484,,
校正合计,17,4.03302778,,,

R 方,变异系数,均方根误差,y 均值
0.853458,6.812167,0.205463,3.016111

源,自由度,I 型 SS,均方,F 值,Pr > F
x,1,3.19449983,3.19449983,75.67,<.0001
c,1,0.2164172,0.2164172,5.13,0.0400
x*c,1,0.03110293,0.03110293,0.74,0.4052

源,自由度,III 型 SS,均方,F 值,Pr > F
x,1,2.75799086,2.75799086,65.33,<.0001
c,1,0.08377358,0.08377358,1.98,0.1807
x*c,1,0.03110293,0.03110293,0.74,0.4052

分类水平信息,分类水平信息,分类水平信息
分类,水平,值
c,2,1 2

0,1
读取的观测数,18
使用的观测数,18

源,自由度,平方和,均方,F 值,Pr > F
模型,2,3.41091703,1.70545851,41.12,<.0001
误差,15,0.62211075,0.04147405,,
校正合计,17,4.03302778,,,

R 方,变异系数,均方根误差,y 均值
0.845746,6.752131,0.203652,3.016111

源,自由度,I 型 SS,均方,F 值,Pr > F
x,1,3.19449983,3.19449983,77.02,<.0001
c,1,0.2164172,0.2164172,5.22,0.0373

源,自由度,III 型 SS,均方,F 值,Pr > F
x,1,3.39583675,3.39583675,81.88,<.0001
c,1,0.2164172,0.2164172,5.22,0.0373


#### 程序说明

- 进行两条回归直线比较可调用 `glm` 过程,在 `glm` 过程中需定义分组变量,本例为 `c`。在定义模型时,将变量 `x` 和 `c` 同时加入模型中,并考察两者的交互作用,该交互作用就是检验两条直线的回归系数之间差异是否有统计学意义。
- 第二个 `glm` 过程没有变量 `x` 和 `c` 的交互项,则考察两条回归直线的截距之间的差异是否有统计学意义。

#### 结果说明

- 第一个 `glm` 过程的结果中，主要考察 `x*c` 的交互作用项的 F 值和 P 值。F 值为 0.74，P 值为 0.4052，说明两条回归直线的斜率没有显著差异。
- 第二个 `glm` 过程的结果中，主要考察 `c` 的 F 值和 P 值。F 值为 5.22，P 值为 0.0373，说明两条回归直线的截距有显著差异。

## 秩相关

当样本资料不服从正态分布时,用直线相关不能正确描述两个变量之间的相关关系,此时可考虑用秩相关进行分析。

主要可以使用 `proc corr` 过程中的 `spearman` 选项来计算 Spearman 秩相关系数。

数据集可以从 [Data-collection](https://github.com/zhoulvbang/DATA-collection/tree/main/SAS/SAS%E7%BB%9F%E8%AE%A1%E8%BD%AF%E4%BB%B6%E5%BA%94%E7%94%A8/%E7%AC%AC7%E7%AB%A0) 处下载。

In [11]:
%%SAS
data rank_corr;
    set 'Data\prg7_4.sas7bdat';  /* 从已有数据集读取 */
run;

proc corr data = rank_corr spearman;
    var x y;
run;

0,1
2 变量:,x y

简单统计量,简单统计量,简单统计量,简单统计量,简单统计量,简单统计量,简单统计量
变量,数目,均值,标准差,中位数,最小值,最大值
x,18,5.55556,8.66889,0.955,0.03,27.96
y,18,5.55556,8.31028,2.895,0.05,33.95

"Spearman 相关系数, N = 18 Prob > |r|, H0: Rho=0","Spearman 相关系数, N = 18 Prob > |r|, H0: Rho=0","Spearman 相关系数, N = 18 Prob > |r|, H0: Rho=0"
Unnamed: 0_level_1,x,y
x,1.00000,0.90506 <.0001
y,0.90506 <.0001,1.00000


### 结果说明

该结果的结构与两变量直线相关分析的结构很相似,只是最后计算的相关系数为 Spearman 相关系数。本例秩相关系数为 0.905 06，所对应的 P<0.0001,说明 x 与 y 构成的关系有统计学意义。

## 加权直线回归