# 理论部分：Cholesky 分解法

Cholesky 分解法（*平方根法* ）是求解对称正定线性方程组最常用的方法之一。

> **Cholysky 分解定理**  
>
>若 $A \in R^{n \times n}$ 对称正定，则存在一个对角元均为正数的下三角阵 $L \in R^{n \times n}$，使得：  
\begin{equation}
A=LL^T.
\end{equation}

因此，我们可按如下步骤求解方程组 $Ax=b$：  
1. 计算 $A$ 的 Cholesky 分解：$A=LL^T$;  
2. 求解 $Ly=b$ 得 $y$;  
3. 求解 $L^Tx=y$ 得 $x$。

## Cholesky 分解算法

通常简单而实用的 Cholesky 分解方法是通过直接比较 $A=LL^T$ 两边的对应元素来计算 $L$。设

$$L= \left[\begin{matrix}l_{11} \\ l_{21}& l_{22}\\ \vdots & \vdots & \ddots\\l_{n1}& l_{n2} & \cdots & l_{nn}  \end{matrix}\right].$$

则 $LL^T$ 的元素为

$$LL^T= \left[\begin{matrix}l_{11} \\ l_{21}& l_{22}\\ \vdots&\vdots&\ddots\\l_{n1}& l_{n2} & \cdots & l_{nn}  \end{matrix}\right]
      \left[\begin{matrix}l_{11}&l_{21}& \cdots&l_{n1} \\ & l_{22} & \cdots & l_{n2}\\ & & \ddots&\vdots\\&  & & l_{nn}  \end{matrix}\right] =\left[\begin{matrix}a_{11}& a_{12}&\cdots &a_{1n} \\ a_{21}& a_{22} & \cdots& a_{2n}\\ \vdots & \vdots & \ddots\\a_{n1}& a_{n2} & \cdots & a_{nn}  \end{matrix}\right].$$

比较两边元素，有关系式：

$$a_{ij}=\sum_{p=1}^j l_{ip}l_{jp}， \ 1 \leq j \leq i \leq n.$$

可直接计算 $L$ 的第一列元素：

$$l_{11}=\sqrt{a_{11}},$$

$$l_{i1}=a_{i1}/l_{11}，i=2,…,n.$$

进一步地，假定已算出 $L$ 的前 $k-1$ 列元素。由

$$a_{kk}=\sum_{p=1}^k l_{kp}^2,$$

则可得

$$l_{kk}=(a_{kk}-\sum_{p=1}^{k-1} l_{kp}^2)^\frac{1}{2}.$$

再由

$$a_{ik}=\sum_{p=1}^{k-1} l_{ip}l_{kp} + l_{ik}l_{kk}, \ i = k+1,…,n,$$

得

$$l_{ik}=(a_{ik}-\sum_{p=1}^{k-1} l_{ip}l_{kp})/l_{kk}, \ i=k+1,…,n.$$

由此便可求出矩阵$L$。


上述求解矩阵L的过程可简述为：

- 首先求出 L 的第一列，然后以数学归纳法证明可以从 $L$ 的前 $k-1$ 列元素求解出第 k 列元素
- 其中在求解第 $k$ 列元素时，先求出 $l_{kk}$，再求 $l_{ik}, \ i=k+1,…,n.$

## 前/后回代法（Forward/Backward Substitution）

对于方程组 $Lx=b$ 和 $Ux=b$（其中 $L$ 和 $U$ 分别是下三角矩阵和上三角矩阵），可以分别采用前代法和回代法求解。此处以下三角矩阵的前代法为例。

设方程组 $Lx=b$ 的 $L$ 是已知的非奇异下三角阵（则其主对角线元素非零），则方程组的矩阵形式为：

$$\left[\begin{matrix}l_{11} \\ l_{21}& l_{22}\\ \vdots & \vdots & \ddots\\l_{n1}& l_{n2} & \cdots & l_{nn}  \end{matrix}\right]
\left[\begin{matrix}x_1 \\ x_2 \\ \vdots\\ x_n  \end{matrix}\right]
=\left[\begin{matrix}b_1 \\ b_2 \\ \vdots\\ b_n  \end{matrix}\right].$$

则由方程组的第一个方程可得：

$$x_1=b_1/l_{11};$$

进一步地，如果已求出 $x_1,…,x_{i-1}$，就可以根据方程组的第 $i$ 个方程

$$l_{i1}x_1+l_{i2}x_2+…+l_{i,i-1}x_{i-1}+l_{ii}x_{i}=b_{i}$$

求出

$$x_i=(b_i-\sum_{j=1}^{i-1} l_{ij}x_j)/l_{ii}$$

从而可以求出方程组的解。
求解上三角方程组的回代法的做法类似。

# 实现代码

## Cholesky 分解

> **mchol 函数**
- 作用：能够实现对对称正定矩阵的 Cholesky 分解
- 参数：一个对称正定方阵
- 返回值：返回传入方针的 Cholesky 因子

在具体的程序实现中，对前面的数学原理稍加变通，可以更加迅捷的进行 Cholesky 分解，下面以一个三阶方阵为例进行说明。设

$$L= \left[\begin{matrix}l_{11}&0&0 \\ l_{21}& l_{22}&0\\ l_{31}&l_{32}&l_{33}  \end{matrix}\right].$$

则 $A_1=LL^T$ 的元素为

$$A_1= \left[\begin{matrix}l_{11}&0&0 \\ l_{21}& l_{22}&0\\ l_{31}&l_{32}&l_{33} \end{matrix}\right]
    \left[\begin{matrix}l_{11}&l_{21}&l_{31} \\ 0& l_{22}&l_{32}\\ 0&0&l_{33}\end{matrix}\right]$$

$$= \left[\begin{matrix}l_{11}^2&l_{11}l_{21}&l_{11}l_{31} \\ l_{11}l_{21}& l_{21}^2+l_{22}^2&l_{21}l_{31}+l_{22}l_{32}\\ l_{11}l_{31}&l_{31}l_{21}+l_{32}l_{22}&l_{31}^2+l_{32}^2+l_{33}^2 \end{matrix}\right]$$

可以以列为单位求解 $L$ 的元素。根据之前的叙述，$L$ 的第一列元素可以很容易计算得到。另外，注意到 $A_1$ 删去第一行和第一列后余下的 $2 \times 2$ 矩阵（记为 $A_{12}$）的每一个分量的第一项为

$$ \left[\begin{matrix} l_{21}^2 & l_{21}l_{31} \\ l_{31}l_{21} & l_{31}^2 \end{matrix}\right]
=\left[\begin{matrix} l_{21} & l_{31} \end{matrix}\right] 
\left[\begin{matrix} l_{21}\\ l_{31}  \end{matrix}\right] $$

因此，在计算出 $L$ 的第一列元素后，从 $A_{12}$ 中减去上述矩阵，得到 $A_2$：

$$A_{2}= \left[\begin{matrix} l_{22}^2 & l_{22}l_{32} \\ l_{32}l_{22} & l_{32}^2+l_{33}^2 \end{matrix}\right].$$

注意到这与 $A_1$ 的形式完全一致，可以继续计算 $L$ 的第二列，进而求出 $L$.

In [1]:
mchol <- function(x)
{
  mn <- dim(x); m <- mn[1]; n <- mn[2]

  # 检验传入参数是否符合要求
  if(m != n){ return ("Wrong dimensions of matrix!") }
  if(sum(t(x) != x) > 0){ return ("Input matrix is not symmetrical!") }

  L <- matrix(0, m, m)
  
  for(i in 1:m)  # 以列为单位求解 L
  {
    L[i,i] <- sqrt(x[i,i])
    if(i < m)
    {
      L[(i+1):m,i] <- x[(i+1):m,i] / L[i,i]

      # 更新矩阵，便于下一次同样方法计算
      TLV <- L[(i+1):m,i]
      # TLM <- matrix(TLV, m-i, m-i)
      # TLM <- sweep(TLM, 2, TLV, "*")
      TLM <- outer(TLV,TLV)
      x[(i+1):m,(i+1):m] <- x[(i+1):m,(i+1):m] - TLM
    }
  }
  return(L)
}

下面是这个函数使用的一个例子。

In [2]:
y <- matrix(rnorm(20), 5)
x <- t(y) %*% y  # 构造对称正定矩阵
mchol(x)    # 自制函数
t(chol(x))  # 系统函数

0,1,2,3
1.2180483,0.0,0.0,0.0
-0.4744818,1.19967558,0.0,0.0
0.1157233,-1.42324673,2.407329,0.0
-1.3091589,0.05873912,-1.248142,0.6690474


0,1,2,3
1.2180483,0.0,0.0,0.0
-0.4744818,1.19967558,0.0,0.0
0.1157233,-1.42324673,2.407329,0.0
-1.3091589,0.05873912,-1.248142,0.6690474


## 前/后回代法求解

### 前代法

> **mforwardsolve() 函数**
- 作用：使用前代法求解方程组
- 参数：方程组的系数矩阵（下三角矩阵）和右端常数项
- 返回值：方程组的解

同 Cholesky 分解算法一样，在具体的程序实现中，对前面的数学原理稍加变通，可以更加迅捷的进行前代法求解，下面以一个三阶方阵为例进行说明。设

$$L= \left[\begin{matrix}l_{11}&0&0 \\ l_{21}& l_{22}&0\\ l_{31}&l_{32}&l_{33}  \end{matrix}\right].$$

则 $Lx=b$ 的元素为

$$
B_1 = Lx = \left[\begin{matrix}l_{11}&0&0 \\ l_{21}& l_{22}&0\\ l_{31}&l_{32}&l_{33} \end{matrix}\right]
   \left[\begin{matrix}x_{1} \\ x_{2}\\ x_{3}\end{matrix}\right]
  = \left[\begin{matrix}b_{1} \\ b_{2}\\ b_{3}\end{matrix}\right]
  = b
$$

则由方程组的第一个方程可得：

$$x_1=b_1/l_{11}$$

进一步地，注意到可以利用已知的 $x_1$ 和方程组的第二、三个方程更新右端项简化计算，即：

$$
B_2 = \left[\begin{matrix}l_{22}&0\\l_{32}&l_{33} \end{matrix}\right]
   \left[\begin{matrix}x_{2}\\ x_{3}\end{matrix}\right]
  = \left[\begin{matrix}b_{2}-x_{1}l_{21}\\ b_{3}-x_{1}l_{31}\end{matrix}\right]
  = b^{'}
$$

注意到这与 $B_1$ 的形式完全一致，可以继续计算 $x_2$，进而求出 $x$。

In [3]:
mforwardsolve <- function(L, b)
{
  mn <- dim(L); m <- mn[1]; n <- mn[2]
    
  # 检查输入参数是否符合要求
  if(m != n) return ("Wrong dimensions of matrix L!")
  if(m != length(b)) return ("Wrong dimensions of matrix L or vector b!")
  
  x <- rep(0, m)
    
  for(i in 1:m)
  {
    x[i] <- b[i] / L[i,i]
      
    # 更新右端项，逐步减去已求出的未知量对右端项的贡献   
    if(i < m) b[(i+1):m] <- b[(i+1):m] - x[i]*L[(i+1):m,i]
  }
  return(x)
}

下面是使用 mforward() 的一个例子。

In [4]:
y <- matrix(rnorm(20), 5)
x <- t(y) %*% y
L <- mchol(x); b <- 1:4
mforwardsolve(L,b)  # 自制函数
forwardsolve(L,b)   # R语言中自带函数的求解结果

### 回代法

> **mbackwardsolve() 函数**
- 作用：使用前代法求解方程组
- 参数：方程组的系数矩阵（上三角矩阵）和右端常数项
- 返回值：方程组的解

In [5]:
mbacksolve <- function(L, b)
{
  mn <- dim(L); m <- mn[1]; n <- mn[2]
    
  # 检查输入参数是否符合要求
  if(m != n) return ("Wrong dimensions of matrix L!")
  if(m != length(b)) return ("Wrong dimensions of matrix L or vector b!")
  
  x <- rep(0, m)
    
  for(i in m:1)
  {
    x[i] <- b[i] / L[i,i]
    if(i > 1) b[(i-1):1] <- b[(i-1):1] - x[i]*L[(i-1):1,i]   # 更新右端项   
  }
  return(x)
}

下面是使用 mbacksolved() 的一个例子。

In [6]:
y <- matrix(rnorm(20), 5)
x <- t(y) %*% y
L <- mchol(x); b <- 1:4
mforwardsolve(L,b)
forwardsolve(L,b)  # R语言自带函数的求解结果

# 逐步回归

## 减少一个变量：$L_k$ 的计算

逐步回归时,在当前模型的基础之上减去一个变量,求解回归系数时,可以不需要重新计算新的 $X_{k}^T X_{k}$ 的分解,而是可以借助上一步的分解 $L$,使用 Givens 变换简化计算。

> **Givens 变换**
>
>如果现在要删掉第 k 个变量，那么对应 $X_{k}^T X_{k}$ 的 Cholesky 因子 $L_{k}$ 就是上一步的 $L$ 删掉第 k 行,然后右乘 Givens 矩阵进行列变换,化为下三角矩阵 $L_{k}$。

$$ X^{T}X = LL^{T} $$

$$ 
P^{T}X^{T}XP = P^{T}LL^{T}P = L^{'}L^{'T}_{k} = L^{'}GG^{T}L^{'T} = L_{k}L^{T}_{k}
$$

注：  
1. $XP$ 代表方阵 $X$ 删去某一列，故 $P^{T}L$ 代表方阵 $L$ 删去对应行；
2. $ G = 
\begin{bmatrix}
I &  & \\ 
 &  G_{2 \times 2}& \\ 
 &  & I 
\end{bmatrix}$，其中 $G_{2 \times 2} = 
\begin{bmatrix}
cos(\theta) & -sin(\theta)\\ 
sin(\theta) & cos(\theta)
\end{bmatrix}$，故有 $GG^{T}=I$；
3. 一般不能 $L^{'}G$ 一次就化为下三角矩阵 $L_{k}$，需要再多次重复此过程，并且每次 $G_{2 \times 2}$ 要下移一行右移一列。

首先给出构造 Givens 变换矩阵的函数 gives，即 $G_{2 \times 2}$。

In [7]:
gives <- function(mx, lmx){
    mc <- mx[1]/lmx  # cos(theta)
    ms <- mx[2]/lmx  # sin(theta)
    matrix(c(mc,ms,-ms,mc), ncol=2)
}

x1 <- c(3, 4)
lmx1 <- sqrt(sum(x1*x1))
lmx1
x1 %*% gives(x1,lmx1) # 变为 (lmx1,0)

0,1
5,-4.440892e-16


In [8]:
# 原始的 X 矩阵及其 Cholesky 分解 L
x <- matrix(rnorm(60),10)
xtx <- t(x) %*% x
L <- mchol(xtx)
L

0,1,2,3,4,5
2.2529832,0.0,0.0,0.0,0.0,0.0
-1.7699931,3.1542813,0.0,0.0,0.0,0.0
-0.5871804,-0.8465385,3.294259,0.0,0.0,0.0
-0.7065077,0.3459628,-1.152665,3.3020119,0.0,0.0
-1.4505477,1.2632933,-0.441268,0.6295412,2.624478,0.0
0.9141987,-0.6466845,1.033628,0.5797508,0.928437,3.859671


下面的例子显示了 $L$ 在删掉第二行后不再是一个下三角矩阵,而是在对角线上多出来一些非零元素.要得到 $X_{k}^T X_{k}$ 的 Cholesky 因子 $L_{k}$,就是要通过 Givens 变换将这些对角线上的非零元一步步化为 0.下面是以第一步化简为例.

In [9]:
## 删掉了第二个变量后，对应的新的 X 的分解 L 只需在原来 L 的基础之上删去第二行，
## 并使用 Givens 变换进行列变换化为下三角阵即可
## 下面是以第一步化简为例
L2 <- L[-2,] 
LL2 <- L2
L2

mx <- L2[2,2:3]  # 需要将 L2[2,3] 这个对角线上的非零元化为 0
lmx <- sqrt(sum(mx*mx))
L2[2,2:3] <- c(lmx,0)
# 该向量下方的两列元素也被Given矩阵变换了，需要更新
L2[3:5,2:3] <- L2[3:5,2:3] %*% gives(mx, lmx)
L2

0,1,2,3,4,5
2.2529832,0.0,0.0,0.0,0.0,0.0
-0.5871804,-0.8465385,3.294259,0.0,0.0,0.0
-0.7065077,0.3459628,-1.152665,3.3020119,0.0,0.0
-1.4505477,1.2632933,-0.441268,0.6295412,2.624478,0.0
0.9141987,-0.6466845,1.033628,0.5797508,0.928437,3.859671


0,1,2,3,4,5
2.2529832,0.0,0.0,0.0,0.0,0.0
-0.5871804,3.4012897,0.0,0.0,0.0,0.0
-0.7065077,-1.2024992,-0.04819225,3.3020119,0.0,0.0
-1.4505477,-0.7418002,-1.1137144,0.6295412,2.624478,0.0
0.9141987,1.1620539,0.3690778,0.5797508,0.928437,3.859671


In [10]:
# 由于 GG'=I ，所以 LL' 并未变化
L2 %*% t(L2)
LL2 %*% t(LL2)

0,1,2,3,4
5.075933,-1.322908,-1.5917501,-3.2680596,2.0596744
-1.322908,11.913552,-3.6752007,-1.6713444,3.4156823
-1.59175,-3.675201,12.8507624,4.0492624,-0.1466999
-3.26806,-1.671344,4.0492624,11.1789213,0.2024912
2.059674,3.415682,-0.1466999,0.2024912,18.4175128


0,1,2,3,4
5.075933,-1.322908,-1.5917501,-3.2680596,2.0596744
-1.322908,11.913552,-3.6752007,-1.6713444,3.4156823
-1.59175,-3.675201,12.8507624,4.0492624,-0.1466999
-3.26806,-1.671344,4.0492624,11.1789213,0.2024912
2.059674,3.415682,-0.1466999,0.2024912,18.4175128


整个化为下三角的过程可以用一个 while 控制.

In [11]:
p <- dim(x)[2]
k <- 2  # 被删掉的变量的下标
Lk <- L[-k,]
Lk
mk <- k

## 从第 k 列起，逐列将对角线以上的那个非零元约化为 0
while( mk < p ){
    mx <- Lk[mk,mk:(mk+1)]
    lmx <- sqrt(sum(mx*mx))
    Lk[mk,mk:(mk+1)] <- c(lmx,0)
    if( mk < p-1 ) Lk[(mk+1):(p-1), mk:(mk+1)] <- Lk[(mk+1):(p-1), mk:(mk+1)] %*% gives(mx, lmx)
    mk <- mk + 1
}
Lk
Lk <- Lk[,-p]
Lk


# 与重新进行 Cholesky 分解的结果进行对比
xtxk <- xtx[-k, -k]
mchol(xtxk)

0,1,2,3,4,5
2.2529832,0.0,0.0,0.0,0.0,0.0
-0.5871804,-0.8465385,3.294259,0.0,0.0,0.0
-0.7065077,0.3459628,-1.152665,3.3020119,0.0,0.0
-1.4505477,1.2632933,-0.441268,0.6295412,2.624478,0.0
0.9141987,-0.6466845,1.033628,0.5797508,0.928437,3.859671


0,1,2,3,4,5
2.2529832,0.0,0.0,0.0,0.0,0
-0.5871804,3.4012897,0.0,0.0,0.0,0
-0.7065077,-1.2024992,3.3023635,0.0,0.0,0
-1.4505477,-0.7418002,0.6457269,2.8473851,0.0,0
0.9141987,1.1620539,0.5743031,0.7093347,3.92408,0


0,1,2,3,4
2.2529832,0.0,0.0,0.0,0.0
-0.5871804,3.4012897,0.0,0.0,0.0
-0.7065077,-1.2024992,3.3023635,0.0,0.0
-1.4505477,-0.7418002,0.6457269,2.8473851,0.0
0.9141987,1.1620539,0.5743031,0.7093347,3.92408


0,1,2,3,4
2.2529832,0.0,0.0,0.0,0.0
-0.5871804,3.4012897,0.0,0.0,0.0
-0.7065077,-1.2024992,3.3023635,0.0,0.0
-1.4505477,-0.7418002,0.6457269,2.8473851,0.0
0.9141987,1.1620539,0.5743031,0.7093347,3.92408


上面以一个例子展示了原理。下面的 mgives 函数就是实现这个功能的函数.这个函数在原有的 $X_{k}^T X_{k}$ 的 Cholesky 分解的 $L$ 基础之上,利用 Givens 变换计算删去第 k 个变量后新的 $X_{k}^T X_{k}$ 的 Cholesky 分解 $L_k$.它以上一步的 $L_k$ 和这一次被删掉的变量的下标 k 为参数,返回 $L_k$.

In [12]:
mgives <- function(L,k){
    p <- dim(L)[1]
    if( k>p ) return ("Wrong input of k!")
    Lk <- L[-k,]
    mk <- k
    while( mk < p ){
        mx <- Lk[mk,mk:(mk+1)]
        lmx <- sqrt(sum(mx*mx))
        Lk[mk,mk:(mk+1)] <- c(lmx,0)
        if( mk < p-1 ){
            Lk[(mk+1):(p-1), mk:(mk+1)] <- Lk[(mk+1):(p-1), mk:(mk+1)] %*% gives(mx, lmx)
        }
        mk <- mk + 1
    }
    return(Lk[,-p])
}

## 查看每次删去一个变量后的 Lk,并与重新进行 Cholesky 分解的结果比较
for (k in 1:dim(L)[1]){
    print("k=")
    print(k)
    print(mgives(L,k))
    xtxk <- xtx[-k, -k]
    print(mchol(xtxk))
}

[1] "k="
[1] 1
           [,1]       [,2]      [,3]      [,4]     [,5]
[1,]  3.6169554  0.0000000 0.0000000 0.0000000 0.000000
[2,] -0.4509083  3.4220219 0.0000000 0.0000000 0.000000
[3,]  0.6474445 -0.9886736 3.3843910 0.0000000 0.000000
[4,]  1.8115352 -0.2497085 0.7769533 2.6890985 0.000000
[5,] -1.0113341  0.8648873 0.4027827 0.7205332 3.995658
           [,1]       [,2]      [,3]      [,4]     [,5]
[1,]  3.6169554  0.0000000 0.0000000 0.0000000 0.000000
[2,] -0.4509083  3.4220219 0.0000000 0.0000000 0.000000
[3,]  0.6474445 -0.9886736 3.3843910 0.0000000 0.000000
[4,]  1.8115352 -0.2497085 0.7769533 2.6890985 0.000000
[5,] -1.0113341  0.8648873 0.4027827 0.7205332 3.995658
[1] "k="
[1] 2
           [,1]       [,2]      [,3]      [,4]    [,5]
[1,]  2.2529832  0.0000000 0.0000000 0.0000000 0.00000
[2,] -0.5871804  3.4012897 0.0000000 0.0000000 0.00000
[3,] -0.7065077 -1.2024992 3.3023635 0.0000000 0.00000
[4,] -1.4505477 -0.7418002 0.6457269 2.8473851 0.00000
[5,]  0.9141987  1.1620

## 增加一个变量：$L_k$ 的计算

上面一部分讲了减少一个变量后求解 $L_k$ 的简化计算方法。那在增加一个变量的时候，同样可以通过矩阵运算简化计算。当在 $X$ 的末尾再加一列 $x_k$ 时,新的 $X_{k}^T X_{k}$ 的分解 $L_k$ 是在原来 $L$ 的基础之上在底下多加了一行,多加的元素的计算可以通过矩阵运算很快的得到。

由上述讨论知，当在 $X$ 的末尾再加一列 $x_k$ 时,新的 $X_{k}^T X_{k}$ 的分解 $L_k$ 是在原来 $L$ 的基础之上在底下多加了一行,并拓展一列（其为下三角方阵）,设：

$$
L_k = \begin{bmatrix}
L & 0 \\ 
l_k^T & l_{kk}
\end{bmatrix}
$$

故有：

$$
X_k^TX_k = L_kL_K^T
$$

$$
( X,x_k )^{T}( X,x_k ) = 
\begin{bmatrix}
X^TX & X^Tx_k \\ 
x_k^TX & x_k^TX_k
\end{bmatrix} = 
\begin{bmatrix}
LL^T & Ll_k \\ 
l_k^TL^T & l_k^Tl_k+l_{kk}^2
\end{bmatrix} =
\begin{bmatrix}
L & 0 \\ 
l_k^T & l_{kk}
\end{bmatrix} \begin{bmatrix}
L & 0 \\ 
l_k^T & l_{kk}
\end{bmatrix}^T
$$

In [13]:
forupdate <- function(L, xxk, xkxk){
    lk <- mforwardsolve(L, xxk)
    lkk <- sqrt(xkxk - sum(lk*lk))
    return( as.matrix( rbind( cbind(L,0),c(lk,lkk) ) ) )
}

x <- matrix(rnorm(60), 10)
xtx <- t(x) %*% x
xtx

# 在模型含第 3,2,4 个变量的基础之上，加入第 5 个变量
A <- c(3,2,4)  
L <- mchol(xtx[A,A])  # 三个变量的 xtx 的分解
k <- 5 # 加入第五个变量
xxk <- xtx[A,k,drop=T] 
xkxk <- xtx[k,k] # 计算扩充 L 时所需要的数
forupdate (L, xxk, xkxk)

A <- c(A, k)
mchol(xtx[A,A]) # 和重新分解对比

0,1,2,3,4,5
4.7977031,-4.7386176,0.3055149,0.8108946,0.1836404,0.5414998
-4.7386176,19.2892807,-3.745164,-0.9241985,-7.6182855,3.6062252
0.3055149,-3.745164,12.3205892,3.0065867,-3.5021939,-2.1992972
0.8108946,-0.9241985,3.0065867,4.6950066,-3.1341855,1.5297195
0.1836404,-7.6182855,-3.5021939,-3.1341855,14.8312335,-6.6624642
0.5414998,3.6062252,-2.1992972,1.5297195,-6.6624642,7.376879


0,1,2,3
3.5100697,0.0,0.0,0.0
-1.0669771,4.260380335,0.0,0.0
0.8565604,-0.002410156,1.990303,0.0
-0.9977562,-2.038050087,-1.147795,2.892168


0,1,2,3
3.5100697,0.0,0.0,0.0
-1.0669771,4.260380335,0.0,0.0
0.8565604,-0.002410156,1.990303,0.0
-0.9977562,-2.038050087,-1.147795,2.892168


## 逐步回归的实现

我们已经得到逐步回归增减变量时简化计算的工具,下面就可以开始实现逐步回归算法了.首先导入数据并查看使用 R 自带的函数的回归结果.

In [14]:
library(ElemStatLearn)
data(prostate)
data <- prostate[,-10]
head(data)

lcavol,lweight,age,lbph,svi,lcp,gleason,pgg45,lpsa
-0.5798185,2.769459,50,-1.386294,0,-1.386294,6,0,-0.4307829
-0.9942523,3.319626,58,-1.386294,0,-1.386294,6,0,-0.1625189
-0.5108256,2.691243,74,-1.386294,0,-1.386294,7,20,-0.1625189
-1.2039728,3.282789,58,-1.386294,0,-1.386294,6,0,-0.1625189
0.7514161,3.432373,62,-1.386294,0,-1.386294,6,0,0.3715636
-1.0498221,3.228826,50,-1.386294,0,-1.386294,6,0,0.7654678


In [15]:
lm1= lm(lpsa~.,data)
summary(lm1)
extractAIC(lm1) #  nln(RSS/n)+ 2*9, not AIC
AIC(lm1)
step(lm1, direction="both")


Call:
lm(formula = lpsa ~ ., data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.76644 -0.35510 -0.00328  0.38087  1.55770 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.181561   1.320568   0.137  0.89096    
lcavol       0.564341   0.087833   6.425 6.55e-09 ***
lweight      0.622020   0.200897   3.096  0.00263 ** 
age         -0.021248   0.011084  -1.917  0.05848 .  
lbph         0.096713   0.057913   1.670  0.09848 .  
svi          0.761673   0.241176   3.158  0.00218 ** 
lcp         -0.106051   0.089868  -1.180  0.24115    
gleason      0.049228   0.155341   0.317  0.75207    
pgg45        0.004458   0.004365   1.021  0.31000    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.6995 on 88 degrees of freedom
Multiple R-squared:  0.6634,	Adjusted R-squared:  0.6328 
F-statistic: 21.68 on 8 and 88 DF,  p-value: < 2.2e-16


Start:  AIC=-60.78
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + 
    pgg45

          Df Sum of Sq    RSS     AIC
- gleason  1    0.0491 43.108 -62.668
- pgg45    1    0.5102 43.569 -61.636
- lcp      1    0.6814 43.740 -61.256
<none>                 43.058 -60.779
- lbph     1    1.3646 44.423 -59.753
- age      1    1.7981 44.857 -58.810
- lweight  1    4.6907 47.749 -52.749
- svi      1    4.8803 47.939 -52.364
- lcavol   1   20.1994 63.258 -25.467

Step:  AIC=-62.67
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + pgg45

          Df Sum of Sq    RSS     AIC
- lcp      1    0.6684 43.776 -63.176
<none>                 43.108 -62.668
- pgg45    1    1.1987 44.306 -62.008
- lbph     1    1.3844 44.492 -61.602
- age      1    1.7579 44.865 -60.791
+ gleason  1    0.0491 43.058 -60.779
- lweight  1    4.6429 47.751 -54.746
- svi      1    4.8333 47.941 -54.360
- lcavol   1   21.3191 64.427 -25.691

Step:  AIC=-63.18
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45




Call:
lm(formula = lpsa ~ lcavol + lweight + age + lbph + svi, data = data)

Coefficients:
(Intercept)       lcavol      lweight          age         lbph          svi  
    0.49473      0.54400      0.58821     -0.01644      0.10122      0.71490  


>**steplm()**
>
>- 作用：实现逐步回归
- 参数：样本数据(最后一列为因变量)  
- 返回值：最优的模型的结果

下面以加载的数据 data 为例使用这个函数。首先是把所有变量都加入模型进行回归,求解系数,并计算该模型的 RSS 和 AIC，整个逐步回归的过程由一个 repeat 完成。并且例子显示，不论变量顺序如何都不影响最终结果。

对于下段代码中的

```r
RSS <- yty - sum(tb*tb)
```
有如下解释：

mforwardsolve(...) 的结果为 $L^T \cdot \beta$，其中 $L$ 是 $X^T X$ 经过 Cholesky 分解后的下三角阵，$L L^T=X^T X$。

\begin{equation}
RSS=(Y-X\beta)^T(Y-X\beta)\\
=Y^T Y-\beta^T X^T Y-Y^T X\beta+\beta^T X^T X \beta
\end{equation}

因为 $\beta^T X^T Y$ 是一个数，所以 $\beta^T X^T Y=Y^T X\beta$，所以

\begin{equation}
RSS=Y^T Y-\beta^T X^T Y\\
=Y^T Y-\beta^T X^T X \beta\\
=Y^T Y-\beta^T L L^T \beta\\
=Y^T Y-(L^T \beta)^T(L^T \beta)
\end{equation}

In [16]:
steplm <- function(data){
    np <- dim(data)
    n <- np[1]
    p <- np[2]-1
    xn <- c("inter", names(data)[1:p])
    x <- as.matrix( cbind(1,data[,1:p]) )
    y <- data[,p+1]


    xtx <- t(x)%*%x
    xty <- drop(t(x)%*%y)
    yty <- sum(y*y)


    ## 1. 求解全变量模型 Xβ = y --> X'Xβ = X'y
    L <- mchol(xtx)               # 计算  X'X  的 Cholesky 分解： X'X = LL'
    tb <- mforwardsolve(L, xty)   # 求解  L(tb) = L(L'β) = X'y 得 tb
    b <- mbacksolve(t(L), tb)     # 求解 L'β = tb 得 β
    #b

    RSS <- yty - sum(tb*tb)  ###谁知道为什么，有奖！！！！
    AICF <- n*log(RSS/n) + 2*(p+1)
    #AICF


    ## 2. 记录上述全模型的回归结果
    # A1 <- rep(TRUE, p)
    # A <- c(TRUE, A1)
    A <- 1:(p+1)
    LA <- L
    MAIC <- AICF
    mAIC <- AICF
    MFLAG <- c(TRUE, rep(FALSE, p))  # 截距项+变量，确保模型中一直有截距项
    flag <- rep(TRUE,p+1)
    hbb <- b
    
    
    ## 3. 逐步回归
    repeat{
        
        # A:在当前模型中的变量，B:不在当前模型中的变量
        if( length(A) < p+1 )  B <- (1:(p+1))[!flag]
        else  B <- NULL
        AB <- c(A,B)
        
        # 每个当前模型都需要与其他加减一个变量后的 p-1 个模型作比较(简记为当前模型组)
        bm <- matrix(0,p,p+1)  # 记录不同模型包含的变量及其参数值
        AICm <- rep(0,p)

        
        ## 3.1 当前模型组 AIC 最小模型计算
        ff <- 1
        for(k in AB){
            if(MFLAG[k]){  # 判断是否为截距项
                ff <- ff+1
            } else { 
                
                # 第一步：判断该变量是否在当前模型中，若在减去，若不在加上，并更新 L、A 及 X'y
                if(flag[k]){  
                    Lk <- mgives(LA,ff)
                    tA <- A[-ff]
                    xtyk <- xty[ tA ]
                    ff <- ff+1
                } else {
                    xxk <- xtx[A,k,drop=T] 
                    xkxk <- xtx[k,k]
                    Lk <- forupdate (LA, xxk, xkxk)
                    tA <- c(A,k)
                    xtyk <- xty[tA]
                }
                #print(A); print(B); print(k)
                
                
                # 第二步：前/回代法求解新模型
                tbk <- mforwardsolve(Lk, xtyk)
                bk <- mbacksolve(t(Lk), tbk)
                #tA <- c(1, tA); print(tbk); print(tA)
                
                
                # 第三步：记录模型回归结果
                bm[k-1,tA] <- bk
                RSSk <- yty - sum(tbk*tbk)  
                AICk <- n*log(RSSk/n) + 2*length(tA)
                AICm[k-1] <- AICk
       
                
                # 第四步：找出当前模型组中 AIC 最小的模型并记录
                if( AICk < mAIC ){
                    mink <- k
                    mtA <- tA
                    mAIC <- AICk
                    mLA <- Lk
                    hb <- bm[k-1,]
                }
            }
        }

        
        ## 3.2 不同模型组 AIC 最小模型对比修正
        if(mAIC >= MAIC) break
        if ( mAIC < MAIC ){
            flag[mink] = !flag[mink]
            A <- mtA
            MAIC <- mAIC
            hhb <- hb
            LA <- mLA
        }
    }
    
    
    # 4. 输出 AIC 最小模型结果 
    re <- data.frame(matrix(hhb[c(flag)],nrow=1))
    names(re) <- xn[flag]
    return(re)
}

steplm(data)
data <- data[,c(sample(1:8,8),9)]
steplm(data)

inter,lcavol,lweight,age,lbph,svi
0.4947293,0.5439979,0.5882127,-0.01644485,0.1012233,0.714904


inter,age,lweight,lbph,svi,lcavol
0.4947293,-0.01644485,0.5882127,0.1012233,0.714904,0.5439979
