# Orthogonal Projections and Their Applications
正交投影

## 1.Overview

正交投影是向量空间方法的基石,应用于：   
- 最小二乘投影（线性回归）
- 多元正态（高斯）分布的条件期望
- 格兰-施密特正交化       
- QR分解
- 正交多项式  

## 2.Key Definitions

假定$x,z\in\mathbb{R}^n$,定义$\langle x,z\rangle=\sum_i x_i z_i$,回顾$\|x\|^2=\langle x,x\rangle$，由**余弦定理**得到$\langle x,z\rangle=\|x\|\ \|z\|cos(\theta)$,其中$\theta$是夹角。如果$cos(\theta)=0$，那么就说$x$和$z$是正交的，写为$x\perp z$。

<img  src="https://lectures.quantecon.org/_images/orth_proj_def1.png" width="50%" height="50%" />

如果$x\perp z$,且$z\in S$,那么$x\perp S$。
<img  src="https://lectures.quantecon.org/_images/orth_proj_def2.png"  width="50%" height="50%" />

**线性子空间$S\subset RR^n$的正交补集是集合**$S^{\perp}:=\{x\in \mathbb R^n:x\perp S\}$
<img src="https://lectures.quantecon.org/_images/orth_proj_def3.png"  width="50%" height="50%"/>

**正交集** $x_1,...,x_k\subset\mathbb R^n$，其中$x_i\perp x_j,i\neq j$。
由$毕德哥拉斯定理$，有
$$\|x_1+...+x_k\|^2=\|x_1\|^2+...+\|x_k\|^2$$

### Linear Independence vs Orthogonality
如果$X\subset \mathbb R^n$是正交集，且$0\not\in X$,那么$X$是线性独立的。
## 3.The Orthogonal Projection Theorem

给定一个向量，我们想在某一线性空间中找到最能近似替代这一给定向量的向量，正交投影解决了这个问题。 
**正交投影定理**给定$y\in\mathbb R^n$且线性子空间$S\subset \mathbb R^n$，那么存在最小化问题：
$$\hat y:=\arg\min_{z\in S}\|y-z\|$$
唯一的最小化$\hat y$满足
- $\hat y \in S$
- $y-\hat y \perp S$  

向量 $\hat y$ 是向量y在S上的正交投影。

<img src="https://lectures.quantecon.org/_images/orth_proj_thm1.png"  width="50%" height="50%"/>

### Proof of sufficiency
$\hat y$是一个向量，且$\hat y\in S$，$y-\hat y\perp S$，$z$是$S$中任意的其他向量，可以推导
$$\|y-z\|^2=\|(y-\hat y)+(\hat y -z)\|^2=\|y-\hat y\|^2+\|\hat y-z\|^2$$
因此$\|y-z\| \geq\|y-\hat y\|$

### Orthogonal Projection as a Mapping
给定线性空间$S$，对于另一线性空间$Y$，有
$$y\in Y \to \text{它的正交投影}\hat y\in S$$
有矩阵$P$

-  $Py$代表投影$\hat y$
-  $\hat E_S y=Py$，其中$\hat E$是广义期望因子

$P$是S上的正交投影映射

<img src="https://lectures.quantecon.org/_images/orth_proj_thm2.png"  width="50%" height="50%"/>

1. $Py\in S$
2. $y-Py\perp S$  

可以推导出有用的属性：

1. $\|y\|^2=\|Py\|^2+\|y-Py\|^2$
2. $\|Py\| \leq \|y\|$

### Orthogonal Complement
**定义** $S$的正交补集是线性子空间$S^\perp$，满足$x_1\perp x_2$，对于$x_1\in S$和$x_2\in S^\perp$。  
线性空间$Y$包含线性子空间$S$和它的正交补集$S^\perp$，写为
$$Y=S\oplus S^\perp$$
对于每个$y\in Y$，有唯一的$x_1\in S$和唯一的$x_2\in S^\perp$，使得$y=x_1+x_2$。也就是$x_1=\hat E_S y$和$x_2=y-\hat E_S y$，$x_1$是$y$在$S$上的正交投影。

**定理** 如果$S$是$\mathbb R^n $的线性子空间，$\hat E_S y=Py$并且$\hat E_{S^\perp}y=My$，有
$$Py\perp My \ \text{and} \ y=Py+My \ \text{for all} \ y\in \mathbb R^n$$ 
<img src="https://lectures.quantecon.org/_images/orth_proj_thm3.png"  width="50%" height="50%"/>

## 4. Orthonormal Basis
**标准正交集**  
如果对于所有$u\in O\subset \mathbb R^n$，有$\|u\|=1$，那么正交向量集$O$是标准正交集。  

**标准正交基**  
如果$S$是$\mathbb R^n$的线性子空间，$O\subset S$，$O$是正交的并且$\text{span}O = S$，那么$O$被称为$S$的标准正交基。  

**组合**  
如果$\{u_1,...,u_k\}$是线性子空间$S$的标准正交基，那么
$$x=\sum_{i=1}^k \langle x,u_i \rangle u_i \ \text{for all} \ x\in S$$

如果$x\in \text{span}\{u_1,...,u_k\}$，可以找到标量$\alpha_1,...,\alpha_k$来证实
$$x=\sum_{j=1}^k \alpha_j u_j$$
内积为
$$\langle x,u_i \rangle=\sum_{j=1}^k \alpha_j \langle u_j, u_i \rangle = \alpha_i$$
与上式结合起来可以得到前面的结论

### Projection onto an Orthonormal Basis
**定理** 如果$\{u_1,...,u_k\}$是$S$的标准正交基，那么
$$Py=\sum_{i=1}^k \langle y,u_i \rangle u_i, \ \forall y\in\mathbb R^n$$
**证明** $y\in\mathbb R^n$，$Py$定义为上式，明显的$Py\in S$，$y-Py \perp S$也存在，同样的，$y-Py \perp u_i$，因为
$$\langle y-\sum_{i=1}^k \langle y,u_i \rangle u_i,u_j \rangle =\langle y,u_j \rangle -\sum_{i=1}^k \langle y,u_i\rangle\langle u_i,u_j\rangle=0$$

## 5. Projection Using Matrix Algebra
想要计算矩阵$P$使得
$$\hat E_S y=Py$$
明显的$Py$是$y\in\mathbb R^n$的线性函数。

**定理** $X_{n\times k}$的列向量是$S$的基，有
$$P=X(X'X)^{-1}X'$$

**证明** 给定随机数$y\in\mathbb R^n$，并且$P=X(X'X)^{-1}X'$，证明
1. $Py\in S$
2. $y-Py\perp S$

证明1 
$$Py=X(X'X)^{-1}X'y=Xa \ \text{when} \ a:=(X'X)^{-1}X'y$$
$Xa$是$X$列向量的线性组合，是$S$的一个元素。  

证明2  
$$y-X(X'X)^{-1}X'y\perp Xb \ \ \forall b\in\mathbb R^K$$
如果$b\in\mathbb R^K$,有
$$(Xb)'[y-X(X'X)^{-1}X'y]=b'[X'y-X'y]=0$$

### Starting with $X$
矩阵$X_{n\times k}$的各列是线性独立的，并且
$$S:=\text{span} X:=\text{span}\{\text{col}_1X,...,\text{col}_kX\}$$
$X$的各列可以组成$S$的基。$P=X(X'X)^{-1}X'$可以将$y$投射到$S$上，因此也被称作**投射矩阵**。$M=I-P$满足$My=\hat E_{S^\perp}y$也被称作**歼灭矩阵**（annihilator matrix）。

### The Orthonormal Case
假定$U_{n\times k}$有标准正交列向量，$S:=\text{span}U$，投射$y$到$S$上：
$$Py=U(U'U)^{-1}U'y$$
因为$U_{n\times k}$有标准正交列向量，所以$U'U=I$,因此
$$Py=UU'y=\sum_{i=1}^k\langle u_i,y\rangle u_i$$

### Application: Overdetermined Systems of Equations
$X_{n\times k}$是由线性无关的列向量组成的，$y\in\mathbb R^n$，给定$X$和$y$，我们试图找到$b\in\mathbb R^k$满足$Xb=y$。如果$n>k$，$b$是过度决定的，直觉上可能不能找到$b$满足所有$n$个等式。

有两个方法
- 接受确定解可能不存在
- 寻求近似解（$Xb$尽可能的接近$y$）

**定理** $\|y-Xb\|$最小化得到
$$\hat \beta:=(X'X)^{-1}X'y=Py$$
**证明** 注意
$$X\hat\beta=X(X'X)^{-1}X'y=Py$$
$Py$是在$\text{span}(X)$上的投影，我们有
$$\|y-Py\|\leq\|y-z\| \ \text{for any} \ z\in\text{span}(X)$$ 
因为$Xb\in\text{span}(X)$
$$\|y-X\hat\beta\|\leq\|y-Xb\| \ \text{for any}\ b\in\mathbb R^K $$

<img src=""  width="50%" height="50%" />

## 6. Least Squares Regression
### Squared risk measures
给定pairs$(x,y)\in\mathbb{R}^K\times\mathbb{R}$，考虑选择$f:\mathbb{R}^K\to\mathbb{R}$来最小化风险
$$R(f):=\mathbb{E}[(y-f(x))^2]$$
如果概率，$\mathbb E$不可知，但是样本可用，我们可以估计**经验风险**：
$$\min_{f\in\mathcal F}\frac{1}{N}\sum_{n=1}^N(y_n-f(x_n))^2$$
最小化上式称为**经验风险最小化**。

如果使$\mathcal F$为线性方程组$1/N$，问题变为**线性最小二乘问题**：
$$\min_{b\in\mathbb R^K}\sum_{n=1}^N(y_n-b'x_n)^2$$

### Solution
设定矩阵$X_{N\times K}$，其中$N>K$，且$X$满秩。可以证明$\|y-Xb\|^2=\sum_{n=1}^N(y_n-b'x_n)^2$。单调变化不影响最小化，因此有
$$\arg\min_{b\in\mathbb R^K}\sum_{n=1}^N(y_n-b'x_n)^2=\arg\min_{b\in\mathbb R^K}\|y-Xb\|$$
解为
$$\hat \beta:=(X'X)^{-1}X'y$$
令$P$和$M$为关于$X$的投影和歼灭：
$$P:=X(X'X)^{-1}X' \ \text{and} \ M:=I-P$$
拟合值向量：
$$\hat y:=X\hat\beta=Py$$
残差向量：
$$\hat u:=y-\hat y=y-Py=My$$

## 7. Orthogonalization and Decomposition
下面探讨线性独立与正交化的关系。
### Gram-Schmidt Orthogonalization
**定理** 对于每个线性独立集$\{x_1,...,x_k\}\subset\mathbb R^n$，存在标准正交集$\{u_1,...,u_k\}$
$$\text{span}\{x_1,...,x_k\}=\text{span}\{u_1,...,u_k\}\ \text{for} \ i=1,...,k$$

**格兰-施密特正交化**
创建正交集的方法
- 1. 设$v_1=x_1$
- 2. 对于$i\neq 2$，设$v_i:=\hat E_{S_{i=1}^\perp}x_i$，$u_i:=v_i/\|v_i\|$

### QR Decomposition
**定理** 列向量线性不相关的矩阵$X_{n\times k}$，存在$X=QR$，其中：

- $R_{k\times k}$上三角，非奇异
- $Q_{n\times k}$有标准正交列向量

### Linear Regression via QR Decomposition
$$y=X\beta$$
$$\hat\beta=(X'X)^{-1}X'y$$
$$X=QR$$
$$
\begin{aligned}
\hat\beta & =(R'Q'QR)^{-1}R'Q'y \\
& = (R'R)^{-1}R'Q'y \\
& = R^{-1}(R')^{-1}R'Q'y=R^{-1}Q'y
\end{aligned}
$$

## 8.Exercises
### Exercise 3
使用格兰-施密特正交化方法，投影矩阵$P:=X(X'X)^{-1}X'$，并且使用$QR$分解，解出$y$在$X$列空间上的线性投影。$y:=\begin{pmatrix}
1 \\
3\\
-3
\end{pmatrix}$，$X:=\begin{pmatrix}
1 & 0 \\
0 & -6 \\
2 & 2
\end{pmatrix}
$

In [1]:
import numpy as np
def gram_schmidt(X):
    """
    Implements Gram-Schmidt orthogonalization.
    Parameters
    ----------
    X : an n x k array with linearly independent columns
    Returns
    -------
    U : an n x k array with orthonormal columns
    """
    # Set up
    n, k = X.shape
    U = np.empty((n, k))
    I = np.eye(n)
    # The first col of U is just the normalized first col of X
    v1 = X[:,0]
    U[:, 0] = v1 / np.sqrt(np.sum(v1 * v1))
    for i in range(1, k):
        # Set up
        b = X[:,i] # The vector we're going to project
        Z = X[:, 0:i] # first i-1 columns of X
        # Project onto the orthogonal complement of the col span of Z
        M = I - Z @ np.linalg.inv(Z.T @ Z) @ Z.T  # M=I-Z(Z'Z)^{-1}Z'
        u = M @ b
        # Normalize
        U[:,i] = u / np.sqrt(np.sum(u * u))
    return U

将向量及矩阵带入

In [2]:
y = [1, 3, -3]
X = [[1, 0],
     [0, -6],
     [2, 2]]
X, y = [np.asarray(z) for z in (X, y)]

普通矩阵表示法下的y在列向量空间X上的投影

In [3]:
Py1 = X @ np.linalg.inv(X.T @ X) @ X.T @ y
Py1

array([-0.56521739,  3.26086957, -2.2173913 ])

格兰-施密特正交化方法下的y在列向量空间X上的投影

In [4]:
U = gram_schmidt(X)
U

array([[ 0.4472136 , -0.13187609],
       [ 0.        , -0.98907071],
       [ 0.89442719,  0.06593805]])

In [5]:
Py2 = U @ U.T @ y
Py2

array([-0.56521739,  3.26086957, -2.2173913 ])

结果一样！再用QR分解法来验证结果

In [6]:
from scipy.linalg import qr
Q, R = qr(X, mode='economic')
Q

array([[-0.4472136 , -0.13187609],
       [-0.        , -0.98907071],
       [-0.89442719,  0.06593805]])

In [7]:
Py3 = Q @ Q.T @ y
Py3

array([-0.56521739,  3.26086957, -2.2173913 ])

结果依旧一样