# 随机向量的协方差矩阵

## I. 协方差矩阵的符号表示
### 1.1 随机向量的表示
假设：多维随机向量$X\in R^d$，有n个样本，记为$x_i,i\in \{1, 2, ..., n\}$。
1. 随机向量可以表示为列向量：
$$
X = (X_1, X_2, ..., X_k, ..., X_d)^T=\begin{pmatrix}
X_1 \\
X_2 \\
... \\
X_d
\end{pmatrix}
$$
2. 随机向量的样本：\
(1)样本矩阵 \
<font color=red>注：样本的排序和向量不同，单个样本是一个行向量。这样处理是为了和pytorch中一致。</font>
$$
Samples_{n*d} = \begin{pmatrix}
－& x_{1} & －\\
－& x_{2} & －\\
&  ...   &  \\
－& x_{i} & －\\
&  ...   & \\
－& x_{n} & －  
\end{pmatrix}= \begin{pmatrix}
 x_{11}, x_{12},..., x_{1j},..., x_{1d} \\
 x_{21}, x_{22},..., x_{2j},..., x_{2d} \\
...  \\
 x_{i1}, x_{i2},..., x_{ij},..., x_{id} \\
... \\
 x_{n1}, x_{n2},..., x_{nj},..., x_{nd} 
\end{pmatrix}
$$
(2)单个样本：第i个样本记为$x_i$，$i\in \{1, 2, ..., n\}$
$$x_{ i} = (x_{i1}, x_{i2}, ..., x_{id}) $$
(3)1个维度的所有样本：第k和第j个维度记为$x_{\cdot k},x_{\cdot j}。k,j\in \{1, 2, ..., d\}$
$$x_{\cdot k} = \begin{pmatrix}
x_{1k} \\
x_{2k}  \\
... \\
x_{nk} 
\end{pmatrix}，x_{\cdot j} = \begin{pmatrix}
x_{1j} \\
x_{2j}  \\
... \\
x_{nj} 
\end{pmatrix}， 表示第k和第j两个维度的所有样本$$

### 1.2 随机变量(scalar)的方差和协方差
$k,j\in \{1, 2, ..., d\}$是x中两个不同维度的index。有$$\begin{align}
Var(X_k) &=E(X_k-E(X_k))^2   \\
估计量：\hat{Var}(X_k)&=\frac{1}{n}{\textstyle \sum_{i=1}^{n}} (x_{ik}-\bar x_k)^2 \\
\\
Cov(X_k, X_j) &= E(X_k-E(X_k))(X_j-E(X_j)) \\
估计量：\hat{Cov}(X_k,X_j)&= \frac{1}{n}{\textstyle \sum_{i=1}^{n}} (x_{ik}-\bar x_k)(x_{ij}-\bar x_j)\\ 
\end{align}$$

### 1.3 随机向量的方差和协方差矩阵
随机向量的协方差矩阵（covariance matrix：Cov(X)）也称为随机变量的方差（Variance of random vector x: Var(X)，统一记为：S \
<font color=red>协方差矩阵也称随机向量的方差，因为它是将随机变量的方差概念一般化到随机向量而得到的结果。</font>
#### 1. 定义
a square matrix giving the covariance between each pair of elements of a given random vector. 
$$\begin{align}
S_{n,d*d} & = \begin{pmatrix}
 Var(X_1) & Cov(X_1,X_2)  &  ... & Cov(X_1,X_d)\\
 Cov(X_2,X_1) &  Var(X_2)  &  ... & Cov(X_2,X_d)\\
 ... &  ... &  ... & ...\\
 Cov(X_k,X_1) & Cov(X_k,X_2) &   ... & Cov(X_k,X_d)\\
 ... & ... &  ... & ...\\
 Cov(X_d,X_1) & Cov(X_d,X_2) & ... & Var(X_d)
\end{pmatrix}\\
\\
& = E\begin{pmatrix}
 (X_1-EX_1)(X_1-EX_1) & (X_1-EX_1)(X_2-EX_2) &  ... & (X_1-EX_1)(X_d-EX_d)\\
 (X_2-EX_2)(X_1-EX_1) & (X_2-EX_2)(X_2-EX_2) &  ... & (X_2-EX_2)(X_d-EX_d)\\
 ... &  ... &  ... & ...\\
 (X_k-EX_k)(X_1-EX_1) & (X_k-EX_k)(X_2-EX_2) &   ... & (X_k-EX_k)(X_d-EX_d)\\
 ... & ... &  ... & ...\\
 (X_d-EX_d)(X_1-EX_1) & (X_d-EX_d)(X_2-EX_2) & ... & (X_d-EX_d)(X_d-EX_d)
\end{pmatrix}\\
\\
& = E\left ( \begin{pmatrix}
(X_1-EX_1) \\
(X_2-EX_2) \\
 ...\\
(X_d-EX_d)
\end{pmatrix} * ((X_1-EX_1), (X_2-EX_2), ..., (X_d-EX_d))\right ) \\
\\
& = E(X-EX)(X-EX)^T
\end{align}$$


#### 2. 统计量：样本方差矩阵
$$\begin{align}
S_n & = \begin{pmatrix}
\hat{Var}(X_1) & \hat{Cov}(X_1,X_2)  &  ... & \hat{Cov}(X_1,X_d)\\
\hat{Cov}(X_2,X_1) &   \hat{Var}(X_2)  &  ... & \hat{Cov}(X_2,X_d)\\
 &  ... &   & \\
\hat{Cov}(X_d,X_1) & \hat{Cov}(X_d,X_2) & ... &  \hat{Var}(X_d)
\end{pmatrix} \\
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}\begin{pmatrix}
 (x_{i1}-\bar x_1)(x_{i1}-\bar x_1)&  (x_{i1}-\bar x_1)(x_{i2}-\bar x_2)  &  ... &(x_{i1}-\bar x_1)(x_{id}-\bar x_d)\\
 (x_{i2}-\bar x_2)(x_{i1}-\bar x_1)&  (x_{i2}-\bar x_2)(x_{i2}-\bar x_2)  &  ... &(x_{i2}-\bar x_2)(x_{id}-\bar x_d)\\
 ... &  ... &  ... & ...\\
 (x_{id}-\bar x_d)(x_{i1}-\bar x_1)& (x_{id}-\bar x_d)(x_{i2}-\bar x_2)  & ... & (x_{id}-\bar x_d)(x_{id}-\bar x_d)
\end{pmatrix}  \\
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}\begin{pmatrix}
(x_{i1}-\bar x_1) \\
 (x_{i2}-\bar x_2) \\
 ...\\
 (x_{id}-\bar x_d)
\end{pmatrix}\begin{pmatrix}
 (x_{i1}-\bar x_1) &  (x_{i2}-\bar x_2) & ... &  (x_{id}-\bar x_d)
\end{pmatrix} \\
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}(x_i-\bar x_i )^T(x_i-\bar x_i)
\end{align}
$$<font color=red>注：最后一步中$x_i$在pytorch中是1*d维行向量，所以要转置。</font>

## II. 协方差矩阵的性质

### 2.1 对称矩阵的谱定理（4条）
<font color=blue>对称矩阵(Symmetric matrix,简记为S)</font>
1. S有n个实特征值
2. 每个特征值$\lambda_i$的特征子空间的维数 = $\lambda_i$作为特征方程$Ax=\lambda x$的根的重数。
3. 不同特征值对应的特征子空间相互正交
4. S可以正交对角化

### 2.2 随机向量(样本)的协方差矩阵的关键性质
1. 协方差矩阵是对阵矩阵 \
<font color=red>注意符号：下面S指样本方差矩阵，也就是前面的$S_n$</font>
2. 协方差矩阵是半正定矩阵

## III. 协方差矩阵的Factorization
### 3.1 正交对角化
2. <font color=blue>**S是p维对称矩阵, 因此可以正交对角化：**</font>
$$\begin{align} 
S_{p*p} & = G^T\Lambda G \\
&  =  \begin{pmatrix}
 | & | &  & |\\
 g_1 & g_2 & ... & g_p\\
 | & | &  &|
\end{pmatrix}\begin{pmatrix}
 \lambda_1 & 0 & ... & 0  \\
 0 & \lambda_2 &  & 0  \\
  &  & ... &   \\
 0 & 0 & ... & \lambda_p  
\end{pmatrix}\begin{pmatrix}
－& g_1^T & －\\
－& g_2^T &－ \\
－& ... & \\
－& g_p^T & － 
\end{pmatrix}  \\
& = \lambda _1g_1g_1^T + \lambda _2g_2g_2^T + ... + \lambda _pg_pg_p^T  \\
& =  {\textstyle \sum_{i=1}^{p}} \lambda _ig_ig_i^T  \\
& 其中，G^TG =I_p, \lambda_1>\lambda_2>...>\lambda_p
\end{align}$$

3. <font color=blue>**center matrix: H**</font> \
取<font color=blue>$H=(I_n-\frac{1}{n}1_n1_n^T)$</font>，有以下性质：\
⑴ <font color=green>$\begin{align}
& S = \frac{1}{n}\ {\textstyle \sum_{i=1}^{n}}(x_i-\bar x)(x_i-\bar x)^{T} = \frac{1}{n}X^THX
\end{align}$ </font>\
⑵ $H =H^T, H =H^2=H^n$ \
⑶ $HX=X-\bar X$，因此，H称为center matrix
