# 随机向量的协方差矩阵

### I. 符号
假设：多维随机变量x，维度为d，样本数量为n。
1. 随机向量可以表示为列向量：
$$X = (X_1, X_2, ..., X_k, ..., X_d)^T$$
2. 随机向量的样本：
<font color=red>注：样本的排序和向量不同，单个样本是一个行向量。这样处理是为了和pytorch中一致。</font>
$$Sample_n = \begin{pmatrix}
－& x_{\cdot 1} & －\\
－& x_{\cdot 2} & －\\
&  ...   &  \\
－& x_{\cdot i} & －\\
&  ...   & \\
－& x_{\cdot n} & －  
\end{pmatrix}$$
$$x_{\cdot i} = (x_{1i}, x_{2i}, ..., x_{di}) ，表示第i个样本，简记为x_i$$
$$x_{k\cdot } = \begin{pmatrix}
x_{k1} \\
x_{k2}  \\
... \\
x_{kn} 
\end{pmatrix}， 表示第k个维度的所有样本$$

### II. 随机变量(X是scalar)的方差
$k\in (1, d), j\in (1, d)$是x中两个不同维度的index。有$$\begin{align}
Var(X_k) &=E(X_k-E(X_k))^2   \\
估计量&：\frac{1}{n}{\textstyle \sum_{i=i}^{n}} (x_{ki}-\bar x_k)^2 \\
\\
Cov(X_k, X_j) &= E(X_k-E(X_k))(X_j-E(X_j)) \\
估计量&： \frac{1}{n}{\textstyle \sum_{i=i}^{n}} (x_{ki}-\bar x_k)(x_{ji}-\bar x_j)\\ 
\end{align}$$

### III. 随机向量的方差和协方差矩阵
随机向量的协方差矩阵（covariance matrix：Cov(X)）也称为随机变量的方差（Variance of random vector x: Var(X)，统一记为：S \
<font color=red>协方差矩阵也称随机向量的方差，因为它是将随机变量的方差概念一般化到随机向量而得到的结果。</font>
#### 1. 定义
a square matrix giving the covariance between each pair of elements of a given random vector. 
$$\begin{align}
S & = \begin{pmatrix}
 Var(X_1) & Cov(X_1,X_2)  &  ... & Cov(X_1,X_d)\\
 Cov(X_2,X_1) &  Var(X_2)  &  ... & Cov(X_2,X_d)\\
 ... &  ... &  ... & ...\\
 Cov(X_k,X_1) & Cov(X_k,X_2) &   ... & Cov(X_k,X_d)\\
 ... & ... &  ... & ...\\
 Cov(X_d,X_1) & Cov(X_d,X_2) & ... & Var(X_d)
\end{pmatrix}\\
\\
& = E\begin{pmatrix}
 (X_1-EX_1)(X_1-EX_1) & (X_1-EX_1)(X_2-EX_2) &  ... & (X_1-EX_1)(X_d-EX_d)\\
 (X_2-EX_2)(X_1-EX_1) & (X_2-EX_2)(X_2-EX_2) &  ... & (X_2-EX_2)(X_d-EX_d)\\
 ... &  ... &  ... & ...\\
 (X_k-EX_k)(X_1-EX_1) & (X_k-EX_k)(X_2-EX_2) &   ... & (X_k-EX_k)(X_d-EX_d)\\
 ... & ... &  ... & ...\\
 (X_d-EX_d)(X_1-EX_1) & (X_d-EX_d)(X_2-EX_2) & ... & (X_d-EX_d)(X_d-EX_d)
\end{pmatrix}\\
\\
& = E\left ( \begin{pmatrix}
(X_1-EX_1) \\
(X_2-EX_2) \\
 ...\\
(X_d-EX_d)
\end{pmatrix} * ((X_1-EX_1), (X_2-EX_2), ..., (X_d-EX_d))\right ) \\
& = E(X-EX)(X-EX)^T
\end{align}$$


#### 2. 统计量：样本方差矩阵
$$\begin{align}
S_n & = \begin{pmatrix}
 Var(X_1) & Cov(X_1,X_2)  &  ... & Cov(X_1,X_d)\\
 Cov(X_2,X_1) &  Var(X_2)  &  ... & Cov(X_2,X_d)\\
 ... &  ... &  ... & ...\\
 Cov(X_d,X_1) & Cov(X_d,X_2) & ... & Var(X_d)
\end{pmatrix} \\
\\
& = \begin{pmatrix}
\frac{1}{n} {\textstyle \sum_{i}^{}} (x_{1i}-\bar x_1)(x_{1i}-\bar x_1)& \frac{1}{n} {\textstyle \sum_{i}^{}} (x_{1i}-\bar x_1)(x_{2i}-\bar x_2)  &  ... &\frac{1}{n}{\textstyle \sum_{i}^{}} (x_{1i}-\bar x_1)(x_{di}-\bar x_d)\\
\frac{1}{n} {\textstyle \sum_{i}^{}} (x_{2i}-\bar x_2)(x_{1i}-\bar x_1)&  \frac{1}{n} {\textstyle \sum_{i}^{}} (x_{2i}-\bar x_2)^(x_{2i}-\bar x_2)  &  ... &\frac{1}{n}{\textstyle \sum_{i}^{}} (x_{2i}-\bar x_2)(x_{di}-\bar x_d)\\
 ... &  ... &  ... & ...\\
\frac{1}{n} {\textstyle \sum_{i}^{}} (x_{di}-\bar x_d)(x_{1i}-\bar x_1)& \frac{1}{n} {\textstyle \sum_{i}^{}} (x_{di}-\bar x_d)(x_{2i}-\bar x_2)  & ... & \frac{1}{n} {\textstyle \sum_{i}^{}} (x_{di}-\bar x_d)(x_{di}-\bar x_d)
\end{pmatrix} \\
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}\begin{pmatrix}
 (x_{1i}-\bar x_1)(x_{1i}-\bar x_1)&  (x_{1i}-\bar x_1)(x_{2i}-\bar x_2)  &  ... &(x_{1i}-\bar x_1)(x_{di}-\bar x_d)\\
 (x_{2i}-\bar x_2)(x_{1i}-\bar x_1)&  (x_{2i}-\bar x_2)^(x_{2i}-\bar x_2)  &  ... &(x_{2i}-\bar x_2)(x_{di}-\bar x_d)\\
 ... &  ... &  ... & ...\\
 (x_{di}-\bar x_d)(x_{1i}-\bar x_1)& (x_{di}-\bar x_d)(x_{2i}-\bar x_2)  & ... & (x_{di}-\bar x_d)(x_{di}-\bar x_d)
\end{pmatrix} 
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}\begin{pmatrix}
(x_{1i}-\bar x_1) \\
 (x_{2i}-\bar x_2) \\
 ...\\
 (x_{di}-\bar x_d)
\end{pmatrix}\begin{pmatrix}
 (x_{1i}-\bar x_1) &  (x_{2i}-\bar x_2) & ... &  (x_{di}-\bar x_d)
\end{pmatrix}
\\
& = \frac{1}{n}{\textstyle \sum_{i}^{}}(x_i-\bar x_i )(x_i-\bar x_i)^T
\end{align}
$$

#### 3. 随机向量(样本)的协方差矩阵的性质
<font color=red>下面的S实际上指的是样本方差矩阵，也就是前面的$S_n$</font>
1. 对称矩阵S的谱定理（4条）\
① S有n个实特征值 \
② 每个特征值$\lambda_i$的特征子空间的维数 = $\lambda_i$作为特征方程$Ax=\lambda x$的根的重数。 \
③ 不同特征值对应的特征子空间相互正交 \
④ S可以正交对角化

2. <font color=blue>**S是p维对称矩阵, 因此可以正交对角化：**</font>
$$\begin{align} 
S_{p*p} & = G^T\Lambda G \\
&  =  \begin{pmatrix}
 | & | &  & |\\
 g_1 & g_2 & ... & g_p\\
 | & | &  &|
\end{pmatrix}\begin{pmatrix}
 \lambda_1 & 0 & ... & 0  \\
 0 & \lambda_2 &  & 0  \\
  &  & ... &   \\
 0 & 0 & ... & \lambda_p  
\end{pmatrix}\begin{pmatrix}
－& g_1^T & －\\
－& g_2^T &－ \\
－& ... & \\
－& g_p^T & － 
\end{pmatrix}  \\
& = \lambda _1g_1g_1^T + \lambda _2g_2g_2^T + ... + \lambda _pg_pg_p^T  \\
& =  {\textstyle \sum_{i=1}^{p}} \lambda _ig_ig_i^T  \\
& 其中，G^TG =I_p, \lambda_1>\lambda_2>...>\lambda_p
\end{align}$$

3. **center matrix: H** \
取<font color=blue>$H=(I_n-\frac{1}{n}1_n1_n^T)$</font>，有以下性质：\
<font color=green>a. $\begin{align}
& S = \frac{1}{n}\ {\textstyle \sum_{i=1}^{n}}(x_i-\bar x)(x_i-\bar x)^{T} = \frac{1}{n}X^THX
\end{align}$ \
b. $H =H^T, H =H^2=H^n$ \
c. $HX=X-\bar X$，因此，H称为center matrix
</font>