# 矩阵基础知识

## 矩阵基础

### 矩阵乘积

矩阵可以看成一系列列向量组成，或者是一系列行向量，每行向量可以被认为由列向量的转置构成。

矩阵AB的乘积可以看成一系列秩一矩阵的和：

$$AB=\sum_{i=1}^{n}\alpha_{i}\beta_{i}^{T}$$

其中$\alpha_{i}$是矩阵$A$的列向量，$\beta_{i}$是矩阵$B$的每行向量(列向量的转置)。

矩阵$A$与向量$b$的乘积$Ab$可以看成是矩阵A中列向量的一系列线性组合，类似于MIT线性代数中的column picture

矩阵$A$与向量$c$的乘积$c^{T}A$可以看成是矩阵A中行向量的一系列线性组合，类似于MIT线性代数中的row picture

### 矩阵空间和内积

可以在向量空间$\mathbb{R}^{m,n}$上定义内积，由此得到trace迹，迹求的是对角线元素的和，是线性运算符：

$$<A,B>=\text{trace}A^{T}B$$

内积可以诱导出Frobenius范数,实际上是矩阵所有元素的平方和再求平方根。

$$||A||_{F}=\sqrt{\text{trace}A^{T}A}$$

F范数实际上是矩阵向量化后的向量欧几里得范数。

## 矩阵与映射关系

### 矩阵与线性映射

矩阵可以被认为是一种线性映射操作，仿射是再加上常数项

$$f(x)=Ax+b$$

可以用矩阵代表的线性映射来近似非线性函数，如利用Hessian矩阵：

$$f=f(x_{0})+\nabla f(x_{0})^{T}(x-x_{0}) + \frac{1}{2}(x-x_{0})^{T}\nabla^{2}f(x_{0})(x-x_{0})$$

### 秩和零空间

矩阵的值域range是指：

$$\mathcal{R}(A)=\{Ax:x\in\mathbb{R}^{n}\}$$

可以看出range是一个子空间，子空间的维度是矩阵A的秩rank，矩阵的秩表示列线性无关的列向量的个数。

零空间nullspace：

$$\mathcal{N}(A)=\{x\in\mathbb{R}^{n}, Ax=0\}$$

### 线性代数基本定理

基本定理建立了矩阵的零空间和其转置的值域之间的关系，可以从以下关系简单推导出这一结果，对于$x\in\mathcal{R}(A^{T})$：

$$x^{T}z=(A^{T}y)^{T}z=y^{T}Az=0, \forall z\in\mathcal{N}(A)$$

因此$\mathcal{R}(A^{T})$和$\mathcal{N}(A)$是互相正交的空间(互为正交补空间)，而子空间的直和可以构造出整个空间，因此有以下定理：

$$\mathcal{N}(A)\oplus\mathcal{R}(A^{T})=\mathbb{R}^{n}$$
$$\mathcal{R}(A)\oplus\mathcal{N}(A^{T})=\mathbb{R}^{m}$$

等价于：
$$\text{dim}\mathcal{N}(A)+\text{rank}(A)=n$$
$$\text{dim}\mathcal{N}(A^{T})+\text{rank}(A)=m$$

这也说明了整个空间中的向量可以表示成零空间和空间$\mathcal{R}(A^{T})$和$\mathcal{R}(A)$中的向量和：
$$x=A^{T}\xi+z,z\in\mathcal{N}(A)$$
$$w=A\phi+\zeta, \zeta\in\mathcal{N}(A^{T})$$


## 特征值与行列式

### 线性映射的行为

矩阵表示的线性映射可以认为是从长度和方向两个层面上改变了原有向量的性质。

矩阵的行列式是一个实数，可以从平行四边形面积和体积的角度理解。

### 矩阵的逆

如果一个矩阵$\mathbb{R}^{n,n}$是非奇异的，那么可以定义矩阵的逆。对于非正方形的矩阵，不存在常规的逆，但是可以定义左逆和右逆。

#### 相似矩阵similar matrices

相似矩阵描述了两个矩阵之间的关系，他们是同一个线性映射的不同表示方法，完成这两个线性映射之间的转换需要进行一个基向量在潜在空间的线性映射，这个映射是通过一个非奇异矩阵P完成的。完整定义如下：

如果存在一个非奇异矩阵P满足：

$$B=P^{-1}AP$$

那么称A与B相似。(A与B在不同的基向量变换后，对应了相同的线性映射)

#### 特征值与特征向量

特征向量表示了在某个空间$C^{n}$上一系列角度不变的线性映射：
$$Au=\lambda u$$
$$(\lambda I_{n}-A)u=0$$

其中u为矩阵A的特征向量，$\lambda$为特征值

第二个等式也暗示了矩阵$(\lambda I_{n}-A)$是奇异的，可以用这个性质求解一个矩阵的特征值。

$$\text{det}(\lambda I_{n}-A)=0$$

等式左边的多项式可以认为是矩阵A的特征多项式。特征多项式的根可能是重根，也可能是一对共轭的复数根。对于特征值有以下代数基本定理成立：

任意的矩阵A都有n个特征值，记录特征值重复出现的次数为代数重数$\miu$(algebratic multiplicity)，对于k个不重复的特征值，它们组成了特征空间$\phi_{i}=\mathcal{N}(\lambda_{i}I_{n}-A)$，不同特征空间内的特征向量是线性独立的。

#### 矩阵对角化

矩阵对角化是指在一定假设条件下，可以使得一个方块矩阵与一个对角矩阵相似。有以下定理成立：

对于矩阵A的k个无重复特征值，用$\mu_{i}$表示它们的代数重数，对应特征空间$\phi_{i}=\mathcal{N}(\lambda_{i}I_{n}-A)$，构造一个矩阵$U^{i}=[u_{1}...u_{v_{i}}]$包含了空间$\phi_{i}$的所有基向量，其中$v_{i}=\text{dim}\phi_{i}$
