# 深度学习"圣经" | 第二章 线性代数

>深度学习领域圣经，英文原版的三位作者 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 

本人仅对中文版深度学习书中，提炼笔记，添加个人理解，该笔记仅作为个人深度学习知识的学习、总结、复习使用。若有错误，还望批评指教。----ZJ

中文版 2017-09-04 版 pdf (PDF 阅读器打开 55)

第二章内容：中文版 P27 -，英文版 P31 -

---

## Chapter 2 Linear Algebra

### 2.1 标量、向量、矩阵和张量


学习线性代数，会涉及以下几类数学概念：

- 标量（scalar）：一个标量就是一个单独的数。
- 向量（vector）：一个向量是一列数。
    - $$ x=\begin{bmatrix} x_1\\ x_2\\\vdots\\x_n \end{bmatrix}.\tag{2.1}$$
- 矩阵（matrix）：矩阵是一个二维数组，其中的每一个元素被两个索引（而非一个）所确定。


### 2.2 矩阵和向量相乘

- 逐元乘积 （element-wise product）：

    两个矩阵的标准乘积不是指两个矩阵中对应元素的乘积。不过，那样的矩阵操作确实是存在的，被称为元素对应乘积（element-wise product）或者Hadamard 乘积（Hadamard product），记为 A ⊙ B。


- 点积（dot product）：

    两个相同维数的向量 x 和 y 的点积（dot product）可看作是矩阵乘积 $x^⊤y$。

矩阵乘积运算有许多有用的性质，从而使矩阵的数学分析更加方便。比如，矩阵乘积服从分配律：

两个向量的点积（dot product）满足交换律：

两个向量点积的结果是标量，标量转置是自身的事实

### 2.3 单位矩阵和逆矩阵 

单位矩阵（identity matrix）：任意向量和单位矩阵相乘，都不会改变。
 我们将保持 $n$ 维向量不变的单位矩阵记作 $I_{n}$。 形式上，$I_{n}\in  R^{n\times n}$，
 
 \begin{equation}
    \forall \Vx \in \SetR^{n}, I_{n} x = x.
\end{equation}

矩阵$A$的矩阵逆记作$A^{-1}$，其定义的矩阵满足如下条件

\begin{equation} A^{-1}A = I_{n}. \end{equation}


\begin{gather}
Ax=b  
A^{-1}Ax = A^{-1}b  
I_{n} \Vx=A^{-1}b  
x=A^{-1}b. 
\end{gather}


### 2.4 线性相关和生成子空间


\begin{equation}
\MA \Vx = \sum_i x_i \MA_{:,i}.
\end{equation}

线性组合（linear combination）

\begin{equation}
    \sum_i \Sc_i \Vv^{(i)}.
\end{equation}

一组向量的生成子空间（span）是原始向量线性组合后所能抵达的点的集合。

确定$\MA\Vx=\Vb$是否有解相当于确定向量$\Vb$是否在$\MA$列向量的生成子空间中。 这个特殊的生成子空间被称为$\MA$的列空间或者$\MA$的值域。

P61 (pdf)有点晕，找个相关视频看看

这种冗余被称为线性相关（linear dependence）。如果一组向量中的任意一个向量都不能表示成其他向量的线性组合，那么这组向量称为线性无关（linearly independent）。

这意味着该矩阵必须是一个方阵（square），即 m = n，并且所有列
向量都是线性无关的。一个列向量线性相关的方阵被称为奇异的（singular）。


### 2.5 范数

**$L^p$ 范数：**


有时我们需要衡量一个向量的大小。在机器学习中，我们经常使用被称为 范数（norm）的函数衡量向量大小。形式上，$L^p$ 范数定义如下

$$||x||_p = (\sum_{i}|x_{i}|^p)^{\frac{1}{p}}\tag{2.30} $$

其中  $p ∈\mathbb{R}，p ≥ 1$。

范数（包括 $L^p$ 范数）是将向量映射到非负值的函数。 直观上来说，向量 $x$ 的范数衡量从原点到点 $x$ 的距离。 更严格地说，范数是满足下列性质的任意函数：

- $f(x) = 0 \Rightarrow x = \mathbf{0}$
- $f(x + y) \leq f(x) + f(y)$ （三角不等式）
- $\forall \alpha \in \mathbb{R}$, $f(\alpha x) =	\alpha	f(x)$

**$L^2$ 范数：**

当$p=2$时，$L^2$范数被称为欧几里得范数。 它表示从原点出发到向量 $x$ 确定的点的欧几里得距离。 $L^2$范数在机器学习中出现地十分频繁，经常简化表示为$||x||$，略去了下标$2$。 平方$L^2$范数也经常用来衡量向量的大小，可以简单地通过点积 $x^Tx$计算。

平方$L^2$范数在数学和计算上都比$L^2$范数本身更方便。 例如，平方$L^2$范数对$x$中每个元素的导数只取决于对应的元素，而$L^2$范数对每个元素的导数却和整个向量相关。 但是在很多情况下，平方$L^2$范数也可能不受欢迎，因为它在原点附近增长得十分缓慢。 

**$L^1$ 范数：**

在某些机器学习应用中，区分恰好是零的元素和非零但值很小的元素是很重要的。 在这些情况下，我们转而使用在各个位置斜率相同，同时保持简单的数学形式的函数：$L^1$范数。 $L^1$范数可以简化如下：

$$\lVert{x}_1\rVert = \sum_i  |x_i|.\tag{2.31}$$


当机器学习问题中零和非零元素之间的差异非常重要时，通常会使用 $L^1$ 范数。 每当$x$中某个元素从 $0$ 增加 $\epsilon$，对应的$L^1$范数也会增加 $\epsilon$。

**$L^0$ 范数：**

有时候我们会统计向量中非零元素的个数来衡量向量的大小。 有些作者将这种函数称为”$L^0$范数”，但是这个术语在数学意义上是不对的。 向量的非零元素的数目不是范数，因为对向量缩放$\alpha$倍不会改变该向量非零元素的数目。 **$L^1$范数经常作为表示非零元素数目的替代函数。**

**$L^\infty$范数：**

另外一个经常在机器学习中出现的范数是$L^\infty$范数，也被称为\,最大范数（max
norm）。 这个范数表示向量中具有最大幅值的元素的绝对值：

$$  \lVert{x}_1\rVert _\infty = \max_i |x_i|.\tag{2.32}$$


**衡量矩阵的大小：**

有时候我们可能也希望衡量矩阵的大小。 在深度学习中，最常见的做法是使用 Frobenius 范数（Frobenius norm），

 $$\lVert A \rVert_F= \sqrt{\sum_{i,j} A_{i,j}^2}, $$


其类似于向量的$L^2$范数。

**两个向量的点积（dot product）可以用范数**来表示。 具体地，

$$  x^{\mathrm{T}}y =\lVert{x}\rVert_2\lVert{Y}\rVert_2 \cos \theta\tag{2.34}$$

其中 $\theta$ 表示 $x$ 和 $y$ 之间的夹角。


### 2.6 特殊类型的矩阵和向量

对角矩阵（diagonal matrix）：只在主对角线上含有非零元素，其他位置都是零。

我们用 diag(v) 表示一个对角元素由向量 v 中元素给定的对角方阵。

计算乘法 diag(v)x，我们只需要将 x 中的每个元素$x_i$放大$v_i$ 倍。换言之，diag(v)x = v ⊙ x。


对称（symmetric）矩阵是转置和自己相等的矩阵：

$A = A ^⊤ .$ 

单位向量（unit vector）是具有单位范数（unit norm）的向量：

$||x||_2 = 1.\tag{2.36}$ 

正交（orthogonal）:

如果 $x^⊤ y = 0$，那么向量 x 和向量 y 互相正交（orthogonal）。如果两个向量都有非零范数，那么这两个向量之间的夹角是 90 度。

标准正交（orthonormal）:

在 R n 中，至多有 n 个范数非零向量互相正交。如果这些向量不仅互相正交，并且范数都为 1，那么我们称它们是标准正交（orthonormal）。

正交矩阵（orthogonal matrix）是指行向量和列向量是分别标准正交的方阵：

\begin{equation}
    \MA^\top\MA=\MA\MA^\top=\MI.
\end{equation}


### 2.7 特征分解（补）


知乎：[如何理解矩阵特征值？](https://www.zhihu.com/question/21874816)https://www.zhihu.com/question/21874816


许多数学对象可以通过将它们分解成多个组成部分或者找到它们的一些属性而更好地理解，这些属性是通用的，而不是由我们选择表示它们的方式产生的。

整数可以分解为质因数。  12 = 2 × 2 × 3

正如我们可以通过分解质因数来发现整数的一些内在性质，我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。

特征分解（eigendecomposition）是使用最广的矩阵分解之一，即我们将矩阵分解成一组**特征向量和特征值。**


方阵 A 的**特征向量**（eigenvector）是指与 A 相乘后相当于对该向量进行缩放的非零向量 $v$：

$$Av = λv.$$

- 标量 λ 被称为这个特征向量对应的特征值（eigenvalue）


假设矩阵$A$有$n$个线性无关的特征向量${v^{(1)}, \dots, v^{(n)}}$，对应着特征值${\lambda_1, \dots , \lambda_n }$。 我们将特征向量连接成一个矩阵，使得每一列是一个特征向量：$V=[v^{(1)}, \dots, v^{(n)}]$. 类似地，我们也可以将特征值连接成一个向量$lambda = [\lambda_1, \dots , \lambda_n]^\top$。 因此$A$的特征分解可以记作

\begin{equation}
    A = V \text{diag}\lambda V^{-1}.
\end{equation}


然而，我们也常常希望将矩阵分解（decompose）成特征值和特征向
量。这样可以帮助我们分析矩阵的特定性质，就像质因数分解有助于我们理解整数。

**实对称矩阵都可以分解成实特征向量和实特征值：**

P66 找个视频看看

$$A = QΛQ^ ⊤$$ . (2.41)

### 2.8 奇异值分解 （补）

知乎：[奇异值的物理意义是什么？](https://www.zhihu.com/question/22237507)https://www.zhihu.com/question/22237507

另一种分解矩阵的方法，被称为奇异值分解（singular value decomposition, SVD），将矩阵分解为奇异向量（singular vector）和奇异值（singular value）。

特征分解：

$$A = Vdiag(λ)V^{−1}$$ . 

奇异值分解是类似的，只不过这回我们将矩阵 A 分解成三个矩阵的乘积：

$$A = UDV^⊤$$ .

假设 A 是一个 m×n 的矩阵，那么 U 是一个 m×m 的矩阵，D 是一个 m×n的矩阵，V 是一个 n × n 矩阵。

矩阵 U 和 V 都定义为正交矩阵，而矩阵 D 定义为对角矩阵。注意，矩阵 D 不一定是方阵。



### 2.9 Moore-Penrose 伪逆 （补）

CSDN:[Moore-Penrose广义逆矩阵](http://blog.csdn.net/theonegis/article/details/50964746)

Moore-Penrose 伪逆（Moore-Penrose pseudoinverse）使我们在这类问题上取得了一定的进展。矩阵 A 的伪逆定义为：




### 2.10 迹运算 （补）

迹运算返回的是矩阵对角元素的和：




### 2.11 行列式 

知乎：[行列式的本质是什么？](https://www.zhihu.com/question/36966326/answer/70687817)

行列式就是线性变换的放大率！

行列式，记作 det(A)，是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0，那么空间至少沿着某一维完全收缩了，使其失去了所有的体积。如果行列式是 1，那么这个转换保持空间体积不变。



### 2.12 实例：主成分分析 PCA （补）

知乎：[PCA的数学原理(转)](https://zhuanlan.zhihu.com/p/21580949)

[主成分分析PCA算法：为什么去均值以后的高维矩阵乘以其协方差矩阵的特征向量矩阵就是“投影”？](https://www.zhihu.com/question/30094611/answer/275172932)https://www.zhihu.com/question/30094611/answer/275172932

主成分分析（principal components analysis, PCA）是一个简单的机器学习算法，可以通过基础的线性代数知识推导。


