# 深度学习的数学基础

## 1 符号系统

### 1.1 数与数组
* $a \in \mathbb{R}$： 标量（实数）
* $\bm{a} \in \mathbb{R^{n}}$：向量（本篇向量均特指列向量）
* $\bm{A} \in \mathbb{R^{m \times n}}$：矩阵
* $\bf{A} \in \mathbb{R^{b \times c \times m \times n \times ...}}$：张量（batch 大小为 b，通道数为 c，行为 m，列为 n，...）
* $\bm{I_n}$：n 行 n 列的单位矩阵
* $\bm{I}$：维度蕴含于上下文的单位矩阵
* $diag(\bm{a})$：对角方阵，其中对角元素由向量 $\bm{a}$ 给定

### 1.2 集合
* $\mathbb{A}$：集合
* $\mathbb{R}$：实数集
* $\{0,1,\cdots,n\}$：包含从 0 到 n 的所有整数的集合
* $[a,b]$：包含 $a$ 和 $b$ 的实数区间
* $(a,b]$：不包含 $a$ 但包含 $b$ 的实数区间
* $\mathbb{A} \backslash \mathbb{B}$：集合 $\mathbb{A}$ 与集合 $\mathbb{B}$ 的差集

### 1.3 索引
* $a_i$：向量 $\bm{a}$ 的第 $i$ 个元素，索引从 1 开始
* $a_{-i}$：除了第 $i$ 个元素，向量的所有元素
* $A_{i,j}$：矩阵 $\bm{A}$ 的 ${i,j}$ 元素
* $\bm{A}_{i,:}$：矩阵 $\bm{A}$ 的第 ${i}$ 行
* $\bm{A}_{:,j}$：矩阵 $\bm{A}$ 的第 ${j}$ 列
* ${A}_{i,j,k}$：3 维张量 $\bm{A}$ 的 $({i,j,k})$ 元素
* $\mathbf{A}_{:,:,i}$：3 维张量的 2 维切片

### 1.4 线性代数
* $\bm{A}^{T}$：矩阵 $\bm{A}$ 的转置
* $\bm{A}^{-1}$：$\bm{A}$ 的逆
* $\bm{A} \odot \bm{B}$：$\bm{A}$ 和 $\bm{B}$ 的逐元素乘积
* $\det (\bm{A})$：$\bm{A}$ 的行列式

### 1.5 微积分
* $\frac{dy}{dx}$：$y$ 关于 $x$ 的导数
* $\frac{\partial y}{\partial x}$：$y$ 关于 $x$ 的偏导数
* $\nabla_{\bm{x}}y$：$y$ 关于 $\bm{x}$ 的梯度
* $\nabla_{\bm{X}}y$：$y$ 关于 $\bm{X}$ 的矩阵导数
* $\nabla_{\bf{X}}y$：$y$ 关于 $\bf{X}$ 求导后的张量
* $\frac{\partial{y}}{\partial{\bm x}}$：$f:\mathbb{R^{n}} \to \mathbb{R^{m}}$ 的 Jacobian 矩阵 $\bm{J} \in \mathbb{R^{m \times n}}$
* $\nabla_{\bm x}^{2}f(\bm x)$ or $\bm{H}(f)(\bm x)$：$f$ 在 $\bm x$ 处的 Hessian 矩阵
* $\int f(\bm x)d \bm x$：$\bm x$ 整个域上的定积分
* $\int_{\mathbb{S}} f(\bm x)d \bm x$：集合 $\mathbb S$ 上关于 $\bm x$ 的定积分

### 1.6 函数
* $f: \mathbb{A} \to \mathbb{B}$：定义域为 $\mathbb{A}$，值域为 $\mathbb{B}$ 的函数 $f$
* $f \circ g$：$f$ 和 $g$ 的复合
* $f(\bm x;\bm\theta)$：由 $\bm\theta$ 参数化，关于 $\bm x$ 的函数（有时为了简化表示，会忽略 $\bm\theta$ 而记为 $f(\bm x)$）
* $\left\|\bm{x}\right\|_p$：$\bm x$ 的 $L^p$ 范数
* $\left\|\bm{x}\right\|$：$\bm x$ 的 $L^2$ 范数

当自变量为标量的函数 $f$ 应用到一个向量、矩阵或张量时，表示逐元素地将 $f$ 应用。例如，$\bf{Y} = $ $f(\bf X)$，则对于所有合法的 $i,j,k$，$Y_{i,j,k}=f(X_{i,j,k})$

### 1.7 数据集和分布
* $p_{data}$：数据生成分布
* $\hat{p}_{train}$：由训练集定义的经验分布
* $\mathbb{X}$：训练样本的集合，第一个维度（比如矩阵的行数）表示样本个数
* $\bm{x}^{(i)}$：数据集的第 $i$ 个样本（输入）
* $y^{(i)}$ 或 $\bm{y}^{(i)}$：监督学习中与 $\bm{x}^{(i)}$ 关联的目标
* $\bm{X}$：$m \times n$ 的矩阵，其中行 $\bm{X}_{i,:}$ 为输入样本 $\bm x^{(i)}$

## 2 微积分必要知识
### 2.1 函数 $f:\mathbb{R}^{n}\to\mathbb{R}$ 的梯度
LaTex 各种矩阵表示见：https://zhuanlan.zhihu.com/p/266267223
$$
\bm{x} = \begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_n
\end{bmatrix},
\nabla_{\bm{x}} f = \begin{bmatrix}
\frac{\partial f}{\partial x_1} \\
\frac{\partial f}{\partial x_2} \\
\vdots \\
\frac{\partial f}{\partial x_n}
\end{bmatrix}
$$

### 2.2 函数 $f:\mathbb{R}^{n}\to\mathbb{R}$ 的 Hessian 矩阵（二阶偏导矩阵）
$$
\bm{H}(f)(\bm{x}) = \begin{bmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2 \partial x_n} \\
\vdots & \vdots & \ddots & \vdots \\
\frac{\partial^2 f}{\partial x_n \partial x_1} & \frac{\partial^2 f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2}
\end{bmatrix}_{n \times n}
$$

### 2.3 向量函数 $f:\mathbb{R}^{n}\to\mathbb{R}^{m}$ 的 Jacobian 矩阵（一阶偏导矩阵）
$$
\bm{x} = \left [ x_1,x_2,\cdots,x_n\right ]^{T},
\bm{f}(\bm{x}) = \left [ f_1(\bm{x}),f_2(\bm{x}),\cdots,f_m(\bm{x})\right ]^{T}
\\
\bm{J}_{m \times n} = \begin{bmatrix}
\frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \cdots & \frac{\partial f_1}{\partial x_n} \\
\frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \cdots & \frac{\partial f_2}{\partial x_n} \\
\vdots & \vdots & \ddots & \vdots \\
\frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n}
\end{bmatrix}_{m \times n}
$$

### 2.4 向量乘法的求导
* $y = \bm{w}^{T}\bm{x}$，$\nabla_{\bm{w}}y = \bm{x}$，$\nabla_{\bm{x}}y = \bm{w}$

### 2.5 矩阵乘向量的求导
* $\bm{y} = \bm{A}\bm{x}$，$\bm{J} = \nabla_{\bm{x}}\bm{y} = \bm{A}_{m \times n}$

### 2.6 二次型 $y = \bm{x}^T A \bm{x}$ 的求导
* $\nabla_{\bm{x}}y = (\bm{A}^T+\bm{A})\bm{x}$
* 证明：
    
    $y \in \mathbb{R}, \bm{A} \in \mathbb{R}^{n \times n}, \bm{x} \in \mathbb{R}^{n}$，<br>
    $$
    \bm{A}\bm{x} = \sum_{j=1}^{n} x_j \bm{A_{:,j}} = \left [\sum_{j=1}^{n} A_{1,j}x_j, \sum_{j=1}^{n} A_{2,j}x_j, \cdots, \sum_{j=1}^{n} A_{n,j}x_j\right ]^T,
    $$
    $$
    y = \bm{x}^T \bm{A} \bm{x} = \sum_{i=1}^{n}\left ( x_i\sum_{j=1}^{n} A_{i,j}x_j\right ) = \sum_{i=1}^{n}\sum_{j=1}^{n} A_{i,j}x_ix_j,
    $$
    $$
    \frac{\partial y}{\partial x_k} = \sum_{i=1}^{n} A_{i,k}x_i + \sum_{j=1}^{n} A_{k,j}x_j,
    $$
    $$
    \nabla_{\bm{x}}y = \begin{bmatrix}
    \sum_{i=1}^{n} A_{i,1}x_i + \sum_{j=1}^{n} A_{1,j}x_j, \\
    \sum_{i=1}^{n} A_{i,2}x_i + \sum_{j=1}^{n} A_{2,j}x_j, \\
    \vdots \\
    \sum_{i=1}^{n} A_{i,n}x_i + \sum_{j=1}^{n} A_{n,j}x_j
    \end{bmatrix}_{n \times 1} = \bm{A}^T\bm{x} + \bm{A}\bm{x}
    $$
    若 $\bm A$ 是对称阵，则 $\nabla_{\bm{x}}y = 2\bm A \bm x$。<br>
    证明结束。
    

### 2.7 $L^2$ 范数的求导
* $y = \left\| \bm{A}\bm{x}\right\|^2 = (\bm{A}\bm{x})^T\bm{A}\bm{x} = \bm{x}^T\bm{A}^T\bm{A}\bm{x}$。$\nabla_{\bm{x}}y = 2\bm{A}^T\bm{A}\bm{x}$，是$n \times 1$ 维的向量

## 3 线性代数


## 4 概率和信息论