## 导数和微分

我们首先讨论导数的计算，这是几乎所有深度学习优化算法的关键步骤。
在深度学习中，我们通常选择对于模型参数可微的损失函数。
简而言之，对于每个参数，
如果我们把这个参数*增加*或*减少*一个无穷小的量，我们可以知道损失会以多快的速度增加或减少，

假设我们有一个函数$f: \mathbb{R} \rightarrow \mathbb{R}$，其输入和输出都是标量。
如果$f$的*导数*存在，这个极限被定义为

$$f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h}.$$

如果$f'(a)$存在，则称$f$在$a$处是*可微*（differentiable）的。
如果$f$在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的。

## 偏导数

在深度学习中，函数通常依赖于许多变量。
因此，我们需要将微分的思想推广到*多元函数*（multivariate function）上。






设$y = f(x_1, x_2, \ldots, x_n)$是一个具有$n$个变量的函数。
$y$关于第$i$个参数$x_i$的*偏导数*（partial derivative）为：

$$ \frac{\partial y}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.$$

为了计算$\frac{\partial y}{\partial x_i}$，
我们可以简单地将$x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n$看作常数，
并计算$y$关于$x_i$的导数。

## 梯度

我们可以连结一个多元函数对其所有变量的偏导数，以得到该函数的*梯度*（gradient）向量。
具体而言，设函数$f:\mathbb{R}^n\rightarrow\mathbb{R}$的输入是
一个$n$维向量$\mathbf{x}=[x_1,x_2,\ldots,x_n]^T$，并且输出是一个标量。
函数$f(\mathbf{x})$相对于$\mathbf{x}$的梯度是一个包含$n$个偏导数的向量:

$$\nabla_{\mathbf{x}} f(\mathbf{x}) = \bigg[\frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_n}\bigg]^T,$$

其中$\nabla_{\mathbf{x}} f(\mathbf{x})$通常在没有歧义时被$\nabla f(\mathbf{x})$取代。



## Derivative and gradient

the *first-order approximation* of $f$ at (or near) $x$

$$\begin{equation*}
    f(x)+Df(x)(z-x)
\end{equation*}$$

more on $Df(x)$. for $f:\mathbb{R}^n\to\mathbb{R}^m$. so $f(x)\in\mathbb{R}^m$, and $x\in\mathbb{R}^n$. So the shape of $Df(x)$ should be $\mathbb{R}^{m\times n}$.





if using gradient, the form is
$$\begin{equation*}
    f(x)+\nabla f(x)^T(z-x)
\end{equation*}$$

so you see $\nabla f(x)=Df(x)^T$.

假设$\mathbf{x}$为$n$维向量，在微分多元函数时经常使用以下规则:

* 对于所有$\mathbf{A} \in \mathbb{R}^{m \times n}$，都有$D \mathbf{A} \mathbf{x} = \mathbf{A}$
* 对于所有$\mathbf{A} \in \mathbb{R}^{n \times m}$，
考虑$\mathbf{x}^T\mathbf{A}$，因为其的结果为*行向量*，考虑对其进行转换$(\mathbf{x}^T\mathbf{A})^T=\mathbf{A}^T\mathbf{x}$，因此有$D \mathbf{A}^T \mathbf{x} = \mathbf{A}^T$


* 对于所有$\mathbf{A} \in \mathbb{R}^{n \times n}$，那么$D \mathbf{x}^T \mathbf{A} \mathbf{x}$为多少

思路：将$\mathbf{x}^T \mathbf{A} \mathbf{x}$理解为$\mathbf{x}^T (\mathbf{A} \mathbf{x})$，注意
$\mathbf{x}^T (\mathbf{A} \mathbf{x})=(\mathbf{A} \mathbf{x})^T\mathbf{x}$



结果为$\mathbf{x}^T(\mathbf{A} + \mathbf{A}^T)$

* $\nabla_{\mathbf{x}} \|\mathbf{x} \|^2 = \nabla_{\mathbf{x}} \mathbf{x}^T \mathbf{x} = 2\mathbf{x}$

同样，对于任何矩阵$\mathbf{X}$，都有$\nabla_{\mathbf{X}} \|\mathbf{X} \|_F^2 = 2\mathbf{X}$。

* 6\_矩阵计算.pdf的第5页：样例

注意$\langle\mathbf{u},\mathbf{v}\rangle=\mathbf{u}^T\mathbf{v}$

## 练习

7\_自动求导.pdf的第2页：例子1


## 练习

1. 求函数$f(\mathbf{x}) = 3x_1^2 + 5e^{x_2}$的梯度。
1. 函数$f(\mathbf{x}) = \|\mathbf{x}\|_2$的梯度是什么？

提示：考虑$y=\|\mathbf{x}\|^2$，所以，$f(\mathbf{x})=\sqrt{y}$