### 导数和微分

导数的计算是几乎所有深度学习优化算法的关键步骤。在深度学习中，通常选择对于模型参数可微的损失函数。

对于每个参数，如果我们把这个参数增加或减少一个无穷小的量，可以知道损失会以多快的速度增加或减少，

假设有函数$f:R \rightarrow R$，其输出和输入都是标量。如果$f$的导数存在，这个极限被定义为：
$$
f'(x) - \lim_{h\rightarrow0} \frac{f(x+h)-f(x)}{h}  \tag{1}
$$

如果$f'(a)$存在，则称$f$在`a`处是*可微*（differentiable）的。如果$f$在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的。

[公式（1）]()中的导数$f'(x)$解释为$f(x)$相对于`x`的瞬时（instantaneous）变化率。

定义 $ u = f(x) = 3x^2 - 4x $：

In [None]:
import numpy as np 
from matplotlib_inline import backend_inline

def f(x):
    return 3 * x ** 2 - 4 * x

通过令$x=1$并让`h`接近0，[公式（1）]()中$\frac{f(x+h)-f(x)}{h}$的数值结果接近2。

In [None]:
def numerical_lim(f, x, h):
    return (f(x+h) -f(x)) / h

h = 0.1
for i in range(5):
    print(f'h = {h:.5f}, numerical_limit = {numerical_lim(f, 1, h): .5f}')
    h *= 0.1


给定$y = f(x)$, 其中 `x` `y` 分别是函数$f$的自变量和因变量，如下表达式是等价的：
$$
f'(x) = y' = \frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx} f(x) = Df(x) = D_xf(x)   \tag{2}
$$

其中符号$\frac{d}{dx}$和$D$是*微分运算符*，表示*微分*操作。

可以使用如下规则来对常见函数求微分：
- $DC = 0$ (*C* 是一个常数)
- $Dx^n = nx^{x-1}$ (*幂律*（power rule）, n 是任意实数)
- $De^x = e^x$
- $Dln(x) = 1/x$