## 导数和微分

* 在深度学习中，我们通常选择对于模型参数可微的损失函数
* 简而言之，对于每个参数，如果我们把这个参数*增加*或*减少*一个无穷小的量，我们可以知道损失会以多快的速度增加或减少

函数$f: \mathbb{R} \rightarrow \mathbb{R}$

$$f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h}.$$

* 如果$f'(a)$存在，则称$f$在$a$处是*可微*（differentiable）的
* 如果$f$在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的

## 偏导数

* 在深度学习中，函数通常依赖于许多变量
* *多元函数*（multivariate function）






$y$关于$x_i$的*偏导数*（partial derivative）为：

$$ \frac{\partial y}{\partial x_i} = \lim_{h \rightarrow 0} \frac{f(x_1, \ldots, x_{i-1}, x_i+h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}.$$

为了计算$\frac{\partial y}{\partial x_i}$，
我们可以简单地将$x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_n$看作常数，
并计算$y$关于$x_i$的导数。

## 梯度

* 函数$f:\mathbb{R}^n\rightarrow\mathbb{R}$
* 函数$f(\mathbf{x})$相对于$\mathbf{x}$的梯度是一个包含$n$个偏导数的向量:

$$\nabla_{\mathbf{x}} f(\mathbf{x}) = \bigg[\frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \ldots, \frac{\partial f(\mathbf{x})}{\partial x_n}\bigg]^T$$


## Derivative and gradient

* $f:\mathbb{R}^n\to\mathbb{R}^m$

the *first-order approximation* of $f$ at (or near) $x$

\begin{equation*}
    f(x)+Df(x)(z-x)
\end{equation*}

* the shape of $Df(x)$ should be $\mathbb{R}^{m\times n}$
* $D(f)_{ij}=\tfrac{\partial f_i(x)}{\partial x_j}$





* 
$$\begin{equation*}
    f(x)+\nabla f(x)^T(z-x)
\end{equation*}$$

* $\nabla f(x)=Df(x)^T$.

假设$\mathbf{x}$为$n$维向量，在微分多元函数时经常使用以下规则:

* 对于所有$\mathbf{A} \in \mathbb{R}^{m \times n}$，都有$D \mathbf{A} \mathbf{x} = \mathbf{A}$
* 对于所有$\mathbf{A} \in \mathbb{R}^{n \times n}$，那么$D \mathbf{x}^T \mathbf{A} \mathbf{x}$为多少

课堂思考提示：
* 定义$\mathbf{y}=\mathbf{A}\mathbf{x}$
* $\mathbf{x}^T \mathbf{A} \mathbf{x}=\mathbf{x}^T \mathbf{y}$
* Product rule $(fg)'=f'g+fg'$
* $\mathbf{x}^T(\mathbf{A}^T + \mathbf{A})$

* $\nabla_{\mathbf{x}} \|\mathbf{x} \|^2 = \nabla_{\mathbf{x}} \mathbf{x}^T \mathbf{x} = 2\mathbf{x}$
* 6\_矩阵计算.pdf的第5页：样例

注意$\langle\mathbf{u},\mathbf{v}\rangle=\mathbf{u}^T\mathbf{v}$

## 练习

7\_自动求导.pdf的第2页：例子1


## 练习

1. 求函数$f(\mathbf{x}) = 3x_1^2 + 5e^{x_2}$的梯度。
1. 函数$f(\mathbf{x}) = \|\mathbf{x}\|_2$的梯度是什么？

提示：考虑$y=\|\mathbf{x}\|^2$，所以，$f(\mathbf{x})=\sqrt{y}$