## 求导拓展到一般形式(向量)
・标量链式法则
$$
y=f(u), u=g(x) \quad \frac{\partial y}{\partial x}=\frac{\partial y}{\partial u} \frac{\partial u}{\partial x}
$$
・拓展到向量
$$
\frac{\partial y}{\partial \mathbf{x}}=\frac{\partial y}{\partial u} \frac{\partial u}{\partial \mathbf{x}} \quad \frac{\partial y}{\partial \mathbf{x}}=\frac{\partial y}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}} \quad \frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\frac{\partial \mathbf{y}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}
$$

### 标量对向量求导的例子：
对于
$\mathbf{x}, \mathbf{w} \in \mathbb{R}^{n}，\quad y \in \mathbb{R}$ 
，目标函数$z=(\langle\mathbf{x}, \mathbf{w}\rangle-y)^{2}$

求 $\frac{\partial z}{\partial \mathbf{w}}$

解：
令
$$
\begin{aligned}
&a=\langle\mathbf{x}, \mathbf{w}\rangle \\
&b=a-y \\
&z=b^{2}
\end{aligned}
$$
则由链式求导法则可知：
$$
\begin{aligned}
\frac{\partial z}{\partial \mathbf{w}} &=\frac{\partial z}{\partial b} \frac{\partial b}{\partial a} \frac{\partial a}{\partial \mathbf{w}} \\
&=\frac{\partial b^{2}}{\partial b} \frac{\partial a-y}{\partial a} \frac{\partial\langle\mathbf{x}, \mathbf{w}\rangle}{\partial \mathbf{w}} \\
&=2 b \cdot 1 \cdot \mathbf{x}^{T} \\
&=2(\langle\mathbf{x}, \mathbf{w}\rangle-y) \mathbf{x}^{T}
\end{aligned}
$$

## 自动求导
> 深度学习框架通过自动计算导数，即自动求导（automatic differentiation），来加快繁琐的求导工作。实际中，根据我们设计的模型，系统会构建一个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动求导使系统能够随后反向传播梯度。 这里，反向传播（backpropagate）只是意味着跟踪整个计算图，填充关于每个参数的偏导数。

In [9]:
import torch

x = torch.arange(4.0)
# y = 2*torch.dot(x,x) 
# 想要求标量y对x向量的梯度

# 注：我们需要一个地方来存储梯度。 重要的是，我们不会在每次对一个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数

x.requires_grad_(True)  # 等价于 `x = torch.arange(4.0, requires_grad=True)`
x.grad  # 默认值是None 对x的梯度将会保存在这里面
y = 2 * torch.dot(x, x)
y.backward()  # 调用反向传播函数  可自动计算y关于x每个分量的梯度
print(x,'\n',y,'\n',x.grad) # 可以得到梯度 y = 2x'*x的梯度应该为4x


tensor([0., 1., 2., 3.], requires_grad=True) 
 tensor(28., grad_fn=<MulBackward0>) 
 tensor([ 0.,  4.,  8., 12.])


In [14]:
z = x.sum()
z
# z.backward() 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
# x.grad 
x.grad.zero_()
z.backward()
x.grad


tensor([1., 1., 1., 1.])