## 非标量变量的反向传播
这里解释一下何谓非标量变量的反向传播。以 D2L 官方给出的教程为例：

In [9]:
import torch

# 组建一个向量
x = torch.arange(4.0)
x.requires_grad_(True)

# 定义一个新的 y 函数，注意此时的的 y 不再是一个简单的标量了
# 现在的 y 是一个向量
y = x * x
print(y)


tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
tensor([0., 2., 4., 6.])


下面官方代码中使用到了一个加和的算法 `y.sum()` ，然后在对其进行反向传播求梯度。这里的意义是什么呢？
$$
y_i = x_i * x_i
\\
\Rightarrow
y_i' = 2 * x_i
\\
\Rightarrow
y'(x) = 2 *
\begin{bmatrix}
\begin{array}{c}
x_0 \\
x_1 \\
... \\
x_n \\
\end{array}
\end{bmatrix}
$$

这里使用 `sum()` 想办法将其组合成了一个复合函数，其作用就是让这个复合函数的结果为一个标量，然后对这个复合函数求偏导。
$$
g[y(x)] = \sum_{i=1}^n y_i
$$

In [None]:
# 等价于 y.backward(torch.ones(len(x)))
# 这里的 y.sum() 相当于将向量上的各个分量加和
y.sum().backward()
print(x.grad)