In [74]:
import torch

In [75]:
x = torch.arange(4.0)

In [76]:
x

tensor([0., 1., 2., 3.])

Scalar-valued function with respect to a vector $\mathbf{x}$:
$$f: \mathbb{R}^n \mapsto \mathbb{R}$$

위의 Scalar-valued function의 Gradient는 $\mathbf{x}$와 동일한 모양을 가지는 Vector-valued임. 즉,

$$
\nabla f(\mathbf{x}) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)^T
$$

$$
\nabla f(\mathbf{x}) \in \mathbb{R}^n
$$

In [77]:
x.requires_grad_(True)

tensor([0., 1., 2., 3.], requires_grad=True)

In [78]:
x.grad

In [79]:
y = 2 * torch.dot(x, x)

In [80]:
y

tensor(28., grad_fn=<MulBackward0>)

In [81]:
y.backward()

In [82]:
x.grad

tensor([ 0.,  4.,  8., 12.])

In [83]:
x.grad == 4 * x

tensor([True, True, True, True])

In [84]:
x.grad.zero_()

tensor([0., 0., 0., 0.])

In [88]:
x

tensor([0., 1., 2., 3.], requires_grad=True)

$$y = x_1 + x_2 + \dots + x_n$$

> 각 $x_i$에 대해 $y$를 미분하면, 모든 $x_i$가 동일한 방식으로 $y$에 기여하므로, 미분값은 항상 1임.
>
> 그러므로, Gradient는 모든 편미분 값이 1인 Vector가 되고, 다음과 같음.

$$\begin{bmatrix} 1 \\ 1 \\ \vdots \\ 1\end{bmatrix} \in \mathbb{R}^n$$

In [85]:
y = x.sum()

In [86]:
y.backward()

In [87]:
x.grad

tensor([1., 1., 1., 1.])