Autograd

Autograd是Pytorch的核心部件，是其训练神经网络的基础。

如果把张量的.requires_grad设置为True,autograd就会跟踪该变量上发生的各种操作，计算完成之后调用.backward()方法，张量的梯度就会自动计算，得到的梯度将会写入张量的.grad属性中。

调用张量的.detach()方法就可以终止系统对于该张量的跟踪。

也可使用with torch.no_grad():，尤其是在评估模型的时候，我们不需要用到梯度，所以可以取消对梯度的跟踪。

在自动梯度计算中，还有一个很重要的因素：Function,即生成该张量的函数。如果是由用户初始化而来的张量，其.grad_fn属性为None

如果你要计算某个张量的梯度，可以调用张量的.backward()方法。

In [1]:
import torch
x = torch.ones(2,2,requires_grad = True)
x

tensor([[ 1.,  1.],
        [ 1.,  1.]])

In [2]:
y = x + 2
y

tensor([[ 3.,  3.],
        [ 3.,  3.]])

In [3]:
y.grad_fn

<AddBackward0 at 0x5776940>

In [4]:
z = y * y * 3
out = z.mean()
z,out

(tensor([[ 27.,  27.],
         [ 27.,  27.]]), tensor(27.))

In [5]:
out.backward()

In [6]:
x.grad

tensor([[ 4.5000,  4.5000],
        [ 4.5000,  4.5000]])

$$out = \frac{1}{4}\sum_i^n z_i = \frac{1}{4} \sum_i^n 3(x_i + 2)^2 $$

求导得到：

$$\frac{\partial out}{\partial x} = \frac{1}{4}\sum_i^n (6x_i + 12) = \sum_i^n (1.5x_i + 3)$$

对单个元素而言

$$\frac{\partial out}{\partial x_i} = 1.5x_i + 3$$

当$x_i == 1时$ 

$$\frac{\partial out}{\partial x_i}|_{x_i = 1} = 1.5 + 3 = 4.5 $$

backward()方法只能对标量调用，即只有一个值的张量。对向量使用会出现报错，并且只有叶子节点（用户自定义的变量，而非计算生成的变量）才能输出grad，其他变量的grad为None。

In [9]:
y.grad