In [1]:
import torch
torch.__version__

'1.1.0'

torch.Tensor是这个包的核心类。如果设置.requires_grad为True，那么将会追踪所有对于该张量的操作。当完成计算后通过调用.backward()，自动计算所有的梯度，这个张量的所有梯度将会自动积累到.grad属性。

In [2]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
y = x + 2
print(y)
z = y * y * 3
out = z.mean()
print(z, out)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


.requires_grad_( ... )可以改变现有张量的requires_grad属性。如果没有指定的话，默认输入的flag是False。

In [3]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a)
print(a.requires_grad)
b = (a * a).sum()
print(b)
print(b.grad_fn)

False
tensor([[-1.4157,  1.4799],
        [13.1129,  1.3168]], requires_grad=True)
True
tensor(177.8756, grad_fn=<SumBackward0>)
<SumBackward0 object at 0x000001EDD53A8048>


反向传播因为out是一个scalar,out.backward()等于out.backward(torch.tensor(1))。

将out叫做
*Tensor* “$o$”.

得到 $o = \frac{1}{4}\sum_i z_i$,
$z_i = 3(x_i+2)^2$ 和 $z_i\bigr\rvert_{x_i=1} = 27$.

因此,
$\frac{\partial o}{\partial x_i} = \frac{3}{2}(x_i+2)$, 则
$\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$.

In [4]:
out.backward()
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


指定gradient的求导：

tensor.backward()在tensor为一个标量时不用指定参数，但在tensor为一个向量、矩阵、张量时，需要指定一个同维的参数gradient

In [5]:
x = torch.tensor([0.0, 2.0, 8.0], requires_grad = True)
y = torch.tensor([5.0, 1.0, 7.0], requires_grad = True)
z = x * y
z.backward(torch.FloatTensor([1.0, 1.0, 1.0]))

print(x.grad)
print(y.grad)

tensor([5., 1., 7.])
tensor([0., 2., 8.])


In [6]:
x = torch.tensor([0.0, 2.0, 8.0], requires_grad = True)
y = torch.tensor([5.0, 1.0, 7.0], requires_grad = True)
z = x * y
z.backward(torch.FloatTensor([.1, 0.2, 1.0]))

print(x.grad)
print(y.grad)

tensor([0.5000, 0.2000, 7.0000])
tensor([0.0000, 0.4000, 8.0000])


gradient参数的作用实际上是：

先求出Jacobian矩阵中每一个元素的梯度值，然后将这个Jacobian矩阵与gradient参数对应的矩阵进行对应的点乘，得到最终的结果。