In [1]:
import torch
import  torchvision
import  torchvision.transforms as transfrom

In [2]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [3]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [4]:
print(y.grad_fn)


<AddBackward0 object at 0x000001D181AEA6C8>


In [5]:
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [6]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x000001D1F9A4B208>


In [7]:
#进行反向传播，因为 out 是一个标量，
# 因此 out.backward() 和 out.backward(torch.tensor(1.)) 等价。
out.backward()


In [8]:
#输出导数 d(out)/dx
print(x.grad)


tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


让我们来调用 out 张量  “o” 。

就可以得到  o=14∑izi ， zi=3(xi+2)2  和  zi∣∣xi=1=27  因此,  ∂o∂xi=32(xi+2) ，因而  ∂o∂xi∣∣xi=1=92=4.5 。

数学上，若有向量值函数  y⃗ =f(x⃗ ) ，那么  y⃗   相对于  x⃗   的梯度是一个雅可比矩阵：

$J=\left(\begin{array}{ccc}
   \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{1}}\\
   \vdots & \ddots & \vdots\\
   \frac{\partial y_{1}}{\partial x_{n}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}
   \end{array}\right)$

 
通常来说，torch.autograd 是计算雅可比向量积的一个“引擎”。也就是说，给定任意向量  v=(v1v2⋯vm)T ，计算乘积  vT⋅J 。如果  v  恰好是一个标量函数  l=g(y⃗ )  的导数，即  v=(∂l∂y1⋯∂l∂ym)T ，那么根据链式法则，雅可比向量积应该是  l  对  x⃗   的导数：

$J^{T}\cdot v=\left(\begin{array}{ccc}
   \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{1}}\\
   \vdots & \ddots & \vdots\\
   \frac{\partial y_{1}}{\partial x_{n}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}}
   \end{array}\right)\left(\begin{array}{c}
   \frac{\partial l}{\partial y_{1}}\\
   \vdots\\
   \frac{\partial l}{\partial y_{m}}
   \end{array}\right)=\left(\begin{array}{c}
   \frac{\partial l}{\partial x_{1}}\\
   \vdots\\
   \frac{\partial l}{\partial x_{n}}
   \end{array}\right)$

（注意：行向量的 vT⋅J 也可以被视作列向量的 JT⋅v )

雅可比向量积的这一特性使得将外部梯度输入到具有非标量输出的模型中变得非常方便。

现在我们来看一个雅可比向量积的例子:

In [9]:
#雅可比向量积
x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

tensor([-468.6488,   15.7427,  897.0353], grad_fn=<MulBackward0>)


在这种情况下，y 不再是标量。torch.autograd 不能直接计算完整的雅可比矩阵，但是如果我们只想要雅可比向量积，只需将这个向量作为参数传给 backward：

In [10]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

tensor([5.1200e+01, 5.1200e+02, 5.1200e-02])


In [11]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad) 

True
True
False
