In [2]:
import torch as t

In [3]:
def f(x):
    y = x ** 2 * t.exp(x)
    return y


def grad_f(x):
    dx = 2 * x * t.exp(x) + x ** 2 * t.exp(x)
    return dx

In [4]:
x = t.randn(3, 4, requires_grad=True)
y = f(x)
y

tensor([[0.0055, 0.5362, 0.5138, 0.3204],
        [0.6848, 0.1574, 0.4309, 0.5127],
        [0.5319, 0.0919, 0.0034, 0.0001]], grad_fn=<ThMulBackward>)

In [5]:
y.backward(t.ones(y.size()))        # gradient形状与y一致
x.grad

tensor([[ 0.1585,  0.0491, -0.1378, -0.4094],
        [ 2.9300, -0.4567,  2.1242, -0.1407],
        [-0.0773, -0.4136, -0.1091, -0.0168]])

In [6]:
t.norm(t.sub(x.grad, grad_f(x)))    # 自动梯度和手动梯度一致

tensor(0., grad_fn=<NormBackward0>)

在pytorch实现中,autograd会随用户的操作,记录生成当前variable的所有操作, 并由此建立一个有向无环图.

In [17]:
x = t.ones(1)
b = t.rand(1, requires_grad=True)
w = t.rand(1, requires_grad=True)
y = w * x      # 等价于y=w.mul(X)
z = y + b

In [18]:
x.requires_grad, b.requires_grad, w.requires_grad

(False, True, True)

In [19]:
y.requires_grad    # 虽然未指定y.requires_grad为True, 但由于y依赖于需要求导的w, 故y.requires_grad=True

True

In [20]:
x.is_leaf, w.is_leaf, b.is_leaf

(True, True, True)

In [21]:
y.is_leaf, z.is_leaf

(False, False)

计算w的梯度时, 需要用到x的值, 这些数值在前向过程中会存成buffer, 在计算完梯度后会自动清空. 为了能够多次反向传播需要制定retain_graph来保留这些buffer

In [22]:
z.backward(retain_graph=True)
w.grad

tensor([1.])

In [23]:
z.backward()
w.grad

tensor([2.])

有些时候不希望autograd对tensor求导, 认为求导需要缓存许多中间结构, 增加额外的内存/显存开销, 那么我们可以关闭自动求导. 对于不需要反向传播的情景(如inference), 关闭自动求导可实现可实现一定成都的速度提升, 并节省一半显存, 因此不需要分配空间梯度.

In [24]:
x = t.ones(1, requires_grad=True)
w = t.rand(1, requires_grad=True)
y = x * w
x.requires_grad, w.requires_grad, y.requires_grad

(True, True, True)

In [25]:
with t.no_grad():
    x = t.ones(1)
    w = t.rand(1, requires_grad=True)
    y = x* w
x.requires_grad, w.requires_grad, y.requires_grad 

(False, True, False)

In [26]:
a = t.ones(3, 4, requires_grad=True)
b = t.ones(3 ,4, requires_grad=True)
c = a * b
a.data   # 还是一个tensor

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [27]:
a.data.requires_grad

False

In [28]:
d = a.data.sigmoid_()       # sigmoid_是个inplace操作, 会修改a自身的值
d.requires_grad

False

In [30]:
a    # a.requires_grad=True

tensor([[0.7311, 0.7311, 0.7311, 0.7311],
        [0.7311, 0.7311, 0.7311, 0.7311],
        [0.7311, 0.7311, 0.7311, 0.7311]], requires_grad=True)

如果希望对tensor进行操作, 但有不希望被记录, 可以使用tensor.data或者tensor.detach()

In [31]:
tensor = a.detach()
tensor.requires_grad

False

In [32]:
# 统计一些指标, 但不希望被记录
mean = tensor.mean()
std = tensor.std()

在反向传播剁成中非叶子节点的导数计算完之后即被清空. 若想查看这些变量的梯度, 有两种方法:
*  使用autograd.grad
*  使用hook

In [35]:
x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w
z = y.sum()
x.requires_grad, w.requires_grad, y.requires_grad

(True, True, True)

In [36]:
z.backward()    # 非叶子节点grad计算完之后自动清空
x.grad, w.grad, y.grad

(tensor([0.9969, 0.1255, 0.3718]), tensor([1., 1., 1.]), None)

In [37]:
# 第一种方法, 使用grad获取中间变量梯度
x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w
z = y.sum()
t.autograd.grad(z, y)

(tensor([1., 1., 1.]),)

In [38]:
# 第二种方法, 使用hook
# hook是一个函数, 输入是梯度, 不应该有返回值
def variable_hook(grad):
    print('y的梯度', grad)
x = t.ones(3, requires_grad=True)
w = t.rand(3, requires_grad=True)
y = x * w

# 注册hook
hook_handle = y.register_hook(variable_hook)
z = y.sum()
z.backward()

# 除非你每次都要用hook, 否则用完之后记得移除hook
hook_handle.remove()

y的梯度 tensor([1., 1., 1.])
