In [3]:
import torch
x = torch.arange(4.0)

# 申请一快内存, 去储存 X 的梯度
x.requires_grad_(True)  # 等价于x=torch.arange(4.0,requires_grad=True) # 或者是在初始化的时候, 加多一个参数
# 现在, X 的梯度信息是存在这里的
x.grad  # 默认值是None
print(x)

# y = 2 <X,X> # y 是 2 倍 x 的内积
y = 2 * torch.dot(x,x)
# 这里的 y 是一个标量, grad_fn 表示对应的 计算函数(pytorch隐式构造了对应的计算图)
# 注意, 这里的标量是指，一个维度
print(y, y.shape)

# 通过调用反向传播函数, 来自动计算, y 关于 x 每个分量的 梯度
y.backward()
print(x.grad)

# 验证是否正确, 因为通过计算 ρy/ρX = 4X
print(x.grad == 4*x)

# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
# 在 pytorch 中, 下划线表示重写里面的内容
# 如果注释掉的话， 就是梯度累加
x.grad.zero_()
y = x.sum()
# sum 求导, 是全 1 
y.backward()
print(x.grad)

# 当 y 不是一个标量时，是一个向量时
x.grad.zero_()
y = x * x # 这就是普通的向量 每个元素 相乘, 结果是一个向量
print("y = ", y)
y.sum().backward()
print(x.grad)

# 等价于
# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 在我们的例子中，我们只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
print("torch.ones(len(x)) = ", torch.ones(len(x)))
# 这里 torch.ones(len(x)) 就是 x 代表的 1 梯度
# 所以结果就是  2X, 把向量，当成了一个标量
y.backward(torch.ones(len(x)))
print(x.grad)

# 这里指的是
# 虽然我们的定义是 y = x*x 是一个关于 x 的函数, 而且它本事是一个 1 维的内容（向量）
# 但是, 我们把 u = y.detach() 就相当于把 它看成一个 值相同, 但是就是值, 不具备梯度信息
# 所以 z 关于 x, 是一个维度是 1 的向量, 所以求导是结果是一个 矩阵
# 但是我们这里使用 sum() 求梯度, 得到的就是对应的 标量 跟 向量 的求梯度
# 得到的就是 u 本身
x.grad.zero_()
y = x * x
u = y.detach()
print("u = ", u, u.shape)
z = u * x
z.sum().backward()
print(x.grad == u)

# 同理, 这里 y 是一个 x 的函数, 同样可以去求梯度
x.grad.zero_()
y.sum().backward()
print(x.grad == 2 * x)


# 更厉害的是，对于 python 的控制流中，一样可以进行求导
# 在计算的时候，torch 会把计算图给留下来
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

a = torch.randn(size=(), requires_grad=True)
print(a)
d = f(a)
d.backward()
print(a.grad) # 计算当前梯度
print(a.grad == d / a)

tensor([0., 1., 2., 3.], requires_grad=True)
tensor(28., grad_fn=<MulBackward0>) torch.Size([])
tensor([ 0.,  4.,  8., 12.])
tensor([True, True, True, True])
tensor([1., 1., 1., 1.])
y =  tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
tensor([0., 2., 4., 6.])
torch.ones(len(x)) =  tensor([1., 1., 1., 1.])
tensor([0., 2., 4., 6.])
u =  tensor([0., 1., 4., 9.]) torch.Size([4])
tensor([True, True, True, True])
tensor([True, True, True, True])
tensor(-0.9410, requires_grad=True)
tensor(204800.)
tensor(True)


In [14]:
# 在运行反向传播函数之后，立即再次运行它，看看会发生什么。
import torch
x = torch.arange(10.,requires_grad=True)
print("x : ", x)
# 点乘是一个标量
y = torch.dot(x**2,torch.ones_like(x))
print("y : ", y)
# backward 求梯度
y.backward(retain_graph=True)
print("x.grad : ", x.grad)
print("y : ", y)
# 再次运行求梯度
# 一般来说, 我们不会连续的求两次梯度，因为没有意义
# 在后向推导的过程中，因为为了节省内存，会直接在原树上做修改，这样算起来也更方便
# 但是如果加上标签 retain_graph 会保持原树图，所以可以再次后向迭代来求导，但就只是多计算了一次相同的内容
y.backward()
print("x.grad : ", x.grad)


x :  tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.], requires_grad=True)
y :  tensor(285., grad_fn=<DotBackward0>)
x.grad :  tensor([ 0.,  2.,  4.,  6.,  8., 10., 12., 14., 16., 18.])
y :  tensor(285., grad_fn=<DotBackward0>)
x.grad :  tensor([ 0.,  4.,  8., 12., 16., 20., 24., 28., 32., 36.])


In [None]:
# 控制流的例子（函数变量），如果把变量 a 改成随机向量，或者是矩阵，看看会发生什么
import torch
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

