In [32]:
import torch
#用的是pytorch提供的autograd包
#如果将tensor对象的requires_grad属性设为True
x = torch.ones(2,2,requires_grad=True)
print(x)
print(x.grad_fn)
# grad_fn用来存储梯度函数，记录生成该tensor的运算操作
#如果tensor时通过某些运算从其他tensor衍生来的，grad_fn会存储具体的运算类型（AddBackward……）
# 如果tensor是初始化创建的，那么grad_fn就是None
y = x + 2
print(y)
print(y.grad_fn)  # 输出: <AddBackward0 object at 0x7f...>
#定义：像x这种直接创建的称为“叶子节点”，“叶子节点”对应的grad_fn是None

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000002A5D5F667D0>


In [33]:
# 进行一些更复杂的操作
z = y*y*3
out = z.mean()
print(z,'\n',out)
print(z.grad_fn)
print(out.grad_fn)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) 
 tensor(27., grad_fn=<MeanBackward0>)
<MulBackward0 object at 0x000002A5D5F666B0>
<MeanBackward0 object at 0x000002A5D5F85B10>


In [34]:
#可以通过requires_grad_()采用inplace的方法来改变requires_grad这个属性
a = torch.randn(2,2)
a = ((a*3)/(a-1))
print(a.requires_grad)
#修改requires_grad属性
a.requires_grad_(True)
print(a.requires_grad)
b = (a*a).sum()
print(b)
print(b.grad_fn)

False
True
tensor(260.0344, grad_fn=<SumBackward0>)
<SumBackward0 object at 0x000002A59CBD5E70>


In [35]:
#总结上面一小节：
#如果将tensor的requires_grad属性设为True，那么就可以追踪再上面的所有操作
#grad_fn可以存储这个tensor的梯度函数，叶子节点是None，具体看这个tensor是经过什么操作得来的
#requires_grad_(True/False)可以对tensor的requires_grad属性进行修改，使用的是inplace操作

In [36]:
#由上面的out
print(out)
#out是一个标量，所以调用backward()时不需要指定求导变量（无参数）
out.backward()#out.backward(torch.tensor(1.))
#backward(),计算所有叶子结点的梯度，是自动求导机制的关键入口（路线是随着tensor的grad_fn所构建的计算图，来反方向遍历所有运算节点
# 最后将计算出的梯度存储到叶子节点的grad属性中

tensor(27., grad_fn=<MeanBackward0>)


In [37]:
print(x.grad)#得到out关于x的梯度，也就是out(x)这个函数的导数
#其实根据上面我们的叶子节点就只有x
print(x.is_leaf)
print(out.is_leaf)
#梯度grad属性存在叶子节点中

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])
True
False


In [38]:
#引入“雅可比矩阵”的概念，如果有一个“函数值和自变量都是向量”的函数，那么“函数值y关于自变量x的梯度”就是一个雅可比矩阵
#torch.autograd这个包就这是用来计算一些雅可比矩阵的乘积的

#还要注意：“grad在反向传播过程中是会累加的，所以每一次反向传播之前，要把之前的梯度清零，不然每一次运行都会累加之前的梯度

In [39]:
out2 = x.sum()
out2.backward()
print(x.grad)
#注意grad是累加的

tensor([[5.5000, 5.5000],
        [5.5000, 5.5000]])


In [40]:
out3 = x.sum()
x.grad.data.zero_()#梯度置零
out3.backward()
print(x.grad)

tensor([[1., 1.],
        [1., 1.]])


In [41]:
#前面可以看到由于out都是标量（只有一维度），所以backward里面不用传入参数
#但是如果是高维度的tensor，backward里面要传入参数，指定梯度权重（grad_tensors)
#因为我们只允许标量对张量求导，求导的结果是和x同型的tensor
#传入的参数w（是和out同型tensor）是如何将out变成标量然后再对x求导呢？
#先引入一个中间变量l
#l = torch.sum(out*w)
#那l就是一个标量
#然后求l对于x的导数就是最后的结果
#下面是一个实际的example

In [42]:
x = torch.tensor([1.0,2.0,3.0,4.0],requires_grad=True)
y = 2*x
z = y.view(2,2)
print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward0>)


In [44]:
w = torch.tensor([[1.0,0.1],[0.01,0.001]])
print(w.shape == z.shape)#w的形状和z相同

True


In [46]:
#求梯度
z.backward(w)
print(x.grad)

tensor([2.0000, 0.2000, 0.0200, 0.0020])


In [60]:
#下面是一个中断梯度追踪的例子
x = torch.tensor(1.0,requires_grad=True)
y1 = x**2
with torch.no_grad():#用这个把不想被追踪的操作代码包裹起来，中断梯度追踪
    y2 = x**3
y3 = y1+y2
print(x.requires_grad)
print(y1,y1.requires_grad)
print(y2,y2.requires_grad)
print(y3,y3.requires_grad)
#y2没有grad_fn，而且requires_grad是False

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


In [61]:
#求一下y3对x的梯度
y3.backward()
print(x.grad)#得到的结果是x**2的梯度

tensor(2.)


In [65]:
#如果想要修改tensor的数值，但是又不想被autograd记录，可以对tensor.data进行操作
x = torch.ones(1,requires_grad=True)
print(x.data)
print(x.data.requires_grad)
#x.data是和x一摸一样的tensor
#但是x.data的requires_grad是false，也就是独立于计算图之外

tensor([1.])
False


In [66]:
y = 2*x
x.data *=100#只修改了x的值但是不会影响原来的梯度传播
y.backward()
print(x)
print(x.grad)

tensor([100.], requires_grad=True)
tensor([2.])
