In [1]:
%matplotlib inline

In [2]:
import torch

In [3]:
x = torch.ones(2,2,requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [4]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [5]:
print(y.grad_fn)

<AddBackward0 object at 0x000001F21D765D08>


In [6]:
z = y * y * 3
out = z.mean()

print(z,out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [7]:
a = torch.randn(2,2)
a = ((a * 3)/(a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x000001F21D768C88>


In [8]:
out.backward() # d(out)/dx

In [9]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


得到矩阵 4.5.将 out叫做 Tensor “$o$”.

得到 $o = \frac{1}{4}\sum_i z_i$, $z_i = 3(x_i+2)^2$ 和 $z_i\bigr\rvert_{x_i=1} = 27$.

因此, $\frac{\partial o}{\partial x_i} = \frac{3}{2}(x_i+2)$, 则 $\frac{\partial o}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$.

In [10]:
x = torch.randn(3,requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2
    
print(y)

tensor([-599.3806, 1684.7281,  337.0278], grad_fn=<MulBackward0>)


In [11]:
gradients = torch.tensor([0.1,1.0,0.0001],dtype=torch.float)
y.backward(gradients)

print(x.grad)

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])


In [12]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)
    
# 张量计算，不是线性代数里的矩阵运算，而且元素直接计算,比如a*b=b*a
# 我们可以将标量视为零阶张量，矢量视为一阶张量，那么矩阵就是二阶张量
# 如果Tensor是一个标量（即它包含一个元素数据）则不需要为backward()指定任何参数
# 然而如果它有更多的元素，你需要指定一个gradient 参数来匹配张量的形状

True
True
False


In [13]:
torch.__version__

'1.5.0'

In [14]:
x = torch.rand(5,5,requires_grad=True)
x

tensor([[0.8848, 0.5980, 0.4918, 0.1052, 0.4272],
        [0.8486, 0.0564, 0.7574, 0.6818, 0.3707],
        [0.6400, 0.5753, 0.4479, 0.6163, 0.1631],
        [0.3296, 0.6428, 0.3677, 0.5634, 0.7584],
        [0.3165, 0.8226, 0.9970, 0.0745, 0.2560]], requires_grad=True)

In [15]:
y = torch.rand(5,5,requires_grad=True)
y

tensor([[0.1660, 0.6053, 0.8957, 0.8509, 0.1689],
        [0.3244, 0.5345, 0.7607, 0.6033, 0.0503],
        [0.7937, 0.4781, 0.6500, 0.2794, 0.4332],
        [0.3364, 0.3126, 0.8621, 0.1834, 0.9205],
        [0.5590, 0.0474, 0.5475, 0.8194, 0.1424]], requires_grad=True)

In [17]:
z = torch.sum(x+y) # PyTorch会自动追踪和记录对与张量的所有操作，当计算完成后调用.backward()方法自动计算梯度并且将计算结果保存到grad属性中
z

tensor(25.1180, grad_fn=<SumBackward0>)

In [18]:
z.backward()
print(x.grad,y.grad)
# 如果Tensor类表示的是一个标量（即它包含一个元素的张量），则不需要为backward()指定任何参数
# 但是如果它有更多的元素，则需要指定一个gradient参数，它是形状匹配的张量

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]]) tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])


In [19]:
x = torch.rand(5,5,requires_grad=True)
y = torch.rand(5,5,requires_grad=True)
z = x**2 + y**3
z

tensor([[0.5454, 0.1288, 0.4293, 0.9402, 0.5786],
        [0.2727, 0.1124, 0.5890, 0.3579, 0.0070],
        [0.1876, 0.0697, 0.5622, 0.2098, 0.6368],
        [0.1194, 0.6981, 0.5725, 0.8397, 1.1557],
        [0.0289, 0.3443, 0.3057, 0.5004, 0.1148]], grad_fn=<AddBackward0>)

In [20]:
z.backward(torch.ones_like(x))
print(x.grad)

tensor([[1.4600, 0.6865, 1.3065, 0.3702, 1.2245],
        [0.4033, 0.0779, 1.4845, 1.1964, 0.1658],
        [0.8648, 0.1536, 0.1129, 0.4000, 0.8460],
        [0.6586, 1.2124, 1.5126, 0.0103, 1.4845],
        [0.2062, 0.3392, 0.8872, 0.7535, 0.2458]])


In [21]:
with torch.no_grad():
    print((x + y * 2).requires_grad)

False


In [22]:
dir(z) # Python的 dir() 返回参数的属性、方法列表

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_priority__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__idiv__',
 '__ilshift__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pow__',
 '__radd__',
 '__rdiv__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__rfloordiv__',
 '__rmul__',
 '__rpow__',
 '__rshift__',
 '__rsub__',
 '__rtruediv__',
 '__setattr__',
 '__se

In [24]:
print("x.is_leaf="+str(x.is_leaf))
print("z.is_leaf="+str(z.is_leaf))
# x是手动创建的没有通过计算，所以他被认为是一个叶子节点也就是一个创建变量，而z是通过x与y的一系列计算得到的，所以不是叶子结点也就是结果变量

x.is_leaf=True
z.is_leaf=False


In [26]:
z.grad_fn

<AddBackward0 at 0x1f21d7ac8c8>

In [27]:
dir(z.grad_fn)

['__call__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_register_hook_dict',
 'metadata',
 'name',
 'next_functions',
 'register_hook',
 'requires_grad']

In [28]:
z.grad_fn.next_functions

((<PowBackward0 at 0x1f21d7cb588>, 0), (<PowBackward0 at 0x1f21d7cb4c8>, 0))

In [41]:
xg = z.grad_fn.next_functions[0][0]
print(xg.next_functions)
dir(xg)

((<AccumulateGrad object at 0x000001F21D7D4648>, 0),)


['__call__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_register_hook_dict',
 'metadata',
 'name',
 'next_functions',
 'register_hook',
 'requires_grad']

In [42]:
x_leaf = xg.next_funxtions[0][0]
type(x_leaf)

AttributeError: 'PowBackward0' object has no attribute 'next_funxtions'

In [33]:
x_leaf.variable

NameError: name 'x_leaf' is not defined

In [34]:
print("x_leaf.variable的id:"+str(id(x_leaf.variable)))
print("x的id:"+str(id(x)))

NameError: name 'x_leaf' is not defined

In [35]:
assert(id(x_leaf.variable)==id(x))

NameError: name 'x_leaf' is not defined

这样整个规程就很清晰了：

1.当我们执行z.backward()的时候。这个操作将调用z里面的grad_fn这个属性，执行求导的操作。

2.这个操作将遍历grad_fn的next_functions，然后分别取出里面的Function（AccumulateGrad），执行求导操作。这部分是一个递归的过程直到最后类型为叶子节点。

3.计算出结果以后，将结果保存到他们对应的variable 这个变量所引用的对象（x和y）的 grad这个属性里面。

4.求导结束。所有的叶节点的grad变量都得到了相应的更新

最终当我们执行完c.backward()之后，a和b里面的grad值就得到了更新。

一个自定义的Function需要一下三个方法：

    __init__ (optional)：如果这个操作需要额外的参数则需要定义这个Function的构造函数，不需要的话可以忽略。

    forward()：执行前向传播的计算代码

    backward()：反向传播时梯度计算的代码。 参数的个数和forward返回值的个数一样，每个参数代表传回到此操作的梯度。

In [36]:
from torch.autograd.function import Function

In [37]:
# 定义一个乘以常数的操作(输入参数是张量)
# 方法必须是静态方法，所以要加上@staticmethod
class MulConstant(Function):
    @staticmethod
    def forward(ctx,tensor,constant):
#         ctx用来保存信息这里类似self，并且ctx的属性可以在backward中调用
        ctx.constant = constant
        return tensor * constant
    @staticmethod
    def backward(ctx,grad_output):
#         返回的参数要与输入的参数一样.
#         第一个输入为3x3的张量，第二个为一个常数
#         常数的梯度必须是 None.
        return grad_output, None

In [38]:
a = torch.rand(3,3,requires_grad=True)
b = MulConstant.apply(a,5)
print("a:"+str(a))
print("b:"+str(b))

a:tensor([[0.5900, 0.6082, 0.8233],
        [0.1048, 0.5809, 0.1086],
        [0.9839, 0.5712, 0.2273]], requires_grad=True)
b:tensor([[2.9498, 3.0412, 4.1165],
        [0.5238, 2.9045, 0.5432],
        [4.9195, 2.8559, 1.1365]], grad_fn=<MulConstantBackward>)


In [39]:
b.backward(torch.ones_like(a))

In [40]:
a.grad

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])