In [None]:
%matplotlib inline


自动求导
========

Autograd是Pytorch中自动求导的核心包。
它使用一种磁带式系统进行自动求导：前向传播中，系统记录执行过的所有操作，反向传播过程，它将回放这些操作。
Tensors跟踪历史
--------------------------

在autograd中，如果任何操作的输入``Tensor``属性有``requires_grad=True``，那么计算过程将会被跟踪。在计算了反向传播后，梯度就是这个变量被累加进``.grad``属性的值。

还有一个类对于自动梯度来说是非常重要的——``Function``。`Tensor``和``Function``相互连接并建立一个非循环图，它编码了一个完整的计算历史，每个变量都有一个``.grad_fn``属性，它引用了一个已经创建的函数 (除了由用户创建的Tensors——``.grad_fn``为``None``).

如果你想要计算导数，就需要为``Tensor``调用``.backward()``。如果``Tensor``是标量 (例如是一个元素的tensor)，则不需要为``backward()``指定任何参数
，如果有多个元素，就需要指定一个``grad_output``参数，这个参数用来匹配tensor的形状。



In [1]:
import torch

创建一个tensor并且设置requires_grad=True来跟踪它的计算。



In [2]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[ 1.,  1.],
        [ 1.,  1.]])


In [3]:
print(x.data)

tensor([[ 1.,  1.],
        [ 1.,  1.]])


In [4]:
print(x.grad)

None


In [5]:
print(x.grad_fn)  # we've created x ourselves

None


对x执行一个操作：



In [6]:
y = x + 2
print(y)

tensor([[ 3.,  3.],
        [ 3.,  3.]])


y是由一个操作产生的,所以它有一个grad_fn属性


In [7]:
print(y.grad_fn)

<AddBackward0 object at 0x7f965ceb17b8>


对y进行更多的操作



In [8]:
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[ 27.,  27.],
        [ 27.,  27.]]) tensor(27.)


``.requires_grad_( ... )``改变一个现有Tensor的 ``requires_grad``标志。如果没有给出``.requires_grad_()``括号中的值，输入标志默认为``True``。



In [11]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7f965cec1198>


梯度
---------

现在开始反向椽笔，并输出 d(out)/dx



In [12]:
out.backward()
print(x.grad)

tensor([[ 4.5000,  4.5000],
        [ 4.5000,  4.5000]])


默认情况下，梯度计算会刷新图中包含的所有内部缓冲区。：所以如果你想在图的某个部分上做两次反向传播，你需要在第一次时，设置``retain_variables = True``




In [None]:
x = torch.ones(2, 2, requires_grad=True)
y = x + 2
y.backward(torch.ones(2, 2), retain_graph=True)
# the retain_variables flag will prevent the internal buffers from being freed
print(x.grad)

In [None]:
z = y * y
print(z)

just backprop random gradients



In [None]:
gradient = torch.randn(2, 2)

# this would fail if we didn't specify
# that we want to retain variables
y.backward(gradient)

print(x.grad)

You can also stops autograd from tracking history on Tensors
with requires_grad=True by wrapping the code block in
``with torch.no_grad():``



In [None]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
	print((x ** 2).requires_grad)