PyTorch中所有神经网络的核心是`autograd`包。 让我们首先简要地访问它，然后我们将去训练我们的第一个神经网络。

`autograd`软件包为Tensors上的所有操作提供自动微分。它是一个逐个运行的框架，这意味着您的`backprop(反向传播)`由您的代码运行方式定义，并且每次迭代都可以不同。

## Tensor

`torch.Tensor`是autograd包的核心类。如果将其属性`.requires_grad`设置为`True`，则会开始跟踪其上的所有操作。 完成计算后，您可以调用`.backward（）`并自动计算所有梯度。 此tensor的梯度将累积到`.grad`属性中。

要阻止tensor跟踪历史记录，可以调用`.detach（）`将其从计算历史记录中分离出来，并防止将来的计算被跟踪。

要防止跟踪历史记录（和使用内存），您还可以使用`with torch.no_grad（）`包装代码块： 在评估模型时，这可能特别有用，因为模型可能具有`requires_grad = True`的可训练参数，但我们不需要梯度。

另一个对autograd实现非常重要的类：`Function`。

`Tensor`和`Function`互相连接并构建一个非循环图，它编码完整的计算历史。 每个张量都有一个`.grad_fn`(gradient_function)属性，该属性引用创建`Tensor`的`Function`（除了用户创建的`Tensors`,因为它们的`grad_fn`为`None`）。

如果你想计算导数，你可以在`Tensor`上调用`.backward（）`。 如果`Tensor`是标量（例如，它包含一个元素数据），则不需要为`backward（）`指定任何参数，但是如果它包含多余一个元素，则需要指定一个`gradient`参数，该参数是匹配形状的张量。

In [1]:
import torch

创建一个`tensor`并设置`requires_grad = True`以跟踪它的计算

In [2]:
x = torch.ones(2,2, requires_grad=True)
print(x, x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True) None


做一个张量操作：

In [3]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


`y`是作为操作的结果创建的，因此它具有`grad_fn`。

In [4]:
print(y.grad_fn)

<AddBackward0 object at 0x7fecd46352b0>


继续对y进行操作

In [5]:
z = y * y * 3    # z = (x + 2)^2 * 3  or z = 3 * x^2 + 12*x + 12
out = z.mean()
print(z)
print(out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>)
tensor(27., grad_fn=<MeanBackward1>)


`.requires_grad_（...）`就地更改现有的`Tensor`的`requires_grad`标志。如果没有给出，输入标志默认为`False`。

In [6]:
a = torch.randn(2,2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)    # _：就地操作，不用赋值操作
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7feca08b1a58>
