1.2 Pytorch Autograd 自动求导

### 1. 张量

> torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为True, 那么它会追踪对于该张量的所有操作。 当完成
> 计算后可以通过调用 .backward(), 来计算所有的梯度。 这个张量的所有梯度会自动累加到 .grad 属性。要阻止一个张量被
> 跟踪历史， 可以调用 .detach() 方法将其与计算历史分离， 并且阻止它未来的计算记录被跟踪。

> 1. 为了防止跟踪历史记录（和使用内存）， 可以将代码块包装在 with torh.no_grad(): 中。 在评估模型时特别有用， 因为模型可以能有 requires_grad = True 的可训练参数， 但是我们不需要在此过程中对他们进行梯度计算。
> 2. 还有一个类对于autograd的实现非常重要：Function。Tensor 和 Function 互相连接生成了一个非循环图， 它编码了完整的 计算历史。

> 每个张量都有一个 .grad_fn 属性， 它引用了一个创建了这个 Tensor 的 Function（除非这个张量是用户手动创建的， 即这个张量的grad_fn 是None）。如果需要计算导数， 可以在Tensor 上调用 .backward()。 

> 如果 Tensor是一个标量（即它包含各一个元素的数据）, 则不需要为backward（）指定任何参数， 但是如果它有更多元素， 则需要指定一个gradient参数， 它是形状匹配的张量。

In [1]:
import torch

创建一个张量 并设置 requires_grad = True 来追踪计算历史

In [2]:
x = torch.ones(2, 2 , requires_grad=True)

In [3]:
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

对张量做一次运算

In [4]:
y  = x + 2

In [5]:
y

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)

y 是计算结果， 所有它有 grad_fn 属性

In [6]:
y.grad_fn

<AddBackward0 at 0x1a39f343bb0>

对 y 进行更多的操作

In [7]:
z = y * y * 3

In [8]:
out = z.mean()

In [9]:
z, out 

(tensor([[27., 27.],
         [27., 27.]], grad_fn=<MulBackward0>),
 tensor(27., grad_fn=<MeanBackward0>))

> .requires_grad_(...) 原地改变了现有张量的 requires_grad 标志。如果没有指定的话， 默认输入的这个标志是 False。

In [10]:
# 此例证明张量默认 requires_grad的属性为False， .requires_grad_(True/False)可以改变现有张量 requires_grad属性

In [11]:
a = torch.rand(2, 2 )

In [12]:
a = ((a*3)/(a-1))

In [13]:
a.requires_grad

False

In [14]:
a.requires_grad_(True)

tensor([[-3.6407e+02, -2.6150e+01],
        [-2.8240e-01, -1.3064e+01]], requires_grad=True)

In [15]:
a.requires_grad

True

In [16]:
b = (a*a).sum()

In [17]:
b.grad_fn

<SumBackward0 at 0x1a39f360880>

### 2. 梯度

因为out 是一个标量， 所以我们可以直接进行反向传播， out.backward() 和 out.backwart(torch.tensor(1)) 等价。

In [18]:
out.backward()

输出导数 d(out)/dx

In [19]:
x.grad

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

In [20]:
xx = torch.rand(3, requires_grad=True)

In [22]:
yy = xx * 2 

In [23]:
yy.data

tensor([1.1649, 1.6380, 1.5737])

In [24]:
# norm 范数， 范数1 为各绝对值之和， 范数2：各数子平方和的开平方  （距离）
yy.data.norm()

tensor(2.5528)

In [25]:
while yy.data.norm() < 1000:
    yy = yy*2

In [26]:
yy

tensor([596.4340, 838.6796, 805.7322], grad_fn=<MulBackward0>)

> 这种情况下， yy 不再是标量。torch.autograd 不能直接计算完整的雅克比矩阵， 但是如果我们只想要雅克比向量积， 只需要将这个向量作为参数传递给backward：

In [27]:
v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)

In [28]:
yy.backward(v)

In [29]:
xx.grad

tensor([1.0240e+02, 1.0240e+03, 1.0240e-01])

### 3. 防止跟踪历史记录， 使用 with torch.no_grad():

In [31]:
xx

tensor([0.5825, 0.8190, 0.7868], requires_grad=True)

In [32]:
xx.requires_grad

True

In [33]:
(xx**2).requires_grad

True

In [34]:
with torch.no_grad():
    print((xx**2).requires_grad)

False
