## 2.5 自动微分

In [3]:
import torch

x = torch.arange(4.0)
print(x)
x.requires_grad_(True)

y = x * x
print(y)
print(y.shape)

tensor([0., 1., 2., 3.])
tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)
torch.Size([4])


In [5]:
print(y.sum())
y.sum().backward()
print(x.grad)

tensor(14., grad_fn=<SumBackward0>)
tensor([0., 2., 4., 6.])


In [8]:
print(x.grad)

tensor([0., 2., 4., 6.])


In [10]:
c = torch.dot(x, x)
c.backward()
print(x.grad)  # x 的梯度又在之前的基础上增加了

tensor([ 0.,  6., 12., 18.])


In [12]:
d = 4 * x
d.sum().backward()
print(x.grad)  # 又在之前的梯度的基础上相加了

tensor([ 4., 10., 16., 22.])


#### （1）为什么计算二阶导数比一阶导数的开销更大？

是因为要计算两遍？

In [18]:
# x = torch.arange(4.0)
# print(x)
# x.requires_grad_(True)
# # x.grad.zero_()
# print(x.grad)
# c = torch.dot(x, x)
# c.backward()
# print(x.grad)
# c.backward()
# print(x.grad)

#### （2）在执行反向传播函数之后，立即再次执行它，看看会发生什么

如果直接再执行一遍，会报运行时错误
```
RuntimeError: Trying to backward through the graph a second time, but the saved intermediate results have already been freed. Specify retain_graph=True when calling backward the first time.
```
而如果在第一次反向传播时，设置保留计算图（``retain_graph=True``），则又会计算一遍梯度并加在原来的梯度上，即梯度变为原来的两倍

In [23]:
x = torch.arange(4.0)
print(x)
x.requires_grad_(True)

y = torch.dot(x, x)
y.backward(retain_graph=True)
print(x.grad)

tensor([0., 1., 2., 3.])
tensor([0., 2., 4., 6.])


In [24]:
y.backward()
print(x.grad)

tensor([ 0.,  4.,  8., 12.])


#### （3）在控制流的例子中，我们计算d关于a的导数，如果将变量a更改为随机向量或矩阵，会发生什么？