# 2-自动求导

这一节我们详细介绍一下 PyTorch 中的自动求导机制，自动求导是 PyTorch 中非常重要的特性，能够让我们避免手动去计算非常复杂的导数，这能够极大地减少我们构建模型的时间，这也是其前身 Torch 这个框架所不具备的特性，下面我们通过例子看看 PyTorch 自动求导的独特魅力以及探究自动求导的更多用法。

In [1]:
import torch
from torch.autograd import Variable

## 2.1、简单情况的自动求导

下面我们展示一些简单情况下的自动求导，之所以说“简单”，是体现在计算的结果都是标量，也就是一个数，我们对这个标量进行自动求导。

In [3]:
x = Variable(torch.Tensor([2]), requires_grad=True)
y = x + 2
z = y ** 2 + 3
print(z)

tensor([ 19.])


通过上面的一系列操作，我们从 x 得到了最后的结果 out，我们可以将其表示为数学公式

$$z = (x + 2)^2 + 3$$

那么我们从 z 对 x 求导的结果就是

$$\dfrac{\partial z}{\partial x} = 2(x + 2) = 2(2 + 2) = 8$$

如果你对求导不熟悉，可以查看 https://baike.baidu.com/item/%E5%AF%BC%E6%95%B0#1 链接来复习一下

我推导的一个简单的图：

![](img/pt_2_1.jpg)

In [4]:
# 使用自动求导
z.backward()
print(x.grad)

tensor([ 8.])


对于上面这样的一个简单的例子，我们验证了自动求导，同时可以发现使用自动求导非常方便。如果是一个更加复杂的例子，那么手动求导就会显得非常的麻烦，所以自动求导的机制能够帮我们省去麻烦的数学计算，下面我们可以看一个更加复杂的例子。

In [24]:
x = Variable(torch.randn(10, 20), requires_grad=True)
y = Variable(torch.randn(10, 5), requires_grad=True)
w = Variable(torch.randn(20, 5), requires_grad=True)

# torch.matmul(x, w) 表示矩阵乘法
out = torch.mean(y - torch.matmul(x, w))
print("out----", out)
out.backward()

out---- tensor(1.1006)


如果你对矩阵乘法不熟悉，可以查看这个链接 https://baike.baidu.com/item/%E7%9F%A9%E9%98%B5%E4%B9%98%E6%B3%95/5446029?fr=aladdin

In [6]:
# 得到 x 的梯度
print(x.grad)

tensor([[-0.0332, -0.0193,  0.0102, -0.0525, -0.0071,  0.0281, -0.0634,
          0.0210,  0.0197,  0.0175,  0.1084, -0.0129, -0.0388,  0.0406,
         -0.0392, -0.0316, -0.0896,  0.0409, -0.0111,  0.0309],
        [-0.0332, -0.0193,  0.0102, -0.0525, -0.0071,  0.0281, -0.0634,
          0.0210,  0.0197,  0.0175,  0.1084, -0.0129, -0.0388,  0.0406,
         -0.0392, -0.0316, -0.0896,  0.0409, -0.0111,  0.0309],
        [-0.0332, -0.0193,  0.0102, -0.0525, -0.0071,  0.0281, -0.0634,
          0.0210,  0.0197,  0.0175,  0.1084, -0.0129, -0.0388,  0.0406,
         -0.0392, -0.0316, -0.0896,  0.0409, -0.0111,  0.0309],
        [-0.0332, -0.0193,  0.0102, -0.0525, -0.0071,  0.0281, -0.0634,
          0.0210,  0.0197,  0.0175,  0.1084, -0.0129, -0.0388,  0.0406,
         -0.0392, -0.0316, -0.0896,  0.0409, -0.0111,  0.0309],
        [-0.0332, -0.0193,  0.0102, -0.0525, -0.0071,  0.0281, -0.0634,
          0.0210,  0.0197,  0.0175,  0.1084, -0.0129, -0.0388,  0.0406,
         -0.0392, -0.031

In [7]:
# 得到 y 的梯度
print(y.grad)

tensor(1.00000e-02 *
       [[ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000],
        [ 2.0000,  2.0000,  2.0000,  2.0000,  2.0000]])


In [8]:
# 得到 w 的梯度
print(w.grad)

tensor([[-0.0680, -0.0680, -0.0680, -0.0680, -0.0680],
        [-0.0258, -0.0258, -0.0258, -0.0258, -0.0258],
        [ 0.0465,  0.0465,  0.0465,  0.0465,  0.0465],
        [ 0.0817,  0.0817,  0.0817,  0.0817,  0.0817],
        [ 0.0426,  0.0426,  0.0426,  0.0426,  0.0426],
        [ 0.0917,  0.0917,  0.0917,  0.0917,  0.0917],
        [ 0.0043,  0.0043,  0.0043,  0.0043,  0.0043],
        [-0.0633, -0.0633, -0.0633, -0.0633, -0.0633],
        [-0.0945, -0.0945, -0.0945, -0.0945, -0.0945],
        [ 0.0216,  0.0216,  0.0216,  0.0216,  0.0216],
        [-0.0469, -0.0469, -0.0469, -0.0469, -0.0469],
        [-0.0194, -0.0194, -0.0194, -0.0194, -0.0194],
        [-0.0249, -0.0249, -0.0249, -0.0249, -0.0249],
        [ 0.0969,  0.0969,  0.0969,  0.0969,  0.0969],
        [ 0.0122,  0.0122,  0.0122,  0.0122,  0.0122],
        [ 0.0550,  0.0550,  0.0550,  0.0550,  0.0550],
        [ 0.1048,  0.1048,  0.1048,  0.1048,  0.1048],
        [-0.0753, -0.0753, -0.0753, -0.0753, -0.0753],
        [-

上面的数学公式有些复杂，矩阵乘法之后对两个矩阵对应元素相乘，然后所有元素求平均，有兴趣的同学可以手动来计算一下梯度，使用 PyTorch 的自动求导，我们能够非常容易得到 x ，y 和 w 的导数，因为深度学习中充满了大量的矩阵运算，所以我们没有办法手动去求这些导数，有了自动求导能够非常方便地解决网络更新的问题。

这个地方因为我有一些疑问，所以就自己构造了小矩阵来求导，推导了一下试试。如下，是我的小例子：

![](img/pt_2_2.png)

求导（找的幸福大佬帮我求的，我求了半天求错了，哈哈）：

![](img/pt_2_3.jpg)

## 2.2、复杂情况的自动求导

上面我们展示了简单情况下的自动求导，都是对标量进行自动求导，可能你会有一个疑问，如何对一个向量或者矩阵自动求导呢？感兴趣的同学可以自己先去尝试一下，下面我们会介绍对多维数组的自动求导机制。

In [9]:
m = Variable(torch.FloatTensor([[2, 3]]), requires_grad=True) # 构建一个 1x2 的矩阵
n = Variable(torch.zeros(1, 2)) # 构建一个相同大小的 0 矩阵
print(m)
print(n)

tensor([[ 2.,  3.]])
tensor([[ 0.,  0.]])


In [10]:
# 通过 m 中的值计算新的 n 中的值
n[0, 0] = m[0, 0] ** 2
n[0, 1] = m[0, 1] ** 3
print(n)

tensor([[  4.,  27.]])


将上面的式子写成数学公式，可以得到
$$n = (n_0, n_1) = (m_0^2, m_1^3) = (2^2, 3^3)$$

下面我们直接对 n 进行反向传播，也就是求 n 对 m 的导数。
这时我们需要明确这个导数的定义，即如何定义

$$\dfrac{\partial n}{\partial m} = \dfrac{\partial (n_0, n_1)}{\partial (m_0, m_1)}$$

在 PyTorch 中，如果要调用自动求导，需要往 backward() 中传入一个参数，这个参数的形状和 n 一样大，比如是 $(w_0, w_1)$ ，那么自动求导的结果是：
$$\dfrac{\partial n}{\partial m_0} = w_0\dfrac{\partial (n_0)}{\partial (m_0)} + w_1\dfrac{\partial (n_1)}{\partial (m_0)}$$
$$\dfrac{\partial n}{\partial m_1} = w_0\dfrac{\partial (n_0)}{\partial (m_1)} + w_1\dfrac{\partial (n_1)}{\partial (m_1)}$$

In [11]:
n.backward(torch.ones_like(n)) # 将 (w0, w1) 取成 (1, 1)

In [12]:
print(m.grad)

tensor([[  4.,  27.]])


通过自动求导我们得到了梯度是 4 和 27 ，我们可以验算一下

$$\dfrac{\partial n}{\partial m_0} = w_0\dfrac{\partial (n_0)}{\partial (m_0)} + w_1\dfrac{\partial (n_1)}{\partial (m_0)} = 2 m_0 + 0 = 2 \times 2 = 4$$
$$\dfrac{\partial n}{\partial m_1} = w_0\dfrac{\partial (n_0)}{\partial (m_1)} + w_1\dfrac{\partial (n_1)}{\partial (m_1)} = 0 + 3m_1^2 = 3 \times 3^2 = 27$$

通过验算我们可以得到相同的结果。

我推导的结果和上面写的一样：

![](img/pt_2_4.jpg)

## 2.3、多次自动求导

通过调用 backward 我们可以进行一次自动求导，如果我们再调用一次 backward，会发现程序报错，没有办法再做一次。这是因为 PyTorch 默认做完一次自动求导之后，计算图就被丢弃了，所以两次自动求导需要手动设置一个东西，我们通过下面的小例子来说明。

In [13]:
x = Variable(torch.FloatTensor([3]), requires_grad=True)
y = x * 2 + x ** 2 + 3
print(y)

tensor([ 18.])


In [14]:
y.backward(retain_graph=True) # 设置 retain_graph 为 True 来保留计算图

In [15]:
print(x.grad)

tensor([ 8.])


In [16]:
y.backward() # 再做一次自动求导，这次不保留计算图

In [17]:
print(x.grad)

tensor([ 16.])


可以发现 x 的梯度变成了 16，因为这里做了两次自动求导，所以将第一次的梯度 8 和第二次的梯度 8 加起来得到了 16 的结果。

### 小练习

定义
$$k = (k_0, k_1) = (x_0^2 + 3x_1, 2x_0 + x_1^2)$$
我们希望求得

$$\begin{bmatrix}
\dfrac{\partial k_0}{\partial x_0} & \dfrac{\partial k_0}{\partial x_1}\\ 
\dfrac{\partial k_1}{\partial x_0} & \dfrac{\partial k_1}{\partial x_1}
\end{bmatrix}$$

参考答案

$$\begin{bmatrix}
4 & 3\\ 
2 & 6
\end{bmatrix}$$

In [18]:
# 创建 tensor x 和 k
x = Variable(torch.FloatTensor([2, 3]), requires_grad=True)
k = Variable(torch.zeros(2))

# 按照公式计算
k[0] = x[0] ** 2 + 3 * x[1]
k[1] = x[1] ** 2 + 2 * x[0]

In [19]:
print(k)

tensor([ 13.,  13.])


In [21]:
j = torch.zeros(2, 2)

k.backward(torch.FloatTensor([1, 0]), retain_graph=True)
j[0] = x.grad.data

x.grad.data.zero_() # 将 x 的之前求的梯度归零

k.backward(torch.FloatTensor([0, 1]))
j[1] = x.grad.data

In [23]:
print(j)

tensor([[ 4.,  3.],
        [ 2.,  6.]])


上面小练习的推导过程如下：

![](img/pt_2_5.jpg)

下一节，我们进行神经网络的介绍，动态图编程以及静态图编程。