## 自动求导

自动求导是Pytorch中非常重要的特性，能够让我们避免手动去计算非常复杂的导数，这能够极大地减少我们构建模型的时间，这也是其前身Torch这个框架所不具备的特性，下面通过例子学习一下Pytorch自动求导的独特魅力以及探究自动求导的更多用法。

In [1]:
import torch
from torch.autograd import Variable

## 简单情况下的自动求导

下面我们显示一些简单情况的自动求导，”简单“体现在计算的结果都是标量，也就是一个数，我们对这个标量进行自动求导

In [2]:
x = Variable(torch.Tensor([2]), requires_grad=True)
y = x + 2
z = y ** 2 + 3
print(z)

Variable containing:
 19
[torch.FloatTensor of size 1]



通过上面的一些列的操作，我们从x得到了最后的结果out，可以将其表示为数学公式
![](https://render.githubusercontent.com/render/math?math=z%20%3D%20%28x%20%2B%202%29%5E2%20%2B%203&mode=display)

那么我们从z到x求导的结果就是
![](https://render.githubusercontent.com/render/math?math=%5Cfrac%7B%5Cpartial%20z%7D%7B%5Cpartial%20x%7D%20%3D%202%20%28x%20%2B%202%29%20%3D%202%20%282%20%2B%202%29%20%3D%208&mode=display)

In [3]:
# 使用自动求导
z.backward()
print(x.grad)

Variable containing:
 8
[torch.FloatTensor of size 1]



对于上面这样的一个例子，我们验证了自动求导，同时可以发现使用自动求导非常方便。如果是一个更加复杂的例子，那么手动求导就会显得非常的麻烦，所以自动求导的机制能够帮助省去麻烦的数学计算，下面我们可以看一个更加复杂的例子。

In [5]:
x = Variable(torch.randn(10, 20), requires_grad=True)
y = Variable(torch.randn(10,5), requires_grad=True)
w = Variable(torch.randn(20, 5), requires_grad=True)

out = torch.mean(y-torch.matmul(x,w))
out.backward()

In [6]:
# x的梯度
print(x.grad)

Variable containing:

Columns 0 to 9 
1.00000e-02 *
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681
 -1.9080  3.5082 -1.4794  4.0858 -5.1826  0.1013 -0.9483 -0.2599 -6.0009 -2.8681

Columns 10 to 19 
1.00000e-02 *
  6.4171  1.1695  0.6390  0.4664 -2.7299 -5.8308 -2.4000  7.5692 -9.4507 -0.2978
  6.4171  1.1695  0.6390

In [7]:
# y的梯度
print(y.grad)

Variable containing:
1.00000e-02 *
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
  2.0000  2.0000  2.0000  2.0000  2.0000
[torch.FloatTensor of size 10x5]



In [8]:
# w的梯度
print(w.grad)

Variable containing:
-0.0287 -0.0287 -0.0287 -0.0287 -0.0287
-0.0643 -0.0643 -0.0643 -0.0643 -0.0643
 0.0368  0.0368  0.0368  0.0368  0.0368
 0.0029  0.0029  0.0029  0.0029  0.0029
-0.0356 -0.0356 -0.0356 -0.0356 -0.0356
-0.0724 -0.0724 -0.0724 -0.0724 -0.0724
-0.0092 -0.0092 -0.0092 -0.0092 -0.0092
-0.0136 -0.0136 -0.0136 -0.0136 -0.0136
-0.0689 -0.0689 -0.0689 -0.0689 -0.0689
 0.0154  0.0154  0.0154  0.0154  0.0154
 0.0362  0.0362  0.0362  0.0362  0.0362
-0.0143 -0.0143 -0.0143 -0.0143 -0.0143
-0.0404 -0.0404 -0.0404 -0.0404 -0.0404
 0.1268  0.1268  0.1268  0.1268  0.1268
 0.0384  0.0384  0.0384  0.0384  0.0384
 0.0063  0.0063  0.0063  0.0063  0.0063
-0.0273 -0.0273 -0.0273 -0.0273 -0.0273
 0.0081  0.0081  0.0081  0.0081  0.0081
-0.0254 -0.0254 -0.0254 -0.0254 -0.0254
-0.0162 -0.0162 -0.0162 -0.0162 -0.0162
[torch.FloatTensor of size 20x5]



上面数学公式更加的复杂，矩阵乘法之后对两个矩阵对应元素相乘，然后所有元素求平均，手动计算梯度太麻烦了，我是不想算了....
使用Pytorch自动求导，能够非常容易得到x,y和w的导数，因为深度学习中充满大量的矩阵运算，所以我们没有办法对求这些导数，有了自动求导能够非常方便解决网络更新的问题。  

## 复杂情况的自动求导
上面我们展示了简单情况下的自动求导，都是对标量进行自动求导，可能会有一个疑问，如何对一个向量或者矩阵自动求导呢  
下面介绍对多维数组的自动求导机制

In [9]:
m = Variable(torch.FloatTensor([[2,3]]), requires_grad=True) # 构建一个1x2的矩阵
n = Variable(torch.zeros(1,2)) # 构建一个相同大小的0矩阵
print(m)
print(n)

Variable containing:
 2  3
[torch.FloatTensor of size 1x2]

Variable containing:
 0  0
[torch.FloatTensor of size 1x2]



In [10]:
# 通过m中的值计算新的n中的值
n[0, 0] = m[0, 0] ** 2
n[0, 1] = m[0, 1] ** 3
print(n)

Variable containing:
  4  27
[torch.FloatTensor of size 1x2]



将上面的式子写成数学公式，可以得到  
![](https://render.githubusercontent.com/render/math?math=n%20%3D%20%28n_0%2C%5C%20n_1%29%20%3D%20%28m_0%5E2%2C%5C%20m_1%5E3%29%20%3D%20%282%5E2%2C%5C%203%5E3%29&mode=display)
下面我们直接对n进行反向传播，也就是求n对m的导数。  
这时我们需要明确这个导数的定义，即如何定义
![](https://render.githubusercontent.com/render/math?math=%5Cfrac%7B%5Cpartial%20n%7D%7B%5Cpartial%20m%7D%20%3D%20%5Cfrac%7B%5Cpartial%20%28n_0%2C%5C%20n_1%29%7D%7B%5Cpartial%20%28m_0%2C%5C%20m_1%29%7D&mode=display)
在PyTorch中，如果要调用自动求导，需要往backward()中传入一个参数，这个参数的形状和n一样大，比如是![](https://render.githubusercontent.com/render/math?math=%28w_0%2C%5C%20w_1%29&mode=inline)，那么自动求导就是：
![](https://render.githubusercontent.com/render/math?math=%5Cfrac%7B%5Cpartial%20n%7D%7B%5Cpartial%20m_1%7D%20%3D%20w_0%20%5Cfrac%7B%5Cpartial%20n_0%7D%7B%5Cpartial%20m_1%7D%20%2B%20w_1%20%5Cfrac%7B%5Cpartial%20n_1%7D%7B%5Cpartial%20m_1%7D&mode=display)

In [11]:
n.backward(torch.ones_like(n))
print(m.grad)

Variable containing:
  4  27
[torch.FloatTensor of size 1x2]



通过自动求导得到了梯度是4 和 27，验算一下![](https://render.githubusercontent.com/render/math?math=%5Cfrac%7B%5Cpartial%20n%7D%7B%5Cpartial%20m_0%7D%20%3D%20w_0%20%5Cfrac%7B%5Cpartial%20n_0%7D%7B%5Cpartial%20m_0%7D%20%2B%20w_1%20%5Cfrac%7B%5Cpartial%20n_1%7D%7B%5Cpartial%20m_0%7D%20%3D%202%20m_0%20%2B%200%20%3D%202%20%5Ctimes%202%20%3D%204&mode=display)![](https://render.githubusercontent.com/render/math?math=%5Cfrac%7B%5Cpartial%20n%7D%7B%5Cpartial%20m_1%7D%20%3D%20w_0%20%5Cfrac%7B%5Cpartial%20n_0%7D%7B%5Cpartial%20m_1%7D%20%2B%20w_1%20%5Cfrac%7B%5Cpartial%20n_1%7D%7B%5Cpartial%20m_1%7D%20%3D%200%20%2B%203%20m_1%5E2%20%3D%203%20%5Ctimes%203%5E2%20%3D%2027&mode=display)

## 多次自动求导
通过调用backward可以进行一次自动求导，如果再次调用backward，则会报错。因为PyTorch默认做完一次自动求导后，计算图就被丢弃了，所以两次自动求导需要手动设置一个参数，通过下面例子说明。

In [17]:
x = Variable(torch.FloatTensor([3]), requires_grad=True)
y = x * 2 + x ** 2 + 3
print(y)

Variable containing:
 18
[torch.FloatTensor of size 1]



In [18]:
# 设置 retain_graph 为 True 来保留计算图
y.backward(retain_graph=True)

In [19]:
print(x.grad)

Variable containing:
 8
[torch.FloatTensor of size 1]



In [20]:
y.backward()
print(x.grad)

Variable containing:
 16
[torch.FloatTensor of size 1]



可以发现x的梯度变成了16， 因为这里做了两次自动求导，所以将第一次的梯度8和第二次的梯度8加起来就是16

### 小练习
定义![](https://render.githubusercontent.com/render/math?math=x%20%3D%20%0A%5Cleft%5B%0A%5Cbegin%7Bmatrix%7D%0Ax_0%20%5C%5C%0Ax_1%0A%5Cend%7Bmatrix%7D%0A%5Cright%5D%20%3D%20%0A%5Cleft%5B%0A%5Cbegin%7Bmatrix%7D%0A2%20%5C%5C%0A3%0A%5Cend%7Bmatrix%7D%0A%5Cright%5D%0A%24%24%24%24%0Ak%20%3D%20%28k_0%2C%5C%20k_1%29%20%3D%20%28x_0%5E2%20%2B%203%20x_1%2C%5C%202%20x_0%20%2B%20x_1%5E2%29&mode=display)
求![](https://render.githubusercontent.com/render/math?math=j%20%3D%20%5Cleft%5B%0A%5Cbegin%7Bmatrix%7D%0A%5Cfrac%7B%5Cpartial%20k_0%7D%7B%5Cpartial%20x_0%7D%20%26amp%3B%20%5Cfrac%7B%5Cpartial%20k_0%7D%7B%5Cpartial%20x_1%7D%20%5C%5C%0A%5Cfrac%7B%5Cpartial%20k_1%7D%7B%5Cpartial%20x_0%7D%20%26amp%3B%20%5Cfrac%7B%5Cpartial%20k_1%7D%7B%5Cpartial%20x_1%7D%0A%5Cend%7Bmatrix%7D%0A%5Cright%5D&mode=display)
结果：
![](https://render.githubusercontent.com/render/math?math=%5Cleft%5B%0A%5Cbegin%7Bmatrix%7D%0A4%20%26amp%3B%203%20%5C%5C%0A2%20%26amp%3B%206%20%5C%5C%0A%5Cend%7Bmatrix%7D%0A%5Cright%5D&mode=display)

In [21]:
x = Variable(torch.FloatTensor([2, 3]), requires_grad=True)
k = Variable(torch.zeros(2))

k[0] = x[0]**2 + x[1]*3
k[1] = 2*x[0] + x[1]**2

In [22]:
print(k)

Variable containing:
 13
 13
[torch.FloatTensor of size 2]



In [23]:
j = torch.zeros(2, 2)

k.backward(torch.FloatTensor([1, 0]), retain_graph=True)
j[0] = x.grad.data

x.grad.data.zero_() # 归零之前求得的梯度

k.backward(torch.FloatTensor([0, 1]))
j[1] = x.grad.data

In [24]:
print(j)


 4  3
 2  6
[torch.FloatTensor of size 2x2]

