In [None]:
import torch
from torch.autograd import Variable
import torchvision

## 自动求导机制
### Backward过程中排除子图

pytorch的BP过程是由一个函数决定的，``loss.backward()``， 可以看到backward()函数里并没有传要求谁的梯度。那么我们可以大胆猜测，在BP的过程中，pytorch是将所有影响loss的Variable都求了一次梯度。**但是有时候，我们并不想求所有Variable的梯度。那就要考虑如何在Backward过程中排除子图（ie.排除没必要的梯度计算）。**

如何BP过程中排除子图？ 

**Variable的两个参数（requires_grad和volatile）**


### requires_grad

如果你想部分冻结你的网络（ie.不做梯度计算），那么通过设置requires_grad标签是非常容易实现的。 
下面给出了利用requires_grad使用pretrained网络的一个例子，只fine tune了最后一层。

In [None]:
x = Variable(torch.randn(5, 5))
y = Variable(torch.randn(5, 5))
z = Variable(torch.randn(5, 5), requires_grad=True)
a = x + y  # x, y的 requires_grad的标记都为false， 所以输出的变量requires_grad也为false
b=x+z
print(a.requires_grad)
print(b.requires_grad)

这个标志特别有用，当您想要冻结部分模型时，或者您事先知道不会使用某些参数的梯度。例如，如果要对预先训练的CNN进行优化，只要切换冻结模型中的requires_grad标志就足够了，直到计算到最后一层才会保存中间缓冲区，其中的仿射变换将使用需要梯度的权重并且网络的输出也将需要它们。

In [None]:
model = torchvision.models.resnet18(pretrained=True)
#冻结参数，不参与backward
for param in model.parameters():
    param.requires_grad = False

#替换全连接层
model.fc = nn.Linear(512, 100)

#只有fc层参数
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

#### volatile
纯粹的inference模式下推荐使用volatile，当你确定你甚至不会调用.backward()时。它比任何其他自动求导的设置更有效——它将使用绝对最小的内存来评估模型。**volatile也决定了require_grad is False。**

**volatile=True相当于requires_grad=False。**

但是在纯推断模式的时候，只要操作有一个的输入volatile=True，它的输出也将是volatile=True。这就比使用requires_grad=False方便多了。

### class torch.nn.Parameter()
一种Variable，被视为一个模块参数。

- Parameters 是 Variable 的子类。当与Module一起使用时，它们具有非常特殊的属性，**当它们被分配为模块属性时，它们被自动添加到其参数列表中，并将出现在例如parameters()迭代器中。**分配变量没有这样的效果。

- 解释：**在Module中的层在定义时，相关Variable的requires_grad参数默认是True。 在计算图中，如果有一个输入的requires_grad是True，那么输出的requires_grad也是True。只有在所有输入的requires_grad都为False时，输出的requires_grad才为False。**

- 另一个区别是，parameters不能是volatile，他们默认要求梯度。

- 参数说明:

    - data (Tensor) – parameter tensor.

    - requires_grad (bool, optional) – 默认True

### 1.分配Tensor时，默认Tensor的requires_grad属性为False，可以设置为True

In [None]:
#Tensor和Variable已经合并了
x=torch.randn((2,3,4))
y=torch.randn((4,3,2),requires_grad=True)

In [None]:
print(type(x))
print(x.size())
print(x.requires_grad)
print(y.requires_grad)

### 2.在Module中的层在定义时，相关Tensor的requires_grad属性默认是True

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [None]:
# Define model
class TheModelClass(nn.Module):
    def __init__(self):
        super(TheModelClass,self).__init__()
        self.conv1=nn.Conv2d(3,6,5)
        self.pool=nn.MaxPool2d(2,2)
        self.conv2=nn.Conv2d(6,16,5)
        self.fc1=nn.Linear(16*5*5,120)
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
    def farward(self,x):
        x=self.pool(F.relu(self.conv1(x)))
        x=self.pool(F.relu(self.conv2(x)))
        x=x.view(-1,16*5*5)
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
# Initialize model
model=TheModelClass()

#### 2.1model.parameters()
- 迭代model.parameters()将会返回每一次迭代元素的param，**可以用来改变requires_grad的属性**

In [None]:
for  param in model.parameters():
    print(param.requires_grad)
    #修改requires_grad的属性为False
    param.requires_grad=False
    
for  param in model.parameters():
    print(param.requires_grad)

#### 2.2model.named_parameters()
- 迭代model.named_parameters()将会返回每一次迭代元素的name和param的元组，**可以用来改变requires_grad的属性**

In [None]:
for  name,param in model.named_parameters():
    print(name+'\t'+str(param.requires_grad))
    #修改requires_grad的属性为False
    param.requires_grad=False
    
for  name,param in model.named_parameters():
    print(name+'\t'+str(param.requires_grad))

#### 2.3 model.state_dict().items()
- 每次迭代model.state_dict().items()会返回所有的name和param，**但是这里的所有的param都是requires_grad=False,没有办法改变requires_grad的属性，所以改变requires_grad的属性只能通过上面的两种方式。**

In [None]:
for name, param in model.state_dict().items():
    print(name+'\t'+str(param.requires_grad))

#### 2.4 改变了requires_grad之后要修改optimizer的属性

In [None]:
optimizer = optim.SGD(
            parameters=filter(lambda p: p.requires_grad, model.parameters()),   #只更新requires_grad=True的参数
            lr=cfg.TRAIN.LR,
            momentum=cfg.TRAIN.MOMENTUM,
            weight_decay=cfg.TRAIN.WD,
            nesterov=cfg.TRAIN.NESTEROV
        )