In [1]:
import torch

### class torch.nn.Parameter()
一种Variable，被视为一个模块参数。

- Parameters 是 Variable 的子类。当与Module一起使用时，它们具有非常特殊的属性，当它们被分配为模块属性时，它们被自动添加到其参数列表中，并将出现在例如parameters()迭代器中。分配变量没有这样的效果。这是因为人们可能希望在模型中缓存一些临时状态，如RNN的最后一个隐藏状态。如果没有这样的班级Parameter，这些临时人员也会注册。

- 解释：**在Module中的层在定义时，相关Variable的requires_grad参数默认是True。 在计算图中，如果有一个输入的requires_grad是True，那么输出的requires_grad也是True。只有在所有输入的requires_grad都为False时，输出的requires_grad才为False。**

- 另一个区别是，parameters不能是volatile，他们默认要求梯度。

- 参数说明:

    - data (Tensor) – parameter tensor.

    - requires_grad (bool, optional) – 默认True

### 1.分配Tensor时，默认Tensor的requires_grad属性为False，可以设置为True

In [12]:
#Tensor和Variable已经合并了
x=torch.randn((2,3,4))
y=torch.randn((4,3,2),requires_grad=True)

In [14]:
print(type(x))
print(x.size())
print(x.requires_grad)
print(y.requires_grad)

<class 'torch.Tensor'>
torch.Size([2, 3, 4])
False
True


### 2.在Module中的层在定义时，相关Tensor的requires_grad属性默认是True

In [30]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [26]:
# Define model
class TheModelClass(nn.Module):
    def __init__(self):
        super(TheModelClass,self).__init__()
        self.conv1=nn.Conv2d(3,6,5)
        self.pool=nn.MaxPool2d(2,2)
        self.conv2=nn.Conv2d(6,16,5)
        self.fc1=nn.Linear(16*5*5,120)
        self.fc2=nn.Linear(120,84)
        self.fc3=nn.Linear(84,10)
    def farward(self,x):
        x=self.pool(F.relu(self.conv1(x)))
        x=self.pool(F.relu(self.conv2(x)))
        x=x.view(-1,16*5*5)
        x=F.relu(self.fc1(x))
        x=F.relu(self.fc2(x))
        x=self.fc3(x)
        return x
# Initialize model
model=TheModelClass()

#### 2.1model.parameters()
- 迭代model.parameters()将会返回每一次迭代元素的param，**可以用来改变requires_grad的属性**

In [22]:
for  param in model.parameters():
    print(param.requires_grad)
    #修改requires_grad的属性为False
    param.requires_grad=False
    
for  param in model.parameters():
    print(param.requires_grad)

True
True
True
True
True
True
True
True
True
True
False
False
False
False
False
False
False
False
False
False


#### 2.2model.named_parameters()
- 迭代model.named_parameters()将会返回每一次迭代元素的name和param的元组，**可以用来改变requires_grad的属性**

In [25]:
for  name,param in model.named_parameters():
    print(name+'\t'+str(param.requires_grad))
    #修改requires_grad的属性为False
    param.requires_grad=False
    
for  name,param in model.named_parameters():
    print(name+'\t'+str(param.requires_grad))

conv1.weight	True
conv1.bias	True
conv2.weight	True
conv2.bias	True
fc1.weight	True
fc1.bias	True
fc2.weight	True
fc2.bias	True
fc3.weight	True
fc3.bias	True
conv1.weight	False
conv1.bias	False
conv2.weight	False
conv2.bias	False
fc1.weight	False
fc1.bias	False
fc2.weight	False
fc2.bias	False
fc3.weight	False
fc3.bias	False


#### 2.3 model.state_dict().items()
- 每次迭代model.state_dict().items()会返回所有的name和param，**但是这里的所有的param都是requires_grad=False,没有办法改变requires_grad的属性，所以改变requires_grad的属性只能通过上面的两种方式。**

In [29]:
for name, param in model.state_dict().items():
    print(name+'\t'+str(param.requires_grad))

conv1.weight	False
conv1.bias	False
conv2.weight	False
conv2.bias	False
fc1.weight	False
fc1.bias	False
fc2.weight	False
fc2.bias	False
fc3.weight	False
fc3.bias	False


#### 2.4 改变了requires_grad之后要修改optimizer的属性

In [32]:
optimizer = optim.SGD(
            parameters=filter(lambda p: p.requires_grad, model.parameters()),   #只更新requires_grad=True的参数
            lr=cfg.TRAIN.LR,
            momentum=cfg.TRAIN.MOMENTUM,
            weight_decay=cfg.TRAIN.WD,
            nesterov=cfg.TRAIN.NESTEROV
        )

NameError: name 'cfg' is not defined