# 一、提取参数的方法
## 1.model.state_dict()：
是将 layer_name 与 layer_param 以键的形式存储为 dict 。包含所有层的名字和参数，所存储的模型参数 tensor 的 require_grad 属性都是 False 。输出的值不包括 require_grad 。在固定某层时不能采用 model.state_dict() 来获取参数设置 require_grad 属性。

In [4]:
# -*- coding: utf-8 -*-
import torch.nn as nn
 
class net(nn.Module):
    def __init__(self):
        super(net, self).__init__()
 
        self.conv1 = nn.Sequential(
            nn.Conv3d(1, 3,kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv2 = nn.Sequential(
            nn.Conv3d(3, 6, kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv3 = nn.Sequential(
            nn.Conv3d(6, 12,kernel_size=3, stride=1, padding=0, bias=False),
        )
 
    def forward(self, x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        return out
 
if __name__ == '__main__':
    model = net()
    for k,v in model.state_dict().items():
        print(k,"\t",v.shape)


conv1.0.weight 	 torch.Size([3, 1, 3, 3, 3])
conv2.0.weight 	 torch.Size([6, 3, 3, 3, 3])
conv3.0.weight 	 torch.Size([12, 6, 3, 3, 3])


## 2.model.named_parameters()：
是将 layer_name 与 layer_param 以打包成一个元组然后再存到 list 当中。只保存可学习、可被更新的参数。model.named_parameters() 所存储的模型参数 tensor 的 require_grad 属性都是   True。常用于固定某层的参数是否被训练，
### 通常是通过 model.named_parameters() 来获取参数设置 require_grad 属性。

In [5]:
# -*- coding: utf-8 -*-
import torch.nn as nn
 
class net(nn.Module):
    def __init__(self):
        super(net, self).__init__()
 
        self.conv1 = nn.Sequential(
            nn.Conv3d(1, 3,kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv2 = nn.Sequential(
            nn.Conv3d(3, 6, kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv3 = nn.Sequential(
            nn.Conv3d(6, 12,kernel_size=3, stride=1, padding=0, bias=False),
        )
 
    def forward(self, x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        return out
 
if __name__ == '__main__':
    model = net()
    for k,v in model.named_parameters():
        print(k,"\t",v)

conv1.0.weight 	 Parameter containing:
tensor([[[[[ 0.1013, -0.0083, -0.0354],
           [ 0.0180, -0.0936, -0.0568],
           [-0.1923,  0.0950,  0.0756]],

          [[-0.0240,  0.1362,  0.1861],
           [-0.0385,  0.0673,  0.1412],
           [-0.1152,  0.1923,  0.0830]],

          [[-0.0385, -0.1067,  0.1363],
           [-0.0458, -0.0694, -0.0582],
           [-0.1866, -0.0235,  0.0518]]]],



        [[[[-0.1094, -0.1647, -0.1657],
           [ 0.1128, -0.0779,  0.1556],
           [-0.0389,  0.0342, -0.0030]],

          [[ 0.0553,  0.1406,  0.1032],
           [ 0.1860, -0.0080,  0.1901],
           [-0.1828,  0.1896,  0.0587]],

          [[-0.0960,  0.0904,  0.0999],
           [ 0.1857,  0.0361,  0.0501],
           [-0.0592,  0.1349,  0.1438]]]],



        [[[[ 0.0754, -0.1053,  0.0905],
           [ 0.1616, -0.1542, -0.0055],
           [-0.1079, -0.1522,  0.1156]],

          [[-0.1516,  0.0046, -0.1284],
           [-0.1205,  0.1288,  0.0103],
           [-0.1408

## 3. model.parameter()：
返回的只是参数，不包括 layer_name 。返回结果包含 require_grad ，且均为 Ture ，这主要是网络在创建时，默认参数都是需要学习的，即 require_grad 都是 True。

In [2]:

import torch.nn as nn
 
class net(nn.Module):
    def __init__(self):
        super(net, self).__init__()
 
        self.conv1 = nn.Sequential(
            nn.Conv3d(1, 3,kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv2 = nn.Sequential(
            nn.Conv3d(3, 6, kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv4 = nn.Sequential(
            nn.Conv3d(6, 12,kernel_size=3, stride=1, padding=0, bias=False),
        )
 
    def forward(self, x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        return out
 
if __name__ == '__main__':
    model = net()
    for k in model.parameters():
        print(k.shape)

torch.Size([3, 1, 3, 3, 3])
torch.Size([6, 3, 3, 3, 3])
torch.Size([12, 6, 3, 3, 3])


## 4.model.named_modules() 
返回每一层模型的名字和结构：

In [4]:
# -*- coding: utf-8 -*-
import torch.nn as nn
 
class net(nn.Module):
    def __init__(self):
        super(net, self).__init__()
 
        self.conv1 = nn.Sequential(
            nn.Conv3d(1, 3,kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv2 = nn.Sequential(
            nn.Conv3d(3, 6, kernel_size=3, stride=1, padding=0, bias=False),
        )
        self.conv3 = nn.Sequential(
            nn.Conv3d(6, 12,kernel_size=3, stride=1, padding=0, bias=False),
        )
 
    def forward(self, x):
        out = self.conv1(x)
        out = self.conv2(out)
        out = self.conv3(out)
        return out
 
if __name__ == '__main__':
    model = net()
    for name, module in model.named_modules():
        print(name)


conv1
conv1.0
conv2
conv2.0
conv3
conv3.0


# 二、Pytorch 载入预训练模型，并修改网络结构，固定某层参数学习
###  注意：需要用到提取预训练模型的哪些层，那么自己创建的网络中，这些层的名字参数都不能改变，必须与之相同。但是，需要修改的层，名字不能与原来网络的相同。

## 1、预训练模型、修改网络结构

In [19]:
import torchvision.models as models
import torch
# 创建model

resnet50 = models.resnet50(pretrained=True)  # 创建预训练模型，并加载参数
net_later = net()   # 创建我们的网络
 
# 读取网络参数
pretrained_dict = resnet50.state_dict()  # 读取预训练模型参数
net_dict = net_later.state_dict()       # 读取我们的网络参数


# print( k in net_dict)
pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in net_dict}
print(pretrained_dict)
# 更新修改之后的net_dict
net_dict.update(pretrained_dict)  #  将net_later中layer_name相同的参数更新为 pretrained_dict 的
 
    
# 加载我们真正需要的state_dict
net_later.load_state_dict(net_dict)
# for name, value in net_later.named_parameters():
#     print(name)
#     pass

# print("*"*100)
# for name, value in resnet50.named_parameters():
#     print(name)
#     pass
print(model)

{}
net(
  (conv1): Sequential(
    (0): Conv3d(1, 3, kernel_size=(3, 3, 3), stride=(1, 1, 1), bias=False)
  )
  (conv2): Sequential(
    (0): Conv3d(3, 6, kernel_size=(3, 3, 3), stride=(1, 1, 1), bias=False)
  )
  (conv3): Sequential(
    (0): Conv3d(6, 12, kernel_size=(3, 3, 3), stride=(1, 1, 1), bias=False)
  )
)


## 2.参数的来源是自己训练的模型

In [None]:
model = net() # 创建自己的网络，该网络是修改之后的
 
# 读取修改之前自己模型保存的参数权重
logdir = "2021_08-24_14-56-58_"
NET_PARAMS_PATH = os.path.join(os.getcwd(), "log", logdir, "net_params(5).pkl")
net_params = torch.load(NET_PARAMS_PATH)
 
# 读取网络参数
model_dict = model.state_dict()  # 读取修改之后的网络参数
 
# 将之前保存的模型参数（net_params ）里不属于 net_dict 的键剔除掉
pretrained_dict = {k: v for k, v in net_params["model_state_dict"].items() if k in net_dict}
 
# 更新修改之后的 model_dict
model_dict.update(pretrained_dict)
 
# 加载我们真正需要的 state_dict
model.load_state_dict(net_dict)

## 3.固定某些层不参与训练
### 通过layer_name改变requeried == false
如果载入的这些权重参数中，有些权重参数需要被更新，即固定不变，不参与训练，需要手动设置这些参数的梯度属性为 Fasle ，并且在 Optimizer 传参时筛选掉这些参数

In [None]:
model = net()
 
# 例如冻结 fc1 层的参数
for name, param in model.named_parameters():
    if "fc1" in name:
        param.requires_grad = False
 
# 定义一个 fliter ，只传入 requires_grad=True 的模型参数
# optimizer = optim.SGD(filter(lambda p : p.requires_grad, model.parameters()), lr=1e-2)  
#   训练一段时间后如果想再打开之前冻结的层，只要 model 的 reauire_grade 设置为 True 。
# 同时，不要忘记将优化器再重新加载一遍，否则虽然设置为 True ，依然还是固定训练。

for k,v in model.named_parameters():
        v.requires_grad=True  # 固定层打开
optimizer = optim.Adam(model.parameters(),lr=0.01)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer,step_size=10, gamma=0.5)

# 也可以这样写

if epoch==50:
    for parameter in deeplabv3.classifier.parameters():
        if parameter.requires_grad==False:
            parameter.requires_grad = True
            optimizer.add_param_group({'params': parameter})
 
'''
冻结的是deeplabv3的classifier层中的卷积，所以只循环这一层即可。
其实也可以直接optimizer.add_param_group({'params': deeplabv3.classifier.xx.parameters()})
但是，如果有数字就只能用上面的方法
'''

## 4.固定某一层和不同层使用不同的学习率


In [None]:
# 情况一：优化器只传入 fc2 的参数
optimizer = optim.SGD(model.fc2.parameters(), lr=1e-2)
 
# 情况二：优化器只传入混合层中某一层的参数（依次写即可，需要找到具体的名字）
optimizer = optim.SGD(model.features.denseblock3.denselayer1.conv2_2.parameters(), lr=1e-2)

In [None]:
# 对不同的层采用不同的学习率
# 读取 DenseLayer 层的参数并放入列表
ignored_params = list(map(id, model.features.denseblock3.denselayer1.DenseLayer.parameters()))
 
# 将该 DenseLayer 层参数忽略，提取其他层参数
base_params = filter(lambda p: id(p) not in ignored_params, model.parameters())
 
# 按不同的层设置优化器
optimizer = torch.optim.Adam([{'params':base_params,'lr':0.01},
                              {'params':model.features.denseblock3.denselayer1.DenseLayer.parameters()}],
                              lr=0.001, momentum=0.9)