## torch.no_grad() vs param.requires_grad
- torch.no_grad()
    - 定义了一个上下文管理器，隐式地不进行梯度更新，不会改变requires_grad
    - 通用于value阶段，或model forward 的过程中某些模块不更新梯度的模块（此时仅进行前向计算，不反向更新）
- param.requires_grad
    - 显式地frozen掉一些module(layer)的梯度更新
    - layer/module 级别
    - 可能会更灵活

In [1]:
from transformers import BertModel
import torch
from torch import nn

In [2]:
model_name='bert-base-uncased'

In [3]:
bert=BertModel.from_pretrained(model_name)

In [4]:
def calc_learnable_params(model):
    total_param=0
    for name,param in model.named_parameters():# 遍历所有参数
        if param.requires_grad:# 只统计需要梯度的参数
            total_param+=param.numel()# 累加参数数量
    return total_param

In [5]:
calc_learnable_params(bert)

109482240

In [6]:
with torch.no_grad():
    print(calc_learnable_params(bert))

109482240


In [8]:
for name,param in bert.named_parameters():
    if param.requires_grad:
        param.requires_grad=False
calc_learnable_params(bert)

0