In [7]:
import torch.nn as nn
import torch.optim as optim

# 详细参数说明示例
model = nn.Sequential(
    nn.Linear(5, 10),
    nn.ReLU(),
    nn.Linear(10, 1)
)

# 1. params: 可以是参数列表或参数组
# 方式1: 直接传入所有参数
optimizer1 = optim.AdamW(model.parameters())

# 方式2: 参数分组（不同参数使用不同超参数）
optimizer2 = optim.AdamW([
    {'params': model[0].parameters(), 'lr': 0.01, 'weight_decay': 0.001},
    {'params': model[2].parameters(), 'lr': 0.001, 'weight_decay': 0.01}
])

print("参数分组示例:")
for i, group in enumerate(optimizer2.param_groups):
    print(f"  组 {i}: lr={group['lr']}, weight_decay={group['weight_decay']}")

# 2. lr: 学习率
# 可以通过 param_groups 动态修改
optimizer2.param_groups[0]['lr'] = 0.005
print(f"修改后第一组学习率: {optimizer2.param_groups[1]['lr']}")



参数分组示例:
  组 0: lr=0.01, weight_decay=0.001
  组 1: lr=0.001, weight_decay=0.01
修改后第一组学习率: 0.001


In [5]:
optimizer1.state_dict()

{'state': {},
 'param_groups': [{'lr': 0.001,
   'betas': (0.9, 0.999),
   'eps': 1e-08,
   'weight_decay': 0.01,
   'amsgrad': False,
   'foreach': None,
   'maximize': False,
   'capturable': False,
   'differentiable': False,
   'fused': None,
   'params': [0, 1, 2, 3]}]}

In [28]:
import torch

def explore_optimizer_attributes():
    model = nn.Linear(3, 1)
    optimizer = optim.AdamW(model.parameters(), lr=0.01, weight_decay=0.01)
    
    print("=== Optimizer 核心属性 ===")
    
    # 1. param_groups: 参数组列表
    print(f"参数组数量: {len(optimizer.param_groups)}")
    print(f"第一个参数组的键: {list(optimizer.param_groups[0].keys())}")
    
    # 查看具体的参数信息
    param_group = optimizer.param_groups[0]
    print(f"学习率: {param_group['lr']}")
    print(f"权重衰减: {param_group['weight_decay']}")
    print(f"betas: {param_group['betas']}")
    print(f"eps: {param_group['eps']}")
    print(f"amsgrad: {param_group['amsgrad']}")
    
    # 2. defaults: 默认参数
    print(f"默认参数: {optimizer.defaults}")
    
    # 3. state: 优化器状态字典
    # 注意：state 在第一次 step() 之前是空的
    print(f"初始状态: {optimizer.state}")
    
    # 执行一次优化步骤后查看状态
    dummy_input = torch.randn(1, 3)
    dummy_target = torch.randn(1, 1)
    criterion = nn.MSELoss()
    
    optimizer.zero_grad()
    output = model(dummy_input)
    loss = criterion(output, dummy_target)
    loss.backward()
    optimizer.step()
    
    print(f"执行 step() 后的状态键: {list(optimizer.state.keys())}")
    for param, state_dict in optimizer.state.items():
        print(f"  参数状态键: {list(state_dict.keys())}")
        print(f"  参数状态值: {state_dict}")
        break  # 只显示第一个参数的状态

explore_optimizer_attributes()

=== Optimizer 核心属性 ===
参数组数量: 1
第一个参数组的键: ['params', 'lr', 'betas', 'eps', 'weight_decay', 'amsgrad', 'foreach', 'maximize', 'capturable', 'differentiable', 'fused']
学习率: 0.01
权重衰减: 0.01
betas: (0.9, 0.999)
eps: 1e-08
amsgrad: False
默认参数: {'lr': 0.01, 'betas': (0.9, 0.999), 'eps': 1e-08, 'weight_decay': 0.01, 'amsgrad': False, 'foreach': None, 'maximize': False, 'capturable': False, 'differentiable': False, 'fused': None}
初始状态: defaultdict(<class 'dict'>, {})
执行 step() 后的状态键: [Parameter containing:
tensor([[-0.0108, -0.2969, -0.2628]], requires_grad=True), Parameter containing:
tensor([-0.3303], requires_grad=True)]
  参数状态键: ['step', 'exp_avg', 'exp_avg_sq']
  参数状态值: {'step': tensor(1.), 'exp_avg': tensor([[ 0.0123, -0.0047,  0.0312]]), 'exp_avg_sq': tensor([[1.5114e-05, 2.1956e-06, 9.7603e-05]])}
