In [5]:
import torch

# 定义你要读取的文件名
file_path = 'global_dataset_state_dict_279.pt'

try:
    # 使用 torch.load() 函数加载文件
    # map_location='cpu' 参数是很有用的，特别是当你加载一个在 GPU 上训练和保存的模型，
    # 但你当前的环境可能没有 GPU。这能确保模型权重被加载到 CPU 内存中，避免出错。
    state_dict = torch.load(file_path, map_location='cpu')

    print(f"成功读取文件: {file_path}")
    print("-" * 30)

    # state_dict 是一个字典，你可以像操作普通 Python 字典一样操作它。
    # 1. 打印 state_dict 的类型
    print(f"数据类型: {type(state_dict)}")
    print("-" * 30)

    # 2. 打印字典中所有的键 (keys)，这能让你了解文件中存储了哪些内容。
    #    在模型文件中，键通常是模型层的名称（例如 'conv1.weight', 'fc2.bias'）。
    print("字典中的键 (Keys):")
    for key in state_dict.keys():
        print(key)
    print("-" * 30)

    # 3. 检查某个特定键对应的值的形状 (shape)
    #    随机选择一个键来查看，或者选择一个你感兴趣的键。
    if state_dict:
        first_key = list(state_dict.keys())[0]
        first_value = state_dict[first_key]
        # 检查值的类型，通常是 torch.Tensor
        print(f"第一个键 '{first_key}' 对应的值的类型是: {type(first_value)}")
        # 打印张量的形状
        if isinstance(first_value, torch.Tensor):
            print(f"第一个键 '{first_key}' 对应张量的形状是: {first_value.shape}")

except FileNotFoundError:
    print(f"错误: 文件 '{file_path}' 未找到。请确保文件路径正确。")
except Exception as e:
    print(f"读取文件时发生错误: {e}")

成功读取文件: global_dataset_state_dict_279.pt
------------------------------
数据类型: <class 'dict'>
------------------------------
字典中的键 (Keys):
sample_offset
epoch_id
sample_index
metadata
------------------------------
第一个键 'sample_offset' 对应的值的类型是: <class 'int'>


In [6]:
state_dict

{'sample_offset': 1159, 'epoch_id': 9, 'sample_index': 547328, 'metadata': {}}

In [None]:

PYTHONPATH=/root/Megatron-LM python tools/convert_torch_dist_to_hf.py \
  --input-dir /apdcephfs/private_ethangeng/Qwen3-4B_slime/iter_0000499/ \
  --output-dir /apdcephfs/private_ethangeng/Qwen3-4B_slime_hf/iter_0000499/ \
  --vocab-size 151936\
  --origin-hf-dir /root/Qwen3-4B