# 获得权重文件的文件名

In [4]:
import os
import glob
from safetensors import safe_open

# --- 配置 ---
# 设置你的模型文件或文件夹路径
# 如果是单个文件，直接写文件路径，例如: "path/to/your/model.safetensors"
# 如果是文件夹 (包含多个分片文件)，写文件夹路径，例如: "/path/to/your/model_directory/"
model_path = "dolphin_model/model.safetensors" # <--- 修改这里

# 输出文件名
output_file = "dolphin_weight_names.txt"
# --- 配置结束 ---

all_weight_names = []

if os.path.isfile(model_path):
    # 处理单个文件的情况
    files_to_process = [model_path]
elif os.path.isdir(model_path):
    # 处理文件夹的情况 (查找所有 .safetensors 文件)
    files_to_process = glob.glob(os.path.join(model_path, "*.safetensors"))
else:
    print(f"错误：路径 '{model_path}' 不是一个有效的文件或目录。")
    files_to_process = []

if not files_to_process:
    print("错误：在指定路径下没有找到 .safetensors 文件。")
else:
    print(f"找到以下文件进行处理: {files_to_process}")
    # 遍历所有找到的文件
    for filepath in files_to_process:
        print(f"正在读取文件: {filepath} ...")
        with safe_open(filepath, framework="pt", device="cpu") as f:
            # f.keys() 返回文件中所有张量(权重)的名称列表
            for key in f.keys():
                all_weight_names.append(key)

    # 将所有名称写入到输出文件
    try:
        with open(output_file, "w", encoding="utf-8") as f_out:
            for name in sorted(all_weight_names): # 排序后输出，更清晰
                f_out.write(name + "\n")
        print(f"\n成功！所有 {len(all_weight_names)} 个权重名称已保存到: {output_file}")
    except IOError as e:
        print(f"\n错误：无法写入文件 {output_file}。原因: {e}")

找到以下文件进行处理: ['dolphin_model/model.safetensors']
正在读取文件: dolphin_model/model.safetensors ...

成功！所有 640 个权重名称已保存到: dolphin_weight_names.txt


In [5]:
import os
import glob
import torch  # <-- 导入 torch 库

# --- 配置 ---
# 设置你的模型文件或文件夹路径
# 如果是单个文件，例如: "path/to/your/pytorch_model.bin"
# 如果是文件夹 (包含多个分片文件)，例如: "/path/to/your/model_directory/"
model_path = "donut_model/pytorch_model.bin" # <--- 修改这里

# 输出文件名
output_file = "donut_weight_names.txt"
# --- 配置结束 ---

all_weight_names = []

if os.path.isfile(model_path):
    # 处理单个文件的情况
    files_to_process = [model_path]
elif os.path.isdir(model_path):
    # 处理文件夹的情况 (查找所有 .bin 文件)
    files_to_process = glob.glob(os.path.join(model_path, "*.bin"))
else:
    print(f"错误：路径 '{model_path}' 不是一个有效的文件或目录。")
    files_to_process = []

if not files_to_process:
    print("错误：在指定路径下没有找到 .bin 文件。")
else:
    print(f"找到以下文件进行处理: {files_to_process}")
    # 遍历所有找到的文件
    for filepath in files_to_process:
        try:
            print(f"正在读取文件: {filepath} ...")
            # --- 核心修改在这里 ---
            # 使用 torch.load 加载 .bin 文件
            # map_location='cpu' 确保权重加载到CPU，避免占用显存
            state_dict = torch.load(filepath, map_location="cpu")
            
            # state_dict 是一个字典，它的键 (keys) 就是权重的名称
            for key in state_dict.keys():
                all_weight_names.append(key)
        except Exception as e:
            print(f"读取文件 {filepath} 时出错: {e}")

    # 将所有名称写入到输出文件
    if all_weight_names:
        try:
            with open(output_file, "w", encoding="utf-8") as f_out:
                for name in sorted(all_weight_names): # 排序后输出，更清晰
                    f_out.write(name + "\n")
            print(f"\n成功！所有 {len(all_weight_names)} 个权重名称已保存到: {output_file}")
        except IOError as e:
            print(f"\n错误：无法写入文件 {output_file}。原因: {e}")

找到以下文件进行处理: ['donut_model/pytorch_model.bin']
正在读取文件: donut_model/pytorch_model.bin ...

成功！所有 484 个权重名称已保存到: donut_weight_names.txt


In [2]:
!git clone https://huggingface.co/naver-clova-ix/donut-base ./donut_model

Cloning into './donut_model'...
remote: Enumerating objects: 34, done.[K
remote: Total 34 (delta 0), reused 0 (delta 0), pack-reused 34 (from 1)[K
Unpacking objects: 100% (34/34), 1008.46 KiB | 1.42 MiB/s, done.
