In [1]:
import os
import re

In [2]:
def extract_codes_from_directory(directory_path):
    """
    提取指定目录下所有文件名中第一个 '_' 之前的 code
    要求 code 必须是英文或英文+数字的组合
    """
    codes = set() # 使用 set 去重
    
    # 检查目录是否存在
    if not os.path.exists(directory_path):
        print(f"错误: 目录 '{directory_path}' 不存在！")
        return []

    # 编译正则表达式：仅匹配字母和数字组合 (英文或英文+数字)
    # ^[a-zA-Z0-9]+$ 表示从头到尾都必须是字母或数字
    pattern = re.compile(r'^[a-zA-Z0-9]+$')

    # 遍历目录下的所有文件
    for filename in os.listdir(directory_path):
        # 跳过隐藏文件 (如 .DS_Store) 或目录
        if filename.startswith('.') or os.path.isdir(os.path.join(directory_path, filename)):
            continue
            
        # 确保文件名中包含 '_'
        if '_' in filename:
            # 提取第一个 '_' 之前的部分
            code = filename.split('_')[0]
            
            # 校验提取出的 code 是否符合"英文或英文+数字"的要求
            if pattern.match(code):
                codes.add(code)
                
    # 转换为列表并排序，方便查看
    return sorted(list(codes))

In [3]:
# --- 请在这里修改为你的实际目录路径 ---
# 例如：你的数据存放在 "annual_data_2025" 文件夹下
target_dir = "/Volumes/DRCC_DATA/01DATA/03IOC/天文潮/2026/2026预测-全部" 

result_codes = extract_codes_from_directory(target_dir)

print(f"总共提取到 {len(result_codes)} 个独立的 code。")
print("-" * 40)

# 打印结果，也可以将结果写入到文本文件中
print(result_codes)

# 如果你想把提取出来的 code 数组直接复制到代码里，可以用下面的格式打印：
# print("[\n    '" + "',\n    '".join(result_codes) + "'\n]")

总共提取到 480 个独立的 code。
----------------------------------------
['AZ42', 'CA02', 'CF06', 'CI20', 'GA37', 'LA23', 'PA07', 'PL14', 'PO40', 'PT17', 'RA10', 'SA16', 'TR22', 'UAPO', 'VE19', 'abas', 'abed', 'abur', 'acnj2', 'acor1', 'adak2', 'ajac', 'ajac2', 'alak2', 'alam', 'alge', 'alme', 'alva', 'alva2', 'amal', 'amal2', 'anch2', 'ancu', 'ancu2', 'ande', 'anto', 'anto2', 'apfl', 'arca', 'aren', 'aric', 'aric2', 'arre', 'arsu', 'asto', 'auct', 'audi', 'avon', 'ball', 'balt', 'bame', 'bame2', 'bang', 'bapj', 'bara', 'barn', 'bdto', 'bele', 'benc', 'benc2', 'beno', 'bgct', 'bgct2', 'bil3', 'blow', 'blueb', 'bmsa', 'bmsa2', 'bmso', 'boma', 'bon2', 'boul', 'bour', 'boye', 'boye2', 'bozy', 'bres', 'brom', 'bull', 'cala', 'cala2', 'cald', 'cald2', 'cbmd2', 'ceut', 'chala', 'char', 'chat', 'cher', 'chij', 'chit', 'chnr', 'chnr2', 'chrp', 'chrp2', 'chst', 'chtt', 'cmet', 'cmet3', 'cmnj', 'cmnj2', 'coli', 'coli2', 'conc', 'conc2', 'coqu', 'coqu2', 'cor2', 'cord2', 'corr', 'corr2', 'coru', 'cpit', 'cr