In [5]:
import os
import fnmatch # 用于简单的通配符匹配
import re      # 用于更复杂的正则表达式匹配

def get_matching_filenames(directory_path, pattern_type='wildcard', pattern='*'):
    """
    从指定目录提取符合特定模式的文件名列表。

    Args:
        directory_path (str): 数据集所在的目录路径。
        pattern_type (str): 模式类型 ('wildcard' 或 'regex')。
        pattern (str): 用于匹配文件名的模式。
                       - wildcard: 使用 Unix shell 风格的通配符 (e.g., '*.csv', 'data_*.txt')
                       - regex: 使用 Python 的正则表达式 (e.g., r'^data_\d{4}_\d{2}\.csv$')

    Returns:
        list: 包含符合条件的文件名的列表。
        None: 如果目录不存在或发生错误。
    """
    if not os.path.isdir(directory_path):
        print(f"错误：目录 '{directory_path}' 不存在。")
        return None

    filenames = []
    try:
        all_files = os.listdir(directory_path) # 获取目录下所有文件和文件夹名
        for filename in all_files:
            full_path = os.path.join(directory_path, filename)
            # 确保我们只处理文件，不处理子目录
            if os.path.isfile(full_path):
                match = False
                if pattern_type == 'wildcard':
                    if fnmatch.fnmatch(filename, pattern):
                        match = True
                elif pattern_type == 'regex':
                    if re.match(pattern, filename):
                        match = True
                else:
                    print(f"错误：未知的模式类型 '{pattern_type}'。请使用 'wildcard' 或 'regex'。")
                    return None

                if match:
                    filenames.append(filename)

        return filenames

    except Exception as e:
        print(f"在读取目录 '{directory_path}' 时发生错误: {e}")
        return None

# --- 使用示例 ---

# 1. 设置你的数据集目录路径
dataset_dir = './MCC5-THU gearbox fault diagnosis datasets/MCC5-THU gearbox fault diagnosis datasets/' # <--- 修改这里为你真实的路径

# 2. 定义你的文件名规则
# 示例 1: 使用通配符，匹配所有以 'sensor_data_' 开头，以 '.log' 结尾的文件
# file_pattern_wildcard = 'sensor_data_*.log'
# matching_files = get_matching_filenames(dataset_dir, pattern_type='wildcard', pattern=file_pattern_wildcard)

# 示例 2: 使用正则表达式，匹配形如 'report_YYYYMMDD.csv' 的文件 (YYYY是四位年份, MM是两位月份, DD是两位日期)
# file_pattern_regex = r'^report_\d{8}\.csv$'
file_pattern_regex = '*.csv' # 这里是一个简单的正则表达式，匹配所有以 .csv 结尾的文件
matching_files = get_matching_filenames(dataset_dir, pattern_type='wildcard', pattern=file_pattern_regex)

# 示例 3: 获取目录下所有 .txt 文件
# file_pattern_all_txt = '*.txt'
# matching_files = get_matching_filenames(dataset_dir, pattern_type='wildcard', pattern=file_pattern_all_txt)


# 3. 打印结果
if matching_files is not None:
    print("成功提取到以下文件名:")
    for name in matching_files:
        print(name)
    # 你可以将这个列表复制下来，用于下一步喂给大模型
    print("\n--- 文件名列表 (可复制) ---")
    print(matching_files)
else:
    print("未能提取文件名列表。")

成功提取到以下文件名:
gear_pitting_H_speed_circulation_10Nm-1000rpm.csv
gear_pitting_H_speed_circulation_10Nm-2000rpm.csv
gear_pitting_H_speed_circulation_10Nm-3000rpm.csv
gear_pitting_H_speed_circulation_20Nm-1000rpm.csv
gear_pitting_H_speed_circulation_20Nm-2000rpm.csv
gear_pitting_H_speed_circulation_20Nm-3000rpm.csv
gear_pitting_H_torque_circulation_1000rpm_10Nm.csv
gear_pitting_H_torque_circulation_1000rpm_20Nm.csv
gear_pitting_H_torque_circulation_2000rpm_10Nm.csv
gear_pitting_H_torque_circulation_2000rpm_20Nm.csv
gear_pitting_H_torque_circulation_3000rpm_10Nm.csv
gear_pitting_H_torque_circulation_3000rpm_20Nm.csv
gear_pitting_L_speed_circulation_10Nm-1000rpm.csv
gear_pitting_L_speed_circulation_10Nm-2000rpm.csv
gear_pitting_L_speed_circulation_10Nm-3000rpm.csv
gear_pitting_L_speed_circulation_20Nm-1000rpm.csv
gear_pitting_L_speed_circulation_20Nm-2000rpm.csv
gear_pitting_L_speed_circulation_20Nm-3000rpm.csv
gear_pitting_L_torque_circulation_1000rpm_10Nm.csv
gear_pitting_L_torque_circulati

In [None]:
import os  # 导入os模块，用于处理文件和目录路径
import re  # 导入re模块，用于正则表达式操作，解析文件名
import pandas as pd # 导入pandas库，用于读取和处理CSV文件，通常简写为pd

# --- 配置区域 ---
# 数据集CSV文件所在的目录路径。
# 重要：请确保这个路径是正确的！根据你的实际情况修改。
DATA_DIR = './MCC5-THU gearbox fault diagnosis datasets/MCC5-THU gearbox fault diagnosis datasets/'

# 需要处理的文件名列表
# 请将你之前提取的所有相关文件名完整地粘贴到这个列表中
# FILENAMES_TO_PROCESS = [
#     'gear_pitting_H_speed_circulation_10Nm-1000rpm.csv', 'gear_pitting_H_speed_circulation_10Nm-2000rpm.csv',
#     'gear_pitting_H_speed_circulation_10Nm-3000rpm.csv', 'gear_pitting_H_speed_circulation_20Nm-1000rpm.csv',
#     'gear_pitting_H_speed_circulation_20Nm-2000rpm.csv', 'gear_pitting_H_speed_circulation_20Nm-3000rpm.csv',
#     'gear_pitting_H_torque_circulation_1000rpm_10Nm.csv', 'gear_pitting_H_torque_circulation_1000rpm_20Nm.csv',
#     'gear_pitting_H_torque_circulation_2000rpm_10Nm.csv', 'gear_pitting_H_torque_circulation_2000rpm_20Nm.csv',
#     'gear_pitting_H_torque_circulation_3000rpm_10Nm.csv', 'gear_pitting_H_torque_circulation_3000rpm_20Nm.csv',
#     'gear_pitting_L_speed_circulation_10Nm-1000rpm.csv', 'gear_pitting_L_speed_circulation_10Nm-2000rpm.csv',
#     # ... (请确保在这里包含了你列表中的所有文件名) ...
#     'teeth_crack_M_torque_circulation_3000rpm_10Nm.csv', 'teeth_crack_M_torque_circulation_3000rpm_20Nm.csv'
# ]
FILENAMES_TO_PROCESS = matching_files

# --- 配置结束 ---

def parse_filename(filename):
    """
    解析齿轮箱故障诊断数据集的文件名，提取相关信息。

    Args:
        filename (str): 文件名 (例如: 'gear_pitting_H_speed_circulation_10Nm-1000rpm.csv')。

    Returns:
        dict: 一个包含解析后信息的字典 (键包括: fault_type, severity,
              experiment_type, speed_rpm, torque_nm, original_filename)，
              如果解析失败则返回 None。
    """
    # 定义正则表达式来捕获文件名的不同部分
    # 这个正则表达式可以处理可选的严重程度标记 (H/L/M) 以及两种不同的速度/扭矩格式
    pattern = re.compile(
        r"^(?P<fault_type>.+?)"                  # 故障类型 (非贪婪匹配，匹配到第一个下划线前，如果后面有严重性标记的话)
        r"(?:_(?P<severity>[HLM]))?"             # 可选的严重程度标记 (H, L, M)，使用非捕获组 (?:...) 和 ? 表示可选
        r"_(?P<experiment_type>speed|torque)_circulation_" # 实验类型 (speed 或 torque)
        r"(?:"                                   # 开始一个非捕获组，用于匹配两种不同的参数格式
            r"(?P<torque1>\d+)Nm-(?P<speed1>\d+)rpm" # 格式 1: XXNm-YYYYrpm (例如 10Nm-1000rpm)
            r"|"                                 # 或
            r"(?P<speed2>\d+)rpm_(?P<torque2>\d+)Nm" # 格式 2: YYYYrpm_XXNm (例如 1000rpm_10Nm)
        r")"                                     # 结束非捕获组
        r"\.csv$"                                # 必须以 .csv 结尾
    )

    match = pattern.match(filename) # 尝试从文件名开头匹配模式

    if match:
        data = match.groupdict() # 获取所有命名捕获组的匹配结果，存入字典

        # 从两种可能的格式中整合 speed 和 torque 信息
        parsed_info = {
            "fault_type": data["fault_type"], # 故障类型
            "severity": data["severity"], # 严重程度 (如果不存在则为 None)
            "experiment_type": data["experiment_type"], # 实验类型 ('speed' 或 'torque')
            # 使用 or 来获取第一个非空的速度值，并转换为整数
            "speed_rpm": int(data["speed1"] or data["speed2"]), # 转速 (RPM)
            # 使用 or 来获取第一个非空的扭矩值，并转换为整数
            "torque_nm": int(data["torque1"] or data["torque2"]), # 扭矩 (Nm)
            "original_filename": filename # 保留原始文件名
        }
        return parsed_info
    else:
        # 如果文件名不符合预期的模式，打印警告并返回 None
        print(f"警告：无法解析文件名：{filename}")
        return None

def process_csv_file(filepath, file_info):
    """
    根据解析出的文件信息，打开并处理单个CSV文件。

    Args:
        filepath (str): CSV文件的完整路径。
        file_info (dict): `parse_filename` 函数返回的包含文件信息的字典。
    """
    print(f"\n--- 开始处理文件: {file_info['original_filename']} ---")
    # 打印从文件名解析出来的信息
    print(f"   故障类型: {file_info['fault_type']}")
    print(f"   严重程度: {file_info['severity'] or 'N/A'}") # 如果严重程度是None，显示 'N/A'
    print(f"   实验类型: {file_info['experiment_type']} circulation")
    print(f"   转速: {file_info['speed_rpm']} RPM")
    print(f"   扭矩: {file_info['torque_nm']} Nm")
    print(f"   文件路径: {filepath}")

    try:
        # --- 操作 1: 使用 Pandas 读取 CSV 文件 ---
        # 如果文件非常巨大（例如，远超内存大小），可以考虑使用分块读取：
        # chunk_size = 100000 # 例如，每次处理 100,000 行
        # for chunk in pd.read_csv(filepath, chunksize=chunk_size):
        #     # 在这里处理每个数据块 (chunk)
        #     print(f"    正在处理大小为 {len(chunk)} 的数据块")
        #     # 在此添加你基于数据块的处理逻辑

        # 对于中等大小的文件，直接读取通常是可行的。
        df = pd.read_csv(filepath)

        # --- 操作 2: 执行你特定的数据提取或处理任务 ---
        # *******************************************************************
        # **** 非常重要：请将下面这部分替换为你实际需要执行的代码 ****
        # *******************************************************************

        # 示例 1: 打印文件的基本信息和前几行
        print(f"   文件加载成功。数据形状 (行, 列): {df.shape}")
        print("   文件前 5 行内容:")
        print(df.head())

        # 示例 2: 提取特定列的数据 (请将 '你的列名' 替换为实际的列名)
        # target_column = '振动信号列名' # <-- 替换成你需要的列名
        # if target_column in df.columns:
        #     print(f"   正在提取列: {target_column}")
        #     extracted_data = df[target_column]
        #     # 现在你可以处理 'extracted_data' (例如：计算统计量、绘图、保存等)
        #     print(f"   '{target_column}' 列的平均值: {extracted_data.mean():.4f}")
        # else:
        #     print(f"   警告: 在文件中未找到列 '{target_column}'。")

        # 示例 3: 计算文件大小 (另一种方式，与 os.path.getsize 不同，这是DataFrame在内存中的估算)
        # print(f"   DataFrame 内存占用估算: {df.memory_usage(deep=True).sum() / (1024*1024):.2f} MB")

        # **** 示例代码结束 ****

    except FileNotFoundError:
        # 处理文件不存在的错误
        print(f"   错误：文件未找到 {filepath}")
    except pd.errors.EmptyDataError:
        # 处理空文件的错误
        print(f"   错误：文件为空 {filepath}")
    except Exception as e:
        # 处理其他在文件处理过程中可能发生的未知错误
        print(f"   错误：处理文件 {filepath} 时发生意外错误: {e}")

def main():
    """
    主函数，用于遍历文件名列表，解析文件名，并调用处理函数处理每个文件。
    """
    print(f"开始在目录中进行处理: {DATA_DIR}")
    # 检查指定的目录是否存在
    if not os.path.isdir(DATA_DIR):
        print(f"错误: 目录不存在: {DATA_DIR}")
        return # 如果目录不存在，则退出函数

    processed_count = 0 # 记录成功处理（尝试处理）的文件数量
    skipped_count = 0   # 记录因解析失败而跳过的文件数量

    # 遍历需要处理的文件名列表
    for filename in FILENAMES_TO_PROCESS:
        parsed_info = parse_filename(filename) # 尝试解析当前文件名

        if parsed_info: # 如果解析成功 (返回了字典)
            # 使用 os.path.join 构造文件的完整路径，这比手动拼接字符串更安全、跨平台兼容性更好
            full_path = os.path.join(DATA_DIR, filename)
            # 调用文件处理函数
            process_csv_file(full_path, parsed_info)
            processed_count += 1 # 增加已处理文件计数
        else:
            # 如果解析失败 (返回 None)，增加跳过文件计数
            skipped_count += 1

    # 所有文件处理（或尝试处理）完成后，打印总结信息
    print(f"\n--- 处理完成 ---")
    print(f"成功尝试处理 {processed_count} 个文件。")
    print(f"因解析错误跳过 {skipped_count} 个文件。")

# --- 运行脚本 ---
# Python 的标准入口点检查：确保 main() 函数只在脚本被直接运行时执行
# 而不是在被其他脚本导入时执行
if __name__ == "__main__":
    # 添加一个简单的检查，提醒用户确认文件名列表是否完整
    if len(FILENAMES_TO_PROCESS) < 5: # 如果列表中的文件少于5个，可能没粘贴全
         print("警告: FILENAMES_TO_PROCESS 列表看起来很短，请确认你已将所有需要的文件名粘贴进去。")
    main() # 调用主函数开始执行

开始在目录中进行处理: ./MCC5-THU gearbox fault diagnosis datasets/MCC5-THU gearbox fault diagnosis datasets/

--- 开始处理文件: gear_pitting_H_speed_circulation_10Nm-1000rpm.csv ---
   故障类型: gear_pitting
   严重程度: H
   实验类型: speed circulation
   转速: 1000 RPM
   扭矩: 10 Nm
   文件路径: ./MCC5-THU gearbox fault diagnosis datasets/MCC5-THU gearbox fault diagnosis datasets/gear_pitting_H_speed_circulation_10Nm-1000rpm.csv
   文件加载成功。数据形状 (行, 列): (767999, 8)
   文件前 5 行内容:
      speed    torque  motor_vibration_x  motor_vibration_y  \
0  3.864839  0.918686          -0.010419           0.008535   
1  3.479522  0.817800          -0.008535           0.008893   
2  3.662766  0.946647          -0.004196           0.021768   
3  3.681023  0.971925          -0.013995           0.010049   
4  3.543528  0.823021          -0.010705          -0.002074   

   motor_vibration_z  gearbox_vibration_x  gearbox_vibration_y  \
0           0.018287            -0.007558            -0.007975   
1          -0.009155            -0.00551