In [1]:
import pandas as pd
import os

def process_excel_files(folder_path):
    """
    读取指定文件夹下所有xlsx文件，替换字符串并根据'cu_id'去重，然后覆盖保存。

    Args:
        folder_path (str): 目标文件夹路径。
    """
    try:
        for filename in os.listdir(folder_path):
            if filename.endswith(".xlsx"):
                file_path = os.path.join(folder_path, filename)
                print(f"正在处理文件: {file_path}")

                try:
                    # 读取Excel文件
                    df = pd.read_excel(file_path)

                    # 替换列名中的 "MEU" 或 "meu" 为 "cu"
                    df.columns = df.columns.str.replace("MEU", "cu", case=False)

                    # 替换内容中的 "MEU" 或 "meu" 为 "cu"
                    for col in df.columns:
                        if df[col].dtype == 'object': # 只处理字符串类型的列
                            df[col] = df[col].str.replace("MEU", "cu", case=False)

                    # 根据 "cu_id" 列去重，保留第一个出现的行
                    if "cu_id" in df.columns:
                        df.drop_duplicates(subset=["cu_id"], keep="first", inplace=True)
                    else:
                        print(f"警告: 文件 {filename} 中没有找到 'cu_id' 列，跳过此文件的去重步骤。")
                        # 如果没有cu_id列，也需要确保列名中没有MEU或meu
                        if "MEU_id" in df.columns:
                            df.rename(columns={"MEU_id": "cu_id"}, inplace=True)
                            df.drop_duplicates(subset=["cu_id"], keep="first", inplace=True)
                        elif "meu_id" in df.columns:
                            df.rename(columns={"meu_id": "cu_id"}, inplace=True)
                            df.drop_duplicates(subset=["cu_id"], keep="first", inplace=True)


                    # 覆盖保存回原来的文件
                    df.to_excel(file_path, index=False)
                    print(f"文件 {filename} 处理完成并已覆盖保存。")

                except Exception as e:
                    print(f"处理文件 {filename} 时发生错误: {e}")
        print("所有文件处理完毕。")
    except FileNotFoundError:
        print(f"错误: 文件夹 {folder_path} 未找到。")
    except Exception as e:
        print(f"发生了一个未预料的错误: {e}")

# 指定目标文件夹路径
folder_path = "law_to_ComplianceUnit/st_2_ComplianceUnit/GT"
process_excel_files(folder_path)

正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第5号——要约收购.xlsx
文件 北京证券交易所上市公司持续监管指引第5号——要约收购.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第6号——内幕信息知情人管理及报送.xlsx
文件 北京证券交易所上市公司持续监管指引第6号——内幕信息知情人管理及报送.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第9号——募集资金管理.xlsx
文件 北京证券交易所上市公司持续监管指引第9号——募集资金管理.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx
文件 北京证券交易所上市公司持续监管指引第8号——股份减持和持股管理.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第10号——权益分派.xlsx
文件 北京证券交易所上市公司持续监管指引第10号——权益分派.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx
文件 北京证券交易所上市公司持续监管指引第4号——股份回购.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/st_2_ComplianceUnit/GT/北京证券交易所上市公司持续监管指引第3号——股权激励和员工持股计划.xlsx
文件 北京证券交易所上市公司持续监管指引第3号——股权激励和员工持股计划.xlsx 处理完成并已覆盖保存。
正在处理文件: law_to_ComplianceUnit/