In [5]:
import os
import pandas as pd

# Step 1: 找到重复的股票代码
def find_duplicates(df):
    # 获取重复股票代码及其新闻发布时间
    duplicates = df[df["股票代码"].duplicated(keep=False)]
    return duplicates[["股票代码", "新闻发布时间"]]

# Step 2: 保存重复股票代码到 Excel 文件
def save_duplicates_to_excel(duplicates, output_path):
    duplicates.to_excel(output_path, index=False)
    print(f"重复股票代码已保存到 {output_path}")

# Step 3: 从文件夹中读取文件名并删除重复的股票代码文件
def remove_duplicate_files(folder_path, duplicate_codes):
    files = os.listdir(folder_path)
    for file in files:
        # 提取文件名中的股票代码
        stock_code = os.path.splitext(file)[0]
        if stock_code in duplicate_codes:
            file_path = os.path.join(folder_path, file)
            os.remove(file_path)
            print(f"已删除文件: {file_path}")

# Step 4: 主程序
def main():
    # 读取数据（假设你的数据存储在 data.csv 中）
    df = pd.read_excel('data_china.xlsx',sheet_name=1,dtype={'股票代码': str})

    # 找到重复股票代码
    duplicates = find_duplicates(df)
    # 保存到 Excel 文件
    save_duplicates_to_excel(duplicates, "duplicates_test.xlsx")

    # 获取重复股票代码列表
    duplicate_codes = duplicates["股票代码"].unique()

    # 删除文件夹中与重复股票代码相关的文件
    folder_path = "D:\mycodelife\workshop\\fake_finance\\codes"  # 修改为你的文件夹路径
    remove_duplicate_files(folder_path, duplicate_codes)

# 执行主程序
if __name__ == "__main__":
    main()


重复股票代码已保存到 duplicates_test.xlsx
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000078.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000561.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000651.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000662.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000673.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000799.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000818.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000939.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\000980.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002213.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002331.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002359.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002405.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002456.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002468.csv
已删除文件: D:\mycodelife\workshop\fake_finance\codes\002509.csv
已删除文件: D