In [1]:
import os
import pandas as pd

# -------------------------------
# 配置部分
# -------------------------------
# Excel 文件路径
excel_file = "pantoea_burkholderia_bins_info.xlsx"
# 两个文件夹名称
folders = ["Burkholderia_bins", "Pantoea_bins"]
# 生成的重命名对应关系输出文件（CSV格式）
output_mapping_file = "rename_mapping.csv"

# -------------------------------
# 读取 Excel 文件，构建 mapping 字典
# -------------------------------
# 假定 Excel 中至少包含 'sample_id' 和 'Species' 两列
df = pd.read_excel(excel_file)
# 构建 sample_id 到 Species 的映射字典
sample_to_species = dict(zip(df["sample_id"].astype(str), df["Species"].astype(str)))

# -------------------------------
# 初始化计数字典和映射关系列表
# -------------------------------
# 用于记录每个 Species 重命名时重复的次数
species_count = {}
# 存储所有文件重命名前后的对应关系 [原文件路径, 新文件路径]
rename_mapping = []

# -------------------------------
# 遍历指定文件夹
# -------------------------------
for folder in folders:
    if not os.path.exists(folder):
        print(f"文件夹 {folder} 不存在，跳过！")
        continue

    for file in os.listdir(folder):
        if file.endswith(".fa"):
            original_file = file  # 原文件名，如 sample01.fa
            # 假设文件名（不含扩展名）即为 sample_id
            sample_id = os.path.splitext(file)[0]
            
            if sample_id not in sample_to_species:
                print(f"警告：样本 {sample_id} 在 Excel 文件中未找到对应关系，跳过！")
                continue

            species = sample_to_species[sample_id]
            # 判断是否重复，如果已经重命名过，则更新计数；否则初始化计数为1
            if species in species_count:
                species_count[species] += 1
                new_species_name = f"{species}_{species_count[species]}"
            else:
                species_count[species] = 1
                new_species_name = species

            # 拼装新的文件名
            new_file_name = new_species_name + ".fa"
            old_path = os.path.join(folder, original_file)
            new_path = os.path.join(folder, new_file_name)

            try:
                os.rename(old_path, new_path)
                print(f"重命名：{old_path} -> {new_path}")
                rename_mapping.append([old_path, new_path])
            except Exception as e:
                print(f"文件重命名失败：{old_path}，错误信息：{e}")

# -------------------------------
# 生成重命名对应关系表
# -------------------------------
if rename_mapping:
    mapping_df = pd.DataFrame(rename_mapping, columns=["old_file", "new_file"])
    mapping_df.to_csv(output_mapping_file, index=False)
    print(f"生成对应关系表：{output_mapping_file}")
else:
    print("未生成任何对应关系表，可能没有成功重命名的文件。")


重命名：Burkholderia_bins\A1_11_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli.fa
重命名：Burkholderia_bins\A1_13_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli_2.fa
重命名：Burkholderia_bins\A1_2_bin4.fa -> Burkholderia_bins\Burkholderia.gladioli_3.fa
重命名：Burkholderia_bins\A1_5_bin2.fa -> Burkholderia_bins\Burkholderia.gladioli_4.fa
重命名：Burkholderia_bins\A1_6_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli_5.fa
重命名：Burkholderia_bins\A2_10_bin2.fa -> Burkholderia_bins\Burkholderia.gladioli_6.fa
重命名：Burkholderia_bins\A2_12_bin2.fa -> Burkholderia_bins\Burkholderia.gladioli_7.fa
重命名：Burkholderia_bins\A2_13_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli_8.fa
重命名：Burkholderia_bins\A2_15_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli_9.fa
重命名：Burkholderia_bins\A2_3_bin1.fa -> Burkholderia_bins\Burkholderia.gladioli_10.fa
重命名：Burkholderia_bins\A2_4_bin3.fa -> Burkholderia_bins\Burkholderia.gladioli_11.fa
重命名：Burkholderia_bins\A2_6_bin2.fa -> Burkholderia_bins\Burkholderia.gladioli_12.