# 数据集清理与重命名

1. 清理 `HR` 文件夹中后缀不是 `.png`, `.jpg`, `.jpeg` 的文件（例如没有后缀的异常文件）。
2. 将 `HR` 和 `LR` 文件夹中的图片重命名为纯数字 ID（例如 `371778.jpg`）。
3. 检查清理和重命名后，`HR` 和 `LR` 的文件数量是否一致。

In [1]:
import os
import re

hr_dir = 'dataset/highres/original'
lr_dir = 'dataset/lowres/original'

valid_exts = ['.png', '.jpg', '.jpeg']

# 1. 清理 HR 文件夹中后缀不合法的图片
print("开始清理 HR 文件夹中非图片后缀的文件...")
removed_count = 0
for filename in os.listdir(hr_dir):
    filepath = os.path.join(hr_dir, filename)
    if os.path.isfile(filepath):
        ext = os.path.splitext(filename)[1].lower()
        if ext not in valid_exts:
            print(f"删除不支持的文件: {filename}")
            os.remove(filepath)
            removed_count += 1
print(f"清理完成，共删除 {removed_count} 个文件。\n")

开始清理 HR 文件夹中非图片后缀的文件...
删除不支持的文件: Konachan.com - 377975 animal ass barefoot bikini bird blue_eyes blue_hair boat bow clouds drink gray_hair hat horns navel shirt signed sky swimsuit swkl
删除不支持的文件: Konachan.com - 381133 2girls ball barefoot bikini blonde_hair blush clouds dark_skin ponytail red_eyes short_hair sky swimsuit swkl
删除不支持的文件: Konachan.com - 383561 2girls blue_hair blush bow choker drink flowers horns leaves long_hair ponytail purple_eyes purple_hair shirt shoujo_ai signed skirt swkl
删除不支持的文件: Konachan.com - 391296 barefoot blue breasts dress genshin_impact gray_hair long_hair red_eyes signed skirk_(genshin_impact) swkl
删除不支持的文件: Konachan.com - 396182 autumn black_hair blonde_hair blush book bow dress genshin_impact hat kiss leaves long_hair sandrone_(genshin_impact) shoujo_ai signed swkl
清理完成，共删除 5 个文件。



In [2]:
# 2. 重命名 HR 和 LR 文件夹中的图片
def rename_files_in_dir(directory):
    print(f"开始重命名 {directory} 中的文件...")
    renamed_count = 0
    for filename in os.listdir(directory):
        filepath = os.path.join(directory, filename)
        if os.path.isfile(filepath):
            # 提取数字 ID，例如从 "Konachan.com - 371778 ..." 中提取 "371778"
            match = re.search(r'(\d+)', filename)
            if match:
                file_id = match.group(1)
                ext = os.path.splitext(filename)[1].lower()
                new_filename = f"{file_id}{ext}"
                new_filepath = os.path.join(directory, new_filename)
                
                # 如果新名字和老名字不一样，才重命名
                if filepath != new_filepath:
                    # 防止目标文件已存在
                    if not os.path.exists(new_filepath):
                        os.rename(filepath, new_filepath)
                        renamed_count += 1
                    else:
                        print(f"警告: 目标文件已存在，跳过重命名 {filename} -> {new_filename}")
    print(f"{directory} 重命名完成，共重命名 {renamed_count} 个文件。\n")

rename_files_in_dir(hr_dir)
rename_files_in_dir(lr_dir)

开始重命名 dataset/highres/original 中的文件...
dataset/highres/original 重命名完成，共重命名 460 个文件。

开始重命名 dataset/lowres/original 中的文件...
dataset/lowres/original 重命名完成，共重命名 460 个文件。



In [3]:
# 3. 验证数量是否一致
hr_files = set(os.listdir(hr_dir))
lr_files = set(os.listdir(lr_dir))
print(f"当前 HR 图片数量: {len(hr_files)}")
print(f"当前 LR 图片数量: {len(lr_files)}")

if len(hr_files) == len(lr_files):
    print("HR 和 LR 数量一致！")
else:
    print("警告：HR 和 LR 数量仍然不一致，请检查。")
    
    # 找出不匹配的文件
    hr_basenames = {os.path.splitext(f)[0] for f in hr_files}
    lr_basenames = {os.path.splitext(f)[0] for f in lr_files}
    
    hr_only = hr_basenames - lr_basenames
    lr_only = lr_basenames - hr_basenames
    
    if hr_only:
        print(f"HR 中多出的文件 ID: {hr_only}")
    if lr_only:
        print(f"LR 中多出的文件 ID: {lr_only}")

当前 HR 图片数量: 460
当前 LR 图片数量: 460
HR 和 LR 数量一致！
