In [None]:
import os
import cv2
import glob
from tqdm import tqdm # 引入tqdm来显示进度条

# --- 请根据您的实际情况，仔细检查并修改这里的路径 ---
# 这是存放你所有训练和验证图片所在的文件夹
image_directories = [
    '/home/z5470186/Desktop/yolov12/aerial_sheep/train/images',
    '/home/z5470186/Desktop/yolov12/aerial_sheep/valid/images'
]
# ----------------------------------------------------

print("--- 开始检查数据集中的图片文件 ---")
corrupted_files = []

# 遍历您指定的每一个图片文件夹
for directory in image_directories:
    # 检查文件夹是否存在
    if not os.path.isdir(directory):
        print(f"‼️ 警告: 文件夹不存在，已跳过: {directory}")
        continue

    print(f"\n🔍 正在扫描文件夹: {directory}")
    
    # 找到文件夹下所有的 .jpg, .jpeg, .png 图片文件
    image_files = []
    for ext in ('*.jpg', '*.jpeg', '*.png'):
        image_files.extend(glob.glob(os.path.join(directory, ext)))
        
    if not image_files:
        print("  -> 该文件夹下没有找到图片文件。")
        continue

    # 使用tqdm创建进度条，方便查看进度
    for image_file in tqdm(image_files, desc=f"  Checking {os.path.basename(directory)}"):
        try:
            # 尝试用OpenCV读取图片
            img = cv2.imread(image_file)
            
            # 如果读取结果是None，说明图片文件已损坏或格式不兼容
            if img is None:
                corrupted_files.append(image_file)
        except Exception as e:
            # 捕获其他可能的异常
            print(f"  -> 读取文件时发生异常: {image_file}, 错误: {e}")
            corrupted_files.append(image_file)

print("\n--- 检查完毕 ---")

if not corrupted_files:
    print("✅ 恭喜！所有图片文件均可被OpenCV正常读取。")
else:
    print(f"\n❌ 发现 {len(corrupted_files)} 个有问题的图片文件，请将它们从数据集中删除或修复：")
    for f in corrupted_files:
        print(f"  -> {f}")