In [4]:
import os
import pandas as pd

def check_image_consistency(csv_path, image_dir):
    # โหลด CSV
    df = pd.read_csv(csv_path)

    # รายชื่อรูปใน CSV
    csv_image_ids = set(df['image_id'].astype(str))

    # รายชื่อไฟล์จริงในโฟลเดอร์ (ตัด .jpg ออก)
    folder_image_ids = set([
        os.path.splitext(fname)[0]
        for fname in os.listdir(image_dir)
        if fname.endswith('.jpg')
    ])

    # หา diff
    missing_images = csv_image_ids - folder_image_ids
    extra_images = folder_image_ids - csv_image_ids

    # แสดงผล
    print(f"\n✅ ตรวจสอบ: {os.path.basename(csv_path)}")
    print(f"📄 จำนวนใน CSV      : {len(csv_image_ids)}")
    print(f"🖼️  จำนวนในโฟลเดอร์ : {len(folder_image_ids)}")
    
    if not missing_images and not extra_images:
        print("✅ รูปภาพครบและตรงกับ CSV ทั้งหมด")
    else:
        if missing_images:
            print(f"❌ หายไปจากโฟลเดอร์: {len(missing_images)} รูป (ตัวอย่าง: {list(missing_images)[:5]})")
        if extra_images:
            print(f"⚠️ เกินมาจากโฟลเดอร์: {len(extra_images)} รูป (ตัวอย่าง: {list(extra_images)[:5]})")

# 🔍 ตรวจสอบทั้ง train/test
check_image_consistency(
    csv_path='../../HAM10000_balanced/train/HAM10000_train.csv',
    image_dir='../../HAM10000_balanced/train/train_images'
)

check_image_consistency(
    csv_path='../../HAM10000_balanced/test/HAM10000_test.csv',
    image_dir='../../HAM10000_balanced/test/test_images'
)


✅ ตรวจสอบ: HAM10000_train.csv
📄 จำนวนใน CSV      : 3088
🖼️  จำนวนในโฟลเดอร์ : 3088
✅ รูปภาพครบและตรงกับ CSV ทั้งหมด

✅ ตรวจสอบ: HAM10000_test.csv
📄 จำนวนใน CSV      : 773
🖼️  จำนวนในโฟลเดอร์ : 773
✅ รูปภาพครบและตรงกับ CSV ทั้งหมด
