In [1]:
import os, glob
from collections import Counter
from PIL import Image

root = "./embryo"          # 데이터셋 루트 경로
exts = ("*.png", "*.jpg", "*.jpeg", "*.bmp")

sizes = []                 # (width, height) 튜플 저장
small_files = []           # 224 미만인 파일 경로 저장

for split in ("train", "val", "test"):
    for cls in ("failure", "success"):
        dir_path = os.path.join(root, split, cls)
        for ext in exts:
            for path in glob.glob(os.path.join(dir_path, ext)):
                try:
                    with Image.open(path) as img:
                        w, h = img.size
                except Exception as e:
                    print("읽기 오류:", path, e)
                    continue
                sizes.append((w, h))
                if min(w, h) < 224:
                    small_files.append((path, w, h))

# ───── 통계 출력 ─────
ws, hs = zip(*sizes)
print(f"전체 이미지 수: {len(sizes)}")
print(f"  • 최소 크기:  {min(ws)}×{min(hs)}")
print(f"  • 최대 크기:  {max(ws)}×{max(hs)}")
print(f"  • 224px 미만 이미지 수: {len(small_files)}")

# 해상도 빈도 상위 10개
freq = Counter(sizes).most_common(10)
print("\n해상도 빈도 상위 10개:")
for (w, h), cnt in freq:
    print(f"  {w}×{h}: {cnt}장")

# 필요하면 작은 파일 목록 저장
with open("small_images.txt", "w") as f:
    for path, w, h in small_files:
        f.write(f"{w}×{h}\t{path}\n")
print("\nsmall_images.txt 에 224 미만 이미지 경로 저장 완료")

전체 이미지 수: 812
  • 최소 크기:  329×299
  • 최대 크기:  611×475
  • 224px 미만 이미지 수: 0

해상도 빈도 상위 10개:
  512×384: 641장
  468×406: 2장
  491×401: 1장
  511×368: 1장
  444×384: 1장
  471×385: 1장
  435×346: 1장
  483×410: 1장
  432×375: 1장
  487×427: 1장

small_images.txt 에 224 미만 이미지 경로 저장 완료
