In [1]:
import os

# 경로 설정
image_dir = "./bdd100k-to-yolo/dataset_yolo_converted/images/train"
label_dir = "./bdd100k-to-yolo/dataset_yolo_converted/labels/train"

# 파일 목록 가져오기 (확장자 제거)
image_files = [os.path.splitext(f)[0] for f in os.listdir(image_dir) if f.endswith((".jpg", ".png", ".jpeg"))]
label_files = [os.path.splitext(f)[0] for f in os.listdir(label_dir) if f.endswith(".txt")]

image_set = set(image_files)
label_set = set(label_files)

# 매칭되는 것
matched = image_set & label_set

# 이미지만 있고 라벨 없는 것
image_only = image_set - label_set

# 라벨만 있고 이미지 없는 것
label_only = label_set - image_set

print("=== YOLO Dataset Consistency Check ===")
print(f"총 이미지 파일 수 : {len(image_files)}")
print(f"총 라벨 파일 수   : {len(label_files)}")
print("")

print(f"✔ 매칭된 파일 개수 : {len(matched)}")
print(f"❌ 이미지만 있고 라벨 없는 것 : {len(image_only)}")
print(f"❌ 라벨만 있고 이미지 없는 것 : {len(label_only)}")

print("\n--- 이미지만 있고 라벨 없는 파일 예시 (최대 20개) ---")
for f in list(image_only)[:20]:
    print(f)

print("\n--- 라벨만 있고 이미지 없는 파일 예시 (최대 20개) ---")
for f in list(label_only)[:20]:
    print(f)


=== YOLO Dataset Consistency Check ===
총 이미지 파일 수 : 7000
총 라벨 파일 수   : 70000

✔ 매칭된 파일 개수 : 2976
❌ 이미지만 있고 라벨 없는 것 : 4024
❌ 라벨만 있고 이미지 없는 것 : 67024

--- 이미지만 있고 라벨 없는 파일 예시 (최대 20개) ---
09b41d3b-40990001
0816a76e-156b669b
4e1f88e3-c9cea90d
0b73aac9-f53811e8
1da45647-4d28c352
26ed798f-d636d1c4
3b56b264-f782dd83
beb41a39-be4bfe96
57af01e2-5f537d90
7b966290-00000000
042b9641-00000000
2b71e164-38b71151
bab6fead-bc74d699
0ddfea57-b0fe2cab
6c34563a-02aa79c3
00e9be89-00001370
3fb6a323-00000000
60ba25dd-3553a582
3b0f54aa-0b830c05
00e9be89-00001325

--- 라벨만 있고 이미지 없는 파일 예시 (최대 20개) ---
78c867c4-41a362de
1d77f306-06420a8f
0f5a5056-16913cde
6f6fa5d3-bdca1514
1d598aed-1b0f8e09
09064a21-bf49b803
4753e707-dd007998
9ff4ac66-b049cd13
57618c8e-d8ecc619
2c076724-02411199
fde725fc-281c8ef2
4759b05a-52bd0f03
2577e0bf-5a742185
1ba0bc97-9f08ed36
2acfcd8d-15cfe91a
476fdc15-8c37acf0
4d57a132-128d8c92
0128cdde-ce2cb20b
4b2e51e3-9c811c09
764aad06-b4b2ab50


매칭된 이미지–라벨 개수: 70000개
선택된 파일 개수: 1000개

=== 완료! ===
선택된 데이터는 './selected' 폴더에 저장되었습니다.
