- data/train_images 경로에 존재하는 이미지(png) 파일에서 dl_idx 목록을 추출하는 노트북 입니다.

In [9]:
import os
from pathlib import Path
import re


# 프로젝트 루트 기준으로 경로 설정
PROJECT_ROOT = Path.cwd().parent 
BASE_DIR = PROJECT_ROOT / "data"

# 학습 이미지 디렉토리
TRAIN_IMG_DIR = str(BASE_DIR / "train_images")

def extract_dl_idx_list(img_dir: str):
    """
    이미지 파일명에서 dl_idx(+1 값)를 추출한 뒤 -1 적용하여
    중복 제거된 dl_idx 리스트를 반환한다.
    """
    dl_idx_set = set()

    for fname in os.listdir(img_dir):
        # png 파일만 처리
        if not fname.lower().endswith(".png"):
            continue

        # 파일명 예시:
        # K-001900-010224-016551-031705_0_2_0_2_70_000_200.png
        # → 001900-010224-016551-031705 추출
        match = re.search(r"K-(\d+(?:-\d+)+)_", fname)
        if not match:
            continue

        # 숫자 문자열 분리
        number_part = match.group(1)  # "001900-010224-016551-031705"
        numbers = number_part.split("-")

        # dl_idx(+1) → -1 적용
        for num in numbers:
            dl_idx = int(num) - 1
            dl_idx_set.add(dl_idx)

    return sorted(dl_idx_set)


# 실행 예시
dl_idx_list = extract_dl_idx_list(TRAIN_IMG_DIR)

print(f"추출된 dl_idx 개수: {len(dl_idx_list)}")
print(dl_idx_list[:])

추출된 dl_idx 개수: 74
[1899, 2482, 3350, 3482, 3543, 3742, 3831, 4377, 4542, 5093, 5885, 6191, 6562, 10220, 10223, 12080, 12246, 12419, 12777, 13394, 13899, 16231, 16261, 16547, 16550, 16687, 18109, 18146, 18356, 19231, 19551, 19606, 19860, 20013, 20237, 20876, 21025, 21324, 21770, 22073, 22346, 22361, 22626, 23202, 23222, 24849, 25366, 25437, 25468, 27652, 27732, 27776, 27925, 27992, 28762, 29344, 29450, 29666, 29870, 30307, 31704, 31862, 31884, 32309, 33008, 33207, 33877, 33879, 34596, 35205, 36636, 38161, 41767, 44198]
