### 라이브러리

In [1]:
import os
import json
import shutil

### 경로 탐색

In [2]:
def print_directory_structure(parent_dir, now_dir, depth=0, depth_limit = 10, file_limit=15):
    """
    - 폴더의 계층적 구조를 확인하는 함수
    - 폴더와 파일 이름을 출력하고, 하위 자료명을 출력
    - 폴더 내에 자료가 많은 경우 폴더명만 출력

    파라미터:
        - parent_dir: 부모 폴더 이름
        - now_dir: 현재 폴더 및 파일 이름
        - depth: 폴더의 깊이
        - depth_limit: 최대 깊이 제한
        - file_limit: 표시할 최대 항목 수
    """
    if depth <= depth_limit:
        full_dir = os.path.join(parent_dir, now_dir)

        if os.path.isdir(full_dir):
            print(f"{'    '*depth}📁{now_dir}")
            entries = sorted(os.listdir(full_dir))

            if len(entries) <= file_limit:
                for contents in entries:
                    print_directory_structure(full_dir, contents, depth+1)
            else: 
                print(f"{'    '*(depth+1)} ... skipped {len(entries)} items")

        elif os.path.isfile(full_dir):
            print(f"{'    '*depth}📄{now_dir}")

In [4]:
print_directory_structure('../', 'data')

📁data
    📁166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터
        📁01.데이터
            📁1.Training
                📁라벨링데이터
                    📁경구약제조합_5000종
                        📁TL_1_조합
                             ... skipped 501 items
                        📁TL_2_조합
                             ... skipped 500 items
                        📁TL_3_조합
                             ... skipped 500 items
                        📁TL_4_조합
                             ... skipped 500 items
                        📁TL_5_조합
                             ... skipped 500 items
                        📁TL_6_조합
                             ... skipped 500 items
                        📁TL_7_조합
                             ... skipped 500 items
                        📁TL_8_조합
                             ... skipped 500 items
                    📁단일경구약제_5000종
                        📄TL_10_단일.zip
                📁원천데이터
                    📁경구약제조합_5000종
                        📁TS_1_조합
                       

In [3]:
print_directory_structure('./data', '166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터')

📁166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터
    📁01.데이터
        📁1.Training
            📁라벨링데이터
                📁경구약제조합_5000종
                    📁TL_1_조합
                         ... skipped 501 items
                    📁TL_2_조합
                         ... skipped 500 items
                    📁TL_3_조합
                         ... skipped 500 items
                    📁TL_4_조합
                         ... skipped 500 items
                    📁TL_5_조합
                         ... skipped 500 items
                    📁TL_6_조합
                         ... skipped 500 items
                    📁TL_7_조합
                         ... skipped 500 items
                    📁TL_8_조합
                         ... skipped 500 items
                📁단일경구약제_5000종
                    📄TL_10_단일.zip
            📁원천데이터
                📁경구약제조합_5000종
                    📁TS_1_조합
                         ... skipped 503 items
                    📁TS_2_조합
                         ... skipped 500 items
          

In [None]:
print_directory_structure('../data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터\\01.데이터\\1.Training\\라벨링데이터\\경구약제조합_5000종', 'TL_1_조합', file_limit=600)

📁TL_1_조합
    📁K-000250-000573-002483-006192_json
        📁K-000250
            📄K-000250-000573-002483-006192_0_2_0_2_70_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_75_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_90_000_200.json
        📁K-000573
            📄K-000250-000573-002483-006192_0_2_0_2_70_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_75_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_90_000_200.json
        📁K-002483
            📄K-000250-000573-002483-006192_0_2_0_2_70_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_75_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_90_000_200.json
        📁K-006192
            📄K-000250-000573-002483-006192_0_2_0_2_70_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_75_000_200.json
            📄K-000250-000573-002483-006192_0_2_0_2_90_000_200.json
    📁K-000250-000573-002483-012778_json
        📁K-000250
            📄K-00

### 기존 알약 클래스 설정

In [None]:
annotation_path = '../data/ai02-level1-project/train_annotations'

In [6]:
drug_N_set = set()  # 기존에 사용하던 73개 알약에 대한 drug_N 집합
dl_idx_to_pill_name = {}  
categories_id_to_pill_name = {}


for root, dir, files in os.walk(annotation_path):
    for file in files:
        pull_path = os.path.join(root, file)
        with open(pull_path, 'r', encoding='utf-8') as f:
            meta_data = f
            meta_data = json.load(meta_data)
        
        images = meta_data.get('images')[0]
        drug_N = images.get('drug_N')
        drug_N = drug_N.split('-')[1]
        drug_N_set.add(drug_N)

        dl_idx = int(images.get('dl_idx'))


        categories = meta_data.get('categories')[0]
        categories_id = categories.get('id') 

        pill_name = categories.get('name')

        if dl_idx not in dl_idx_to_pill_name.keys():
            dl_idx_to_pill_name[dl_idx] = pill_name

        if categories_id not in categories_id_to_pill_name.keys():
            categories_id_to_pill_name[categories_id] = pill_name 


In [7]:
print(f"알약 종류 수: {len(drug_N_set)}개")
if dl_idx_to_pill_name == categories_id_to_pill_name:
    print(f"dl_idx와 categories_id가 완전 동일")
else:
    print('이거 나오면 문제임')


알약 종류 수: 73개
dl_idx와 categories_id가 완전 동일


### 경로 설정

In [None]:
new_img_path = '../data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/원천데이터/경구약제조합_5000종'
new_annotation_path = './data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종'

add_img_path = '../data/additional_data/images'
add_annotation_path = '../data/additional_data/annotations'
problem_img_path = '../data/additional_data/problem_images'
problem_annotation_path = '../data/additional_data/problem_annotations'

### 이미지 복사

In [40]:
full_pill_set = set()  # 새로운 이미지 전체의 알약 클래스(이미지 이름의 drug_N을 기준) 
pill_count = 0  # 유효한 이미지 내 알약 수(이미지 이름의 drug_N을 기준) 
img_count = 0  # 전체 이미지 수
valid_img_count = 0  # 유효한 이미지 수
for root, dir, files in os.walk(new_img_path):
    for file in files:
        file_name, ext = os.path.splitext(file)
        
        if ext == '.png':  # 이미지인 경우만
            if file_name.endswith("index"):  # 알약의의 index를 기록해 놓은 이미지 필터링
                continue
            else:
                img_count += 1
                pill_set = set(file.split('_')[0].split('-')[1:])  # 이미지의 이름을 바탕으로 포함하고 있는 알약 구분

                for pill in pill_set:
                    full_pill_set.add(pill)

                if pill_set.issubset(drug_N_set):  # 현재 사용중인 73개의 알약 클래스 만 포함하는 경우
                    pill_count += len(pill_set)
                    valid_img_count += 1
                    old_file = os.path.join(root, file)
                    new_file = os.path.join(add_img_path, file)
                    shutil.copy(old_file, new_file)


print(f"전체 이미지 수: {img_count}")
print(f"전체 이미지 내의 알약 종류: {len(full_pill_set)}")
print(f"유효한 이미지 수: {valid_img_count}")
print(f"유효한 이미지 내 전체 알약 수: {pill_count}")

전체 이미지 수: 12009
전체 이미지 내의 알약 종류: 118
유효한 이미지 수: 2958
유효한 이미지 내 전체 알약 수: 11535


### 어노테이션으로 부터 박스 추가

In [10]:
# cx, cy, w, h 함수
def coco_to_yolo(bbox, img_w, img_h):
    if len(bbox) == 1 and isinstance(bbox[0], (list, tuple)):
        bbox = bbox[0]
    x, y, w, h = bbox
    # 1) 중심 좌표 계산
    cx = x + w / 2
    cy = y + h / 2
    # 2) 정규화
    nx = cx / img_w
    ny = cy / img_h
    nw = w  / img_w
    nh = h  / img_h
    return (nx, ny, nw, nh)

In [11]:
categorie_id_to_class_idx = {}

with open ('classid_to_categoryid.json', 'r', encoding='utf-8') as f:
    classid_to_categoryid = json.load(f)

classid_to_categoryid
for class_id, category_id in classid_to_categoryid.items():
    categorie_id_to_class_idx[category_id] = class_id

In [41]:
total_json_count = 0
valid_json_count = 0 
box_count = 0
dl_idx_to_pill_name_for_new_data = {}
error_count = 0

for root, dir, files in os.walk(new_annotation_path):
    for file in files:
        file_name, ext = os.path.splitext(file)
        try:
            if ext == '.json':  # json파일 필터링
                total_json_count += 1

                pill_set = set(file.split('_')[0].split('-')[1:])
                if pill_set.issubset(drug_N_set):  # 73종 내 알약만 있는지 확인인
                    valid_json_count += 1

                    full_path = os.path.join(root, file)
                    with open(full_path, 'r', encoding='utf-8') as f:
                        meta_data = json.load(f)
                    images = meta_data.get('images')[0]
                    annotations = meta_data.get('annotations')[0]
                    categories = meta_data.get('categories')[0]

                    dl_idx = int(images.get('dl_idx'))
                    pill_name = images.get('dl_name')

                    if dl_idx not in dl_idx_to_pill_name_for_new_data.keys():
                        dl_idx_to_pill_name_for_new_data[dl_idx] = pill_name

                    bbox = meta_data['annotations'][0]['bbox']
                    img_w = meta_data['images'][0]['width']
                    img_h = meta_data['images'][0]['height']
                    cx, cy, w, h = coco_to_yolo(bbox, img_w, img_h)

                    class_idx = categorie_id_to_class_idx[dl_idx]
                    

                    txt_path = os.path.join(add_annotation_path, f'{file_name}.txt')

        
                    with open(txt_path, 'a', encoding='utf-8') as f:
                        f.write(f'{class_idx} {cx:.6f} {cy:.6f} {w:.6f} {h:.6f}\n')

                    
        except Exception as e:
            error_count += 1           
            print(root)
            print(file)
            print(e)
            


print(f"에러 카운트: {error_count}")
print(f"전체 json파일의 수: {total_json_count}")
print(f"유효한 json파일의 수: {valid_json_count}")

./data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종\TL_2_조합\K-003351-003832-020238_json\K-020238
K-003351-003832-020238_0_2_0_2_70_000_200.json
not enough values to unpack (expected 4, got 0)
./data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종\TL_2_조합\K-003351-013900-016688_json\K-016688
K-003351-013900-016688_0_2_0_2_90_000_200.json
not enough values to unpack (expected 4, got 3)
./data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종\TL_2_조합\K-003351-013900-020238_json\K-020238
K-003351-013900-020238_0_2_0_2_70_000_200.json
not enough values to unpack (expected 4, got 0)
./data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종\TL_2_조합\K-003351-013900-021325_json\K-003351
K-003351-013900-021325_0_2_0_2_70_000_200.json
not enough values to unpack (expected 4, got 0)
./data/166.약품식별_인공지능_개발을_위한_경구약제_이미지_데이터/01.데이터/1.Training/라벨링데이터/경구약제조합_5000종\TL_2_조합\K-003351-013900-036637_json\K-003351


In [42]:
print(len(dl_idx_to_pill_name))

73


In [43]:
if dl_idx_to_pill_name_for_new_data == dl_idx_to_pill_name:
    print("기존의 dl_idx와 약 이름에 대한 매칭과 새로운 데이터의 기존의 dl_idx와 약 이름에 대한 매칭이 일치")
    print("즉, 새로운 데이터의 dl_idx는 카테고리 id를 대신할 수 있음")
else:
    print('이거 보고있다? 새로운 데이터는 없는거임 카테고리 아이디는 조상님이 찾아주나')

기존의 dl_idx와 약 이름에 대한 매칭과 새로운 데이터의 기존의 dl_idx와 약 이름에 대한 매칭이 일치
즉, 새로운 데이터의 dl_idx는 카테고리 id를 대신할 수 있음


In [44]:
if valid_json_count == pill_count:
    print('누락된 어노테이션 파일 없음')
elif valid_json_count > pill_count: 
    print(f"json파일이 {valid_json_count- pill_count}개 많음")
else:
    print(f"json파일이 {pill_count- valid_json_count}개 부족함")

json파일이 1개 부족함


### 텍스트 파일 -> 이미지 파일 이미지 존재 확인

In [55]:
for txt_file in os.listdir(add_annotation_path):
    img_file = txt_file.replace('txt', 'png')
    full_img_path = os.path.join(add_img_path, img_file)
    if os.path.isfile(full_img_path):
        continue
    else:  # 이미지가 존재하지 않는 경우
        old_txt_path = os.path.join(add_annotation_path, txt_file)
        new_txt_path = os.path.join(problem_annotation_path, txt_file)
        shutil.move(old_txt_path, new_txt_path)

### 이미지 파일 -> 텍스트 파일 박수 수 확인

In [57]:
for img in os.listdir(add_img_path):
    pills = img.split('_')[0].split('-')[1:]
    pill_count = len(pills)
    txt_file = img.replace('png', 'txt')
    full_txt_path = os.path.join(add_annotation_path, txt_file)

    bbox_count = 0
    with open(full_txt_path, 'r', encoding='utf-8') as f:
        for line in f:
            bbox_count += 1

    if not bbox_count==pill_count:
        old_img_path = os.path.join(add_img_path, img)
        new_img_path = os.path.join(problem_img_path, img)
        shutil.move(old_img_path, new_file)
        
        old_txt_path = full_txt_path
        new_txt_path = os.path.join(problem_annotation_path, txt_file)
        shutil.move(old_txt_path, new_txt_path)

- 박스가 부족한 json파일 44개 -> 이미지가 없음
- 파일이름 copy.txt파일이 함께 생성 -> 필터링
- txt파일은 존재하지만 이미지는 존재 x -> 필터링
- json파일 자체가 없는 이미지 한 개 -> 코드없이 수동으로 찾아서 이동 시킴킴