In [1]:
import os
import shutil
import supervision as sv

root_path = "D:/Downloads/street-facilities-selected"

# 데이터셋 로드
ds = sv.DetectionDataset.from_yolo(
    images_directory_path=f"{root_path}/transformed-images",
    annotations_directory_path=f"{root_path}/transformed-labels-txt",
    data_yaml_path=f"{root_path}/street-facilities.yaml"
)

# 데이터셋 분리 (train 70%, val 15 % test 15%)
train_ds, val_test_ds = ds.split(split_ratio=0.7, random_state=1014, shuffle=True)
val_ds, test_ds = val_test_ds.split(split_ratio=0.5, random_state=535, shuffle=True)

print("train_ds length : ", len(train_ds))
print("val_ds length : ", len(val_ds))
print("test_ds length : ", len(test_ds))

train_ds length :  6844
val_ds length :  1467
test_ds length :  1467


### 분할된 데이터셋 클래스 분포 확인

In [2]:
import numpy as np

def count_classes(dataset : sv.DetectionDataset):
    n_classes = len(dataset.classes)
    
    count = np.zeros(n_classes, dtype=np.int16)
    for _, _, annotation in dataset.__iter__():
        # 사진 하나에 존재하는 0개 이상의 class object 들을 각각 센다
        # print(annotation) 
        for label in annotation.class_id:
            count[label] += 1

    return count

# names:
#   0: braille-block-defect
#   1: sidewalk-block-defect
#   2: bicycle-road-defect

print("class 0 (점자블록 파손부), 1(보도블럭 파손부), 2(자전거도로 파손부)")
for ds in [train_ds, val_ds, test_ds]:
    print(count_classes(ds))

class 0 (점자블록 파손부), 1(보도블럭 파손부), 2(자전거도로 파손부)
[ 7701 10720 11292]
[1487 2332 2437]
[1604 2292 2462]


### 혹시 모를 버그 확인  
당연하지만 빈 라벨 파일에 대해서는 세지 않는다.

In [6]:
# 정상 보도블럭에 대한 라벨 파일. (바운딩 박스 x) 단지 빈 txt 파일이다.
# root_path = "D:/Downloads/street-facilities-selected"
# empty_train_label = f"{root_path}/labels-txt/2_09_0_1_4_1_20210927_0000569294.txt" 

# list = [0, 0, 0]

# with open(empty_train_label, 'r', encoding='utf-8') as f:
#     for newline in f.readlines():
#         list[newline] += 1

# print(list)

저장

In [4]:
# 저장할 디렉토리 경로 설정
root_path = "D:/Downloads/street-facilities-4"
train_images_dir = f"{root_path}/images/train"
train_labels_dir = f"{root_path}/labels/train"

val_images_dir = f"{root_path}/images/val"
val_labels_dir = f"{root_path}/labels/val"

test_images_dir = f"{root_path}/images/test"
test_labels_dir = f"{root_path}/labels/test"

# 디렉토리 생성 (존재하지 않는 경우에만)
os.makedirs(train_images_dir, exist_ok=True)
os.makedirs(train_labels_dir, exist_ok=True)

os.makedirs(val_images_dir, exist_ok=True)
os.makedirs(val_labels_dir, exist_ok=True)

os.makedirs(test_images_dir, exist_ok=True)
os.makedirs(test_labels_dir, exist_ok=True)

# DetectionDataset 객체의 이미지 및 라벨을 복사하여 저장
def save_dataset(dataset, images_dir_to_save, labels_dir_to_save):
    i = 1
    total = len(dataset)
    for image_path, image, annotation in dataset.__iter__():
        if i % 200 == 1 : print(f"{i} / {total}")
        # image_path : path/image_filename.jpg or .jpeg
        image_filename = os.path.basename(image_path) # 이미지 파일 이름
        label_filename = os.path.splitext(image_filename)[0] + ".txt" # 확장자명만 변경 (.jpg or .jpeg -> .txt)

        # label_path 조합
        label_path = "\\".join(image_path.split("\\")[:-2] + ["transformed-labels-txt", label_filename])
        
        # 이미지 및 라벨을 각각 지정된 폴더로 복사
        shutil.copy(image_path, os.path.join(images_dir_to_save, image_filename))
        shutil.copy(label_path, os.path.join(labels_dir_to_save, label_filename))
        i += 1


# train 데이터셋 저장
save_dataset(train_ds, train_images_dir, train_labels_dir)
# validation 데이터셋 저장
save_dataset(val_ds, val_images_dir, val_labels_dir)
# test 데이터셋 저장
save_dataset(test_ds, test_images_dir, test_labels_dir)

print("Train/Validation/Test 데이터셋 저장 완료.")

1 / 6844
201 / 6844
401 / 6844
601 / 6844
801 / 6844
1001 / 6844
1201 / 6844
1401 / 6844
1601 / 6844
1801 / 6844
2001 / 6844
2201 / 6844
2401 / 6844
2601 / 6844
2801 / 6844
3001 / 6844
3201 / 6844
3401 / 6844
3601 / 6844
3801 / 6844
4001 / 6844
4201 / 6844
4401 / 6844
4601 / 6844
4801 / 6844
5001 / 6844
5201 / 6844
5401 / 6844
5601 / 6844
5801 / 6844
6001 / 6844
6201 / 6844
6401 / 6844
6601 / 6844
6801 / 6844
1 / 1467
201 / 1467
401 / 1467
601 / 1467
801 / 1467
1001 / 1467
1201 / 1467
1401 / 1467
1 / 1467
201 / 1467
401 / 1467
601 / 1467
801 / 1467
1001 / 1467
1201 / 1467
1401 / 1467
Train/Validation/Test 데이터셋 저장 완료.


저장 완료 후 데이터셋 분포 빠르게 확인

In [5]:
import os 
import numpy as np

root_path = "D:/Downloads/street-facilities-4/labels"

sub_path = ["train", "val", "test"]

class_mapping = {
    9 : 0,
    12: 1, 
    13 : 2,
}

cnt_classes = np.zeros((3,3), dtype=int)
negative_samples = np.zeros((3,3), dtype=int)

for k, sub in enumerate(sub_path):
    label_path = os.path.join(root_path, sub)
    print(label_path)

    labels = [label for label in os.listdir(label_path) if label.endswith('.txt')]
    total_cnt = len(labels)

    for i, label in enumerate(labels):
        if i % 300 == 0 :
            print(f"{i+1} / {total_cnt}")

        if (int(label.split("_")[2]) == 0):
            ctype = int(label.split("_")[1])
            negative_samples[k][class_mapping[ctype]] += 1
             
        with open(os.path.join(label_path, label), "r+", encoding="utf-8") as f:
            # 기존 내용 읽기 및 수정        
            for line in f:
                elems = line.split(" ")
                # 클래스 분포 집계 (0, 1, 2)
                cnt_classes[k][int(float(elems[0]))] += 1

print()
for i, type in enumerate(sub_path):
    print(type)
    print(cnt_classes[i])
    print("negative sample")
    print(negative_samples[i])

D:/Downloads/street-facilities-4/labels\train
1 / 6844
301 / 6844
601 / 6844
901 / 6844
1201 / 6844
1501 / 6844
1801 / 6844
2101 / 6844
2401 / 6844
2701 / 6844
3001 / 6844
3301 / 6844
3601 / 6844
3901 / 6844
4201 / 6844
4501 / 6844
4801 / 6844
5101 / 6844
5401 / 6844
5701 / 6844
6001 / 6844
6301 / 6844
6601 / 6844
D:/Downloads/street-facilities-4/labels\val
1 / 1467
301 / 1467
601 / 1467
901 / 1467
1201 / 1467
D:/Downloads/street-facilities-4/labels\test
1 / 1467
301 / 1467
601 / 1467
901 / 1467
1201 / 1467

train
[3204 4416 3124]
negative sample
[258 756 638]
val
[657 935 687]
negative sample
[ 54 164 141]
test
[647 970 661]
negative sample
[ 52 163 136]


이전 파일 삭제 (optional)

In [9]:
import os
import time

# 삭제할 기준 날짜 설정 (예: '2023-01-01')
delete_before_date = "2024-11-11"

# 기준 날짜를 타임스탬프로 변환
delete_before_timestamp = time.mktime(time.strptime(delete_before_date, "%Y-%m-%d"))

# 대상 폴더 경로
root_path = "D:/Downloads/street-facilities-3"

sub1 = ["images", "labels"]
sub2 = ['test', 'train', 'val']

for d1 in sub1:
    for d2 in sub2:
        folder_path = os.path.join(root_path, d1, d2)
        # 폴더 내 파일 탐색 및 삭제
        for filename in os.listdir(folder_path):
            file_path = os.path.join(folder_path, filename)
            
            # 파일인지 확인 (폴더가 아닌 경우만 삭제)
            if os.path.isfile(file_path):
                # 파일의 수정 시간 가져오기
                file_mod_time = os.path.getmtime(file_path)
                
                # 지정한 날짜 이전에 수정된 파일 삭제
                if file_mod_time < delete_before_timestamp:
                    os.remove(file_path)
                    # print(f"Deleted: {file_path}")
