In [4]:
import os
from PIL import Image

import os
import shutil
from sklearn.model_selection import train_test_split

In [5]:
# 이미지가 저장된 최상위 폴더 경로
base_dir = "../dataset/img_dataset"
# 원하는 해상도 설정 (예: 256x256)
target_size = (256, 256)

# 폴더 내 모든 차트 패턴 폴더 탐색
for pattern_dir in os.listdir(base_dir):
    pattern_path = os.path.join(base_dir, pattern_dir)
    # 폴더 내 이미지 파일 탐색
    if os.path.isdir(pattern_path):
        for img_name in os.listdir(pattern_path):
            img_path = os.path.join(pattern_path, img_name)
            # 이미지 파일만 처리
            if img_path.endswith('.jpg') or img_path.endswith('.png'):
                try:
                    # 이미지 열기
                    img = Image.open(img_path)
                    # 해상도 변경
                    img_resized = img.resize(target_size, Image.Resampling.LANCZOS)
                    # 동일 경로에 저장 (덮어쓰기)
                    img_resized.save(img_path)
                    print(f"Resized and saved: {img_path}")
                except Exception as e:
                    print(f"Error processing {img_path}: {e}")

Resized and saved: ../img_dataset/DTr/DTr_11.jpg
Resized and saved: ../img_dataset/DTr/DTr_05.jpg
Resized and saved: ../img_dataset/DTr/DTr_04.jpg
Resized and saved: ../img_dataset/DTr/DTr_10.jpg
Resized and saved: ../img_dataset/DTr/DTr_06.jpg
Resized and saved: ../img_dataset/DTr/DTr_12.jpg
Resized and saved: ../img_dataset/DTr/DTr_13.jpg
Resized and saved: ../img_dataset/DTr/DTr_07.jpg
Resized and saved: ../img_dataset/DTr/DTr_03.jpg
Resized and saved: ../img_dataset/DTr/DTr_17.jpg
Resized and saved: ../img_dataset/DTr/DTr_16.jpg
Resized and saved: ../img_dataset/DTr/DTr_02.jpg
Resized and saved: ../img_dataset/DTr/DTr_28.jpg
Resized and saved: ../img_dataset/DTr/DTr_14.jpg
Resized and saved: ../img_dataset/DTr/DTr_01.jpg
Resized and saved: ../img_dataset/DTr/DTr_15.jpg
Resized and saved: ../img_dataset/DTr/DTr_29.jpg
Resized and saved: ../img_dataset/DTr/DTr_30.jpg
Resized and saved: ../img_dataset/DTr/DTr_24.jpg
Resized and saved: ../img_dataset/DTr/DTr_18.jpg
Resized and saved: .

In [6]:
# 원본 데이터셋 폴더 경로
base_dir = "../dataset/img_dataset"
# 출력 폴더 경로
output_base_dir = "../dataset/processed_img_dataset"

# 학습, 검증, 테스트 비율 설정
train_ratio = 0.7
test_ratio = 0.2
val_ratio = 0.1

# 폴더 생성
os.makedirs(output_base_dir, exist_ok=True)
train_dir = os.path.join(output_base_dir, 'train')
val_dir = os.path.join(output_base_dir, 'val')
test_dir = os.path.join(output_base_dir, 'test')

os.makedirs(train_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)
os.makedirs(test_dir, exist_ok=True)

# 각 차트 패턴 폴더 탐색 및 파일 리스트 수집
for pattern_dir in os.listdir(base_dir):
    pattern_path = os.path.join(base_dir, pattern_dir)
    if os.path.isdir(pattern_path):
        images = [img for img in os.listdir(pattern_path) if img.endswith('.jpg') or img.endswith('.png')]
        
        # 학습, 테스트, 검증 데이터로 분할
        train_imgs, test_imgs = train_test_split(images, test_size=(1 - train_ratio), random_state=42)
        val_imgs, test_imgs = train_test_split(test_imgs, test_size=(test_ratio / (test_ratio + val_ratio)), random_state=42)
        
        # 파일 복사 함수
        def copy_files(img_list, src_dir, dest_dir):
            os.makedirs(dest_dir, exist_ok=True)
            for img in img_list:
                src_path = os.path.join(src_dir, img)
                dest_path = os.path.join(dest_dir, img)
                shutil.copyfile(src_path, dest_path)

        # 이미지 파일 복사
        copy_files(train_imgs, pattern_path, os.path.join(train_dir, pattern_dir))
        copy_files(val_imgs, pattern_path, os.path.join(val_dir, pattern_dir))
        copy_files(test_imgs, pattern_path, os.path.join(test_dir, pattern_dir))

print("Dataset has been split into train, val, and test sets.")

Dataset has been split into train, val, and test sets.
