In [2]:
import os
import shutil
import cv2
import numpy as np

from skimage.metrics import structural_similarity as ssim
from skimage.color import rgb2gray

In [11]:
def move_images(src_folder, dest_folder, batch_size=10):
    # 소스 폴더의 이미지 파일 리스트를 가져옵니다.
    images = [f for f in os.listdir(src_folder) if f.lower().endswith('.jpg')]
    images.sort()  # 이미지 파일명을 정렬하여 순서대로 처리합니다.

    # 이미지 파일을 배치로 나누어 이동합니다.
    for i in range(0, len(images), batch_size):
        batch = images[i:i + batch_size]
        
        # 새로운 디렉토리 이름을 생성합니다.
        batch_folder = os.path.join(dest_folder, f'batch_{i // batch_size + 1}')
        os.makedirs(batch_folder, exist_ok=True)
        
        # 배치에 있는 이미지를 새로운 디렉토리로 이동합니다.
        for image in batch:
            src_path = os.path.join(src_folder, image)
            dest_path = os.path.join(batch_folder, image)
            shutil.move(src_path, dest_path)
            # print(f'Moved: {src_path} -> {dest_path}')

        print(f"batch {i} complete")

# 예제 사용법
src_folder = 'D:/nsk/data/CH03/backup_20240906/NSKTRB/04.images'  # 소스 폴더 경로
dest_folder = 'D:/nsk/data/CH03_output'  # 대상 폴더 경로

# 이동 작업 수행
move_images(src_folder, dest_folder, batch_size=5000)

batch 0 complete
batch 5000 complete
batch 10000 complete
batch 15000 complete
batch 20000 complete
batch 25000 complete
batch 30000 complete
batch 35000 complete
batch 40000 complete
batch 45000 complete
batch 50000 complete
batch 55000 complete
batch 60000 complete
batch 65000 complete
batch 70000 complete
batch 75000 complete
batch 80000 complete
batch 85000 complete
batch 90000 complete
batch 95000 complete
batch 100000 complete
batch 105000 complete
batch 110000 complete
batch 115000 complete
batch 120000 complete
batch 125000 complete
batch 130000 complete
batch 135000 complete
batch 140000 complete
batch 145000 complete
batch 150000 complete
batch 155000 complete
batch 160000 complete
batch 165000 complete
batch 170000 complete
batch 175000 complete
batch 180000 complete
batch 185000 complete
batch 190000 complete
batch 195000 complete
batch 200000 complete
batch 205000 complete
batch 210000 complete
batch 215000 complete
batch 220000 complete
batch 225000 complete
batch 230000 

In [3]:
def compute_image_ssim(image_path1, image_path2):
    """두 이미지 간의 SSIM 값을 계산합니다."""
    img1 = cv2.imread(image_path1)
    img2 = cv2.imread(image_path2)

    # 이미지를 그레이스케일로 변환합니다.
    img1_gray = rgb2gray(img1)
    img2_gray = rgb2gray(img2)

    # 데이터 범위를 설정합니다. (0-255 for uint8 images)
    data_range = img1_gray.max() - img1_gray.min()

    # SSIM 값을 계산합니다.
    score, _ = ssim(img1_gray, img2_gray, data_range=data_range, full=True)
    # print(f"{image_path1} : {image_path2} score : {score}")
    return score

def find_and_remove_duplicates_in_folder(folder_path, threshold=0.8):
    """폴더 내에서 유사한 이미지를 찾아 제거합니다."""
    files = [f for f in os.listdir(folder_path) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
    files.sort() # 파일 이름 정렬 (선택적)

    removed_files = []
    files_to_remove = set()

    # 연속적으로 이미지를 비교합니다.
    for i in range(len(files) - 1):
        file_path1 = os.path.join(folder_path, files[i])
        file_path2 = os.path.join(folder_path, files[i + 1])
        
        # SSIM 값 계산
        similarity = compute_image_ssim(file_path1, file_path2)
        if similarity > threshold:
            # 유사한 이미지가 발견된 경우
            if file_path2 not in files_to_remove:
                # print(f"files_to_remove add {file_path2}")
                files_to_remove.add(file_path2)

    # print(files_to_remove)
    # 파일을 한 번에 제거합니다.
    for file_path in files_to_remove:
        if os.path.exists(file_path):
            os.remove(file_path)

    print(f"Removing similar image: {folder_path} - ({len(files_to_remove)})")
    return list(files_to_remove)

dest_folder = 'D:/nsk/data/CH03_output'  # 대상 폴더 경로

# 배치별 폴더에서 중복 이미지 제거
for folder in os.listdir(dest_folder):
    batch_folder = os.path.join(dest_folder, folder)
    if os.path.isdir(batch_folder):
        print(f"Processing folder: {batch_folder}")
        find_and_remove_duplicates_in_folder(batch_folder)

Processing folder: D:/nsk/data/CH03_output\batch_1
Removing similar image: D:/nsk/data/CH03_output\batch_1 - (188)
Processing folder: D:/nsk/data/CH03_output\batch_10
Removing similar image: D:/nsk/data/CH03_output\batch_10 - (411)
Processing folder: D:/nsk/data/CH03_output\batch_100
Removing similar image: D:/nsk/data/CH03_output\batch_100 - (457)
Processing folder: D:/nsk/data/CH03_output\batch_101
Removing similar image: D:/nsk/data/CH03_output\batch_101 - (462)
Processing folder: D:/nsk/data/CH03_output\batch_102
Removing similar image: D:/nsk/data/CH03_output\batch_102 - (510)
Processing folder: D:/nsk/data/CH03_output\batch_103
Removing similar image: D:/nsk/data/CH03_output\batch_103 - (448)
Processing folder: D:/nsk/data/CH03_output\batch_104
Removing similar image: D:/nsk/data/CH03_output\batch_104 - (453)
Processing folder: D:/nsk/data/CH03_output\batch_105
Removing similar image: D:/nsk/data/CH03_output\batch_105 - (441)
Processing folder: D:/nsk/data/CH03_output\batch_106
R