In [8]:
!ls -a ~/Downloads/fire_raw/fire_raw/

.		     S3-N0911MF00041.jpg  S3-N0916MF03615.jpg
..		     S3-N0911MF00042.jpg  S3-N0916MF03616.jpg
S3-N0901MF00232.jpg  S3-N0911MF00043.jpg  S3-N0916MF03617.jpg
S3-N0901MF00233.jpg  S3-N0911MF00044.jpg  S3-N0916MF03618.jpg
S3-N0901MF00234.jpg  S3-N0911MF00045.jpg  S3-N0916MF03619.jpg
S3-N0901MF00235.jpg  S3-N0911MF00046.jpg  S3-N0916MF03620.jpg
S3-N0901MF00236.jpg  S3-N0911MF00047.jpg  S3-N0916MF03621.jpg
S3-N0901MF00237.jpg  S3-N0911MF00048.jpg  S3-N0916MF03622.jpg
S3-N0901MF00238.jpg  S3-N0911MF00049.jpg  S3-N0916MF03623.jpg
S3-N0901MF00239.jpg  S3-N0911MF00050.jpg  S3-N0916MF03624.jpg
S3-N0901MF00240.jpg  S3-N0911MF00051.jpg  S3-N0916MF03625.jpg
S3-N0901MF00241.jpg  S3-N0911MF00052.jpg  S3-N0916MF03626.jpg
S3-N0901MF00242.jpg  S3-N0911MF00053.jpg  S3-N0916MF03627.jpg
S3-N0901MF00243.jpg  S3-N0911MF00054.jpg  S3-N0916MF03628.jpg
S3-N0901MF00244.jpg  S3-N0911MF00055.jpg  S3-N0916MF03629.jpg
S3-N0901MF00245.jpg  S3-N0911MF00056.jpg  S3-N0916MF03630.jpg
S3-N0901MF00246.jpg  S3-N0911MF00

In [9]:
import os
import shutil
import random

# --- 설정 ---
# 1. 원본 이미지 파일들이 있는 폴더 경로를 입력하세요.
# 예: "C:/Users/User/Desktop/original_images"
source_folder = "/home/park/Downloads/fire_raw/fire_raw/"

# 2. 추출된 10GB의 파일들을 저장할 새 폴더 경로를 입력하세요.
# 예: "C:/Users/User/Desktop/image_subset_10gb"
destination_folder = "/home/park/Downloads/fire_raw/fire_10gb/"

# 3. 목표 용량 (GB)
target_size_gb = 10
# --- 설정 끝 ---


def extract_files_by_size(src_folder, dest_folder, target_gb):
    """
    지정된 폴더에서 목표 용량에 도달할 때까지 파일을 무작위로 복사합니다.

    Args:
        src_folder (str): 원본 파일 폴더 경로.
        dest_folder (str): 파일을 복사해 넣을 대상 폴더 경로.
        target_gb (int or float): 목표 용량 (기가바이트 단위).
    """
    # 목표 용량을 바이트 단위로 변환
    target_bytes = target_gb * (1024**3)
    current_bytes = 0
    copied_files_count = 0

    # 대상 폴더가 없으면 생성
    if not os.path.exists(dest_folder):
        os.makedirs(dest_folder)
        print(f"'{dest_folder}' 폴더를 생성했습니다.")

    # 소스 폴더의 모든 jpg, jpeg 파일 목록 가져오기
    try:
        all_files = [f for f in os.listdir(src_folder) if f.lower().endswith(('.jpg', '.jpeg'))]
        if not all_files:
            print(f"오류: '{src_folder}' 폴더에 JPG 또는 JPEG 파일이 없습니다.")
            return
    except FileNotFoundError:
        print(f"오류: '{src_folder}' 경로를 찾을 수 없습니다. 경로를 확인해주세요.")
        return

    # 파일 목록을 무작위로 섞기
    random.shuffle(all_files)
    print(f"총 {len(all_files):,}개의 이미지 파일 중 무작위 추출을 시작합니다.")

    # 파일 복사 시작
    for filename in all_files:
        if current_bytes >= target_bytes:
            print("\n목표 용량에 도달하여 복사를 중단합니다.")
            break

        source_path = os.path.join(src_folder, filename)
        destination_path = os.path.join(dest_folder, filename)

        try:
            file_size = os.path.getsize(source_path)

            # 이 파일을 추가해도 목표 용량을 넘지 않는 경우에만 복사
            if current_bytes + file_size <= target_bytes:
                shutil.copy2(source_path, destination_path) # copy2는 메타데이터(수정 시간 등)도 보존
                current_bytes += file_size
                copied_files_count += 1
                # 진행 상황 표시 (콘솔에 출력)
                progress_gb = current_bytes / (1024**3)
                print(f"\r복사 진행: {copied_files_count}개 파일, {progress_gb:.2f} GB / {target_gb} GB", end="")

        except FileNotFoundError:
            # 중간에 파일이 삭제되거나 하는 경우를 대비
            print(f"\n경고: '{source_path}' 파일을 찾을 수 없어 건너뜁니다.")
            continue
        except Exception as e:
            print(f"\n파일 복사 중 오류 발생: {e}")
            break

    # 최종 결과 출력
    final_size_gb = current_bytes / (1024**3)
    print("\n---" * 10)
    print("파일 추출 완료!")
    print(f"저장된 폴더: {dest_folder}")
    print(f"추출된 파일 개수: {copied_files_count:,}개")
    print(f"추출된 총 용량: {final_size_gb:.2f} GB")
    print("---" * 10)

extract_files_by_size(source_folder, destination_folder, target_size_gb)

총 40,000개의 이미지 파일 중 무작위 추출을 시작합니다.
복사 진행: 15864개 파일, 10.00 GB / 10 GB
---
---
---
---
---
---
---
---
---
---
파일 추출 완료!
저장된 폴더: /home/park/Downloads/fire_raw/fire_10gb/
추출된 파일 개수: 15,864개
추출된 총 용량: 10.00 GB
------------------------------


In [None]:
# 유사씬 10gb 추출
source_folder = "/home/park/Downloads/fire_raw/fire_raw/"
destination_folder = "/home/park/Downloads/fire_raw/fire_10gb/"
target_size_gb = 10

extract_files_by_size(source_folder, destination_folder, target_size_gb)

In [None]:
# 유사씬 10gb 추출
source_folder = "/home/park/Downloads/fire_raw/fire_raw/"
destination_folder = "/home/park/Downloads/fire_raw/fire_10gb/"
target_size_gb = 10

extract_files_by_size(source_folder, destination_folder, target_size_gb)

In [4]:
!pip install tqdm

Collecting tqdm
  Using cached tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Using cached tqdm-4.67.1-py3-none-any.whl (78 kB)
Installing collected packages: tqdm
Successfully installed tqdm-4.67.1


In [8]:
# 라벨 파일 추출 함수
import os
import shutil
from tqdm import tqdm # 진행상황을 시각적으로 보여주기 위한 라이브러리

# --- 설정 ---
# 1. 이전에 10GB만큼 추출해둔 JPG 이미지 폴더 경로
extracted_image_folder = os.path.expanduser("~/Downloads/fire_raw/fire_10gb/")

# 2. 모든 원본 라벨(.json) 파일이 들어있는 폴더 경로
source_label_folder = os.path.expanduser("~/Downloads/fire_raw/label_raw")

# 3. 추출된 라벨 파일을 저장할 새 폴더 경로
destination_label_folder = os.path.expanduser("~/Downloads/fire_raw/fire_10gb_label/")
# --- 설정 끝 ---


def extract_matching_labels(image_folder, src_lbl_folder, dest_lbl_folder):
    """
    image_folder에 있는 파일 이름과 일치하는 라벨 파일을
    src_lbl_folder에서 찾아 dest_lbl_folder로 복사합니다.
    """
    # 1. 저장할 폴더 생성
    if not os.path.exists(dest_lbl_folder):
        os.makedirs(dest_lbl_folder)
        print(f"'{dest_lbl_folder}' 폴더를 생성했습니다.")

    # 2. 추출된 이미지 파일 목록 가져오기
    try:
        image_files = [f for f in os.listdir(image_folder) if f.lower().endswith(('.jpg', '.jpeg'))]
        if not image_files:
            print(f"오류: '{image_folder}'에 이미지 파일이 없습니다.")
            return
    except FileNotFoundError:
        print(f"오류: '{image_folder}' 경로를 찾을 수 없습니다. 경로를 확인해주세요.")
        return

    print(f"총 {len(image_files):,}개의 이미지에 해당하는 라벨 파일 복사를 시작합니다.")
    
    copied_count = 0
    not_found_count = 0

    # 3. 각 이미지에 해당하는 라벨 파일 복사
    for image_filename in tqdm(image_files, desc="라벨 파일 복사 중"):
        # 이미지 파일에서 확장자를 제외한 기본 이름 추출
        base_filename, _ = os.path.splitext(image_filename)
        label_filename = base_filename + ".json"

        source_label_path = os.path.join(src_lbl_folder, label_filename)
        destination_label_path = os.path.join(dest_lbl_folder, label_filename)

        # 원본 라벨 폴더에 해당 파일이 있는지 확인 후 복사
        if os.path.exists(source_label_path):
            shutil.copy2(source_label_path, destination_label_path)
            copied_count += 1
        else:
            print(f"\n[경고] 라벨 파일을 찾을 수 없음: {source_label_path}")
            not_found_count += 1

    # --- 최종 결과 출력 ---
    print("\n" + "---" * 10)
    print("라벨 파일 추출 완료!")
    print(f"저장된 폴더: {dest_lbl_folder}")
    print(f"복사된 라벨 파일 개수: {copied_count:,}개")
    if not_found_count > 0:
        print(f"찾지 못한 라벨 파일 개수: {not_found_count:,}개")
    print("---" * 10)

# # 함수 실행 전 경로 확인
# if source_label_folder == os.path.expanduser("여기에 원본 라벨 폴더 전체 경로를 입력하세요"):
#     print("경고: 'source_label_folder' 변수의 경로를 실제 원본 라벨 폴더 경로로 수정해주세요.")
# else:

In [9]:
extract_matching_labels(extracted_image_folder, source_label_folder, destination_label_folder)

총 15,864개의 이미지에 해당하는 라벨 파일 복사를 시작합니다.


라벨 파일 복사 중: 100%|██████████| 15864/15864 [01:13<00:00, 215.35it/s] 


------------------------------
라벨 파일 추출 완료!
저장된 폴더: /home/park/Downloads/fire_raw/fire_10gb_label/
복사된 라벨 파일 개수: 15,864개
------------------------------



