In [1]:
import os
import glob
from tqdm import tqdm

# --- 설정 ---
# ▼▼▼ 정리할 데이터 폴더의 경로를 입력하세요 ▼▼▼
DATA_PATH = '../kfood'

# --- 메인 실행 로직 ---
print(f"파일 정리 작업을 시작합니다...")
print(f"대상 경로: {os.path.abspath(DATA_PATH)}")

# 1. 보존할 확장자 목록 (소문자로 지정)
allowed_extensions = ['.jpg', '.jpeg']
print(f"보존 대상 확장자: {', '.join(allowed_extensions)}")

# 2. 모든 파일 목록을 재귀적으로 가져오기
all_files = glob.glob(os.path.join(DATA_PATH, '**', '*'), recursive=True)

# 3. 삭제할 파일 목록 필터링
files_to_delete = []
for file_path in all_files:
    # 폴더가 아닌 파일만 대상으로 작업
    if os.path.isfile(file_path):
        # 파일 확장자를 소문자로 변경하여 비교
        ext = os.path.splitext(file_path)[1].lower()
        
        # 확장자가 보존 대상 목록에 없으면 삭제 목록에 추가
        if ext not in allowed_extensions:
            files_to_delete.append(file_path)

# 4. 최종 확인 후 삭제 실행
if not files_to_delete:
    print("\n✅ 삭제할 파일이 없습니다. 모든 파일이 JPG/JPEG 형식입니다.")
else:
    print(f"\n⚠️ 총 {len(files_to_delete)}개의 파일을 삭제할 예정입니다.")
    # 사용자에게 최종 확인을 받습니다. (안전장치)
    user_input = input("정말로 삭제를 진행하시겠습니까? (y/n): ")
    
    if user_input.lower() == 'y':
        deleted_count = 0
        for file_path in tqdm(files_to_delete, desc="파일 삭제 중"):
            try:
                os.remove(file_path)
                deleted_count += 1
            except Exception as e:
                # tqdm 진행률과 겹치지 않게 오류 메시지 출력
                tqdm.write(f"\n파일 삭제 오류: {file_path} (오류: {e})")
        
        print(f"\n🎉 총 {deleted_count}개의 파일을 삭제했습니다.")
    else:
        print("\n작업이 취소되었습니다.")

파일 정리 작업을 시작합니다...
대상 경로: /workspace/data/kfood
보존 대상 확장자: .jpg, .jpeg

⚠️ 총 746개의 파일을 삭제할 예정입니다.


정말로 삭제를 진행하시겠습니까? (y/n):  y


파일 삭제 중: 100%|██████████| 746/746 [00:00<00:00, 1059.47it/s]


🎉 총 746개의 파일을 삭제했습니다.



