In [3]:
# %% [markdown]
# # etc) Raw 데이터 전체 압축 해제
# 
# - `data/train/raw`와 `data/test/raw` 폴더에 있는 모든 `.json.gz` 파일의 압축을 해제합니다.
# - 압축 해제가 성공하면 원본 압축 파일(.gz)은 자동으로 삭제됩니다.

# %%
import os
import gzip
import shutil
from tqdm import tqdm
from common import get_paths

# %%
# ----- 1. 기본 경로 설정 -----
BASE_DIR = r"C:\Users\EL040\Desktop\MS_3rd-Project\basemodel"

# ----- 2. 경로 불러오기 -----
paths = get_paths(BASE_DIR)
target_dirs = [paths["data_train_raw"], paths["data_test_raw"]]

# %%
# ----- 3. 압축 해제 로직 실행 -----

def decompress_and_cleanup(directory_path):
    """지정된 디렉토리의 .gz 파일들을 압축 해제하고 원본을 삭제합니다."""
    
    print(f"\nProcessing directory: {directory_path}")
    
    # 1. 압축 해제할 .json.gz 파일 목록 찾기
    gz_files = [f for f in os.listdir(directory_path) if f.endswith(".json.gz")]
    
    if not gz_files:
        print("-> No .gz files to decompress.")
        return

    print(f"-> Found {len(gz_files)} files to decompress.")
    
    # 2. 파일들을 순회하며 압축 해제 및 원본 삭제
    for filename in tqdm(gz_files, desc="Decompressing"):
        source_path = os.path.join(directory_path, filename)
        # .gz 확장자를 제거하여 목적지 파일 경로 생성
        dest_path = source_path[:-3] 

        try:
            # gzip으로 압축된 소스 파일을 열고, 일반 파일로 내용을 복사
            with gzip.open(source_path, 'rb') as f_in:
                with open(dest_path, 'wb') as f_out:
                    shutil.copyfileobj(f_in, f_out)
            
            # 복사가 성공적으로 완료되면 원본 .gz 파일 삭제
            os.remove(source_path)

        except Exception as e:
            print(f"\n[ERROR] Failed to process {source_path}: {e}")
            print("-> Original file will not be deleted.")

    print(f"-> Decompression and cleanup finished for this directory.")


for directory in target_dirs:
    decompress_and_cleanup(directory)

print("\nAll tasks completed.")


Processing directory: C:\Users\EL040\Desktop\MS_3rd-Project\basemodel\data\train\raw
-> Found 240 files to decompress.


Decompressing: 100%|██████████| 240/240 [11:42<00:00,  2.93s/it]

-> Decompression and cleanup finished for this directory.

Processing directory: C:\Users\EL040\Desktop\MS_3rd-Project\basemodel\data\test\raw
-> No .gz files to decompress.

All tasks completed.



