In [1]:
import os
import glob
import json

# 1. Google Drive Mount
from google.colab import drive
drive.mount('/content/drive')

# 2. Path Settings
BASE_GDRIVE_PATH = "/content/drive/MyDrive"
ZIPS_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/zips")

TRAIN_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/train_images")
TRAIN_LBL_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/train_labels")
TEST_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_images")
TEST_LBL_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_labels")

# Create folders if they don't exist
for path in [TRAIN_IMG_PATH, TRAIN_LBL_PATH, TEST_IMG_PATH, TEST_LBL_PATH]:
    os.makedirs(path, exist_ok=True)

print("✅ 경로 설정 및 폴더 생성을 완료했습니다.")


# =================================================================
# 3. Training Data Processing
# =================================================================
print("\n===== 🟢 1. 학습(Training) 데이터 처리 시작 =====")

# 3-1. Process Labeling Data (TL.zip)
print("\n[1/2] 라벨링 파일(TL.zip) 처리 및 복사 중...")
!cp "{ZIPS_PATH}/TL.zip" /content/
!unzip -q /content/TL.zip -d /content/temp_unzip

label_path_train = '/content/temp_unzip/라벨/HW-OCR/4.Validation/P.Paper/R.Free'

# <<< [수정] 📝 'Argument list too long' 오류 해결을 위해 cp를 find로 변경
!find {label_path_train} -name "*_4PR_*.json" -exec cp -t "{TRAIN_LBL_PATH}" {{}} +

train_lbl_count = len(os.listdir(TRAIN_LBL_PATH))
print(f"  -> 복사 완료. 'train_labels' 폴더에 {train_lbl_count}개의 파일을 저장했습니다.")


# 3-2. Process Source Image Data (TS*.zip)
IMAGE_PATH_IN_ZIP_TRAIN = "HW-OCR/4.Validation/P.Paper/R.Free"

print(f"\n[2/2] 원천 데이터에서 이미지 추출 중... (내부 경로: {IMAGE_PATH_IN_ZIP_TRAIN})")
train_zip_files = [f"TS{i}.zip" for i in range(1, 10)]

for zip_filename in train_zip_files:
    full_zip_path = os.path.join(ZIPS_PATH, zip_filename)
    print(f"  -> {zip_filename} 작업 중...")
    !cp "{full_zip_path}" /content/

    # unzip 명령어는 내부적으로 와일드카드를 처리하므로 'Argument list too long' 오류가 발생하지 않습니다.
    !unzip -n -j "/content/{zip_filename}" "{IMAGE_PATH_IN_ZIP_TRAIN}/*_4PR_*.jpg" -d "{TRAIN_IMG_PATH}" > /dev/null 2>&1
    !unzip -n -j "/content/{zip_filename}" "{IMAGE_PATH_IN_ZIP_TRAIN}/*_4PR_*.png" -d "{TRAIN_IMG_PATH}" > /dev/null 2>&1

    !rm "/content/{zip_filename}"

    current_train_img_count = len(os.listdir(TRAIN_IMG_PATH))
    print(f"    -> 완료. 현재까지 저장된 이미지 개수: {current_train_img_count}개")

train_img_count = len(os.listdir(TRAIN_IMG_PATH))
print("✅ 학습 데이터 처리가 모두 완료되었습니다.")
print(f"  -> 최종 'train_images' 폴더의 파일 개수: {train_img_count}개")


# =================================================================
# 4. Validation/Test Data Processing
# =================================================================
print("\n\n===== 🔵 2. 테스트(Validation) 데이터 처리 시작 =====")

# 4-1. Process Labeling Data (VL.zip)
print("\n[1/2] 라벨링 파일(VL.zip) 처리 및 복사 중...")
!cp "{ZIPS_PATH}/VL.zip" /content/
!unzip -oq /content/VL.zip -d /content/temp_unzip

label_path_val = '/content/temp_unzip/라벨/HW-OCR/4.Validation/P.Paper/R.Free'

# <<< [수정] 📝 'Argument list too long' 오류 해결을 위해 cp를 find로 변경
!find {label_path_val} -name "*_4PR_*.json" -exec cp -t "{TEST_LBL_PATH}" {{}} +

test_lbl_count = len(os.listdir(TEST_LBL_PATH))
print(f"  -> 복사 완료. 'test_labels' 폴더에 {test_lbl_count}개의 파일을 저장했습니다.")


# 4-2. Process Source Image Data (VS.zip)
IMAGE_PATH_IN_ZIP_VAL = "HW-OCR/4.Validation/P.Paper/R.Free"

print(f"\n[2/2] 원천 데이터에서 이미지 추출 중... (내부 경로: {IMAGE_PATH_IN_ZIP_VAL})")
!cp "{ZIPS_PATH}/VS.zip" /content/

!unzip -n -j "/content/VS.zip" "{IMAGE_PATH_IN_ZIP_VAL}/*_4PR_*.jpg" -d "{TEST_IMG_PATH}" > /dev/null 2>&1
!unzip -n -j "/content/VS.zip" "{IMAGE_PATH_IN_ZIP_VAL}/*_4PR_*.png" -d "{TEST_IMG_PATH}" > /dev/null 2>&1

test_img_count = len(os.listdir(TEST_IMG_PATH))
print("✅ 테스트 데이터 처리가 모두 완료되었습니다.")
print(f"  -> 최종 'test_images' 폴더의 파일 개수: {test_img_count}개")


# =================================================================
# 5. Final Cleanup
# =================================================================
print("\n\n===== 🧹 3. 임시 파일 정리 시작 =====")
!rm /content/TL.zip
!rm /content/VL.zip
!rm /content/VS.zip
!rm -rf /content/temp_unzip
print("✅ 모든 임시 파일을 삭제했습니다.")

print("\n\n🚀🚀🚀 모든 작업이 성공적으로 완료되었습니다! 🚀🚀🚀")



Mounted at /content/drive
✅ 경로 설정 및 폴더 생성을 완료했습니다.

===== 🟢 1. 학습(Training) 데이터 처리 시작 =====

[1/2] 라벨링 파일(TL.zip) 처리 및 복사 중...
  -> 복사 완료. 'train_labels' 폴더에 31535개의 파일을 저장했습니다.

[2/2] 원천 데이터에서 이미지 추출 중... (내부 경로: HW-OCR/4.Validation/P.Paper/R.Free)
  -> TS1.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 0개
  -> TS2.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 0개
  -> TS3.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 0개
  -> TS4.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 0개
  -> TS5.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 0개
  -> TS6.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 8580개
  -> TS7.zip 작업 중...
cp: error reading '/content/drive/MyDrive/DL_project/zips/TS7.zip': No space left on device
    -> 완료. 현재까지 저장된 이미지 개수: 8580개
  -> TS8.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 21414개
  -> TS9.zip 작업 중...
    -> 완료. 현재까지 저장된 이미지 개수: 21414개
✅ 학습 데이터 처리가 모두 완료되었습니다.
  -> 최종 'train_images' 폴더의 파일 개수: 21414개


===== 🔵 2. 테스트(Validation) 데이터 처리 시작 =====

[1/2] 라벨링 파일(VL.zip) 처리 및 복사 중...
  -> 복사 완료. 'test_labels' 폴더에 

In [5]:
import os
import glob

# =================================================================
# ⚙️ 1. 환경 설정 (필수)
# =================================================================
# Google Drive Mount
from google.colab import drive
drive.mount('/content/drive')

# Path Settings
BASE_GDRIVE_PATH = "/content/drive/MyDrive"
ZIPS_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/zips")
TRAIN_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/train_images")

# =================================================================
# 🟢 2. 학습 데이터 보완 처리 (TS7 ~ TS9)
# =================================================================
print("===== 🟢 학습 데이터 보완 처리 시작 (TS7.zip ~ TS9.zip) =====")

IMAGE_PATH_IN_ZIP_TRAIN = "HW-OCR/4.Validation/P.Paper/R.Free"
# 실패했거나 영향을 받았을 가능성이 있는 zip 파일 목록
train_zip_files_to_retry = ["TS7.zip", "TS8.zip", "TS9.zip"]

for zip_filename in train_zip_files_to_retry:
    full_zip_path = os.path.join(ZIPS_PATH, zip_filename)
    print(f"  -> {zip_filename} 작업 중...")

    # Google Drive에서 직접 압축을 해제하여 Colab의 저장 공간 부족 문제를 해결합니다.
    # '-n' 옵션은 이미 파일이 있을 경우 덮어쓰지 않으므로 안전합니다.
    !unzip -n -j "{full_zip_path}" "{IMAGE_PATH_IN_ZIP_TRAIN}/*_4PR_*.jpg" -d "{TRAIN_IMG_PATH}" > /dev/null 2>&1
    !unzip -n -j "{full_zip_path}" "{IMAGE_PATH_IN_ZIP_TRAIN}/*_4PR_*.png" -d "{TRAIN_IMG_PATH}" > /dev/null 2>&1

# 최종 파일 개수 확인
train_img_count = len(os.listdir(TRAIN_IMG_PATH))
print(f"\n✅ 학습 데이터 보완 완료!")
print(f"  -> 최종 'train_images' 폴더의 파일 개수: {train_img_count}개")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
===== 🟢 학습 데이터 보완 처리 시작 (TS7.zip ~ TS9.zip) =====
  -> TS7.zip 작업 중...
  -> TS8.zip 작업 중...
  -> TS9.zip 작업 중...

✅ 학습 데이터 보완 완료!
  -> 최종 'train_images' 폴더의 파일 개수: 31535개


In [4]:
import os

# =================================================================
# 2. 테스트(Validation) 데이터 전체 재처리
# =================================================================
print("\n\n===== 🔵 2. 테스트 데이터 전체 재처리 시작 =====")

BASE_GDRIVE_PATH = "/content/drive/MyDrive"
ZIPS_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/zips")
TEST_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_images")
TEST_LBL_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_labels")

# --- 2-1. 라벨링 파일(VL.zip) 처리 ---
print("\n[1/2] 라벨링 파일(VL.zip) 처리 중...")
# 임시 폴더에 압축 해제 후 필요한 파일만 Drive로 복사
!unzip -oq "{ZIPS_PATH}/VL.zip" -d /content/temp_unzip_test
label_path_val = '/content/temp_unzip_test/라벨/HW-OCR/4.Validation/P.Paper/R.Free'
!find "{label_path_val}" -name "*_4PR_*.json" -exec cp -t "{TEST_LBL_PATH}" {{}} +
!rm -rf /content/temp_unzip_test # 임시 파일 정리

test_lbl_count = len(os.listdir(TEST_LBL_PATH))
print(f"  -> 완료. 'test_labels' 폴더에 {test_lbl_count}개의 파일을 저장했습니다.")


# --- 2-2. 원천 이미지(VS.zip) 파일 처리 ---
IMAGE_PATH_IN_ZIP_VAL = "HW-OCR/4.Validation/P.Paper/R.Free"
print(f"\n[2/2] 원천 이미지(VS.zip) 파일 처리 중...")
!unzip -n -j "{ZIPS_PATH}/VS.zip" "{IMAGE_PATH_IN_ZIP_VAL}/*_4PR_*.jpg" -d "{TEST_IMG_PATH}" > /dev/null 2>&1
!unzip -n -j "{ZIPS_PATH}/VS.zip" "{IMAGE_PATH_IN_ZIP_VAL}/*_4PR_*.png" -d "{TEST_IMG_PATH}" > /dev/null 2>&1

test_img_count = len(os.listdir(TEST_IMG_PATH))
print(f"  -> 완료. 'test_images' 폴더에 {test_img_count}개의 파일을 저장했습니다.")

print("\n✅ 테스트 데이터 재처리가 모두 완료되었습니다.")



===== 🔵 2. 테스트 데이터 전체 재처리 시작 =====

[1/2] 라벨링 파일(VL.zip) 처리 중...
  -> 완료. 'test_labels' 폴더에 4000개의 파일을 저장했습니다.

[2/2] 원천 이미지(VS.zip) 파일 처리 중...
  -> 완료. 'test_images' 폴더에 4000개의 파일을 저장했습니다.

✅ 테스트 데이터 재처리가 모두 완료되었습니다.


In [6]:
import os

# =================================================================
# 3. 최종 결과 검증
# =================================================================
print("\n\n===== 📊 3. 최종 결과 검증 시작 =====")

BASE_GDRIVE_PATH = "/content/drive/MyDrive"
TRAIN_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/train_images")
TRAIN_LBL_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/train_labels")
TEST_IMG_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_images")
TEST_LBL_PATH = os.path.join(BASE_GDRIVE_PATH, "DL_project/test_labels")

# 각 폴더의 최종 파일 개수 확인
final_train_img = len(os.listdir(TRAIN_IMG_PATH))
final_train_lbl = len(os.listdir(TRAIN_LBL_PATH))
final_test_img = len(os.listdir(TEST_IMG_PATH))
final_test_lbl = len(os.listdir(TEST_LBL_PATH))

print("\n--- 📝 최종 파일 개수 ---")
print(f"학습 이미지 : {final_train_img} 개")
print(f"학습 라벨   : {final_train_lbl} 개")
print(f"테스트 이미지 : {final_test_img} 개")
print(f"테스트 라벨   : {final_test_lbl} 개")
print("------------------------")

# 데이터 쌍(pair)이 맞는지 확인
if final_train_img == final_train_lbl:
    print("\n👍 학습 데이터(이미지-라벨) 개수가 일치합니다.")
else:
    print("\n⚠️ [경고] 학습 데이터의 이미지와 라벨 개수가 일치하지 않습니다!")

if final_test_img == final_test_lbl:
    print("👍 테스트 데이터(이미지-라벨) 개수가 일치합니다.")
else:
    print("⚠️ [경고] 테스트 데이터의 이미지와 라벨 개수가 일치하지 않습니다!")

print("\n\n🚀🚀🚀 모든 검증 작업이 완료되었습니다! 🚀🚀🚀")



===== 📊 3. 최종 결과 검증 시작 =====

--- 📝 최종 파일 개수 ---
학습 이미지 : 31535 개
학습 라벨   : 31535 개
테스트 이미지 : 4000 개
테스트 라벨   : 4000 개
------------------------

👍 학습 데이터(이미지-라벨) 개수가 일치합니다.
👍 테스트 데이터(이미지-라벨) 개수가 일치합니다.


🚀🚀🚀 모든 검증 작업이 완료되었습니다! 🚀🚀🚀
