In [1]:
%load_ext autoreload
%autoreload 2

import os
import sys
from pathlib import Path
from pprint import pprint

# 프로젝트 루트를 Python 경로에 추가
project_root = Path.cwd()
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

from modules.data_manager import DataManager, show_data_structure_guide
import modules.minio as minio


In [None]:
show_data_structure_guide()


🗂️  데이터 관리 구조 가이드

📁 로컬 디렉터리:
├── data/
│   ├── raw/                    # 원본 데이터 (SVG, 이미지)
│   ├── processed/              # 전처리된 데이터 (라벨링 대기)
│   ├── datasets/               # 완성된 데이터셋들
│   ├── models/                 # 학습된 모델 저장
│   └── temp/                   # 임시 작업 파일

☁️  MinIO 버킷 구조:
├── raw/                        # 원본 데이터
│   ├── svg_files/              # SVG 원본들
│   └── images/                 # 기타 이미지 원본들
├── processed/                  # 전처리된 데이터
│   ├── unlabeled/              # 라벨링 대기 중
│   └── temp/                   # 임시 처리 파일들
├── datasets/                   # 완성된 데이터셋들
│   ├── aws_icon_detector_v4/   # AWS Icon Detector v4
│   └── custom_dataset_v1/      # 커스텀 데이터셋
├── models/                     # 학습된 모델들
│   ├── weights/                # 모델 가중치
│   └── experiments/            # 실험 결과
└── exports/                    # 배포용 모델

🔄 데이터 흐름:
raw → processed → datasets → models → exports

📝 사용 예시:
```python
# 데이터 매니저 초기화
dm = DataManager('aws-diagram-object-detection')

#

In [None]:
BUCKET_NAME = 'aws-diagram-object-detection'

# MinIO 연결 확인
print("🔗 MinIO 연결 확인...")
if minio.check_bucket_connection(BUCKET_NAME):
    print("✅ MinIO 연결 성공")
else:
    print("❌ MinIO 연결 실패")

# 데이터 매니저 초기화
dm = DataManager(BUCKET_NAME)
print("✅ 데이터 매니저 초기화 완료")

🔗 MinIO 연결 확인...
✅ MinIO 연결 성공
✅ 데이터 매니저 초기화 완료


In [None]:
# 기존 데이터를 새로운 구조로 마이그레이션
dm.migrate_existing_data()

🔄 기존 데이터 마이그레이션 시작...
📦 AWS Icon Detector v4 데이터셋 마이그레이션 중...
파일 datasets/aws_icon_detector_v4/metadata.yaml 업로드 완료
✅ 데이터셋 'aws_icon_detector_v4' 생성 완료
파일 datasets/aws_icon_detector_v4/data.yaml 업로드 완료
📦 데이터셋 업로드 완료: 421개 성공, 0개 실패
🔧 전처리된 데이터 마이그레이션 중...
파일 processed/unlabeled/1754371355887_20250805_160606_716156_20250805_161912_085895.png 업로드 완료
파일 processed/unlabeled/index143_png.rf.06c94a1ab4446796aae4fbd3fd3067c8_20250806_220126_533152.png 업로드 완료
파일 processed/unlabeled/1754371355237_20250805_160541_769007.png 업로드 완료
파일 processed/unlabeled/1754370361998_20250805_155822_047701.png 업로드 완료
파일 processed/unlabeled/1754370362622_20250805_155853_899632.png 업로드 완료
파일 processed/unlabeled/1754371053853_20250805_162034_978120.png 업로드 완료
파일 processed/unlabeled/1754371053660_20250805_155918_562400.png 업로드 완료
파일 processed/unlabeled/1754371354914_20250805_160528_123090_20250805_161831_996065.png 업로드 완료
파일 processed/unlabeled/1754371060218_20250805_155940_001658.png 업로드 완료
파일 processed/unlabeled/17

In [5]:
# 업로드된 데이터셋 목록 조회
print("📊 사용 가능한 데이터셋:")
datasets = dm.list_datasets()

for i, dataset in enumerate(datasets, 1):
    print(f"{i}. {dataset['id']}")
    print(f"   📁 파일 수: {dataset['file_count']}개")
    print(f"   📅 최종 수정: {dataset['last_modified']}")
    print(f"   🔗 Prefix: {dataset['prefix']}")
    print()


📊 사용 가능한 데이터셋:
1. aws_icon_detector_v4
   📁 파일 수: 422개
   📅 최종 수정: 2025-08-06 13:13:06.934000+00:00
   🔗 Prefix: datasets/aws_icon_detector_v4/



In [6]:
# 전체 데이터 현황 요약
print("📈 데이터 현황 요약")
print("=" * 50)

# 각 카테고리별 파일 수 조회
categories = {
    '🗂️ 원본 데이터': 'raw/',
    '🔧 전처리된 데이터': 'processed/',
    '📦 완성된 데이터셋': 'datasets/',
    '🤖 학습된 모델': 'models/',
    '🚀 배포용 모델': 'exports/'
}

for category, prefix in categories.items():
    files = minio.list_files_by_prefix(BUCKET_NAME, prefix)
    print(f"{category}: {len(files):>3}개 파일")

print("=" * 50)
print("🎉 데이터 마이그레이션 및 관리 시스템 설정 완료!")


📈 데이터 현황 요약
🗂️ 원본 데이터:   0개 파일
🔧 전처리된 데이터: 1000개 파일
📦 완성된 데이터셋: 422개 파일
🤖 학습된 모델:   0개 파일
🚀 배포용 모델:   0개 파일
🎉 데이터 마이그레이션 및 관리 시스템 설정 완료!
