In [3]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
전자결재 문서 이미지 경로 수정 스크립트

[기능]
- docBody에 <img> 태그가 있는 문서만 필터링
- 이미지 경로 변환: /approval/approval_YYYY_img/ → /approval/attach/approval_YYYY_img/

[사용법]
1. INPUT_FILES에 처리할 cmds 파일 경로 입력
2. OUTPUT_DIR에 결과 파일 저장할 폴더 경로 입력
3. 실행

[출력 파일]
- delete_documents_YYYY_MM.cmds : 삭제 명령 (deleteDocument)
- update_documents_YYYY_MM.cmds : 수정된 등록 명령 (addDocument)

[이관 순서]
1. delete 파일 먼저 실행 (기존 문서 삭제)
2. update 파일 실행 (수정된 경로로 재등록)
"""

import re
import os
from pathlib import Path

#############################################
# 여기에 처리할 cmds 파일 경로 입력
#############################################
INPUT_FILES = [
    r"C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\2025\documents_2025_03.cmds",
    r"C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\2020\documents_2020_03.cmds",
    r"C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\2015\documents_2015_03.cmds",
    # 추가 파일은 아래에 계속 추가
]

#############################################
# 결과 파일 저장할 폴더 경로
#############################################
OUTPUT_DIR = r"C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\이미지경로변환"
#############################################


def has_image_in_line(line: str) -> bool:
    """라인에 이미지 태그가 있는지 확인 (JSON 파싱 없이 정규식으로)"""
    # <img 와 src= 사이에 다른 속성이 있을 수 있음
    return bool(re.search(r'<img[^>]*src\s*=', line, re.IGNORECASE))


def has_target_image_path(line: str) -> bool:
    """변환 대상 이미지 경로가 있는지 확인"""
    return bool(re.search(r'/PMS_SITE-U7OI43JLDSMO/approval/approval_\d{4}_img/', line))


def extract_source_id(line: str) -> str:
    """라인에서 sourceId 추출 (정규식 사용)"""
    match = re.search(r'"sourceId"\s*:\s*"([^"]+)"', line)
    if match:
        return match.group(1)
    return None


def fix_image_path(line: str) -> str:
    """
    이미지 경로 수정
    /PMS_SITE-U7OI43JLDSMO/approval/approval_YYYY_img/
    → /PMS_SITE-U7OI43JLDSMO/approval/attach/approval_YYYY_img/
    """
    pattern = r'/PMS_SITE-U7OI43JLDSMO/approval/(approval_\d{4}_img/)'
    replacement = r'/PMS_SITE-U7OI43JLDSMO/approval/attach/\1'
    return re.sub(pattern, replacement, line)


def process_line(line: str) -> tuple:
    """한 줄 처리하여 (이미지여부, sourceId, 수정된라인) 반환"""
    line = line.strip()
    if not line.startswith("addDocument "):
        return False, None, None
    
    # 이미지 태그가 있고, 변환 대상 경로가 있는지 확인
    if not has_image_in_line(line):
        return False, None, None
    
    if not has_target_image_path(line):
        return False, None, None
    
    source_id = extract_source_id(line)
    if not source_id:
        print(f"  sourceId 추출 실패")
        return False, None, None
    
    # 이미지 경로 수정
    modified_line = fix_image_path(line)
    
    return True, source_id, modified_line


def process_cmds_file(input_path: str, output_dir: Path):
    """cmds 파일 처리"""
    input_path = Path(input_path)
    
    if not input_path.exists():
        print(f"파일을 찾을 수 없습니다: {input_path}")
        return None
    
    base_name = input_path.stem
    delete_file = output_dir / f"delete_{base_name}.cmds"
    update_file = output_dir / f"update_{base_name}.cmds"
    
    delete_commands = []
    update_commands = []
    total_lines = 0
    image_docs_count = 0
    
    print(f"\n처리 중: {input_path.name}")
    
    with open(input_path, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            
            total_lines += 1
            has_image, source_id, modified_line = process_line(line)
            
            if has_image and source_id:
                image_docs_count += 1
                delete_commands.append(f'deleteDocument {{"sourceId":"{source_id}"}}')
                update_commands.append(modified_line)
    
    if delete_commands:
        with open(delete_file, 'w', encoding='utf-8') as f:
            f.write('\n'.join(delete_commands))
        print(f"  → {delete_file.name}")
    
    if update_commands:
        with open(update_file, 'w', encoding='utf-8') as f:
            f.write('\n'.join(update_commands))
        print(f"  → {update_file.name}")
    
    print(f"  전체: {total_lines}개 / 이미지 포함: {image_docs_count}개")
    
    return {"total": total_lines, "with_image": image_docs_count}


def main():
    print("=" * 50)
    print("전자결재 이미지 경로 수정 스크립트")
    print("=" * 50)
    
    output_dir = Path(OUTPUT_DIR)
    output_dir.mkdir(parents=True, exist_ok=True)
    print(f"결과 파일 저장 위치: {output_dir}")
    
    if not INPUT_FILES:
        print("\n처리할 파일이 없습니다. INPUT_FILES 리스트에 경로를 추가하세요.")
        return
    
    total_stats = {"total": 0, "with_image": 0}
    
    for file_path in INPUT_FILES:
        result = process_cmds_file(file_path, output_dir)
        if result:
            total_stats["total"] += result["total"]
            total_stats["with_image"] += result["with_image"]
    
    print("\n" + "=" * 50)
    print(f"완료! 전체 {total_stats['total']}개 중 {total_stats['with_image']}개 처리됨")
    print("=" * 50)


if __name__ == "__main__":
    main()

전자결재 이미지 경로 수정 스크립트
결과 파일 저장 위치: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\output

처리 중: documents_2025_03.cmds
  → delete_documents_2025_03.cmds
  → update_documents_2025_03.cmds
  전체: 8175개 / 이미지 포함: 472개

처리 중: documents_2020_03.cmds
  → delete_documents_2020_03.cmds
  → update_documents_2020_03.cmds
  전체: 7704개 / 이미지 포함: 351개

처리 중: documents_2015_03.cmds
  → delete_documents_2015_03.cmds
  → update_documents_2015_03.cmds
  전체: 6587개 / 이미지 포함: 1개

완료! 전체 22466개 중 824개 처리됨
