# Base64 이미지 태그 → 파일 경로 변환

특정 sourceId의 문서에서 base64 인코딩된 이미지 태그를 파일 경로 참조로 변환합니다.

In [None]:
import re
import json
from pathlib import Path

In [None]:
# 설정
INPUT_FILE = r"C:\Users\LEEJUHWAN\퇴사자명단\documents_all.cmds"
OUTPUT_FILE = r"C:\Users\LEEJUHWAN\퇴사자명단\documents_all_converted.cmds"

# 처리 대상 sourceId 목록
TARGET_SOURCE_IDS = {
    "2978801", "2983943", "2985244", "3091219", "3097823", "3120072",
    "3187289", "3190258", "3202897", "3271155", "3288192", "3307760",
    "5637771", "5641483", "5649101", "5810171"
}

print(f"처리 대상 sourceId 개수: {len(TARGET_SOURCE_IDS)}")

In [None]:
# 파일 읽기
with open(INPUT_FILE, 'r', encoding='utf-8') as f:
    content = f.read()

print(f"파일 크기: {len(content):,} bytes")

In [None]:
# addDocument {...} 패턴 찾기
# addDocument 뒤의 JSON 객체를 찾음
pattern = r'addDocument\s+(\{[^{}]*(?:\{[^{}]*\}[^{}]*)*\})'

# base64 이미지 태그 패턴
base64_img_pattern = r'<img[^>]+data:image/[^>]+>'

# 통계
stats = {
    'total_docs': 0,
    'target_docs_found': 0,
    'docs_with_base64': 0,
    'docs_with_multiple_images': [],
    'converted': 0
}

In [None]:
def convert_base64_to_path(match, source_id):
    """base64 이미지 태그를 파일 경로로 변환"""
    new_tag = f'<img src="/PMS_SITE-U7OI43JLDSMO/approval/attach/approval_2020_img/apr{source_id}/0.jpg"/>'
    return new_tag

def process_document(json_str):
    """문서 JSON을 처리하여 필요시 이미지 태그 변환"""
    global stats
    
    stats['total_docs'] += 1
    
    # sourceId 추출 (JSON 파싱 없이 정규식으로)
    source_id_match = re.search(r'"sourceId"\s*:\s*"(\d+)"', json_str)
    if not source_id_match:
        return json_str
    
    source_id = source_id_match.group(1)
    
    # 대상 sourceId인지 확인
    if source_id not in TARGET_SOURCE_IDS:
        return json_str
    
    stats['target_docs_found'] += 1
    
    # base64 이미지 태그 찾기
    base64_images = re.findall(base64_img_pattern, json_str)
    
    if not base64_images:
        return json_str
    
    stats['docs_with_base64'] += 1
    
    # 이미지가 2개 이상인 경우 알림
    if len(base64_images) > 1:
        stats['docs_with_multiple_images'].append({
            'sourceId': source_id,
            'count': len(base64_images)
        })
        print(f"⚠️  sourceId {source_id}: base64 이미지 {len(base64_images)}개 발견!")
    
    # 변환 수행
    new_tag = f'<img src="/PMS_SITE-U7OI43JLDSMO/approval/attach/approval_2020_img/apr{source_id}/0.jpg"/>'
    result = re.sub(base64_img_pattern, new_tag, json_str)
    
    stats['converted'] += 1
    print(f"✅ sourceId {source_id}: 변환 완료")
    
    return result

In [None]:
# 변환 실행
print("변환 시작...\n")

def replace_func(match):
    json_str = match.group(1)
    processed = process_document(json_str)
    return f'addDocument {processed}'

converted_content = re.sub(pattern, replace_func, content)

print(f"\n변환 완료!")

In [None]:
# 결과 저장
with open(OUTPUT_FILE, 'w', encoding='utf-8') as f:
    f.write(converted_content)

print(f"저장 완료: {OUTPUT_FILE}")

In [None]:
# 통계 출력
print("\n" + "="*50)
print("처리 결과 통계")
print("="*50)
print(f"전체 문서 수: {stats['total_docs']:,}")
print(f"대상 sourceId 문서 수: {stats['target_docs_found']}")
print(f"base64 이미지 포함 문서: {stats['docs_with_base64']}")
print(f"변환 완료: {stats['converted']}")

if stats['docs_with_multiple_images']:
    print(f"\n⚠️  이미지 2개 이상인 문서:")
    for doc in stats['docs_with_multiple_images']:
        print(f"   - sourceId {doc['sourceId']}: {doc['count']}개")