# Base64 이미지 태그 → 파일 경로 변환 (DB 버전)

## 작업 목표
- `documents` 테이블의 `doc_body`에서 base64 인코딩된 이미지 태그를 파일 경로로 변환
- 대상: 특정 16개 source_id

## 변환 내용
- 변환 전: `<img src="data:image/jpeg;base64,..." width="500" ...>`
- 변환 후: `<img src="/PMS_SITE-U7OI43JLDSMO/approval/attach/approval_2020_img/apr{source_id}/0.jpg"/>`

---
## 1. 설정

In [None]:
import pymysql
import re
from datetime import datetime

# DB 연결 정보 (수정 필요)
DB_CONFIG = {
    'host': 'localhost',
    'user': 'your_user',
    'password': 'your_password',
    'database': 'your_database',
    'charset': 'utf8mb4'
}

# 처리 대상 source_id 목록
TARGET_SOURCE_IDS = [
    2978801, 2983943, 2985244, 3091219, 3097823, 3120072,
    3187289, 3190258, 3202897, 3271155, 3288192, 3307760,
    5637771, 5641483, 5649101, 5810171
]

# base64 이미지 태그 패턴
BASE64_IMG_PATTERN = re.compile(r'<img[^>]+data:image/[^>]+>', re.IGNORECASE)

print(f"처리 대상 source_id 개수: {len(TARGET_SOURCE_IDS)}")

---
## 2. 대상 문서 조회 및 현황 확인

In [None]:
conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

# 대상 문서 조회
placeholders = ','.join(['%s'] * len(TARGET_SOURCE_IDS))
query = f"""
SELECT source_id, doc_body 
FROM documents 
WHERE source_id IN ({placeholders})
"""

cursor.execute(query, TARGET_SOURCE_IDS)
rows = cursor.fetchall()

print(f"조회된 문서 수: {len(rows)}건")

# base64 이미지 포함 여부 확인
docs_with_base64 = []
docs_without_base64 = []

for source_id, doc_body in rows:
    if doc_body and BASE64_IMG_PATTERN.search(doc_body):
        matches = BASE64_IMG_PATTERN.findall(doc_body)
        docs_with_base64.append({
            'source_id': source_id,
            'img_count': len(matches),
            'doc_body': doc_body
        })
    else:
        docs_without_base64.append(source_id)

print(f"base64 이미지 포함: {len(docs_with_base64)}건")
print(f"base64 이미지 없음: {len(docs_without_base64)}건")

if docs_without_base64:
    print(f"\nbase64 없는 source_id: {docs_without_base64}")

cursor.close()
conn.close()

In [None]:
# 이미지 개수 확인 (2개 이상인 경우 있는지)
print("문서별 이미지 개수:")
for doc in docs_with_base64:
    status = "⚠️" if doc['img_count'] > 1 else "✅"
    print(f"  {status} source_id {doc['source_id']}: {doc['img_count']}개")

---
## 3. 변환 전 내용 txt 추출 (검토용)

In [None]:
timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
output_file = f'base64_images_before_{timestamp}.txt'

with open(output_file, 'w', encoding='utf-8') as f:
    f.write(f"# Base64 이미지 태그 변환 전 목록\n")
    f.write(f"# 추출일시: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
    f.write(f"# 대상 문서 수: {len(docs_with_base64)}건\n")
    f.write("#" + "="*80 + "\n\n")
    
    for doc in docs_with_base64:
        source_id = doc['source_id']
        matches = BASE64_IMG_PATTERN.findall(doc['doc_body'])
        
        f.write(f"source_id: {source_id}\n")
        f.write(f"변환 후: <img src=\"/PMS_SITE-U7OI43JLDSMO/approval/attach/approval_2020_img/apr{source_id}/0.jpg\"/>\n")
        for i, img_tag in enumerate(matches):
            # base64 데이터는 너무 길어서 앞부분만
            truncated = img_tag[:150] + "..." if len(img_tag) > 150 else img_tag
            f.write(f"변환 전 [{i+1}]: {truncated}\n")
        f.write("\n" + "-"*80 + "\n\n")

print(f"파일 저장 완료: {output_file}")

---
## 4. 일괄 변환 (⚠️ 검토 후 실행)

In [None]:
# 변환 대상 확인
print(f"변환 대상 문서 수: {len(docs_with_base64)}건")
print("\n⚠️ 아래 셀을 실행하면 실제로 DB가 수정됩니다!")

In [None]:
# ⚠️ 실제 변환 실행

conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

updated_count = 0
error_count = 0

for doc in docs_with_base64:
    source_id = doc['source_id']
    original_body = doc['doc_body']
    
    try:
        # 새 이미지 태그
        new_tag = f'<img src="/PMS_SITE-U7OI43JLDSMO/approval/attach/approval_2020_img/apr{source_id}/0.jpg"/>'
        
        # 변환
        converted_body = BASE64_IMG_PATTERN.sub(new_tag, original_body)
        
        # UPDATE
        cursor.execute(
            "UPDATE documents SET doc_body = %s WHERE source_id = %s",
            (converted_body, source_id)
        )
        
        updated_count += 1
        print(f"✅ source_id {source_id}: 변환 완료")
        
    except Exception as e:
        print(f"❌ source_id {source_id}: 에러 - {e}")
        error_count += 1

conn.commit()
cursor.close()
conn.close()

print(f"\n완료!")
print(f"업데이트된 문서: {updated_count}건")
print(f"에러 발생: {error_count}건")

---
## 5. 검증 (변환 후 확인)

In [None]:
conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

# 대상 문서 중 base64 이미지 잔여 확인
placeholders = ','.join(['%s'] * len(TARGET_SOURCE_IDS))
query = f"""
SELECT source_id, doc_body 
FROM documents 
WHERE source_id IN ({placeholders})
  AND doc_body LIKE '%data:image/%'
"""

cursor.execute(query, TARGET_SOURCE_IDS)
remaining = cursor.fetchall()

print(f"잔여 base64 이미지 문서: {len(remaining)}건")

if remaining:
    print("\n남은 source_id:")
    for row in remaining:
        print(f"  - {row[0]}")
else:
    print("✅ 모든 대상 문서 변환 완료!")

cursor.close()
conn.close()

In [None]:
# 변환된 내용 샘플 확인
conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

# 첫 번째 대상 문서의 img 태그 확인
sample_id = TARGET_SOURCE_IDS[0]
cursor.execute("SELECT doc_body FROM documents WHERE source_id = %s", (sample_id,))
row = cursor.fetchone()

if row and row[0]:
    # img 태그 추출
    img_tags = re.findall(r'<img[^>]+>', row[0])
    print(f"source_id {sample_id}의 img 태그:")
    for tag in img_tags:
        print(f"  {tag[:150]}{'...' if len(tag) > 150 else ''}")

cursor.close()
conn.close()