In [1]:
import re
import json
"""
 [기능]
 .cmds 파일에서 특정 패턴의 img 태그를 제거하고
 제거 통계를 로그 파일로 저장

 [제거 대상]
 - 패턴: <img...http://office.anyfive.com/...>
 - docBody 내부의 외부 링크 이미지 태그만 선택적 제거

 [처리 과정]
 1. .cmds 파일을 한 줄씩 읽기
 2. addDocument 명령어 라인 확인
 3. img 태그 패턴 검색 및 제거
 4. sourceId 추출하여 제거 개수 기록
 5. 수정된 내용을 새 파일로 저장
 6. 제거 통계를 로그 파일로 저장

 [출력 파일]
 - 수정된 .cmds 파일: documents_YYYY_imgFixed.cmds
 - 로그 파일: removed_sourceIds.txt
   - 총 제거 img 개수
   - 문서별 제거 개수 목록

 [통계 정보]
 - 전체 라인 수
 - 수정된 라인 수
 - img 태그가 있던 문서 수
 - 총 제거된 img 태그 개수

 [설정 (#여기를 수정하세요)]
 - input_file: 원본 .cmds 파일명
 - output_file: 결과 파일명
 - log_file: sourceId 기록 파일명
 - img_pattern: 제거할 img 태그 정규식 패턴

 [의존성]
 - re (정규식)
 -> 설치 X 
"""

#여기를 수정하세요
# 파일 경로 설정
input_file = 'documents_2020.cmds'  # 원본 파일명으로 변경하세요
output_file = 'documents_2020_imgFixed.cmds'  # 결과 파일명
log_file = 'removed_sourceIds.txt'  # sourceId 기록 파일

# img 태그 패턴
img_pattern = r'<img[^>]+http://office\.anyfive\.com/[^>]+>'

# 결과 저장 (딕셔너리로 변경: sourceId -> img 개수)
removed_source_ids = {}
total_lines = 0
modified_lines = 0
total_img_count = 0

print("처리 시작...")

with open(input_file, 'r', encoding='utf-8') as infile, \
     open(output_file, 'w', encoding='utf-8') as outfile:
    
    for line_num, line in enumerate(infile, 1):
        total_lines += 1
        
        # addDocument로 시작하는지 확인
        if line.strip().startswith('addDocument'):
            # 해당 줄에서 모든 img 태그 찾기
            img_tags = re.findall(img_pattern, line)
            img_count = len(img_tags)
            
            if img_count > 0:
                # sourceId 추출
                source_id_match = re.search(r'"sourceId"\s*:\s*"([^"]+)"', line)
                if source_id_match:
                    source_id = source_id_match.group(1)
                    removed_source_ids[source_id] = img_count
                    total_img_count += img_count
                    print(f"라인 {line_num}: sourceId {source_id}에서 img 태그 {img_count}개 제거")
                
                # img 태그 제거
                modified_line = re.sub(img_pattern, '', line)
                outfile.write(modified_line)
                modified_lines += 1
            else:
                # img 태그가 없으면 그대로 출력
                outfile.write(line)
        else:
            # addDocument가 아닌 줄은 그대로 출력
            outfile.write(line)

# sourceId 목록 저장
with open(log_file, 'w', encoding='utf-8') as logfile:
    logfile.write(f"총 제거된 img 태그 개수: {total_img_count}개\n")
    logfile.write(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개\n")
    logfile.write("=" * 50 + "\n\n")
    
    for source_id, count in removed_source_ids.items():
        logfile.write(f"{source_id}: {count}개\n")

# 결과 출력
print("\n" + "=" * 50)
print(f"처리 완료!")
print(f"전체 라인 수: {total_lines}")
print(f"수정된 라인 수: {modified_lines}")
print(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개")
print(f"총 제거된 img 태그 개수: {total_img_count}개")
print(f"\n결과 파일: {output_file}")
print(f"sourceId 목록: {log_file}")
print("=" * 50)

처리 시작...
라인 21: sourceId 2009519에서 img 태그 1개 제거
라인 60: sourceId 2009557에서 img 태그 1개 제거
라인 71: sourceId 2009567에서 img 태그 1개 제거
라인 72: sourceId 2009568에서 img 태그 1개 제거
라인 95: sourceId 2009591에서 img 태그 1개 제거
라인 107: sourceId 2009603에서 img 태그 1개 제거
라인 115: sourceId 2009610에서 img 태그 1개 제거
라인 141: sourceId 2009638에서 img 태그 1개 제거
라인 148: sourceId 2009649에서 img 태그 1개 제거
라인 157: sourceId 2009660에서 img 태그 1개 제거
라인 212: sourceId 2009708에서 img 태그 1개 제거
라인 223: sourceId 2009718에서 img 태그 1개 제거
라인 250: sourceId 2009749에서 img 태그 1개 제거

처리 완료!
전체 라인 수: 7704
수정된 라인 수: 13
img 태그가 있던 문서 수: 13개
총 제거된 img 태그 개수: 13개

결과 파일: documents_2020_imgFixed.cmds
sourceId 목록: removed_sourceIds.txt
