In [1]:
import re
import json

# 파일 경로 설정
input_file = 'documents_2010_fixed.cmds'  # 원본 파일명으로 변경하세요
output_file = 'documents_2010_fixed_fixed.cmds'  # 결과 파일명
log_file = 'removed_sourceIds.txt'  # sourceId 기록 파일

# img 태그 패턴
img_pattern = r'<img[^>]+http://office\.anyfive\.com/[^>]+>'

# 결과 저장 (딕셔너리로 변경: sourceId -> img 개수)
removed_source_ids = {}
total_lines = 0
modified_lines = 0
total_img_count = 0

print("처리 시작...")

with open(input_file, 'r', encoding='utf-8') as infile, \
     open(output_file, 'w', encoding='utf-8') as outfile:
    
    for line_num, line in enumerate(infile, 1):
        total_lines += 1
        
        # addDocument로 시작하는지 확인
        if line.strip().startswith('addDocument'):
            # 해당 줄에서 모든 img 태그 찾기
            img_tags = re.findall(img_pattern, line)
            img_count = len(img_tags)
            
            if img_count > 0:
                # sourceId 추출
                source_id_match = re.search(r'"sourceId"\s*:\s*"([^"]+)"', line)
                if source_id_match:
                    source_id = source_id_match.group(1)
                    removed_source_ids[source_id] = img_count
                    total_img_count += img_count
                    print(f"라인 {line_num}: sourceId {source_id}에서 img 태그 {img_count}개 제거")
                
                # img 태그 제거
                modified_line = re.sub(img_pattern, '', line)
                outfile.write(modified_line)
                modified_lines += 1
            else:
                # img 태그가 없으면 그대로 출력
                outfile.write(line)
        else:
            # addDocument가 아닌 줄은 그대로 출력
            outfile.write(line)

# sourceId 목록 저장
with open(log_file, 'w', encoding='utf-8') as logfile:
    logfile.write(f"총 제거된 img 태그 개수: {total_img_count}개\n")
    logfile.write(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개\n")
    logfile.write("=" * 50 + "\n\n")
    
    for source_id, count in removed_source_ids.items():
        logfile.write(f"{source_id}: {count}개\n")

# 결과 출력
print("\n" + "=" * 50)
print(f"처리 완료!")
print(f"전체 라인 수: {total_lines}")
print(f"수정된 라인 수: {modified_lines}")
print(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개")
print(f"총 제거된 img 태그 개수: {total_img_count}개")
print(f"\n결과 파일: {output_file}")
print(f"sourceId 목록: {log_file}")
print("=" * 50)

처리 시작...
라인 128: sourceId 2002194에서 img 태그 1개 제거
라인 145: sourceId 2002215에서 img 태그 2개 제거
라인 253: sourceId 2002319에서 img 태그 2개 제거
라인 335: sourceId 2002403에서 img 태그 1개 제거
라인 378: sourceId 2002445에서 img 태그 1개 제거
라인 611: sourceId 2002678에서 img 태그 1개 제거
라인 692: sourceId 2002759에서 img 태그 1개 제거
라인 778: sourceId 2002845에서 img 태그 1개 제거

처리 완료!
전체 라인 수: 840
수정된 라인 수: 8
img 태그가 있던 문서 수: 8개
총 제거된 img 태그 개수: 10개

결과 파일: documents_2010_fixed_fixed.cmds
sourceId 목록: removed_sourceIds.txt
