In [2]:
import re
import json

# 파일 경로 설정
input_file = 'documents_2015_fixed.cmds'  # 원본 파일명으로 변경하세요
output_file = 'documents_2015_fixed_fixed.cmds'  # 결과 파일명
log_file = 'removed_sourceIds.txt'  # sourceId 기록 파일

# img 태그 패턴
img_pattern = r'<img[^>]+http://office\.anyfive\.com/[^>]+>'

# 결과 저장 (딕셔너리로 변경: sourceId -> img 개수)
removed_source_ids = {}
total_lines = 0
modified_lines = 0
total_img_count = 0

print("처리 시작...")

with open(input_file, 'r', encoding='utf-8') as infile, \
     open(output_file, 'w', encoding='utf-8') as outfile:
    
    for line_num, line in enumerate(infile, 1):
        total_lines += 1
        
        # addDocument로 시작하는지 확인
        if line.strip().startswith('addDocument'):
            # 해당 줄에서 모든 img 태그 찾기
            img_tags = re.findall(img_pattern, line)
            img_count = len(img_tags)
            
            if img_count > 0:
                # sourceId 추출
                source_id_match = re.search(r'"sourceId"\s*:\s*"([^"]+)"', line)
                if source_id_match:
                    source_id = source_id_match.group(1)
                    removed_source_ids[source_id] = img_count
                    total_img_count += img_count
                    print(f"라인 {line_num}: sourceId {source_id}에서 img 태그 {img_count}개 제거")
                
                # img 태그 제거
                modified_line = re.sub(img_pattern, '', line)
                outfile.write(modified_line)
                modified_lines += 1
            else:
                # img 태그가 없으면 그대로 출력
                outfile.write(line)
        else:
            # addDocument가 아닌 줄은 그대로 출력
            outfile.write(line)

# sourceId 목록 저장
with open(log_file, 'w', encoding='utf-8') as logfile:
    logfile.write(f"총 제거된 img 태그 개수: {total_img_count}개\n")
    logfile.write(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개\n")
    logfile.write("=" * 50 + "\n\n")
    
    for source_id, count in removed_source_ids.items():
        logfile.write(f"{source_id}: {count}개\n")

# 결과 출력
print("\n" + "=" * 50)
print(f"처리 완료!")
print(f"전체 라인 수: {total_lines}")
print(f"수정된 라인 수: {modified_lines}")
print(f"img 태그가 있던 문서 수: {len(removed_source_ids)}개")
print(f"총 제거된 img 태그 개수: {total_img_count}개")
print(f"\n결과 파일: {output_file}")
print(f"sourceId 목록: {log_file}")
print("=" * 50)

처리 시작...
라인 8: sourceId 2002915에서 img 태그 1개 제거
라인 89: sourceId 2002996에서 img 태그 1개 제거
라인 130: sourceId 2003037에서 img 태그 1개 제거
라인 271: sourceId 2003178에서 img 태그 2개 제거
라인 296: sourceId 2003206에서 img 태그 1개 제거
라인 334: sourceId 2003238에서 img 태그 1개 제거
라인 376: sourceId 2003284에서 img 태그 1개 제거
라인 424: sourceId 2003333에서 img 태그 1개 제거
라인 468: sourceId 2003374에서 img 태그 1개 제거
라인 993: sourceId 2003899에서 img 태그 1개 제거
라인 1079: sourceId 2003985에서 img 태그 1개 제거
라인 1123: sourceId 2004033에서 img 태그 1개 제거
라인 1173: sourceId 2004081에서 img 태그 1개 제거
라인 1336: sourceId 2004242에서 img 태그 1개 제거
라인 1432: sourceId 2004339에서 img 태그 1개 제거
라인 1523: sourceId 2004431에서 img 태그 1개 제거
라인 1946: sourceId 2004850에서 img 태그 1개 제거
라인 2306: sourceId 2005217에서 img 태그 1개 제거
라인 2320: sourceId 2005230에서 img 태그 1개 제거
라인 2451: sourceId 2005360에서 img 태그 1개 제거
라인 2557: sourceId 2005467에서 img 태그 1개 제거
라인 2568: sourceId 2005476에서 img 태그 1개 제거
라인 2580: sourceId 2005492에서 img 태그 1개 제거
라인 2587: sourceId 2005494에서 img 태그 1개 제거
라인 2674: sourceId 20