# 1. docNum 공백 복원 스크립트

## 목적
- DB의 `doc_num` 값을 cmds의 `docNum`에 반영 (공백 복원)
- **docNum 부분만 수정, 나머지는 원본 그대로 유지**

## 매칭
- cmds `sourceId`: `doc_2008214_06` → 숫자 부분 `2008214`
- DB `source_id`: `2008214`

In [1]:
import os
import re
import pymysql
from glob import glob

## 0. 설정

In [2]:
# ========== 경로 설정 ==========
BASE_DIR = r'C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관'
INPUT_DIR = os.path.join(BASE_DIR, 'yearly')
OUTPUT_DIR = os.path.join(BASE_DIR, 'yearly_fixed')

# 출력 폴더 생성
os.makedirs(OUTPUT_DIR, exist_ok=True)

# ========== DB 설정 ==========
DB_CONFIG = {
    'host': 'localhost',
    'port': 3306,
    'user': 'root',
    'password': '1234',  # 비밀번호 입력
    'database': 'any_approval',
    'charset': 'utf8mb4'
}

print(f"입력 폴더: {INPUT_DIR}")
print(f"출력 폴더: {OUTPUT_DIR}")

입력 폴더: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관\yearly
출력 폴더: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관\yearly_fixed


## 1. DB에서 doc_num 조회

In [3]:
# DB 연결 및 doc_num 조회
conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

cursor.execute("SELECT source_id, doc_num FROM documents")
rows = cursor.fetchall()

# source_id → doc_num 매핑 딕셔너리
db_docnum_map = {}
for source_id, doc_num in rows:
    db_docnum_map[str(source_id)] = doc_num

cursor.close()
conn.close()

print(f"DB에서 조회한 문서 수: {len(db_docnum_map)}개")

# 샘플 확인
print("\n샘플 (처음 5개):")
for i, (k, v) in enumerate(list(db_docnum_map.items())[:5]):
    print(f"  {k} → {v}")

DB에서 조회한 문서 수: 23320개

샘플 (처음 5개):
  15167823 → ANY-사업-791
  15168441 → ANY-사업수행-482
  15162004 → ANY-경비627
  15175949 → ANY-인사-4553
  15178865 → ANY-사업수행-485


## 2. 교체 함수 정의

In [4]:
def extract_source_id_number(line):
    """sourceId에서 숫자 부분만 추출 (doc_2008214_06 → 2008214)"""
    match = re.search(r'"sourceId":"doc_(\d+)_', line)
    if match:
        return match.group(1)
    return None

def find_docnum_span(line):
    """
    "docNum":"값" 부분의 시작/끝 인덱스 찾기
    """
    match = re.search(r'"docNum":"([^"]*)"', line)
    if match:
        return match.start(), match.end(), match.group(1)
    return None, None, None

def replace_docnum(line, new_docnum):
    """
    docNum 부분만 교체
    """
    start, end, old_docnum = find_docnum_span(line)
    if start is None:
        return line, False, None, None
    
    new_docnum_str = f'"docNum":"{new_docnum}"'
    new_line = line[:start] + new_docnum_str + line[end:]
    
    return new_line, True, old_docnum, new_docnum

# 테스트
test_line = 'addDocument {"sourceId":"doc_2008214_06","docNum":"ANY-경비-0584","references":[]}'
print(f"sourceId 숫자: {extract_source_id_number(test_line)}")
print(f"docNum span: {find_docnum_span(test_line)}")

sourceId 숫자: 2008214
docNum span: (41, 63, 'ANY-경비-0584')


In [5]:
def verify_only_docnum_changed(orig, conv):
    """docNum 부분 제외하고 나머지가 동일한지 확인"""
    orig_start, orig_end, _ = find_docnum_span(orig)
    conv_start, conv_end, _ = find_docnum_span(conv)
    
    if orig_start is None or conv_start is None:
        return orig == conv
    
    # docNum 앞부분 비교
    if orig[:orig_start] != conv[:conv_start]:
        return False
    
    # docNum 뒷부분 비교
    if orig[orig_end:] != conv[conv_end:]:
        return False
    
    return True

## 3. 연도별 파일 처리

In [6]:
# 입력 파일 목록
input_files = sorted(glob(os.path.join(INPUT_DIR, 'documents_*.cmds')))
print(f"처리할 파일 수: {len(input_files)}개")
for f in input_files:
    print(f"  {os.path.basename(f)}")

처리할 파일 수: 16개
  documents_2010.cmds
  documents_2011.cmds
  documents_2012.cmds
  documents_2013.cmds
  documents_2014.cmds
  documents_2015.cmds
  documents_2016.cmds
  documents_2017.cmds
  documents_2018.cmds
  documents_2019.cmds
  documents_2020.cmds
  documents_2021.cmds
  documents_2022.cmds
  documents_2023.cmds
  documents_2024.cmds
  documents_2025.cmds


In [7]:
# 전체 통계
total_stats = {
    'files_processed': 0,
    'lines_total': 0,
    'lines_modified': 0,
    'lines_unchanged': 0,  # DB에서 못찾거나 값이 같아서 변경 안 함
    'lines_not_found_in_db': 0,
    'verification_failed': [],
    'changes': []  # (파일, sourceId, old, new) 기록
}

for input_file in input_files:
    filename = os.path.basename(input_file)
    output_file = os.path.join(OUTPUT_DIR, filename)
    
    print(f"\n처리 중: {filename}")
    
    with open(input_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    converted_lines = []
    file_modified = 0
    file_not_found = 0
    
    for i, line in enumerate(lines):
        orig_line = line.rstrip('\n')
        total_stats['lines_total'] += 1
        
        if not orig_line.strip():
            converted_lines.append(orig_line)
            continue
        
        # sourceId에서 숫자 추출
        source_id_num = extract_source_id_number(orig_line)
        
        if source_id_num and source_id_num in db_docnum_map:
            db_docnum = db_docnum_map[source_id_num]
            
            # 현재 docNum 확인
            _, _, current_docnum = find_docnum_span(orig_line)
            
            if current_docnum != db_docnum:
                # 교체 필요
                new_line, success, old_val, new_val = replace_docnum(orig_line, db_docnum)
                
                if success:
                    # 검증
                    if verify_only_docnum_changed(orig_line, new_line):
                        converted_lines.append(new_line)
                        total_stats['lines_modified'] += 1
                        file_modified += 1
                        total_stats['changes'].append((filename, source_id_num, old_val, new_val))
                    else:
                        # 검증 실패 - 원본 유지
                        converted_lines.append(orig_line)
                        total_stats['verification_failed'].append((filename, i+1, source_id_num))
                else:
                    converted_lines.append(orig_line)
                    total_stats['lines_unchanged'] += 1
            else:
                # 값이 같음 - 변경 불필요
                converted_lines.append(orig_line)
                total_stats['lines_unchanged'] += 1
        else:
            # DB에서 못 찾음
            converted_lines.append(orig_line)
            total_stats['lines_not_found_in_db'] += 1
            file_not_found += 1
    
    # 파일 저장
    with open(output_file, 'w', encoding='utf-8') as f:
        for line in converted_lines:
            f.write(line + '\n')
    
    total_stats['files_processed'] += 1
    print(f"  수정: {file_modified}건, DB 미발견: {file_not_found}건")

print("\n=== 처리 완료 ===")


처리 중: documents_2010.cmds
  수정: 841건, DB 미발견: 0건

처리 중: documents_2011.cmds
  수정: 855건, DB 미발견: 0건

처리 중: documents_2012.cmds
  수정: 1280건, DB 미발견: 0건

처리 중: documents_2013.cmds
  수정: 1582건, DB 미발견: 0건

처리 중: documents_2014.cmds
  수정: 1504건, DB 미발견: 0건

처리 중: documents_2015.cmds
  수정: 1367건, DB 미발견: 0건

처리 중: documents_2016.cmds
  수정: 627건, DB 미발견: 0건

처리 중: documents_2017.cmds
  수정: 0건, DB 미발견: 0건

처리 중: documents_2018.cmds
  수정: 1건, DB 미발견: 0건

처리 중: documents_2019.cmds
  수정: 0건, DB 미발견: 0건

처리 중: documents_2020.cmds
  수정: 1건, DB 미발견: 0건

처리 중: documents_2021.cmds
  수정: 0건, DB 미발견: 0건

처리 중: documents_2022.cmds
  수정: 0건, DB 미발견: 0건

처리 중: documents_2023.cmds
  수정: 0건, DB 미발견: 0건

처리 중: documents_2024.cmds
  수정: 10건, DB 미발견: 0건

처리 중: documents_2025.cmds
  수정: 26건, DB 미발견: 0건

=== 처리 완료 ===


## 4. 검증 및 통계

In [9]:
print("=" * 60)
print("docNum 교체 통계 리포트")
print("=" * 60)

print(f"\n[파일 통계]")
print(f"  처리된 파일 수: {total_stats['files_processed']}개")

print(f"\n[줄 통계]")
print(f"  총 줄 수: {total_stats['lines_total']:,}개")
print(f"  수정된 줄: {total_stats['lines_modified']:,}개")
print(f"  변경 불필요 (값 동일): {total_stats['lines_unchanged']:,}개")
print(f"  DB 미발견: {total_stats['lines_not_found_in_db']:,}개")

print(f"\n[무결성 검증]")
if total_stats['verification_failed']:
    print(f"  ❌ 검증 실패: {len(total_stats['verification_failed'])}건")
    for fname, line_no, sid in total_stats['verification_failed'][:10]:
        print(f"     {fname} Line {line_no}: {sid}")
else:
    print(f"  ✅ 모든 수정이 docNum만 변경됨 (무결성 확인)")

docNum 교체 통계 리포트

[파일 통계]
  처리된 파일 수: 16개

[줄 통계]
  총 줄 수: 23,320개
  수정된 줄: 8,094개
  변경 불필요 (값 동일): 15,226개
  DB 미발견: 0개

[무결성 검증]
  ✅ 모든 수정이 docNum만 변경됨 (무결성 확인)


In [10]:
# 변경 내역 샘플
print("=" * 60)
print("변경 내역 샘플 (처음 20개)")
print("=" * 60)

for fname, sid, old_val, new_val in total_stats['changes'][:20]:
    if old_val != new_val:
        print(f"  [{fname}] {sid}: \"{old_val}\" → \"{new_val}\"")

변경 내역 샘플 (처음 20개)
  [documents_2010.cmds] 2002067: "ANY-경영0001" → "ANY-경영 0001"
  [documents_2010.cmds] 2002068: "ANY-경영0002" → "ANY-경영 0002"
  [documents_2010.cmds] 2002069: "ANY-경비0003" → "ANY-경비 0003"
  [documents_2010.cmds] 2002070: "ANY-경비-0004" → "ANY-경비- 0004"
  [documents_2010.cmds] 2002071: "ANY-경비-0001" → "ANY-경비- 0001"
  [documents_2010.cmds] 2002072: "ANY-경비-0003" → "ANY-경비- 0003"
  [documents_2010.cmds] 2002073: "ANY-사업-0001" → "ANY-사업- 0001"
  [documents_2010.cmds] 2002074: "ANY-경비-0004" → "ANY-경비- 0004"
  [documents_2010.cmds] 2002075: "ANY-경비-0005" → "ANY-경비- 0005"
  [documents_2010.cmds] 2002076: "ANY-경비-0006" → "ANY-경비- 0006"
  [documents_2010.cmds] 2002077: "ANY-경비-0006" → "ANY-경비- 0006"
  [documents_2010.cmds] 2002078: "ANY-인사-0001" → "ANY-인사- 0001"
  [documents_2010.cmds] 2002079: "ANY-사업-0002" → "ANY-사업- 0002"
  [documents_2010.cmds] 2002080: "ANY-사업-0003" → "ANY-사업- 0003"
  [documents_2010.cmds] 2002081: "ANY-인사-0002" → "ANY-인사- 0002"
  [documents_2010.cmds] 2002

In [11]:
# 실제로 공백이 추가된 케이스만 필터링
space_added = [(f, s, o, n) for f, s, o, n in total_stats['changes'] 
               if ' ' in n and ' ' not in o.replace(n.replace(' ', ''), '')]

print(f"\n공백이 복원된 케이스: {len(space_added)}건")
for fname, sid, old_val, new_val in space_added[:10]:
    print(f"  [{fname}] {sid}: \"{old_val}\" → \"{new_val}\"")


공백이 복원된 케이스: 8094건
  [documents_2010.cmds] 2002067: "ANY-경영0001" → "ANY-경영 0001"
  [documents_2010.cmds] 2002068: "ANY-경영0002" → "ANY-경영 0002"
  [documents_2010.cmds] 2002069: "ANY-경비0003" → "ANY-경비 0003"
  [documents_2010.cmds] 2002070: "ANY-경비-0004" → "ANY-경비- 0004"
  [documents_2010.cmds] 2002071: "ANY-경비-0001" → "ANY-경비- 0001"
  [documents_2010.cmds] 2002072: "ANY-경비-0003" → "ANY-경비- 0003"
  [documents_2010.cmds] 2002073: "ANY-사업-0001" → "ANY-사업- 0001"
  [documents_2010.cmds] 2002074: "ANY-경비-0004" → "ANY-경비- 0004"
  [documents_2010.cmds] 2002075: "ANY-경비-0005" → "ANY-경비- 0005"
  [documents_2010.cmds] 2002076: "ANY-경비-0006" → "ANY-경비- 0006"


## 완료!

### 결과
- `yearly_fixed/documents_YYYY.cmds` - docNum이 DB 값으로 교체된 파일

### 다음 단계
- 2번 스크립트 (activities 정렬) 실행