# Referrers 변환 스크립트 (Safe Version)

## 목적
- `referrers` 필드만 `{name, empNo, deptCode}` → `{name, emailId}` 형식으로 변환
- **나머지 부분은 원본 그대로 유지 (단 한 글자도 변경 없음)**

## 매핑 전략
1. **1차**: empNo → emailId (사원번호로 매핑)
2. **2차**: name → emailId (사원번호 없으면 이름으로 fallback)

In [1]:
import pandas as pd
import json
import os
import re
from collections import defaultdict

## 0. 경로 설정

In [2]:
# ========== 경로 설정 (필요시 수정) ==========
BASE_DIR = r'C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관'

IN_EMPLOYEE_CSV = os.path.join(BASE_DIR, 'in_employee.csv')
OUT_EMPLOYEE_CSV = os.path.join(BASE_DIR, 'out_employee.csv')
CMDS_INPUT_PATH = os.path.join(BASE_DIR, 'documents_all_converted.cmds')
CMDS_OUTPUT_PATH = os.path.join(BASE_DIR, 'documents_referrers_fixed.cmds')
FAILED_REPORT_PATH = os.path.join(BASE_DIR, 'referrers_mapping_failed.txt')

print(f"입력 cmds: {CMDS_INPUT_PATH}")
print(f"출력 cmds: {CMDS_OUTPUT_PATH}")

입력 cmds: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관\documents_all_converted.cmds
출력 cmds: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관\documents_referrers_fixed.cmds


## 1. 매핑 테이블 생성

In [3]:
# CSV 파일 로드
in_emp = pd.read_csv(IN_EMPLOYEE_CSV, encoding='utf-8-sig')
out_emp = pd.read_csv(OUT_EMPLOYEE_CSV, encoding='utf-8-sig')

print(f"현재 재직자: {len(in_emp)}명")
print(f"퇴직자: {len(out_emp)}명")
print(f"\n컬럼: {list(in_emp.columns)}")

현재 재직자: 167명
퇴직자: 336명

컬럼: ['사원명', 'ID', '부서', '사원번호', '직위', '부서코드']


In [4]:
# 두 CSV 합치기
all_emp = pd.concat([in_emp, out_emp], ignore_index=True)
print(f"전체 직원 수: {len(all_emp)}명")

# 매핑 딕셔너리 생성
# 1차: empNo → emailId
empno_to_email = {}
for _, row in all_emp.iterrows():
    empno = str(row['사원번호']).strip() if pd.notna(row['사원번호']) else ''
    email_id = str(row['ID']).strip() if pd.notna(row['ID']) else ''
    if empno and empno != 'nan' and email_id:
        empno_to_email[empno] = email_id

# 2차: name → emailId (동명이인 없다고 가정)
name_to_email = {}
for _, row in all_emp.iterrows():
    name = str(row['사원명']).strip() if pd.notna(row['사원명']) else ''
    email_id = str(row['ID']).strip() if pd.notna(row['ID']) else ''
    if name and email_id:
        name_to_email[name] = email_id

print(f"empNo 매핑 수: {len(empno_to_email)}개")
print(f"name 매핑 수: {len(name_to_email)}개")

전체 직원 수: 503명
empNo 매핑 수: 131개
name 매핑 수: 503개


In [5]:
# 매핑 샘플 확인
print("=== empNo → emailId 샘플 ===")
for i, (k, v) in enumerate(list(empno_to_email.items())[:5]):
    print(f"  {k} → {v}")

print("\n=== name → emailId 샘플 ===")
for i, (k, v) in enumerate(list(name_to_email.items())[:5]):
    print(f"  {k} → {v}")

=== empNo → emailId 샘플 ===
  201208860817 → hbpark
  201303580207 → jssong
  201506901005 → shshin
  201303840725 → wjshin
  201911940120 → smsim

=== name → emailId 샘플 ===
  외주계약(공통) → contract
  patent → patent
  베트남경제연구소 → vnomics
  세금계산서(Dell) → tax-dell
  화상회의2 → meet100


## 2. referrers 부분만 찾아서 교체하는 함수

In [6]:
def find_referrers_span(line):
    """
    문자열에서 "referrers":[...] 부분의 시작/끝 인덱스 찾기
    대괄호 매칭으로 정확한 범위 찾음
    
    Returns: (start, end) 또는 None
    """
    # "referrers": 또는 "referrers":  찾기 (공백 있을수도 없을수도)
    match = re.search(r'"referrers":\s*\[', line)
    if not match:
        return None
    
    start = match.start()  # "referrers" 시작 위치
    bracket_start = match.end() - 1  # '[' 위치
    
    # 매칭되는 ']' 찾기
    depth = 1
    i = bracket_start + 1
    in_string = False
    escape = False
    
    while i < len(line) and depth > 0:
        char = line[i]
        
        if escape:
            escape = False
        elif char == '\\':
            escape = True
        elif char == '"' and not escape:
            in_string = not in_string
        elif not in_string:
            if char == '[':
                depth += 1
            elif char == ']':
                depth -= 1
        
        i += 1
    
    if depth == 0:
        return (start, i)  # "referrers":[...] 전체 범위
    return None

In [7]:
def convert_referrer(ref, empno_map, name_map):
    """
    단일 referrer 변환
    {name, empNo, deptCode} → {name, emailId}
    """
    name = ref.get('name', '')
    empno = str(ref.get('empNo', '')).strip() if ref.get('empNo') else ''
    
    email_id = None
    match_method = None
    
    # 1차: empNo로 매핑
    if empno and empno in empno_map:
        email_id = empno_map[empno]
        match_method = 'empNo'
    # 2차: name으로 매핑
    elif name and name in name_map:
        email_id = name_map[name]
        match_method = 'name'
    
    if email_id:
        return {'name': name, 'emailId': email_id}, True, match_method
    else:
        return {'name': name, 'emailId': None}, False, None

In [8]:
def convert_line(line, empno_map, name_map):
    """
    한 줄에서 referrers 부분만 변환
    나머지는 원본 그대로 유지
    
    Returns: (converted_line, stats)
    """
    stats = {'total': 0, 'success': 0, 'by_empno': 0, 'by_name': 0, 'failed': []}
    
    span = find_referrers_span(line)
    if not span:
        return line, stats
    
    start, end = span
    referrers_str = line[start:end]  # "referrers":[...]
    
    # 값 부분만 추출 ("referrers": 제거하고 [...] 만)
    colon_pos = referrers_str.index(':')
    array_str = referrers_str[colon_pos+1:].strip()  # [...]
    
    try:
        referrers = json.loads(array_str)
    except:
        return line, stats
    
    if not referrers:  # 빈 배열
        return line, stats
    
    # 변환
    converted = []
    stats['total'] = len(referrers)
    
    for ref in referrers:
        conv_ref, success, method = convert_referrer(ref, empno_map, name_map)
        converted.append(conv_ref)
        
        if success:
            stats['success'] += 1
            if method == 'empNo':
                stats['by_empno'] += 1
            else:
                stats['by_name'] += 1
        else:
            stats['failed'].append(ref)
    
    # 새 referrers 문자열 생성 (공백 없이)
    new_referrers_str = '"referrers":' + json.dumps(converted, ensure_ascii=False, separators=(',', ':'))
    
    # 원본에서 해당 부분만 교체
    new_line = line[:start] + new_referrers_str + line[end:]
    
    return new_line, stats

## 3. 파일 로드 및 테스트

In [9]:
# 파일 로드
with open(CMDS_INPUT_PATH, 'r', encoding='utf-8') as f:
    lines = f.readlines()

print(f"총 문서 수: {len(lines)}개")
print(f"\n첫 번째 줄 샘플 (앞 200자):")
print(lines[0][:200] + "...")

총 문서 수: 23320개

첫 번째 줄 샘플 (앞 200자):
addDocument {"sourceId":"doc_15167823_06","docNum":"ANY-사업-791","references":[],"docType":"DRAFT","title":"[LG화학 실험실행시스템 구축]에 대한 매출/매입 계약 품의","attaches":[{"name":"C000059472-1 개별계약서 정보시스템개발구축분야.pdf","...


In [10]:
# 단일 줄 테스트
test_line = lines[0].strip()
converted_test, test_stats = convert_line(test_line, empno_to_email, name_to_email)

print("=== 변환 테스트 ===")
print(f"stats: {test_stats}")

# referrers 부분만 비교
orig_span = find_referrers_span(test_line)
conv_span = find_referrers_span(converted_test)

if orig_span and conv_span:
    print(f"\nBEFORE: {test_line[orig_span[0]:orig_span[1]]}")
    print(f"AFTER:  {converted_test[conv_span[0]:conv_span[1]]}")

=== 변환 테스트 ===
stats: {'total': 1, 'success': 1, 'by_empno': 1, 'by_name': 0, 'failed': []}

BEFORE: "referrers":[{"name":"김민서","empNo":"201602881005","deptCode":"AB30"}]
AFTER:  "referrers":[{"name":"김민서","emailId":"hikim"}]


In [11]:
# referrers 외 다른 부분이 바뀌지 않았는지 검증
def verify_only_referrers_changed(orig, conv):
    """referrers 부분 제외하고 나머지가 동일한지 확인"""
    orig_span = find_referrers_span(orig)
    conv_span = find_referrers_span(conv)
    
    if not orig_span or not conv_span:
        return orig == conv  # referrers 없으면 완전 동일해야
    
    # referrers 앞부분 비교
    if orig[:orig_span[0]] != conv[:conv_span[0]]:
        return False
    
    # referrers 뒷부분 비교
    if orig[orig_span[1]:] != conv[conv_span[1]:]:
        return False
    
    return True

# 테스트
is_valid = verify_only_referrers_changed(test_line, converted_test)
print(f"\n검증 결과: {'✅ referrers만 변경됨' if is_valid else '❌ 다른 부분도 변경됨'}")


검증 결과: ✅ referrers만 변경됨


## 4. 전체 변환 실행

In [12]:
# 전체 통계
total_stats = {
    'docs_total': 0,
    'docs_with_referrers': 0,
    'referrers_total': 0,
    'referrers_success': 0,
    'referrers_by_empno': 0,
    'referrers_by_name': 0,
    'referrers_failed': 0,
    'failed_list': [],
    'verification_failed': []  # 다른 부분 바뀐 케이스
}

converted_lines = []

for i, line in enumerate(lines):
    orig_line = line.rstrip('\n')
    
    if not orig_line.strip():
        converted_lines.append(orig_line)
        continue
    
    total_stats['docs_total'] += 1
    
    # 변환
    converted_line, stats = convert_line(orig_line, empno_to_email, name_to_email)
    converted_lines.append(converted_line)
    
    # 통계 업데이트
    if stats['total'] > 0:
        total_stats['docs_with_referrers'] += 1
        total_stats['referrers_total'] += stats['total']
        total_stats['referrers_success'] += stats['success']
        total_stats['referrers_by_empno'] += stats['by_empno']
        total_stats['referrers_by_name'] += stats['by_name']
        total_stats['referrers_failed'] += len(stats['failed'])
        
        for failed_ref in stats['failed']:
            # sourceId 추출 시도
            source_match = re.search(r'"sourceId":"([^"]+)"', orig_line)
            source_id = source_match.group(1) if source_match else f'line_{i+1}'
            total_stats['failed_list'].append((source_id, failed_ref))
    
    # 검증: referrers 외 다른 부분이 바뀌지 않았는지
    if not verify_only_referrers_changed(orig_line, converted_line):
        total_stats['verification_failed'].append(i+1)

print("=== 변환 완료 ===")

=== 변환 완료 ===


## 5. 검증 및 통계

In [13]:
print("=" * 60)
print("변환 통계 리포트")
print("=" * 60)
print(f"\n[문서 통계]")
print(f"  총 문서 수: {total_stats['docs_total']:,}개")
print(f"  referrers 있는 문서: {total_stats['docs_with_referrers']:,}개")

print(f"\n[Referrer 변환 통계]")
print(f"  총 referrer 수: {total_stats['referrers_total']:,}개")
print(f"  변환 성공: {total_stats['referrers_success']:,}개 ({total_stats['referrers_success']/max(total_stats['referrers_total'],1)*100:.1f}%)")
print(f"    - empNo로 매핑: {total_stats['referrers_by_empno']:,}개")
print(f"    - name으로 매핑: {total_stats['referrers_by_name']:,}개")
print(f"  변환 실패: {total_stats['referrers_failed']:,}개")

print(f"\n[무결성 검증]")
if total_stats['verification_failed']:
    print(f"  ❌ referrers 외 변경된 줄: {len(total_stats['verification_failed'])}개")
    print(f"     줄 번호: {total_stats['verification_failed'][:10]}...")
else:
    print(f"  ✅ 모든 줄에서 referrers만 변경됨 (무결성 확인)")

변환 통계 리포트

[문서 통계]
  총 문서 수: 23,320개
  referrers 있는 문서: 7,423개

[Referrer 변환 통계]
  총 referrer 수: 12,110개
  변환 성공: 12,110개 (100.0%)
    - empNo로 매핑: 10,818개
    - name으로 매핑: 1,292개
  변환 실패: 0개

[무결성 검증]
  ✅ 모든 줄에서 referrers만 변경됨 (무결성 확인)


In [14]:
# 매핑 실패한 referrer 목록
if total_stats['failed_list']:
    print("=" * 60)
    print("매핑 실패한 Referrer 목록")
    print("=" * 60)
    
    failed_names = defaultdict(int)
    for source_id, ref in total_stats['failed_list']:
        name = ref.get('name', 'UNKNOWN')
        failed_names[name] += 1
    
    print(f"\n고유 실패 이름 수: {len(failed_names)}개\n")
    
    sorted_failed = sorted(failed_names.items(), key=lambda x: -x[1])
    for name, count in sorted_failed:
        print(f"  {name}: {count}회")
else:
    print("\n✅ 모든 referrer 매핑 성공!")


✅ 모든 referrer 매핑 성공!


In [15]:
# 샘플 비교
print("=" * 60)
print("변환 전/후 샘플 비교")
print("=" * 60)

sample_count = 0
for i, orig_line in enumerate(lines):
    orig_line = orig_line.rstrip('\n')
    
    orig_span = find_referrers_span(orig_line)
    if not orig_span:
        continue
    
    orig_refs = orig_line[orig_span[0]:orig_span[1]]
    if orig_refs == '"referrers":[]':
        continue
    
    conv_span = find_referrers_span(converted_lines[i])
    conv_refs = converted_lines[i][conv_span[0]:conv_span[1]]
    
    source_match = re.search(r'"sourceId":"([^"]+)"', orig_line)
    source_id = source_match.group(1) if source_match else f'line_{i+1}'
    
    print(f"\n[문서: {source_id}]")
    print(f"  BEFORE: {orig_refs}")
    print(f"  AFTER:  {conv_refs}")
    
    sample_count += 1
    if sample_count >= 3:
        break

변환 전/후 샘플 비교

[문서: doc_15167823_06]
  BEFORE: "referrers":[{"name":"김민서","empNo":"201602881005","deptCode":"AB30"}]
  AFTER:  "referrers":[{"name":"김민서","emailId":"hikim"}]

[문서: doc_15179751_06]
  BEFORE: "referrers":[{"name":"김민서","empNo":"201602881005","deptCode":"AB30"},{"name":"최기원","empNo":"201612670212","deptCode":"AB30"}]
  AFTER:  "referrers":[{"name":"김민서","emailId":"hikim"},{"name":"최기원","emailId":"kwchoi67"}]

[문서: doc_15213173_06]
  BEFORE: "referrers":[{"name":"최기원","empNo":"201612670212","deptCode":"AB30"}]
  AFTER:  "referrers":[{"name":"최기원","emailId":"kwchoi67"}]


## 6. 결과 저장

In [16]:
# 결과 파일 저장
with open(CMDS_OUTPUT_PATH, 'w', encoding='utf-8') as f:
    for line in converted_lines:
        f.write(line + '\n')

print(f"✅ 변환된 파일 저장 완료: {CMDS_OUTPUT_PATH}")
print(f"   파일 크기: {os.path.getsize(CMDS_OUTPUT_PATH) / 1024 / 1024:.2f} MB")

✅ 변환된 파일 저장 완료: C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관\documents_referrers_fixed.cmds
   파일 크기: 893.25 MB


In [17]:
# 매핑 실패 목록 저장
if total_stats['failed_list']:
    with open(FAILED_REPORT_PATH, 'w', encoding='utf-8') as f:
        f.write("=" * 60 + "\n")
        f.write("매핑 실패한 Referrer 목록\n")
        f.write("=" * 60 + "\n\n")
        
        failed_names = defaultdict(list)
        for source_id, ref in total_stats['failed_list']:
            name = ref.get('name', 'UNKNOWN')
            failed_names[name].append(source_id)
        
        f.write(f"고유 실패 이름 수: {len(failed_names)}개\n\n")
        
        for name, source_ids in sorted(failed_names.items()):
            f.write(f"{name} ({len(source_ids)}회)\n")
            for sid in source_ids[:3]:
                f.write(f"  - {sid}\n")
            if len(source_ids) > 3:
                f.write(f"  ... 외 {len(source_ids)-3}건\n")
            f.write("\n")
    
    print(f"✅ 실패 목록 저장: {FAILED_REPORT_PATH}")
else:
    print("매핑 실패 없음 - 실패 목록 파일 생성 안함")

매핑 실패 없음 - 실패 목록 파일 생성 안함


## 완료!

### 핵심 변경사항
- referrers 부분만 찾아서 교체 (정규식 + 대괄호 매칭)
- 나머지 JSON은 원본 그대로 유지
- 무결성 검증 포함

### 결과 파일
- `documents_referrers_fixed.cmds` - 변환된 cmds 파일
- `referrers_mapping_failed.txt` - 매핑 실패 목록 (있는 경우)