# DB Referrers 변환 스크립트

## 목적
- `any_approval.documents` 테이블의 `referrers` 컬럼 업데이트
- `{name, empNo, deptCode}` → `{name, emailId}` 형식으로 변환
- **구조적 공백 모두 제거**

## 매핑 전략
1. **1차**: empNo → emailId (사원번호로 매핑) + **이름 일치 검증**
2. **2차**: name → emailId (사원번호 없으면 이름으로 fallback)

In [None]:
import pandas as pd
import pymysql
import json
import os
import re
from collections import defaultdict

## 0. 경로 및 DB 설정

In [None]:
# ========== 경로 설정 ==========
BASE_DIR = r'C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관'

IN_EMPLOYEE_CSV = os.path.join(BASE_DIR, 'in_employee.csv')
OUT_EMPLOYEE_CSV = os.path.join(BASE_DIR, 'out_employee.csv')

# ========== DB 설정 ==========
DB_CONFIG = {
    'host': 'localhost',
    'port': 3306,
    'user': 'root',
    'password': '',  # 비밀번호 입력
    'database': 'any_approval',
    'charset': 'utf8mb4'
}

print(f"CSV 경로: {BASE_DIR}")
print(f"DB: {DB_CONFIG['database']}")

## 1. 매핑 테이블 생성

In [None]:
# CSV 파일 로드
in_emp = pd.read_csv(IN_EMPLOYEE_CSV, encoding='utf-8-sig')
out_emp = pd.read_csv(OUT_EMPLOYEE_CSV, encoding='utf-8-sig')

print(f"현재 재직자: {len(in_emp)}명")
print(f"퇴직자: {len(out_emp)}명")
print(f"\n컬럼: {list(in_emp.columns)}")

In [None]:
# 두 CSV 합치기
all_emp = pd.concat([in_emp, out_emp], ignore_index=True)
print(f"전체 직원 수: {len(all_emp)}명")

# 매핑 딕셔너리 생성

# 1. empNo → emailId
empno_to_email = {}
for _, row in all_emp.iterrows():
    empno = str(row['사원번호']).strip() if pd.notna(row['사원번호']) else ''
    email_id = str(row['ID']).strip() if pd.notna(row['ID']) else ''
    if empno and empno != 'nan' and email_id:
        empno_to_email[empno] = email_id

# 2. empNo → name (이름 검증용)
empno_to_name = {}
for _, row in all_emp.iterrows():
    empno = str(row['사원번호']).strip() if pd.notna(row['사원번호']) else ''
    name = str(row['사원명']).strip() if pd.notna(row['사원명']) else ''
    if empno and empno != 'nan' and name:
        empno_to_name[empno] = name

# 3. name → emailId (fallback용)
name_to_email = {}
for _, row in all_emp.iterrows():
    name = str(row['사원명']).strip() if pd.notna(row['사원명']) else ''
    email_id = str(row['ID']).strip() if pd.notna(row['ID']) else ''
    if name and email_id:
        name_to_email[name] = email_id

print(f"empNo → emailId 매핑 수: {len(empno_to_email)}개")
print(f"empNo → name 매핑 수: {len(empno_to_name)}개")
print(f"name → emailId 매핑 수: {len(name_to_email)}개")

In [None]:
# 매핑 샘플 확인
print("=== empNo → emailId 샘플 ===")
for i, (k, v) in enumerate(list(empno_to_email.items())[:5]):
    print(f"  {k} → {v}")

print("\n=== empNo → name 샘플 ===")
for i, (k, v) in enumerate(list(empno_to_name.items())[:5]):
    print(f"  {k} → {v}")

print("\n=== name → emailId 샘플 ===")
for i, (k, v) in enumerate(list(name_to_email.items())[:5]):
    print(f"  {k} → {v}")

## 2. 단일 referrer 변환 함수 (이름 검증 포함)

In [None]:
def convert_single_referrer(ref_dict, empno_to_email, empno_to_name, name_to_email):
    """
    단일 referrer dict 변환
    
    Returns: (변환된 dict, 성공 여부, 매칭 방법, 오류 메시지)
    """
    name = ref_dict.get('name', '')
    empno = str(ref_dict.get('empNo', '')).strip() if ref_dict.get('empNo') else ''
    
    email_id = None
    match_method = None
    error_msg = None
    
    # 1차: empNo로 매핑 시도
    if empno and empno in empno_to_email:
        # 이름 일치 검증
        csv_name = empno_to_name.get(empno, '')
        
        if csv_name == name:
            # 이름 일치 → 성공
            email_id = empno_to_email[empno]
            match_method = 'empNo'
        else:
            # 이름 불일치 → 실패
            error_msg = f"이름 불일치: 원본={name}, CSV={csv_name}, empNo={empno}"
            return None, False, 'name_mismatch', error_msg
    
    # 2차: name으로 매핑 (empNo가 없거나 empNo 매핑 테이블에 없는 경우)
    elif name and name in name_to_email:
        email_id = name_to_email[name]
        match_method = 'name'
    
    # 결과 반환
    if email_id:
        return {'name': name, 'emailId': email_id}, True, match_method, None
    else:
        error_msg = f"매핑 실패: name={name}, empNo={empno}"
        return None, False, 'not_found', error_msg

## 3. referrers 배열 전체 변환 함수 (공백 없이 조립)

In [None]:
def convert_referrers_string(referrers_str, empno_to_email, empno_to_name, name_to_email):
    """
    referrers 문자열 전체 변환
    - JSON 파싱 → 변환 → 공백 없이 문자열로 조립
    
    Returns: (변환된 문자열, 통계 dict)
    """
    stats = {
        'total': 0,
        'success': 0,
        'failed': 0,
        'by_empno': 0,
        'by_name': 0,
        'name_mismatch': 0,
        'not_found': 0,
        'errors': []
    }
    
    # 빈 배열 처리
    if not referrers_str or referrers_str.strip() == '[]':
        return '[]', stats
    
    # JSON 파싱
    try:
        ref_list = json.loads(referrers_str)
    except json.JSONDecodeError as e:
        stats['errors'].append(f"JSON 파싱 오류: {e}")
        return None, stats
    
    # 각 referrer 변환
    converted_list = []
    
    for ref in ref_list:
        stats['total'] += 1
        
        result, success, method, error = convert_single_referrer(
            ref, empno_to_email, empno_to_name, name_to_email
        )
        
        if success:
            stats['success'] += 1
            if method == 'empNo':
                stats['by_empno'] += 1
            else:
                stats['by_name'] += 1
            converted_list.append(result)
        else:
            stats['failed'] += 1
            if method == 'name_mismatch':
                stats['name_mismatch'] += 1
            else:
                stats['not_found'] += 1
            stats['errors'].append(error)
            return None, stats  # 하나라도 실패하면 전체 실패
    
    # 공백 없이 문자열로 조립
    if not converted_list:
        return '[]', stats
    
    # 각 객체를 공백 없이 문자열로 만들기
    obj_strings = []
    for item in converted_list:
        # {"name":"이름","emailId":"아이디"} 형태로 직접 조립
        obj_str = '{"name":"' + item['name'] + '","emailId":"' + item['emailId'] + '"}'
        obj_strings.append(obj_str)
    
    # 배열로 조립 (공백 없이)
    result_str = '[' + ','.join(obj_strings) + ']'
    
    return result_str, stats

## 4. 검증 함수

In [None]:
def verify_conversion(original, converted):
    """
    변환 결과 검증
    
    Returns: (성공 여부, 오류 메시지)
    """
    try:
        # 변환 실패한 경우
        if converted is None:
            return False, "변환 실패"
        
        # 빈 배열 체크
        if original.strip() == '[]' and converted == '[]':
            return True, None
        
        # JSON 파싱
        orig_list = json.loads(original)
        conv_list = json.loads(converted)
        
        # 1. 개수 동일 확인
        if len(orig_list) != len(conv_list):
            return False, f"개수 불일치: {len(orig_list)} → {len(conv_list)}"
        
        # 2. 각 항목 검증
        for i, (orig, conv) in enumerate(zip(orig_list, conv_list)):
            # name 동일 확인
            if orig.get('name') != conv.get('name'):
                return False, f"[{i}] name 불일치: {orig.get('name')} → {conv.get('name')}"
            
            # emailId 존재 확인
            if 'emailId' not in conv:
                return False, f"[{i}] emailId 없음"
            
            # emailId가 null이 아닌지 확인
            if conv.get('emailId') is None:
                return False, f"[{i}] emailId가 null: {orig.get('name')}"
            
            # 변환 후 구조 확인 (name, emailId만 있어야 함)
            expected_keys = {'name', 'emailId'}
            actual_keys = set(conv.keys())
            if actual_keys != expected_keys:
                return False, f"[{i}] 키 불일치: {actual_keys}"
        
        # 3. 공백 없는지 확인
        if ': "' in converted or ', {' in converted or ', "' in converted:
            return False, "구조적 공백 남아있음"
        
        return True, None
        
    except json.JSONDecodeError as e:
        return False, f"JSON 파싱 오류: {e}"

In [None]:
# 변환 함수 테스트
test_input = '[{"name": "김민서", "empNo": "201602881005", "deptCode": "AB30"}, {"name": "최기원", "empNo": "201612670212", "deptCode": "AB30"}]'

converted, stats = convert_referrers_string(test_input, empno_to_email, empno_to_name, name_to_email)

print("=== 테스트 변환 ===")
print(f"원본: {test_input}")
print(f"변환: {converted}")
print(f"\n통계:")
print(f"  총: {stats['total']}개")
print(f"  성공: {stats['success']}개 (empNo: {stats['by_empno']}, name: {stats['by_name']})")
print(f"  실패: {stats['failed']}개 (이름불일치: {stats['name_mismatch']}, 못찾음: {stats['not_found']})")

valid, err = verify_conversion(test_input, converted)
print(f"\n검증: {'✅ 통과' if valid else '❌ 실패: ' + str(err)}")

## 5. DB에서 데이터 조회

In [None]:
# DB 연결
conn = pymysql.connect(**DB_CONFIG)
cursor = conn.cursor()

print("DB 연결 성공")

In [None]:
# referrers가 있는 문서 조회
query = """
SELECT sourceId, referrers 
FROM documents 
WHERE referrers IS NOT NULL 
  AND referrers != '' 
  AND referrers != '[]'
"""

cursor.execute(query)
rows = cursor.fetchall()

print(f"referrers가 있는 문서: {len(rows)}건")

In [None]:
# 샘플 확인
print("=== 샘플 데이터 ===")
for i, (source_id, referrers) in enumerate(rows[:3]):
    print(f"\n[{source_id}]")
    print(f"  {referrers}")

## 6. 전체 변환 (Dry Run)

In [None]:
# 전체 변환 실행 (아직 DB 반영 X)
results = []
total_stats = {
    'docs_total': len(rows),
    'docs_success': 0,
    'docs_failed': 0,
    'referrers_total': 0,
    'referrers_success': 0,
    'referrers_failed': 0,
    'referrers_by_empno': 0,
    'referrers_by_name': 0,
    'referrers_name_mismatch': 0,
    'referrers_not_found': 0,
    'failed_docs': [],
    'verification_failed': []
}

for source_id, referrers_str in rows:
    # 변환
    converted, stats = convert_referrers_string(
        referrers_str, empno_to_email, empno_to_name, name_to_email
    )
    
    # 통계 누적
    total_stats['referrers_total'] += stats['total']
    total_stats['referrers_success'] += stats['success']
    total_stats['referrers_failed'] += stats['failed']
    total_stats['referrers_by_empno'] += stats['by_empno']
    total_stats['referrers_by_name'] += stats['by_name']
    total_stats['referrers_name_mismatch'] += stats['name_mismatch']
    total_stats['referrers_not_found'] += stats['not_found']
    
    # 검증
    valid, err = verify_conversion(referrers_str, converted)
    
    if valid and stats['failed'] == 0:
        total_stats['docs_success'] += 1
        results.append({
            'sourceId': source_id,
            'original': referrers_str,
            'converted': converted,
            'valid': True
        })
    else:
        total_stats['docs_failed'] += 1
        total_stats['failed_docs'].append({
            'sourceId': source_id,
            'original': referrers_str,
            'converted': converted,
            'error': err,
            'errors': stats['errors']
        })
        if not valid:
            total_stats['verification_failed'].append(source_id)

print("=== 변환 완료 (Dry Run) ===")

## 7. 통계 및 검증 결과

In [None]:
print("=" * 60)
print("변환 통계 리포트")
print("=" * 60)

print(f"\n[문서 통계]")
print(f"  총 문서 수: {total_stats['docs_total']:,}개")
print(f"  변환 성공: {total_stats['docs_success']:,}개")
print(f"  변환 실패: {total_stats['docs_failed']:,}개")

print(f"\n[Referrer 변환 통계]")
print(f"  총 referrer 수: {total_stats['referrers_total']:,}개")
success_rate = total_stats['referrers_success'] / max(total_stats['referrers_total'], 1) * 100
print(f"  변환 성공: {total_stats['referrers_success']:,}개 ({success_rate:.1f}%)")
print(f"    - empNo로 매핑: {total_stats['referrers_by_empno']:,}개")
print(f"    - name으로 매핑: {total_stats['referrers_by_name']:,}개")
print(f"  변환 실패: {total_stats['referrers_failed']:,}개")
print(f"    - 이름 불일치: {total_stats['referrers_name_mismatch']:,}개")
print(f"    - 매핑 못찾음: {total_stats['referrers_not_found']:,}개")

print(f"\n[검증 결과]")
if total_stats['verification_failed']:
    print(f"  ❌ 검증 실패: {len(total_stats['verification_failed'])}건")
else:
    print(f"  ✅ 모든 변환 검증 통과")

In [None]:
# 실패 목록 확인
if total_stats['failed_docs']:
    print("=" * 60)
    print("실패한 문서 목록")
    print("=" * 60)
    
    for doc in total_stats['failed_docs'][:10]:
        print(f"\n[{doc['sourceId']}]")
        print(f"  원본: {doc['original'][:100]}..." if len(doc['original']) > 100 else f"  원본: {doc['original']}")
        if doc['error']:
            print(f"  검증오류: {doc['error']}")
        if doc['errors']:
            for e in doc['errors']:
                print(f"  변환오류: {e}")
    
    if len(total_stats['failed_docs']) > 10:
        print(f"\n... 외 {len(total_stats['failed_docs']) - 10}건")
else:
    print("\n✅ 모든 문서 변환 성공!")

In [None]:
# 변환 전/후 샘플 비교
print("=" * 60)
print("변환 전/후 샘플 비교")
print("=" * 60)

for i, r in enumerate(results[:5]):
    print(f"\n[{r['sourceId']}]")
    print(f"  BEFORE: {r['original']}")
    print(f"  AFTER:  {r['converted']}")

## 8. DB 업데이트 실행

⚠️ **주의**: 아래 셀을 실행하면 실제 DB가 업데이트됩니다!

In [None]:
# 업데이트 전 최종 확인
print(f"업데이트 대상: {len(results)}건")
print(f"실패로 제외: {len(total_stats['failed_docs'])}건")
print("\n⚠️ 다음 셀을 실행하면 DB가 업데이트됩니다!")

In [None]:
# ========== 실제 DB 업데이트 ==========
# 실행 전 위 통계를 반드시 확인하세요!

EXECUTE_UPDATE = False  # True로 변경하면 실행됨

if EXECUTE_UPDATE:
    update_count = 0
    error_count = 0
    
    for r in results:
        try:
            update_query = """
            UPDATE documents 
            SET referrers = %s 
            WHERE sourceId = %s
            """
            cursor.execute(update_query, (r['converted'], r['sourceId']))
            update_count += 1
            
            if update_count % 1000 == 0:
                print(f"진행 중... {update_count}/{len(results)}")
                conn.commit()
                
        except Exception as e:
            error_count += 1
            print(f"오류 [{r['sourceId']}]: {e}")
    
    conn.commit()
    print(f"\n✅ 업데이트 완료: {update_count}건")
    if error_count > 0:
        print(f"❌ 오류: {error_count}건")
else:
    print("EXECUTE_UPDATE = False 상태입니다.")
    print("실제 업데이트를 실행하려면 EXECUTE_UPDATE = True로 변경하세요.")

## 9. 업데이트 후 검증

In [None]:
# 업데이트 후 샘플 확인
if EXECUTE_UPDATE:
    verify_query = """
    SELECT sourceId, referrers 
    FROM documents 
    WHERE referrers IS NOT NULL 
      AND referrers != '' 
      AND referrers != '[]'
    LIMIT 5
    """
    
    cursor.execute(verify_query)
    verify_rows = cursor.fetchall()
    
    print("=== 업데이트 후 샘플 ===")
    for source_id, referrers in verify_rows:
        print(f"\n[{source_id}]")
        print(f"  {referrers}")
else:
    print("업데이트가 실행되지 않아 검증을 건너뜁니다.")

In [None]:
# DB 연결 종료
cursor.close()
conn.close()
print("DB 연결 종료")

## 완료!

### 작업 내용
- `any_approval.documents` 테이블의 `referrers` 컬럼 변환
- `{name, empNo, deptCode}` → `{name, emailId}`
- **구조적 공백 모두 제거**

### 검증 항목
1. ✅ empNo로 찾은 경우: CSV 사원명 == 원본 name 일치 검증
2. ✅ referrer 개수 동일
3. ✅ name 값 유지
4. ✅ emailId 존재 및 null 아님
5. ✅ 키 구조 확인 (name, emailId만)
6. ✅ 구조적 공백 제거 확인