# 2. Activities 시간순 정렬 스크립트

## 목적
- `activities` 배열을 `actionDate` 기준 오름차순 정렬
- **activities 부분만 수정, 나머지는 원본 그대로 유지**

## 정렬 기준
- `actionDate` (유닉스 타임스탬프 밀리초) 숫자 오름차순
- 작은 숫자 = 과거 → 큰 숫자 = 미래

In [None]:
import os
import re
import json
from glob import glob
from datetime import datetime, timezone, timedelta

## 0. 설정

In [None]:
# ========== 경로 설정 ==========
# 1번 스크립트 출력을 입력으로 사용
BASE_DIR = r'C:\Users\LEEJUHWAN\Desktop\애니파이브\전자결재\새로 다 다시 이관'
INPUT_DIR = os.path.join(BASE_DIR, 'yearly_fixed')  # 1번 결과물
OUTPUT_DIR = os.path.join(BASE_DIR, 'yearly_final')  # 최종 결과물

# 출력 폴더 생성
os.makedirs(OUTPUT_DIR, exist_ok=True)

# 한국 시간대 (로그 출력용)
KST = timezone(timedelta(hours=9))

print(f"입력 폴더: {INPUT_DIR}")
print(f"출력 폴더: {OUTPUT_DIR}")

## 1. activities 처리 함수

In [None]:
def find_activities_span(line):
    """
    "activities":[...] 부분의 시작/끝 인덱스 찾기
    대괄호 매칭으로 정확한 범위 찾음
    """
    match = re.search(r'"activities":\s*\[', line)
    if not match:
        return None
    
    start = match.start()  # "activities" 시작 위치
    bracket_start = match.end() - 1  # '[' 위치
    
    # 매칭되는 ']' 찾기
    depth = 1
    i = bracket_start + 1
    in_string = False
    escape = False
    
    while i < len(line) and depth > 0:
        char = line[i]
        
        if escape:
            escape = False
        elif char == '\\':
            escape = True
        elif char == '"' and not escape:
            in_string = not in_string
        elif not in_string:
            if char == '[':
                depth += 1
            elif char == ']':
                depth -= 1
        
        i += 1
    
    if depth == 0:
        return (start, i)
    return None

# 테스트
test = '{"a":1,"activities":[{"x":1},{"x":2}],"b":2}'
span = find_activities_span(test)
print(f"테스트: {test[span[0]:span[1]]}")

In [None]:
def sort_activities(line):
    """
    activities를 actionDate 기준 오름차순 정렬
    
    Returns: (new_line, was_sorted, original_order, new_order)
    """
    span = find_activities_span(line)
    if not span:
        return line, False, None, None
    
    start, end = span
    activities_str = line[start:end]  # "activities":[...]
    
    # 값 부분만 추출
    colon_pos = activities_str.index(':')
    array_str = activities_str[colon_pos+1:].strip()
    
    try:
        activities = json.loads(array_str)
    except:
        return line, False, None, None
    
    if not activities or len(activities) <= 1:
        # 빈 배열이거나 1개면 정렬 불필요
        return line, False, None, None
    
    # 원본 순서 기록 (actionDate 리스트)
    original_order = [a.get('actionDate', 0) for a in activities]
    
    # actionDate 기준 오름차순 정렬
    sorted_activities = sorted(activities, key=lambda x: x.get('actionDate', 0))
    
    # 정렬 후 순서
    new_order = [a.get('actionDate', 0) for a in sorted_activities]
    
    # 순서가 바뀌었는지 확인
    if original_order == new_order:
        return line, False, original_order, new_order
    
    # 새 activities 문자열 생성 (공백 없이)
    new_activities_str = '"activities":' + json.dumps(sorted_activities, ensure_ascii=False, separators=(',', ':'))
    
    # 원본에서 해당 부분만 교체
    new_line = line[:start] + new_activities_str + line[end:]
    
    return new_line, True, original_order, new_order

In [None]:
def verify_only_activities_changed(orig, conv):
    """activities 부분 제외하고 나머지가 동일한지 확인"""
    orig_span = find_activities_span(orig)
    conv_span = find_activities_span(conv)
    
    if not orig_span or not conv_span:
        return orig == conv
    
    # activities 앞부분 비교
    if orig[:orig_span[0]] != conv[:conv_span[0]]:
        return False
    
    # activities 뒷부분 비교
    if orig[orig_span[1]:] != conv[conv_span[1]:]:
        return False
    
    return True

def verify_activities_content(orig, conv):
    """
    activities 내용이 동일한지 확인 (순서만 다르고 내용은 같아야)
    """
    orig_span = find_activities_span(orig)
    conv_span = find_activities_span(conv)
    
    if not orig_span or not conv_span:
        return True
    
    # activities 배열 추출
    orig_str = orig[orig_span[0]:orig_span[1]]
    conv_str = conv[conv_span[0]:conv_span[1]]
    
    orig_colon = orig_str.index(':')
    conv_colon = conv_str.index(':')
    
    try:
        orig_activities = json.loads(orig_str[orig_colon+1:].strip())
        conv_activities = json.loads(conv_str[conv_colon+1:].strip())
    except:
        return False
    
    # 개수 확인
    if len(orig_activities) != len(conv_activities):
        return False
    
    # 각 activity가 모두 존재하는지 확인 (순서 무관)
    # actionDate를 키로 사용하여 비교
    orig_set = set(json.dumps(a, sort_keys=True, ensure_ascii=False) for a in orig_activities)
    conv_set = set(json.dumps(a, sort_keys=True, ensure_ascii=False) for a in conv_activities)
    
    return orig_set == conv_set

## 2. 테스트

In [None]:
# 역순으로 된 테스트 데이터
test_line = 'addDocument {"sourceId":"test","activities":[{"name":"C","actionDate":3000},{"name":"A","actionDate":1000},{"name":"B","actionDate":2000}],"other":"data"}'

new_line, was_sorted, orig_order, new_order = sort_activities(test_line)

print(f"정렬됨: {was_sorted}")
print(f"원본 순서: {orig_order}")
print(f"새 순서: {new_order}")
print(f"\n원본: {test_line}")
print(f"결과: {new_line}")

# 검증
print(f"\n앞뒤 동일: {verify_only_activities_changed(test_line, new_line)}")
print(f"내용 동일: {verify_activities_content(test_line, new_line)}")

## 3. 연도별 파일 처리

In [None]:
# 입력 파일 목록
input_files = sorted(glob(os.path.join(INPUT_DIR, 'documents_*.cmds')))
print(f"처리할 파일 수: {len(input_files)}개")
for f in input_files:
    print(f"  {os.path.basename(f)}")

In [None]:
# 전체 통계
total_stats = {
    'files_processed': 0,
    'lines_total': 0,
    'lines_sorted': 0,
    'lines_already_sorted': 0,
    'verification_failed': [],
    'content_mismatch': [],
    'sort_examples': []  # 정렬 예시 기록
}

for input_file in input_files:
    filename = os.path.basename(input_file)
    output_file = os.path.join(OUTPUT_DIR, filename)
    
    print(f"\n처리 중: {filename}")
    
    with open(input_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    
    converted_lines = []
    file_sorted = 0
    
    for i, line in enumerate(lines):
        orig_line = line.rstrip('\n')
        total_stats['lines_total'] += 1
        
        if not orig_line.strip():
            converted_lines.append(orig_line)
            continue
        
        # 정렬 시도
        new_line, was_sorted, orig_order, new_order = sort_activities(orig_line)
        
        if was_sorted:
            # 검증 1: 앞뒤가 동일한지
            if not verify_only_activities_changed(orig_line, new_line):
                converted_lines.append(orig_line)
                total_stats['verification_failed'].append((filename, i+1))
                continue
            
            # 검증 2: 내용이 동일한지
            if not verify_activities_content(orig_line, new_line):
                converted_lines.append(orig_line)
                total_stats['content_mismatch'].append((filename, i+1))
                continue
            
            converted_lines.append(new_line)
            total_stats['lines_sorted'] += 1
            file_sorted += 1
            
            # 예시 기록 (처음 10개만)
            if len(total_stats['sort_examples']) < 10:
                source_match = re.search(r'"sourceId":"([^"]+)"', orig_line)
                source_id = source_match.group(1) if source_match else f'line_{i+1}'
                total_stats['sort_examples'].append((filename, source_id, orig_order, new_order))
        else:
            converted_lines.append(orig_line)
            if orig_order is not None:
                total_stats['lines_already_sorted'] += 1
    
    # 파일 저장
    with open(output_file, 'w', encoding='utf-8') as f:
        for line in converted_lines:
            f.write(line + '\n')
    
    total_stats['files_processed'] += 1
    print(f"  정렬된 문서: {file_sorted}건")

print("\n=== 처리 완료 ===")

## 4. 검증 및 통계

In [None]:
print("=" * 60)
print("Activities 정렬 통계 리포트")
print("=" * 60)

print(f"\n[파일 통계]")
print(f"  처리된 파일 수: {total_stats['files_processed']}개")

print(f"\n[줄 통계]")
print(f"  총 줄 수: {total_stats['lines_total']:,}개")
print(f"  정렬 수행: {total_stats['lines_sorted']:,}개")
print(f"  이미 정렬됨: {total_stats['lines_already_sorted']:,}개")

print(f"\n[무결성 검증]")
if total_stats['verification_failed']:
    print(f"  ❌ 앞뒤 검증 실패: {len(total_stats['verification_failed'])}건")
else:
    print(f"  ✅ 모든 수정이 activities만 변경됨")

if total_stats['content_mismatch']:
    print(f"  ❌ 내용 불일치: {len(total_stats['content_mismatch'])}건")
else:
    print(f"  ✅ 모든 activities 내용 보존됨 (순서만 변경)")

In [None]:
# 정렬 예시
print("=" * 60)
print("정렬 예시 (actionDate 기준)")
print("=" * 60)

def ts_to_kst(ts):
    """타임스탬프를 한국시간 문자열로 변환"""
    dt = datetime.fromtimestamp(ts / 1000, tz=KST)
    return dt.strftime('%Y-%m-%d %H:%M:%S')

for fname, source_id, orig_order, new_order in total_stats['sort_examples']:
    print(f"\n[{fname}] {source_id}")
    print(f"  변경 전: {[ts_to_kst(ts) for ts in orig_order]}")
    print(f"  변경 후: {[ts_to_kst(ts) for ts in new_order]}")

## 5. 최종 검증 (랜덤 샘플링)

In [None]:
import random

# 출력 파일에서 랜덤으로 5개 문서 선택하여 activities가 정렬되어 있는지 확인
output_files = sorted(glob(os.path.join(OUTPUT_DIR, 'documents_*.cmds')))

print("=" * 60)
print("최종 검증: 랜덤 샘플 activities 정렬 확인")
print("=" * 60)

all_lines = []
for f in output_files:
    with open(f, 'r', encoding='utf-8') as file:
        for line in file:
            line = line.strip()
            if line and 'activities' in line:
                all_lines.append(line)

# 랜덤 5개 선택
samples = random.sample(all_lines, min(5, len(all_lines)))

for sample in samples:
    span = find_activities_span(sample)
    if span:
        act_str = sample[span[0]:span[1]]
        colon = act_str.index(':')
        activities = json.loads(act_str[colon+1:].strip())
        
        dates = [a.get('actionDate', 0) for a in activities]
        is_sorted = dates == sorted(dates)
        
        source_match = re.search(r'"sourceId":"([^"]+)"', sample)
        source_id = source_match.group(1) if source_match else 'unknown'
        
        status = "✅" if is_sorted else "❌"
        print(f"\n{status} {source_id}")
        print(f"   actionDates: {[ts_to_kst(d) for d in dates]}")

## 완료!

### 결과
- `yearly_final/documents_YYYY.cmds` - activities가 시간순 정렬된 최종 파일

### 검증 항목
1. activities 앞뒤 문자열 동일성
2. activities 내용 동일성 (순서만 변경)
3. 랜덤 샘플 정렬 확인