# Heuristic Candidate Mining - 페이지 필터링

메트릭별로 관련 키워드가 있는 페이지만 추출하여 주석 작업 범위를 줄입니다.

## 설정 및 임포트

In [None]:
import json
import sys
from pathlib import Path

# ========================================
# 프로젝트 경로 설정 (여기만 수정하세요!)
# ========================================
PROJECT_DIR = Path('../projects/sk_hynix_2024')  # 또는 '../projects/samsung_2024'

# 파일 경로
METRIC_FILE = PROJECT_DIR / 'metric_sid_map.json'
PAGES_FILE = PROJECT_DIR / 'pages' / 'metadata.json'
OUTPUT_FILE = PROJECT_DIR / 'metric_page_mapping.json'

print(f"✅ 프로젝트: {PROJECT_DIR.name}")
print(f"   메트릭 파일: {METRIC_FILE.exists()}")
print(f"   페이지 파일: {PAGES_FILE.exists()}")

## 데이터 로드

In [None]:
# 메트릭 정의 로드
with open(METRIC_FILE, 'r', encoding='utf-8') as f:
    metrics = json.load(f)

# 페이지 메타데이터 로드
with open(PAGES_FILE, 'r', encoding='utf-8') as f:
    pages = json.load(f)

# 키워드 매핑 로드
sys.path.insert(0, str(PROJECT_DIR))
import importlib
if 'metric_keywords' in sys.modules:
    import metric_keywords
    importlib.reload(metric_keywords)
from metric_keywords import METRIC_KEYWORDS

print(f"✅ 메트릭: {len(metrics)}개")
print(f"✅ 페이지: {len(pages)}개 (페이지 {pages[0]['page']} ~ {pages[-1]['page']})")
print(f"✅ 키워드 매핑: {len(METRIC_KEYWORDS)}개 메트릭")
print(f"\n메트릭 목록:")
for metric_id, info in metrics.items():
    print(f"  {metric_id}: {info['topic']}")

In [None]:
## 페이지 필터링 실행

## 페이지 필터링 실행

## 5. 메트릭별 관련 페이지 추출

## 6. 결과 요약

## 7. JSON 파일로 저장

## 8. UI에서 사용할 수 있는 형태로 출력

In [None]:
## 통계 및 저장

In [None]:
# 통계 계산
total_pages = len(pages)
all_related_pages = set()
for pages_list in metric_page_mapping.values():
    all_related_pages.update(pages_list)

excluded_pages = sorted(set(range(1, total_pages + 1)) - all_related_pages)

# 결과 저장
output_data = {
    "metric_page_mapping": metric_page_mapping,
    "summary": {
        "total_pages": total_pages,
        "related_pages": len(all_related_pages),
        "excluded_pages": len(excluded_pages),
        "efficiency": f"{len(all_related_pages)/total_pages*100:.1f}%"
    }
}

with open(OUTPUT_FILE, 'w', encoding='utf-8') as f:
    json.dump(output_data, f, indent=2, ensure_ascii=False)

# 결과 출력
print("\n📊 결과 요약")
print("="*60)
print(f"전체 페이지: {total_pages}개")
print(f"관련 페이지: {len(all_related_pages)}개")
print(f"제외 페이지: {len(excluded_pages)}개")
print(f"작업 효율: {len(all_related_pages)/total_pages*100:.1f}%")
print(f"\n✅ 저장 완료: {OUTPUT_FILE}")
print("="*60)