# 개발용 코드 프레임

### 구성(셀)
1. 모듈 임포트
- 한번 실행하고 삭제
2. 기본 설정
필요한 모듈 임포트와 로깅 설정 담당. 가급적 수정하지 말것.
3. DevAnalyzer 클래스
아래 두 개의 메서드를 완성하는 것이 목표!
- _filter_data
- _generate_analysis_result
4. 테스트용 코드
- 사용하고자 하는 task_id를 직접 입력하고, 원하는 테스트의 주석만 해제하여 사용.
- task_id 이외에 직접적인 수정 하지 말 것.

### 디버깅
- 코드를 작성한 후 테스트해보고 싶으면 **restart** -> **run all** 하면 됨.
- 우선은 최대한 로그를 찍어두었으니 나오는 코드를 활용할 것.
- 개발할때도 로거를 이용해서 디버깅하길
- 출력도 찍었지만 동일 디렉토리에 analyzer_debug.log가 생성되니 참고하시길
- 로그 파일은 1번셀 실행시 매번 초기화되니 주의.

In [1]:
%pip install --upgrade unknown-data

/Users/dhkim/Desktop/Unkown/generator/generator_venv/bin/python: No module named pip
Note: you may need to restart the kernel to use updated packages.


In [2]:
import logging
import sys
import os

from testAnalyzer import BackendClient
from DevAnalyzer import DevAnalyzer

# 로그 파일 경로 설정 (현재 작업 디렉토리에 저장)
log_file_path = "analyzer_debug.log"

# 기존 핸들러들 제거 (중복 방지)
for handler in logging.root.handlers[:]:
    logging.root.removeHandler(handler)

# 로깅 설정 추가 (콘솔 + 파일)
logging.basicConfig(
    level=logging.DEBUG,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.StreamHandler(sys.stdout),  # 노트북 출력으로 로그 표시
        logging.FileHandler(log_file_path, mode='w', encoding='utf-8')  # 파일 초기화 후 저장
    ]
)

# 루트 로거 레벨 설정
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

print(f"📄 로그 파일 저장 위치: {os.path.abspath(log_file_path)}")
print(f"🔄 로그 파일이 초기화되었습니다.")

📄 로그 파일 저장 위치: /Users/dhkim/Desktop/Unkown/generator/test/analyzer_debug.log
🔄 로그 파일이 초기화되었습니다.


In [3]:
"""
테스트 코드

테스트 방법:
1) 위 class의 메서드를 작성한다.
    (1) 꼭 위에 작성되어있는 메서드 하나로 완성할 필요는 없다. 하위 메서드 마음껏 만들어도 된다.
2) task_id를 실제 DB에 있는 값으로 설정한다.
3) 테스트하고싶은 항목의 주석을 해제하고 테스트를 진행한다.
"""

backend_client = BackendClient()
analyzer = DevAnalyzer(backend_client)

# task_id 직접 설정
task_id = "session-20250930-060607-59984faf"
# task_id = "session-20251002-050523-6de09ba4"

# 1. filter 테스트(카테고리별로 각각)
# analyzer.run_filter_test(task_id, category=Category.BROWSER)
# analyzer.run_filter_test(task_id, category=Category.USB)
# analyzer.run_filter_test(task_id, category=Category.LNK)
# analyzer.run_filter_test(task_id, category=Category.DELETED)
# analyzer.run_filter_test(task_id, category=Category.PREFETCH)
# analyzer.run_filter_test(task_id, category=Category.MESSENGER)

# 2. filter 테스트(모든 카테고리 통합)
# analyzer.run_filter_test(task_id)

# 3. generate까지 모든 통합 테스트
analyzer.run_final_test(task_id)

2025-10-20 21:46:42,475 - testAnalyzer - INFO - 🚀 [TEST] Starting final test for task: session-20250930-060607-59984faf
2025-10-20 21:46:42,475 - Analyzer - DEBUG - 🔄 Processing category: BROWSER
[2025-10-20 21:46:43] DataEncoder - Converted WebKit urls.last_visit_time to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit visits.visit_time to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit downloads.start_time to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit downloads.end_time to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit downloads.last_access_time to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit logins.date_created to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit logins.date_last_used to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit logins.date_received to datetime
[2025-10-20 21:46:43] DataEncoder - Converted WebKit logins.date_password_modified to datetime
[2025-10-20 21:46:43

{'status': 'success',
 'task_id': 'session-20250930-060607-59984faf',
 'job_id': 'test_job_id',
 'summary': {'total_artifacts': 62936,
  'total_analysis_results': 5,
  'artifacts_by_type': {'Chrome.urls_data': 1519,
   'Chrome.visits_data': 2700,
   'Chrome.downloads_data': 14,
   'Chrome.visited_links_data': 383,
   'Chrome.downloads_url_chains_data': 15,
   'Chrome.keyword_search_terms_data': 193,
   'Chrome.logins_data': 39,
   'Chrome.autofill_data': 27,
   'Chrome.keywords_data': 2,
   'Chrome.autofill_sync_metadata_data': 25,
   'Edge.urls_data': 36,
   'Edge.visits_data': 60,
   'Edge.downloads_data': 2,
   'Edge.visited_links_data': 28,
   'Edge.downloads_url_chains_data': 2,
   'Edge.keyword_search_terms_data': 14,
   'Edge.keywords_data': 1,
   'binary_data': 59,
   'browser_collected_files_data': 12,
   'browser_discovered_profiles_data': 3,
   'statistics_data': 1,
   'data_sources_data': 1,
   'mft_deleted_files_data': 50002,
   'recycle_bin_files_data': 150,
   'lnk_files