In [1]:
import sys
import os

# 프로젝트 루트 추가
project_root = os.path.dirname(os.path.abspath("__file__")) if "__file__" in globals() else os.getcwd()
if project_root not in sys.path:
    sys.path.insert(0, project_root)

import time
import functools
def benchmark_runtime_decorator(func):
    @functools.wraps(func)
    def wrapper_benchmark_runtime(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        elapsed_time = end_time - start_time
        elapsed_minute = int(elapsed_time / 60) if elapsed_time >= 60 else None
        print(f"Function '{func.__name__}' executed in {f"{elapsed_minute} minutes " if elapsed_minute else ""}{elapsed_time:.4f} seconds")
        return result

    return wrapper_benchmark_runtime

In [2]:
from common.Generator import Generator
from common.test_backendclient import TestBackendClient as BackendClient
import logging

# 기존 핸들러 제거
for handler in logging.root.handlers[:]:
    logging.root.removeHandler(handler)

# 기본 로깅 설정
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.StreamHandler(sys.stdout),
    ]
)

# 루트 로거 레벨
logger = logging.getLogger()
logger.setLevel(logging.DEBUG)

backend_client = BackendClient()
generator = Generator()

# generator._test_pdf_create(backend_client)

✅ Graph compiled successfully!
2025-10-23 23:56:43,961 - common.test_backendclient - INFO - Initialized TestBackendClient


E0000 00:00:1761231403.826703 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231403.830813 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231403.831361 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231403.879514 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231403.880098 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231403.880721 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


In [3]:
from common.Generator import Generator
from common.test_backendclient import TestBackendClient as BackendClient
from test.test_data_loader import test_data_loader_v1


backend_client = BackendClient()
generator = Generator()

# task_id = "session-20251002-052932-151e52e9" # 10만개 데이터
task_id = "session-20251002-040520-28a9dc6c" # 정호주임 pc

job_id = "73c94dcd-d1a1-41c4-9636-dd24816dfd9a"

@benchmark_runtime_decorator
def load_artifacts():
    artifacts = test_data_loader_v1(task_id)
    print(f"\n✅ 총 {len(artifacts):,}개 아티팩트 로드 완료")
    return artifacts

artifacts = load_artifacts()

job_info = backend_client.load_job_info(task_id, job_id)
print(job_info)

2025-10-23 23:56:43,969 - common.test_backendclient - INFO - Initialized TestBackendClient
2025-10-23 23:56:43,970 - test.testAnalyzer - INFO - 🚀 [TEST] Starting filtering test for task: session-20251002-040520-28a9dc6c
[2025-10-23 23:56:44] DataEncoder - Converted WebKit urls.last_visit_time to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit visits.visit_time to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit downloads.start_time to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit downloads.end_time to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit downloads.last_access_time to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit logins.date_created to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit logins.date_last_used to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit logins.date_received to datetime
[2025-10-23 23:56:44] DataEncoder - Converted WebKit logins.date_password_modified to datet

In [4]:
@benchmark_runtime_decorator
def generate_report(generator):
    generator.generate_report(task_id, job_id, artifacts, job_info, backend_client)

generate_report(generator)

2025-10-23 23:56:44,990 - common.Generator - INFO - Starting report generation for task_id: session-20251002-040520-28a9dc6c, job_id: 73c94dcd-d1a1-41c4-9636-dd24816dfd9a
2025-10-23 23:56:44,991 - common.Generator - DEBUG - Invoking LLM service to generate scenarios for task_id: session-20251002-040520-28a9dc6c

🔄 필터링 반복 1/3: VERY_STRICT
  - 입력: 원본 아티팩트
  - 현재 아티팩트: 5,540개
  - 필터링 강도: very_strict
  - 목표 비율: 1.5%
  - 목표 개수: 100,000개
  - 총 청크 수: 19개

📦 총 1개 배치로 처리

📦 배치 1/1 (청크 1-19)...
✅ 청크 5: 90개 발견
✅ 청크 4: 76개 발견
✅ 청크 3: 255개 발견
✅ 청크 1: 281개 발견
✅ 청크 2: 283개 발견
✅ 청크 6: 115개 발견
✅ 청크 7: 68개 발견
✅ 청크 10: 13개 발견
✅ 청크 11: 22개 발견
✅ 청크 8: 290개 발견
✅ 청크 9: 300개 발견
✅ 청크 12: 254개 발견
✅ 청크 13: 205개 발견
✅ 청크 14: 25개 발견
✅ 청크 15: 12개 발견
✅ 청크 19: 51개 발견
✅ 청크 17: 40개 발견
✅ 청크 16: 300개 발견
✅ 청크 18: 300개 발견
  ✅ 배치 1 완료: 2980개 발견

📊 반복 1 결과:
  - 필터링된 개수: 2,980개
  - 목표 대비: 2980/100000 (3.0%)

✅ 목표 달성! (2,980개 >= 100,000개)

--- 📦 Node: 필터링 결과 추출 및 메모리 정리 중... ---
  ✅ 총 2980개 아티팩트 추출
  🗑️  메모리 정리:
     - artifact

E0000 00:00:1761231423.337201 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761231423.359189 8603362 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


2025-10-23 23:57:03,675 - urllib3.connectionpool - DEBUG - Starting new HTTPS connection (1): us.i.posthog.com:443
2025-10-23 23:57:04,302 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
  ✅ 2,980개 아티팩트 저장 완료
  📁 위치: ./chroma/artifacts_collection
--- ✅ Node: 데이터 저장 성공 (2,980개) ---
--- 📋 Node: 요구사항 분석 중... ---
  ✅ 요구사항 분석 완료
     - 사용자 요구사항: 2354자
--- 🤔 Agent: 추론 및 행동 결정 중... ---
2025-10-23 23:58:56,999 - workflow.utils - INFO - 메타데이터 수집 완료: 2980개 아티팩트, 10개 타입
  📨 메시지 개수: 2개
2025-10-23 23:58:57,207 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---
2025-10-23 23:59:08,432 - workflow.tools - INFO - === 통합 검색 실행 ===
2025-10-23 23:59:08,433 - workflow.tools - INFO - Step 1/2: 검색 쿼리 최적화 중...
2025-10-23 23:59:08,435 - workflow.tools - INFO - 검색 쿼리 생성 시작: USB 장치를 통해 외부로 파일이 복사되거나 이동된 기록
2025-10-23 23:59:08,500 - workflow.utils - INFO - 메타

E0000 00:00:1761231551.916487 8609225 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


2025-10-23 23:59:12,519 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
2025-10-23 23:59:12,667 - workflow.tools - INFO - 1차 필터 통과: 35개
2025-10-23 23:59:12,668 - workflow.tools - INFO - 2차 필터 (유사도 0.50) 통과: 35개
2025-10-23 23:59:12,669 - workflow.tools - INFO - ✅ 35개 검색 완료 (유사도 임계값 0.5로 필터링)
2025-10-23 23:59:12,669 - workflow.tools - INFO - 통합 검색 완료: 35개 발견
--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 4개
2025-10-23 23:59:13,238 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---
2025-10-23 23:59:22,017 - workflow.tools - INFO - === 통합 검색 실행 ===
2025-10-23 23:59:22,017 - workflow.tools - INFO - Step 1/2: 검색 쿼리 최적화 중...
2025-10-23 23:59:22,018 - workflow.tools - INFO - 검색 쿼리 생성 시작: USB에 저장된 파일 접근 기록
2025-10-23 23:59:22,072 - workflow.utils - INFO - 메타데이터 수집 완료: 2980개 아티팩트, 10개 타입
2025-10-23 23:59:22,073 - workflow.tools - INFO - 메타데이터:

E0000 00:00:1761231564.445848 8609743 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


2025-10-23 23:59:24,969 - workflow.tools - INFO - 1차 필터 통과: 20개
2025-10-23 23:59:24,970 - workflow.tools - INFO - 2차 필터 (유사도 0.50) 통과: 10개
2025-10-23 23:59:24,970 - workflow.tools - INFO - ✅ 10개 검색 완료
2025-10-23 23:59:24,970 - workflow.tools - INFO - 통합 검색 완료: 10개 발견
--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 6개
2025-10-23 23:59:25,041 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---
2025-10-23 23:59:36,179 - workflow.tools - INFO - === 통합 검색 실행 ===
2025-10-23 23:59:36,180 - workflow.tools - INFO - Step 1/2: 검색 쿼리 최적화 중...
2025-10-23 23:59:36,180 - workflow.tools - INFO - 검색 쿼리 생성 시작: 클라우드 서비스에 업로드된 파일 기록
2025-10-23 23:59:36,236 - workflow.utils - INFO - 메타데이터 수집 완료: 2980개 아티팩트, 10개 타입
2025-10-23 23:59:36,237 - workflow.tools - INFO - 메타데이터: 2980개 아티팩트, 10개 타입
2025-10-23 23:59:49,879 - workflow.tools - INFO - 쿼리 생성 완료: 클라우드 서비스 파일 업로드 기록
2025-10-23 23:59:49,880 - workflow.t

E0000 00:00:1761231589.885700 8610266 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


2025-10-23 23:59:50,424 - workflow.tools - INFO - 1차 필터 통과: 200개
2025-10-23 23:59:50,425 - workflow.tools - INFO - 2차 필터 (유사도 0.50) 통과: 100개
2025-10-23 23:59:50,425 - workflow.tools - INFO - ✅ 100개 검색 완료
2025-10-23 23:59:50,426 - workflow.tools - INFO - 통합 검색 완료: 100개 발견
--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 8개
2025-10-23 23:59:50,455 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---
2025-10-24 00:00:11,790 - workflow.tools - INFO - === 통합 검색 실행 ===
2025-10-24 00:00:11,791 - workflow.tools - INFO - Step 1/2: 검색 쿼리 최적화 중...
2025-10-24 00:00:11,792 - workflow.tools - INFO - 검색 쿼리 생성 시작: LNK 파일 접근 기록
2025-10-24 00:00:11,860 - workflow.utils - INFO - 메타데이터 수집 완료: 2980개 아티팩트, 10개 타입
2025-10-24 00:00:11,861 - workflow.tools - INFO - 메타데이터: 2980개 아티팩트, 10개 타입
2025-10-24 00:00:13,727 - workflow.tools - INFO - 쿼리 생성 완료: LNK 파일 접근 기록
2025-10-24 00:00:13,727 - workflow.tools - INF

E0000 00:00:1761231613.732063 8611818 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


2025-10-24 00:00:14,387 - urllib3.connectionpool - DEBUG - https://us.i.posthog.com:443 "POST /batch/ HTTP/1.1" 200 15
2025-10-24 00:00:14,525 - workflow.tools - INFO - 1차 필터 통과: 20개
2025-10-24 00:00:14,525 - workflow.tools - INFO - 2차 필터 (유사도 0.50) 통과: 10개
2025-10-24 00:00:14,525 - workflow.tools - INFO - ✅ 10개 검색 완료
2025-10-24 00:00:14,526 - workflow.tools - INFO - 통합 검색 완료: 10개 발견
--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 10개
  💭 추론: ## 분석 결과 요약
2025년 10월 2일, 사용자 '이정호'는 다수의 '개별보고서' 파일을 다운로드 폴더에서 접근한 후, 압축하여 USB를 통해 유출하고 해당 압축 파일을 삭제...
--- ✅ Agent: 추론 완료 ---
--- 📝 Node: 최종 보고서 생성 중 ---
  📊 분석 대상: 11개 메시지
  🔍 도구 실행 횟수: 4개
  ✅ 보고서 생성 완료:
     - 제목: 개별 보고서 파일 USB 유출 및 증거 인멸
     - 단계 수: 4개
--- 📝 Node: 데이터 분류 중 ---
2025-10-24 00:01:49,517 - common.Generator - INFO - Scenarios generated successfully for task_id: session-20251002-040520-28a9dc6c
2025-10-24 00:01:49,518 - common.Generator - DEBUG - Saving scenario to database
2025-10-24 00:01:49,518 - common.test_backendclient - INFO - 

In [None]:
generator.test_messages_print()

In [5]:
for item in generator.report:
    if item[0] == 'details':
        title, data = item
        for i in data:
            print(i.section_type.value, i.content)
        continue
    print(item)

('title', '윈도우 아티팩트 기반 정보 유출 진단 보고서')
('summary', '내부 기밀 문서 유출 가능성 존재함')
('pc_id', 'MAC_00-0C-29-EB-B3-7B')
('task_id', 'session-20251002-040520-28a9dc6c')
0 본 분석의 목적은 대상 PC 로부터 사내 주요 기밀정보(고객정보, 사내 데이터 등)의 유출 정황을 파악하는 것입니다.
1 본 분석은 한국정보보호산업협회 교육운영팀 이정호 주임의 업무용 Windows PC에 대하여 정보를 수집하였으며, 행위에 따라 기록되는 주요 아티팩트 데이터를 확보하였습니다. 대상 기기 정보는 다음과 같습니다.

| MAC 주소 | PC 이름 | 운영체제 | IP 주소 |
|---|---|---|---|
| 00-0C-29-EB-B3-7B | DESKTOP-4L4O6MI | Windows 11 Version 24H2 | 192.168.74.135 |

수집된 아티팩트는 브라우저 사용 내역, USB 연결 기록, 프로그램 실행 기록(프리패치), 파일 실행 및 삭제 흔적, 메신저 이용 내역 등으로, 이를 종합적으로 분석하여 사용자의 활동을 확인할 수 있습니다.
2 분석은 자동화 시스템을 통해 이루어졌으며, 총 20 초가 소요되었습니다.
분석 일시: 2025 년 9 월 23 일 화요일 오후 13:55 – 13:56
3 본 분석은 자동화된 시스템을 통해 아래 단계의 절차로 수행되었으며, 이를 통해 신속하고 일관된 결과를 도출하였습니다.
**1) 데이터 수집**
- 분석 시스템이 대상 PC에 접근하여 [1.2 데이터 수집]에 명시된 브라우저, 외부 저장 매체, 메신저 등 각 영역의 디지털 아티팩트 원본 데이터를 일괄 수집합니다.
**2) 데이터 전처리 및 필터링**
- 수집된 로그, 데이터베이스, 시스템 파일 등 비정형 데이터를 분석 가능한 정형 데이터로 변환합니다.
- 이후, 분석 목적과 관련 없는 시스템의 기본 동작 기록(쓰레기 데이터)을 제거하여 사용자의 유의미한 행위 