In [1]:
import sys
import os
from dotenv import load_dotenv

load_dotenv()

# 프로젝트 루트 추가 (노트북이 있는 디렉토리)
project_root = os.path.dirname(os.path.abspath("__file__")) if "__file__" in globals() else os.getcwd()
if project_root not in sys.path:
    sys.path.insert(0, project_root)

import time
import functools
def benchmark_runtime_decorator(func):
    @functools.wraps(func)
    def wrapper_benchmark_runtime(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        elapsed_time = end_time - start_time
        elapsed_minute = int(elapsed_time / 60) if elapsed_time >= 60 else None
        print(f"Function '{func.__name__}' executed in {f"{elapsed_minute} minutes " if elapsed_minute else ""}{elapsed_time%60:.4f} seconds")
        print(f"Function '{func.__name__}' executed in {elapsed_time:.4f} seconds")
        return result

    return wrapper_benchmark_runtime

In [2]:
from typing import cast
from workflow.rag_agent_workflow_part2 import app_part2, AgentState

initial_state = {
    "job_id": "test_job_001",
    "task_id": "test_task_001",
    "job_info": {
        "description": "정보유출 의심 사례 분석",
        "pc_username": "이정호",
        "pc_userrank": "주임",
        "pc_usercompany": "한국정보보호산업협회"
    },
    "collection_name": "artifacts_collection",
    "db_config": None,
    "filtered_artifacts": [],  # Part 1에서 필터링된 아티팩트 (실제로는 데이터 있음)
    "data_save_status": "success",
    "raw_user_requirements": """
사내에서 활용되는 교육생 개인정보유출 의심 활동을 분석해주세요.
이정호 주임은 한국정보보호산업협회에서 교육프로그램 운영 실무자로, 보안 전문가 육성 관련 프로그램을 기획하고 진행하는 업무를 합니다. 따라서 기존 업무의 특성을 고려하여 정보를 수집해 주세요."""
}


print("📝 초기 상태:")
print(f"  - Job ID: {initial_state['job_id']}")
print(f"  - Task ID: {initial_state['task_id']}")
print(f"  - 사용자 요구사항: {initial_state['raw_user_requirements']}")
print(f"  - 컬렉션: {initial_state['collection_name']}")

✅ Graph compiled successfully!
✅ Part 2 Graph compiled successfully (에이전트 분석 및 보고서 생성)!
📝 초기 상태:
  - Job ID: test_job_001
  - Task ID: test_task_001
  - 사용자 요구사항: 
사내에서 활용되는 교육생 개인정보유출 의심 활동을 분석해주세요.
이정호 주임은 한국정보보호산업협회에서 교육프로그램 운영 실무자로, 보안 전문가 육성 관련 프로그램을 기획하고 진행하는 업무를 합니다. 따라서 기존 업무의 특성을 고려하여 정보를 수집해 주세요.
  - 컬렉션: artifacts_collection


E0000 00:00:1761308657.574752 9150593 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761308657.576639 9150593 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.
E0000 00:00:1761308657.577164 9150593 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


In [3]:
# from IPython.display import Image, display
# display(Image(app_part2.get_graph(xray=True).draw_mermaid_png()))

In [4]:
try:
    initial_state = cast(AgentState, initial_state)
    # 워크플로우 실행
    print("🚀 워크플로우 실행 시작...\n")
    @benchmark_runtime_decorator
    def run_workflow(initial_state):
        final_state = app_part2.invoke(
            initial_state,
            config={"recursion_limit": 80}  # 재귀 제한 증가
        )  # type: ignore
        return final_state
    final_state = run_workflow(initial_state)

    print("\n" + "="*60)
    print("✅ 워크플로우 실행 완료!")
    print("="*60 + "\n")
        
except Exception as e:
    print(f"\n❌ 오류 발생: {e}")
    import traceback
    traceback.print_exc()

🚀 워크플로우 실행 시작...

--- 📋 Node: 요구사항 분석 중... ---
  ✅ 요구사항 분석 완료
     - 사용자 요구사항: 2128자
--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 2개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308727.041870 9151992 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 4개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308748.652089 9152306 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 6개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308775.826155 9152897 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 8개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308785.543847 9153105 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 10개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308798.868994 9153288 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 12개
  🔧 도구 호출: 1개
     - search_artifacts_tool
--- ✅ Agent: 추론 완료 ---


E0000 00:00:1761308809.170989 9153583 alts_credentials.cc:93] ALTS creds ignored. Not running on GCP and untrusted ALTS is not enabled.


--- 🤔 Agent: 추론 및 행동 결정 중... ---
  📨 메시지 개수: 14개
  💭 추론: ['### 🔍 검색 전', '```\n[검색 1회차]\n- 킬체인 증거 현황: 정보수집[X] 유출실행[X] 흔적제거[X] 정황[X]\n- 완성도: 0%\n- 다음 검색: "교육생 개인정보 파일 관련 활동 및 외부 유출 정황" - 분석 목표의 핵심 키워드인 \'교육생 개인정보\'를 활용하여 정보 유출과 관련된 전반적인 활동을 광범위하게 탐색하고 초기 단서를 확보하기 위함입니다.\n```', '\n\n### 📊 검색 후', "```\n[결과]\n- 발견: 4개\n- 핵심: 카카오톡 관련 파일(로그인 데이터, 쿠키 등)만 발견되었으며, '교육생 개인정보'와 직접적으로 연관된 파일 활동은 확인되지 않았습니다.\n- 의미: 초기 광범위 검색에서는 직접적인 유출 증거를 찾지 못했습니다. 이는 파일명이나 경로에 특정 키워드가 포함되지 않았거나, 다른 방식으로 데이터가 처리되었을 가능성을 시사합니다. 다음 단계로 넘어가 다른 유출 경로와 정황 증거를 탐색할 필요가 있습니다.\n```", '\n\n### 종료 체크', '```\n□ 킬체인 2단계 이상? X\n□ 3개 이상 의심 행위? X\n□ 5회 이상 검색? X\n→ 계속\n```', '\n### 🔍 검색 전', '```\n[검색 2회차]\n- 킬체인 증거 현황: 정보수집[X] 유출실행[X] 흔적제거[X] 정황[X]\n- 완성도: 5%\n- 다음 검색: "클라우드, 웹메일, 이력서, 채용 사이트 접속 기록" - 1차 검색에서 직접적인 파일 유출 증거를 찾지 못했으므로, 유출의 동기가 될 수 있는 정황 증거를 찾기 위해 검색 범위를 넓힙니다. 특히 이직 준비 정황(채용 사이트 접속)이나 외부 서비스(클라우드, 웹메일)를 이용한 유출 가능성을 확인하기 위함입니다.\n```', '\n\n### 📊 검색 후', "```\n[결과]\n- 발견: 100개\n- 핵심: 2025년 7월 31일을 중심으로 '사람인', '잡코리아' 등 다수

In [5]:
# 결과 출력
final_report = final_state.get("final_report")
if final_report:
    print("📊 최종 보고서:")
    print(f"  - 제목: {final_report.name}")
    print(f"  - 설명: {final_report.description}")
    print(f"  - 단계 수: {len(final_report.steps)}개")
    print(f"  - Job ID: {final_report.job_id}")
    print(f"  - Task ID: {final_report.task_id}")
    
    if final_report.steps:
        print("\n  📝 시나리오 단계:")
        for step in final_report.steps:
            print(f"    {step.order_no}. {step.description}")
            print(step.artifact_ids)
else:
    print("⚠️  최종 보고서가 생성되지 않았습니다.")

📊 최종 보고서:
  - 제목: 이직 준비 정황 및 외부 저장매체를 이용한 정보 유출 시나리오
  - 설명: 본 시나리오는 이정호 주임의 이직 준비 정황과 외부 저장매체 사용 기록을 시간순으로 재구성하여, 내부 정보 유출 가능성을 제시합니다. 2025년 7월 31일, 다수의 채용 사이트 접속을 통해 이직 의사를 명확히 드러냈으며, 바로 다음 날인 8월 1일 오전에 개인 USB를 PC에 연결한 사실이 확인되었습니다. 비록 유출된 파일이 특정되지는 않았으나, 이직이라는 명확한 동기와 민감한 시점의 USB 사용 기록은 정보 유출의 '정황'과 '실행' 단계를 보여주는 강력한 증거입니다.
  - 단계 수: 3개
  - Job ID: test_job_001
  - Task ID: test_task_001

  📝 시나리오 단계:
    1. [정황] 사용자는 2025년 7월 31일, 사람인, 잡코리아 등 다수의 채용 사이트에 접속하여 '정보보안', '클라우드서버 엔지니어' 등의 키워드로 채용 공고를 집중적으로 검색했습니다. 이는 이직을 준비하고 있음을 보여주는 명백한 정황 증거입니다.
['3565b8ad-fd58-445f-9820-2c7ef2080d6b', 'b7076f46-a344-43b9-b56c-c0a6937d5f52', 'c669b9b7-7127-4756-a88b-966ba4756e3f', '6a3c6432-22a2-4dea-9aa6-51e6e0d31cf9', 'b4f9ba90-fe1d-49c0-92f8-5a1f9f2794cf', 'dac33dd4-ca4d-4026-9bac-f22dcdaac009', '6f80a8d9-99b6-4a74-aace-4af4ab54e5f6', 'c39c74e7-74c9-4233-a5aa-3c9145890a26', '3930868b-19b9-4396-9c7b-b00b7e473bc8', '3bc096ba-5009-4bc7-bb79-3f4287ca639d', 'a2aa9f08-cc7b-4860-a968-e995e20ad42a', 'b4135

In [None]:
# 에이전트 메시지 디버깅
from langchain_core.messages import HumanMessage, SystemMessage, AIMessage, ToolMessage
import json

messages = final_state["messages"]

# 1. 메시지 종류별 통계
print("=" * 60)
print("📊 메시지 종류별 통계")
print("=" * 60)

message_types = {}
for msg in messages:
    msg_type = type(msg).__name__
    message_types[msg_type] = message_types.get(msg_type, 0) + 1

for msg_type, count in message_types.items():
    print(f"  {msg_type}: {count}개")

print(f"\n  전체 메시지 수: {len(messages)}개\n")

# 2. 메시지 프린트
print("=" * 60)
print("💬 메시지 상세 내역")
print("=" * 60)

for idx, msg in enumerate(messages, 1):
    msg_type = type(msg).__name__
    
    print(f"\n[{idx}] {msg_type}")
    print("-" * 60)
    
    if isinstance(msg, (HumanMessage, SystemMessage, AIMessage)):
        content = msg.content
        if isinstance(content, list):
            print("\n\n".join(content)) # type: ignore
        elif isinstance(content, str) and len(content) > 200:
            print(f"{content}")
        else:
            print(f"{content}")
    
    if isinstance(msg, ToolMessage):
        print(f"Tool: {msg.name if hasattr(msg, 'name') else 'N/A'}")
        content = msg.content
        try:
            # JSON 문자열인 경우 파싱하여 예쁘게 출력
            parsed = json.loads(content) # type: ignore
            print(json.dumps(parsed, indent=2, ensure_ascii=False))
        except (json.JSONDecodeError, TypeError):
            # JSON이 아니면 원본 그대로 출력
            if isinstance(content, str) and len(content) > 200:
                print(f"{content}")
            else:
                print(f"{content}")
    
    if isinstance(msg, AIMessage) and hasattr(msg, 'tool_calls') and msg.tool_calls:
        print(f"도구 호출: {len(msg.tool_calls)}개")
        for tool_call in msg.tool_calls:
            print(f"  - {tool_call.get('name', 'N/A')}")

print("\n" + "=" * 60)

📊 메시지 종류별 통계
  SystemMessage: 1개
  HumanMessage: 1개
  AIMessage: 7개
  ToolMessage: 6개

  전체 메시지 수: 15개

💬 메시지 상세 내역

[1] SystemMessage
------------------------------------------------------------
당신은 최고의 디지털 포렌식 분석 전문가이자 스토리텔러입니다.
## 역할
당신의 임무는 흩어져 있는 디지털 증거(아티팩트)를 엮어, 내부 정보 유출의 잠재적 시나리오를 논리적으로 재구성하는 것입니다.
단편적인 증거 하나하나에 매몰되지 않고, 전체적인 흐름과 맥락을 파악하여 설득력 있는 보고서를 작성해야 합니다.

## 분석 목표
- 내부 직원의 기밀 정보 유출 및 비인가 데이터 반출 행위 탐지
- 정보유출 행위 식별
  - 정보 수집 행위
  - 외부(외부 이메일, 클라우드, 메신저를 통한 PC외부)로 유출 행위
  - 증거 삭제 행위
- 이외에 사용자 요구사항에 따른 행위 식별
- 일반적인 업무 패턴(주기적, 반복적)은 분석 대상에서 제외

## 분석 범위
- 필터링된 아티팩트를 기반으로 정보유출 시나리오 분석
- 타임라인 기반 이벤트 연관성 분석
- 의심스러운 행위 패턴 식별

## 분석 원칙
* **증거 기반의 논리적 추론**: 모든 분석은 증거에 기반해야 하지만, 개별 증거의 의미가 약하더라도 시간적, 논리적으로 연결되면 종합적으로 판단하여 유의미한 시나리오를 구성하세요.
* **기준선 설정과 이상 징후 탐지**: 사용자의 평소 활동 패턴(Baseline)을 간략히 파악하고, 이 기준에서 벗어나는 이상 징후(Anomaly)를 식별하는 데 집중합니다. 일반적인 업무는 분석에서 제외하되, '언제, 왜' 그 행위를 했는지가 중요합니다.
* **가설 기반의 탐색**: 초기 탐색 후 '퇴사를 준비하며 자료를 정리하는 것으로 보임'과 같은 가설을 세우고, 이를 입증하거나 반증할 증거를 찾아나가는 방식으로 조사를 진행하세

In [7]:
context = final_state["context"]
context_str = ""

if isinstance(context, list):
    context_str = "\n".join(context)
else:
    context_str = context

print(context_str)

## **이정호 주임 '교육생 개인정보' 유출 의심 행위 분석 최종 보고서**

본 보고서는 이정호 주임의 PC 활동에서 수집된 디지털 증거를 '데이터 유출 킬체인' 모델에 따라 재분류하고, 이를 통해 '교육생 개인정보' 유출 의심 시나리오를 재구성한 결과를 담고 있습니다. 분석 결과, 정보 유출을 직접적으로 증명하는 로그는 발견되지 않았으나, 명확한 동기와 의심스러운 정황이 결합된 잠재적 정보 유출 시나리오가 식별되었습니다.

---

### **데이터 유출 킬체인(Kill-Chain) 기반 아티팩트 재분류**

분석된 모든 아티팩트를 데이터 유출의 단계별 행위에 따라 재분류한 결과는 다음과 같습니다.

#### **1. 정보 수집 (Reconnaissance & Staging)**

*   **해당 행위 없음**
    *   분석된 로그에서는 유출을 목적으로 특정 파일을 탐색, 복사하거나 압축하는 등의 정보 수집 및 가공 단계에 해당하는 명확한 증거가 발견되지 않았습니다.

#### **2. 유출 실행 (Exfiltration)**

*   **[2025-08-01 08:40:35] SanDisk SanDisk Ultra USB 연결**
    *   **분류 근거**: 외부 저장 매체인 USB를 PC에 연결한 행위는 내부 데이터를 조직의 통제 범위 밖으로 반출하기 위한 핵심적인 '유출 실행' 단계에 해당합니다.
    *   **아티팩트**:
        *   `artifact_type: usb_devices_data`
        *   `device_metadata__device_class_name: SanDisk SanDisk Ultra`
        *   `setupapi_info__first_connection_time: 2025/08/01 08:40:35.788`

*   **[2025-08-01 08:40:36] SanDisk SanDisk Ultra USB 연결 해제**
    *   **분류 근거**: USB 연결을 해제한 행위

In [8]:
# ========================================
# PDF Export 모듈 테스트
# ========================================
try:
    from pdf_export import export_report_to_pdf, PDFReportExporter
    from pdf_export import S3Manager
    print("✅ PDF Export 모듈 로드 성공!")
    
    # S3 연결 테스트
    try:
        s3 = S3Manager()
        print("✅ S3Manager 초기화 성공!")
        
        if s3.check_connection():
            print("✅ S3 연결 성공!")
        else:
            print("⚠️  S3 연결 실패 - .env 파일을 확인하세요")
    except Exception as e:
        print(f"⚠️  S3 설정 필요: {e}")
        print("\n💡 .env 파일에 다음을 추가하세요:")
        print("   S3_BUCKET_NAME=your-bucket-name")
        print("   AWS_REGION=ap-northeast-2")
        print("   AWS_ACCESS_KEY_ID=your-key")
        print("   AWS_SECRET_ACCESS_KEY=your-secret")
        
except ImportError as e:
    print(f"❌ 모듈 임포트 실패: {e}")
    print("\n📁 파일 구조를 확인하세요:")
    print("   GENERATOR/")
    print("   ├── pdf_export/")
    print("   │   ├── __init__.py")
    print("   │   ├── exporter.py")
    print("   │   ├── pdf_generator.py")
    print("   │   └── s3_manager.py")
    print("   └── 데이터_분석_에이전트_그래프.ipynb")

✅ PDF Export 모듈 로드 성공!
✅ S3Manager 초기화 성공!
✅ S3 연결 성공!
