# 티켓을 묶어보자! (임베딩 저장 ver)


## Library Installation

In [1]:
!pip install pandas



In [2]:
# Elasticsearch 7.x 서버와 호환되는 7.17.x 버전 라이브러리를 설치합니다.
!pip install "elasticsearch<8.0.0,>=7.17.0"

Collecting elasticsearch<8.0.0,>=7.17.0
  Downloading elasticsearch-7.17.12-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting urllib3<2,>=1.21.1 (from elasticsearch<8.0.0,>=7.17.0)
  Downloading urllib3-1.26.20-py2.py3-none-any.whl.metadata (50 kB)
Downloading elasticsearch-7.17.12-py2.py3-none-any.whl (385 kB)
Downloading urllib3-1.26.20-py2.py3-none-any.whl (144 kB)
Installing collected packages: urllib3, elasticsearch
[2K  Attempting uninstall: urllib3
[2K    Found existing installation: urllib3 2.5.0
[2K    Uninstalling urllib3-2.5.0:
[2K      Successfully uninstalled urllib3-2.5.0
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [elasticsearch]0m [elasticsearch]
[1A[2K[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
sparkmagic 0.21.0 requires pandas<2.0.0,>=0.17.1, but you have pandas 2.2.3 which is incompatible.
sphinx 8.1.3

In [3]:
!pip install --upgrade numexpr

Collecting numexpr
  Downloading numexpr-2.14.1.tar.gz (119 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Building wheels for collected packages: numexpr
  Building wheel for numexpr (pyproject.toml) ... [?25ldone
[?25h  Created wheel for numexpr: filename=numexpr-2.14.1-cp310-cp310-linux_x86_64.whl size=163286 sha256=cb084c859af016b72ac24784141857eb1e41a9c51c091130238eddb234bde4df
  Stored in directory: /home/ec2-user/.cache/pip/wheels/c4/16/c7/6252b16a24e3bb6f20a4e95105f016c31fffa5f38f64b46d5c
Successfully built numexpr
Installing collected packages: numexpr
  Attempting uninstall: numexpr
    Found existing installation: numexpr 2.7.3
    Uninstalling numexpr-2.7.3:
      Successfully uninstalled numexpr-2.7.3
Successfully installed numexpr-2.14.1


In [4]:
!pip install torch torchvision torchaudio

Collecting torch
  Downloading torch-2.6.0-cp310-cp310-manylinux1_x86_64.whl.metadata (28 kB)
Collecting torchvision
  Downloading torchvision-0.21.0-cp310-cp310-manylinux1_x86_64.whl.metadata (6.1 kB)
Collecting torchaudio
  Downloading torchaudio-2.6.0-cp310-cp310-manylinux1_x86_64.whl.metadata (6.6 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch)
  Downloading nvidia_cubla

## Library Import & AWS Configuration

In [34]:
import boto3
import pandas as pd
from elasticsearch import Elasticsearch, helpers as es_helpers
import os

In [35]:
ssm_client = boto3.client('ssm')

try:
    # Lambda 코드에서 사용된 파라미터 경로를 그대로 사용합니다.
    ES_HOST = ssm_client.get_parameter(Name='/planit/llm/es-host')['Parameter']['Value']
    ES_USER = ssm_client.get_parameter(Name='/planit/es-user')['Parameter']['Value']
    ES_PASSWORD = ssm_client.get_parameter(Name='/planit/es-password', WithDecryption=True)['Parameter']['Value']
    
    print("SSM Parameter Store에서 접속 정보를 성공적으로 가져왔습니다.")

except Exception as e:
    print("SSM Parameter Store에서 정보를 가져오는 데 실패했습니다.")
    print("IAM 역할에 'ssm:GetParameter' 권한이 있는지 확인하세요.")
    print(f"오류: {e}")

SSM Parameter Store에서 접속 정보를 성공적으로 가져왔습니다.


## Create an Elasticsearch Client

In [36]:
try:
    es_client = Elasticsearch(
        ES_HOST,
        http_auth=(ES_USER, ES_PASSWORD),
        request_timeout=100
    )

    # 연결 테스트: True가 반환되면 성공
    if es_client.ping():
        print("Elasticsearch에 성공적으로 연결되었습니다.")
    else:
        print("Elasticsearch 연결에 실패했습니다. 호스트 주소나 인증 정보를 확인하세요.")

except NameError:
    print("ES_HOST, ES_USER, ES_PASSWORD 변수가 설정되지 않았습니다. 이전 셀을 먼저 실행하세요.")
except Exception as e:
    print(f"Elasticsearch 연결 중 오류가 발생했습니다: {e}")

Elasticsearch에 성공적으로 연결되었습니다.


## Retrieve Data from an Elasticsearch Index

In [37]:
INDEX_PATTERN = [
    "planit-edr-ai-training-2025.10.03_15",
    "planit-edr-ai-training-2025.10.16_16"
]

# 1. 가져올 필드 목록을 점 표기법을 사용하여 상세하게 정의합니다.
fields_to_include = [
    # --- 기본 최상위 필드 ---
    "CmdLine", "DetectSubType", "DetectTime",
    "EventSubType", "EventTime", "EventType", "FileName", "FileType", "HostName",
    "IP", "IsKnown", "Platform", "ProcName", "ProcPath",
    "RuleName", "SHA256", "Tactic", "TacticID", "Technique", "TechniqueID",
    "threat_label.verdict", "threat_label.scenario", "threat_label.case_id",

    # --- SuspiciousInfo 하위 필드 ---
    "SuspliciousInfo",

    # --- ResponseInfo 하위 필드---
    "ResponseInfo"
]

# 2. 기존 쿼리에 _source 파라미터를 추가합니다.
query = {
    "query": {
        "match_all": {}
    },
    "_source": fields_to_include
}

print(f"'{INDEX_PATTERN}' 인덱스에서 지정된 하위 필드까지 포함하여 조회를 시작합니다...")

'['planit-edr-ai-training-2025.10.03_15', 'planit-edr-ai-training-2025.10.16_16']' 인덱스에서 지정된 하위 필드까지 포함하여 조회를 시작합니다...


In [38]:
# 모든 문서 가져오기
doc_list = [doc['_source'] for doc in es_helpers.scan(es_client, index=INDEX_PATTERN, query=query)]
print(f"총 {len(doc_list)}개의 문서를 가져왔습니다.")

# json_normalize를 사용하여 데이터프레임 생성(점(.)을 언더스코어(_)로 바꿔줌)
df = pd.json_normalize(doc_list, sep='_')

# 결과 확인
print("\n생성된 데이터프레임의 컬럼 목록:")
print(df.columns)

# 데이터프레임 상위 5개 샘플 출력
print("\n데이터프레임 샘플:")
print(display(df.head()))

# 파일로 저장
# raw_file_name = 'raw_data.csv'
# df.to_csv(file_name, index=False, encoding='utf-8-sig')

raw_file_name = 'raw_data.json'
df.to_json(raw_file_name, orient='records', force_ascii=False, indent=2)

총 58개의 문서를 가져왔습니다.

생성된 데이터프레임의 컬럼 목록:
Index(['DetectSubType', 'IsKnown', 'Platform', 'EventType', 'ProcName',
       'FileName', 'IP', 'CmdLine', 'DetectTime', 'EventSubType', 'SHA256',
       'FileType', 'EventTime', 'ProcPath', 'HostName', 'RuleName',
       'ResponseInfo_detect_terminateprocess', 'threat_label_scenario',
       'threat_label_verdict', 'threat_label_case_id', 'Tactic', 'TacticID',
       'TechniqueID', 'Technique', 'ResponseInfo'],
      dtype='object')

데이터프레임 샘플:


Unnamed: 0,DetectSubType,IsKnown,Platform,EventType,ProcName,FileName,IP,CmdLine,DetectTime,EventSubType,...,RuleName,ResponseInfo_detect_terminateprocess,threat_label_scenario,threat_label_verdict,threat_label_case_id,Tactic,TacticID,TechniqueID,Technique,ResponseInfo
0,Ransomware,False,Microsoft Windows 10 x64,file,520bd9ed608c668810971dbd51184c6a29819674280b01...,520bd9ed608c668810971dbd51184c6a29819674280b01...,192.168.105.135,"""C:\Users\SeohyeonKang\Desktop\Downloads (1)\랜...",1759473364306,FileMove,...,,"[{'Description': '자식 프로세스', 'SystemService': F...",Ransomware,malicious,INCIDENT-20251003-026,,,,,
1,Exploit,False,Microsoft Windows 10 x64,network,powershell.exe,powershell.exe,192.168.105.135,"powershell.exe -ExecutionPolicy Bypass -C ""[Sy...",1760085055908,NetworkConnect,...,스크립트를 이용한 네트워크 접속,"[{'Description': '의심 행위를 수행한 프로세스', 'SystemSer...",Ingress Tool Transfer - PSTools download & unpack,malicious,INCIDENT-20251010-45,"[Execution, Defense Evasion]","[TA0002, TA0005]",[T1064],[Scripting],
2,Ransomware,False,Microsoft Windows 10 x64,file,243dff06fc80a049f4fb37292f8b8def0fce29768f345c...,243dff06fc80a049f4fb37292f8b8def0fce29768f345c...,192.168.105.135,"""C:\Users\SeohyeonKang\Desktop\Downloads (1)\랜...",1759472610576,FileMove,...,,"[{'Description': '자식 프로세스', 'SystemService': F...",Ransomware,malicious,INCIDENT-20251003-025,,,,,
3,Exploit,False,Microsoft Windows 10 x64,process,splunkd.exe,powershell.exe,192.168.105.135,"""C:\Users\Public\splunkd.exe"" -server http://1...",1760085055068,ProcessStart,...,의심스러운 파워쉘 실행,"[{'Description': '의심 행위를 수행한 프로세스', 'SystemSer...",Ingress Tool Transfer - PSTools download & unpack,malicious,INCIDENT-20251010-45,[Execution],[TA0002],[T1086],[PowerShell],
4,Anomaly,False,Microsoft Windows 10 x64,file,cmd.exe,ping.exe,192.168.105.135,"""C:\Windows\System32\cmd.exe"" /C ping 127.0.0...",1759471610178,FileDelete,...,자가 삭제,,Ransomware,malicious,INCIDENT-20251003-024,[Defense Evasion],[TA0005],[T1107],[File Deletion],


None


In [39]:
# 'threat_label_scenario' 컬럼의 값별 개수를 셉니다.
scenario_counts = df['threat_label_scenario'].value_counts()

# 결과를 출력합니다.
print("--- threat_label.scenario 별 개수 ---")
print(scenario_counts)

--- threat_label.scenario 별 개수 ---
threat_label_scenario
Ransomware                                                                10
Execution - Remote Access/Support Tool                                     6
Masquerading - File Extension Masquerading                                 4
Ingress Tool Transfer - Curl download of remote DLL                        3
Account Manipulation - Create new Windows admin user                       2
Ingress Tool Transfer - PowerShell file download                           2
Create or Modify System Process - Modify Fax service to run PowerShell     2
Account Manipulation - Create new Windows admin user via PowerShell        2
Execution - Remote Access/Remote Tools                                     2
Indicator Removal - Stop terminal from logging history                     2
Masquerading - LSASS process masquerade                                    2
Ingress Tool Transfer - PSTools download & unpack                          2
Impair Defenses - D

In [40]:
# 'threat_label_case_id' 컬럼의 값별 개수를 셉니다.
case_id_counts = df['threat_label_case_id'].value_counts()

# 결과를 출력합니다.
print("\n--- threat_label.case_id 별 개수 ---")
print(case_id_counts)


--- threat_label.case_id 별 개수 ---
threat_label_case_id
INCIDENT-20251003-024    4
INCIDENT-20251001-010    4
INCIDENT-20251010-41     3
INCIDENT-20251010-45     2
INCIDENT-20251001-001    2
INCIDENT-20251001-003    2
INCIDENT-20251002-019    2
INCIDENT-20251010-44     2
INCIDENT-20251002-022    2
INCIDENT-20251010-35     2
INCIDENT-20251010-37     2
INCIDENT-20251003-023    2
INCIDENT-20251002-016    2
INCIDENT-20251001-008    2
INCIDENT-20251001-005    2
INCIDENT-20251001-004    2
INCIDENT-20251002-021    2
INCIDENT-20251003-026    1
INCIDENT-20251003-025    1
INCIDENT-20251010-39     1
INCIDENT-20251002-017    1
INCIDENT-20251002-018    1
INCIDENT-20251010-36     1
INCIDENT-20251002-020    1
INCIDENT-20251010-38     1
INCIDENT-20251010-42     1
INCIDENT-20251010-40     1
INCIDENT-20251001-015    1
INCIDENT-20251001-012    1
INCIDENT-20251001-011    1
INCIDENT-20251001-014    1
INCIDENT-20251001-013    1
INCIDENT-20251001-002    1
INCIDENT-20251001-006    1
INCIDENT-20251001-007    1

In [41]:
import pandas as pd

# 'threat_label_case_id'와 'threat_label_scenario'로 그룹화하고 각 그룹의 개수를 셉니다.
# .reset_index(name='count')는 결과를 보기 좋은 데이터프레임으로 만들어줍니다.
case_scenario_counts = df.groupby(['threat_label_case_id', 'threat_label_scenario']).size().reset_index(name='count')

# 'count' 컬럼을 기준으로 내림차순 정렬하여 개수가 많은 순으로 보여줍니다.
case_scenario_counts = case_scenario_counts.sort_values(by='count', ascending=False)

# 결과를 출력합니다.
# .to_string(index=False)를 사용하면 데이터프레임의 인덱스 번호 없이 깔끔하게 출력됩니다.
print("--- Case ID 별 시나리오 및 개수 ---")
print(case_scenario_counts.to_string(index=False))

--- Case ID 별 시나리오 및 개수 ---
 threat_label_case_id                                                  threat_label_scenario  count
INCIDENT-20251003-024                                                             Ransomware      4
INCIDENT-20251001-010                             Masquerading - File Extension Masquerading      4
 INCIDENT-20251010-41                    Ingress Tool Transfer - Curl download of remote DLL      3
INCIDENT-20251001-001                                                             Ransomware      2
INCIDENT-20251003-023                                                             Ransomware      2
INCIDENT-20251001-004                     Impair Defenses - Disable or Modify Security Tools      2
INCIDENT-20251001-003                 Indicator Removal - Stop terminal from logging history      2
INCIDENT-20251001-005                 Indicator Removal - Prevent PowerShell history logging      2
INCIDENT-20251002-019 Create or Modify System Process - Modify Fax servi

In [42]:
# 1. case_id와 scenario를 기준으로 그룹화하여 개수를 셉니다.
case_scenario_counts = df.groupby(['threat_label_case_id', 'threat_label_scenario']).size().reset_index(name='count')


# 2. 필터링할 시나리오 목록을 만듭니다.
scenarios_to_show = [
    'Ransomware',
    'Execution - Remote Access/Support Tool',
    'Masquerading - File Extension Masquerading'
]

# 3. isin() 메서드를 사용해 원하는 시나리오만 포함된 행을 선택합니다.
filtered_counts = case_scenario_counts[case_scenario_counts['threat_label_scenario'].isin(scenarios_to_show)]


# 4. 필터링된 결과를 'count' 기준으로 내림차순 정렬합니다.
sorted_counts = filtered_counts.sort_values(by='count', ascending=False)


# 5. 최종 결과를 인덱스 없이 깔끔하게 출력합니다.
print("--- 지정된 시나리오의 Case ID 별 개수 ---")
print(sorted_counts.to_string(index=False))

--- 지정된 시나리오의 Case ID 별 개수 ---
 threat_label_case_id                      threat_label_scenario  count
INCIDENT-20251001-010 Masquerading - File Extension Masquerading      4
INCIDENT-20251003-024                                 Ransomware      4
INCIDENT-20251001-001                                 Ransomware      2
INCIDENT-20251003-023                                 Ransomware      2
 INCIDENT-20251010-37     Execution - Remote Access/Support Tool      2
INCIDENT-20251003-026                                 Ransomware      1
INCIDENT-20251003-025                                 Ransomware      1
 INCIDENT-20251010-36     Execution - Remote Access/Support Tool      1
 INCIDENT-20251010-38     Execution - Remote Access/Support Tool      1
 INCIDENT-20251010-39     Execution - Remote Access/Support Tool      1
 INCIDENT-20251010-40     Execution - Remote Access/Support Tool      1


## 기본 feature 추출
- 범주형 feature: EventType, EventSubType, RuleName, DetectSubType
- 텍스트 feature: CmdLine, ProcPath, FileName
- 시간 feature: EventTime

In [43]:
import pandas as pd
import torch
import torch.nn as nn
import re
from collections import Counter
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

In [44]:
# feature engineering을 위한 data frame 복사
feature_df = df.copy()

# 각 feature 처리 단계에서 생성된 결과를 저장할 리스트
# feature_list = [feature_df]
feature_list = []

In [45]:
columns_to_check = ['EventType', 'EventSubType', 'DetectSubType', 'RuleName', 'RuleId']

for col in columns_to_check:
    if col in df.columns:
        print(f"\n[{col}] unique values:")
        print(df[col].unique())
    else:
        print(f"\n[{col}] column not found in DataFrame")


[EventType] unique values:
['file' 'network' 'process' 'registry']

[EventSubType] unique values:
['FileMove' 'NetworkConnect' 'ProcessStart' 'FileDelete' 'RegSetValue'
 'Amsi' 'FileCreate' 'HttpDownload' 'FileCopy' 'RunScript']

[DetectSubType] unique values:
['Ransomware' 'Exploit' 'Anomaly' 'Autorun' 'Misc' 'Fake']

[RuleName] unique values:
[None '스크립트를 이용한 네트워크 접속' '의심스러운 파워쉘 실행' '자가 삭제' '의심스러운 자동실행 등록'
 '파워쉘 Fileless 커맨드' 'Dropper 의심 프로세스' 'Windows 유틸리티를 이용한 다운로드'
 '의심스러운 스크립트 실행' '사용자 계정 등록 시도' '의심스러운 윈도우 서비스'
 'Web Shell Written to Disk'
 'Read volume boot sector via DOS device path (PowerShell)'
 'Windows 관련 파일로 위장하는 가짜 Windows 파일' 'Rundll32을 이용한 위협적인 실행' '이벤트로그 삭제'
 'Hidden Window' '2중 확장자를 이용한 속임수 파일 실행'
 'Create Windows Hidden File with Attrib' '방화벽 우회 시도'
 'Grant Full Access to folder for Everyone - Ryuk Ransomware Style'
 'Disable Windows Defender All' 'Prevent Powershell History Logging'
 'Avoid logs']

[RuleId] column not found in DataFrame


### Temporal Features
- EventTime 기준으로 Time Difference 계산해 새로운 컬럼 만들기
- 공격의 연속성 파악
- 공격의 인과 관계 순서를 파악 

In [46]:
print("### 1. 시간 피처 처리 시작 ###")

# HostName 또는 EventTime 컬럼이 없는 경우를 대비한 예외 처리
if 'HostName' in feature_df.columns and 'EventTime' in feature_df.columns:
    feature_df['EventTime_dt'] = pd.to_datetime(feature_df['EventTime'], unit='ms')
    # 데이터를 정렬하고 인덱스를 리셋하여 순서를 고정
    feature_df = feature_df.sort_values(by=['HostName', 'EventTime_dt']).reset_index(drop=True)
    
    time_diff = feature_df.groupby('HostName')['EventTime_dt'].diff().dt.total_seconds().fillna(0)
    feature_df['time_diff_sec'] = np.maximum(time_diff, 0)
    
    # 생성된 피처를 feature_list에 추가
    feature_list.append(feature_df[['time_diff_sec']])
    print("-> 완료: 시간 차이(time_diff_sec) 피처 생성.\n")
else:
    print("-> 경고: 'HostName' 또는 'EventTime' 컬럼이 없어 시간 피처를 생성하지 않았습니다.\n")

### 1. 시간 피처 처리 시작 ###
-> 완료: 시간 차이(time_diff_sec) 피처 생성.



### Categorical Features
EventType, EventSubType, RuleName, DetectSubType -> 원-핫 인코딩

In [47]:
print("### 2. 범주형 피처 처리 시작 ###")

# 처리할 범주형 컬럼 목록
categorical_cols = ['EventType', 'EventSubType', 'DetectSubType', 'RuleName']

# 결측값(NaN)을 'Unknown' 문자열로 대체
# for col in categorical_cols:
#     feature_df[col] = feature_df[col].fillna('Unknown')
for col in categorical_cols:
    if col in feature_df.columns:
        feature_df[col] = feature_df[col].fillna('Unknown')

# Pandas의 get_dummies를 사용한 원-핫 인코딩
# 각 카테고리 값을 새로운 컬럼으로 만들고, 해당하면 1 아니면 0으로 채움
categorical_features = pd.get_dummies(feature_df[categorical_cols], prefix=categorical_cols)
feature_list.append(categorical_features)

print(f"원-핫 인코딩으로 {categorical_features.shape[1]}개의 피처 생성 완료.")
print("생성된 피처 예시 (상위 5개):")
print(categorical_features.head())
print("-" * 50)

### 2. 범주형 피처 처리 시작 ###
원-핫 인코딩으로 44개의 피처 생성 완료.
생성된 피처 예시 (상위 5개):
   EventType_file  EventType_network  EventType_process  EventType_registry  \
0            True              False              False               False   
1            True              False              False               False   
2            True              False              False               False   
3           False              False               True               False   
4           False              False               True               False   

   EventSubType_Amsi  EventSubType_FileCopy  EventSubType_FileCreate  \
0               True                  False                    False   
1               True                  False                    False   
2               True                  False                    False   
3              False                  False                    False   
4              False                  False                    False   

   EventSubType_FileDele

In [48]:
# 전체 컬럼 목록을 csv 파일로 저장
output_file = 'categorical_features.csv'
categorical_features.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"전체 피처가 '{output_file}' 파일에 저장되었습니다.")

전체 피처가 'categorical_features.csv' 파일에 저장되었습니다.


### Text Features
`만들어진 cmdline_features_df에서 랜섬이라는 단어가 들어간 column과 특정 이름이 들어간 column drop해야 할 듯`
- CmdLine -> TF-IDF Vectorizer
- ProcName, FileName은 어떻게 하지?
- TfidVectorizer: 단순히 단어의 빈도수만 세는 것이 아니라, 모든 문서에서 공통적으로 많이 나타나는 단어에는 낮은 가중치를, 특정 문서에만 집중적으로 나타나는 단어에는 높은 가중치 부여

#### CmdLine

In [49]:
print("### 3. 텍스트 피처 처리 시작 ###")

if 'CmdLine' in feature_df.columns:
    feature_df['CmdLine'] = feature_df['CmdLine'].fillna('')
    tfidf_vectorizer = TfidfVectorizer(max_features=100, ngram_range=(1, 2))
    cmdline_features_matrix = tfidf_vectorizer.fit_transform(feature_df['CmdLine'])
    cmdline_features_df = pd.DataFrame(
        cmdline_features_matrix.toarray(),
        columns=[f"cmd_{name}" for name in tfidf_vectorizer.get_feature_names_out()]
    )
    feature_list.append(cmdline_features_df)
    print(f"-> 완료: TF-IDF로 {cmdline_features_df.shape[1]}개 피처 생성.\n")
else:
    print("-> 경고: 'CmdLine' 컬럼이 없어 텍스트 피처를 생성하지 않았습니다.\n")

# # TF-IDF를 적용할 텍스트 컬럼 (CmdLine)
# # 결측값(NaN)을 빈 문자열 ''로 대체
# feature_df['CmdLine'] = feature_df['CmdLine'].fillna('')

# # TF-IDF Vectorizer 초기화
# # max_features: 가장 빈번하게 나타나는 단어 N개만 피처로 사용 (차원 축소)
# # ngrams_range: 단어 묶음의 범위 (예: (1, 2)는 단어 1개와 2개를 모두 고려)
# tfidf_vectorizer = TfidfVectorizer(max_features=100, ngram_range=(1, 2))

# # CmdLine에 대해 TF-IDF 학습 및 변환 수행
# cmdline_features_matrix = tfidf_vectorizer.fit_transform(feature_df['CmdLine'])

# # 결과를 데이터프레임으로 변환
# cmdline_features_df = pd.DataFrame(
#     cmdline_features_matrix.toarray(),
#     columns=[f"cmd_{name}" for name in tfidf_vectorizer.get_feature_names_out()]
# )
# feature_list.append(cmdline_features_df)

# print(f"TF-IDF로 {cmdline_features_df.shape[1]}개의 피처 생성 완료.")
# print("생성된 피처 예시 (상위 5개):")
# print(cmdline_features_df.head())
# print("-" * 50)

### 3. 텍스트 피처 처리 시작 ###
-> 완료: TF-IDF로 100개 피처 생성.



In [50]:
# 전체 컬럼 목록을 csv 파일로 저장
output_file = 'cmdline_features_df.csv'
cmdline_features_df.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"전체 피처가 '{output_file}' 파일에 저장되었습니다.")

전체 피처가 'cmdline_features_df.csv' 파일에 저장되었습니다.


### Path Features
- ProcPath -> Tokenizer + LSTM

#### ProcPath

기본 설정 및 경로 토큰화 함수 정의

In [51]:
print("### 4. 경로(ProcPath, FileName) 피처 처리 시작 ###")

def tokenize_path(path):
    """
    경로 문자열을 입력받아 토큰 리스트로 변환하는 함수.
    - None이나 NaN 값은 빈 리스트로 처리.
    - 모든 문자를 소문자로 변환.
    - '\', '/', '.' 를 기준으로 분리.
    """
    if not isinstance(path, str):
        return []
    # 정규표현식을 사용하여 여러 구분자로 분리
    tokens = re.split(r'[\\/.]', path.lower())
    # 빈 문자열 제거 (예: '/usr/bin' -> ['', 'usr', 'bin'])
    return [token for token in tokens if token]

### 4. 경로(ProcPath, FileName) 피처 처리 시작 ###


[삭제] 단어 사전 구축
? seohyeonkang 괜찮냐

In [100]:
# # 모든 경로에서 나온 토큰들을 하나의 리스트로 통합
# all_tokens = [token for tokens_list in df['ProcPath_tokens'] for token in tokens_list]

# # 토큰 빈도수 계산
# token_counts = Counter(all_tokens)

# # 가장 빈번하게 등장하는 토큰 1000개를 단어 사전에 추가 (예시)
# # 실제 데이터에서는 데이터의 크기에 맞게 조절합니다.
# vocab = [token for token, count in token_counts.most_common(1000)]

# # 특수 토큰 추가
# # <pad>: 문장 길이를 맞추기 위한 패딩 토큰
# # <unk>: 단어 사전에 없는 단어를 위한 UNKNOWN 토큰
# special_tokens = ['<pad>', '<unk>']
# vocab = special_tokens + vocab

# # 각 토큰에 정수 인덱스를 부여하는 딕셔너리 생성
# word_to_idx = {word: idx for idx, word in enumerate(vocab)}
# idx_to_word = {idx: word for idx, word in enumerate(vocab)}

# vocab_size = len(vocab)

# print(f"### 단어 사전 구축 완료 ###")
# print(f"단어 사전 크기: {vocab_size}")
# print(f"일부 샘플: {list(word_to_idx.items())[:10]}")
# print("-" * 50)

PyTorch Sequential Model 정의

In [52]:
class PathEmbedder(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim):
        super(PathEmbedder, self).__init__()
        
        # 1. 임베딩 레이어: 정수 인덱스를 밀집 벡터로 변환
        # padding_idx=0: <pad> 토큰은 학습 과정에서 무시하도록 설정
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=0)
        
        # 2. LSTM 레이어: 임베딩된 벡터 시퀀스를 입력받아 문맥을 학습
        # batch_first=True: 입력 텐서의 차원을 (batch_size, sequence_length, ...) 순으로 받음
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        
    def forward(self, x):
        # paths_tensor: (batch_size, max_sequence_length)
        
        # 1. 임베딩
        embedded = self.embedding(x)
        # embedded: (batch_size, max_sequence_length, embedding_dim)
        
        # 2. LSTM
        # LSTM의 마지막 hidden state가 경로 전체의 문맥 정보를 압축한 결과물
        _, (hidden, _) = self.lstm(embedded)
        # hidden: (1, batch_size, hidden_dim)
        
        # 최종 출력 벡터의 차원을 (batch_size, hidden_dim)으로 조정
        final_embedding = hidden.squeeze(0)
        
        return final_embedding

임베딩 추출 실행

In [53]:
def paths_to_tensor(paths, word_to_idx):
    """
    경로 문자열 리스트를 토큰화, 인덱싱, 패딩하여 텐서로 변환하는 함수.
    """

    # 1. 토큰화 및 정수 인덱싱
    # 사전에 없으면 <unk> 토큰의 인덱스로, 있으면 해당 토큰의 인덱스로 변환
    indexed_paths = [[word_to_idx.get(token, word_to_idx['<unk>']) for token in tokenize_path(p)] for p in paths]

    # 2. 패딩 (길이 맞추기)
    max_len = max(len(p) for p in indexed_paths) if indexed_paths else 0
    padded_paths = [p + [word_to_idx['<pad>']] * (max_len - len(p)) for p in indexed_paths]
    
    # 3. PyTorch 텐서로 변환
    return torch.LongTensor(padded_paths)

전체 경로 토큰에 대한 단어 사전 구축

In [54]:
# ProcPath 컬럼이 있는지 먼저 확인
if 'ProcPath' in feature_df.columns:
    # 단어 사전(Vocabulary)을 ProcPath 기준으로 구축
    all_path_tokens = [token for path in feature_df['ProcPath'].dropna() for token in tokenize_path(path)]
    vocab = ['<pad>', '<unk>'] + [token for token, _ in Counter(all_path_tokens).most_common(2000)]
    word_to_idx = {word: idx for idx, word in enumerate(vocab)}
    vocab_size = len(word_to_idx)

    # 모델 인스턴스 생성
    EMBEDDING_DIM = 32  # 각 토큰을 표현할 벡터의 차원
    HIDDEN_DIM = 64    # 경로 전체를 표현할 최종 임베딩 벡터의 차원
    path_embedder_model = PathEmbedder(vocab_size, EMBEDDING_DIM, HIDDEN_DIM)
    path_embedder_model.eval()

    # ProcPath에 대한 임베딩 추출
    with torch.no_grad():
        procpath_tensor = paths_to_tensor(feature_df['ProcPath'].tolist(), word_to_idx)
        procpath_embeddings = path_embedder_model(procpath_tensor).numpy()
        procpath_df = pd.DataFrame(procpath_embeddings, columns=[f'pp_emb_{i}' for i in range(HIDDEN_DIM)])
        feature_list.append(procpath_df)
        print(f"-> 완료: ProcPath에 대한 {HIDDEN_DIM}차원 임베딩 피처 생성.\n")
else:
    print("-> 경고: 'ProcPath' 컬럼이 없어 경로 피처를 생성하지 않았습니다.\n")

-> 완료: ProcPath에 대한 64차원 임베딩 피처 생성.



### MITRE ATT&CK Features

In [55]:
from sklearn.preprocessing import MultiLabelBinarizer

In [56]:
print("### 5. MITRE ATT&CK 정보('Tactic', 'TacticID', 'Technique', 'TechniqueID') 피처 처리 시작 ###")

# Tactic, Technique의 'ID' 컬럼만 선택하여 처리
attack_cols_by_id = ['TacticID', 'TechniqueID'] 
all_attack_features = []

attack_mlbs = {}
for col in attack_cols_by_id:
    if col in feature_df.columns:
        # 결측치(NaN)를 빈 리스트로 변환
        series = feature_df[col].apply(lambda d: d if isinstance(d, list) else [])
        
        # MultiLabelBinarizer 초기화 및 학습/변환
        mlb = MultiLabelBinarizer()
        encoded_matrix = mlb.fit_transform(series)
        attack_mlbs[col] = mlb
        
        # 인코딩된 결과가 있을 경우에만 데이터프레임으로 만들고 리스트에 추가
        if encoded_matrix.shape[1] > 0:
            # 컬럼 이름을 'TacticID_TA0001'과 같이 생성
            attack_df = pd.DataFrame(encoded_matrix, columns=[f"{col}_{cls}" for cls in mlb.classes_])
            all_attack_features.append(attack_df)
        else:
            print(f"   - '{col}' 컬럼에 유효한 값이 없어 피처를 생성하지 않습니다.")

if all_attack_features:
    # 생성된 모든 ATT&CK 피처 데이터프레임을 하나로 합침
    attack_features_combined = pd.concat(all_attack_features, axis=1)
    feature_list.append(attack_features_combined)
    print(f"-> 완료: ATT&CK 관련 피처 {attack_features_combined.shape[1]}개 생성.\n")
else:
    print("-> 완료: 처리할 ATT&CK 관련 컬럼이 없습니다.\n")

### 5. MITRE ATT&CK 정보('Tactic', 'TacticID', 'Technique', 'TechniqueID') 피처 처리 시작 ###
-> 완료: ATT&CK 관련 피처 19개 생성.



### ResponseInfo_detect_terminateprocess column
[proc_relation_type] <br>
부모/자식 정보가 모두 있으면 'ParentChild'<br>
부모 없이 행위자만 있는 경우 'Self' <br>
정보가 없으면 'None' <br>
부모-자식 생성 관계인지, 아니면 단일 프로세스의 독립적인 악성 행위인지를 명확히 구분하여 모델에 알려줌 

[parent_is_system, child_is_system] <br>
시스템 프로세스 여부 <br>
추출 방법: SystemService 필드(true/false)를 그대로 사용 <br>
기대 효과: explorer.exe나 svchost.exe 같은 정상 시스템 프로세스가 악성 행위의 부모가 되는 경우가 많음. 이 플래그는 "정상 프로세스를 이용한 공격" 패턴을 학습하는 데 결정적인 역할을 함.<br>

[is_parent_child_path_similar]<br>
경로 유사성 <br>
추출 방법: 부모의 ProcPath 디렉터리와 자식의 ProcPath 디렉터리가 동일한지 여부를 확인. (예: 둘 다 C:\Users\...\AppData\Local\Temp에 위치)<br>
기대 효과: 특정 폴더 내에서 파일 생성, 실행, 삭제가 연쇄적으로 일어나는 공격(예: Dropper)의 특징을 잡아낼 수 있음.<br>

[parent_child_pair]<br>
부모-자식 쌍(Pair) 피처화<br>
추출 방법: ParentProcName과 ChildProcName을 -> 기호로 연결한 새로운 문자열 피처 많듦. (예: 'explorer.exe->malware.exe')<br>

기대 효과: explorer.exe라는 단일 정보보다 'explorer.exe->malware.exe'라는 관계 정보가 훨씬 더 강력한 악성 지표가 되고 이 새로운 범주형 피처를 원-핫 인코딩하면 모델이 특정 생성 패턴을 직접적으로 학습 가능<br>

[이벤트 프로세스와의 관계 정의]
핵심: ResponseInfo의 정보와 이벤트 최상위 레벨의 ProcName을 비교.

추출 방법:

ResponseInfo의 자식 프로세스 이름이 최상위 ProcName과 같다면, 이 이벤트는 '생성된(Spawned)' 이벤트.

ResponseInfo에 부모 프로세스만 있고, 그 이름이 최상위 ProcName과 같다면, 이 이벤트는 '생성하는(Spawning)' 이벤트.

기대 효과: 이벤트의 역할을 명확하게 정의하여 시간의 흐름에 따른 인과관계를 모델이 더 잘 이해하도록 도움.



---
'기원' vs '수행' == '부모' vs '자식/행위자'
- 의심 행위를 수행한 프로세스 -> 자식/행위자 역할
- 커맨드/스크립트를 실행한 프로세스의 부모 프로세스 -> 부모
- 부모 프로세스 -> 부모
- 자식 프로세스 -> 자식/행위자 역할
- 커맨드/스크립트를 실행한 프로세스 -> 자식/행위자 역할


In [57]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [58]:
print("### 6. ResponseInfo_detect_terminateprocess 정보 피처 처리 시작 ###")

# ResponseInfo_detect_terminateprocess 필드에서 키워드 기반으로 피처 추
def extract_advanced_process_info(row):

    # 기본값 설정
    parent_info = {'ProcName': 'Unknown', 'SystemService': False, 'ProcPath': '', 'CmdLine': ''}
    child_info = {'ProcName': 'Unknown', 'SystemService': False, 'ProcPath': '', 'CmdLine': ''}

    # 정보 추출
    if isinstance(row['ResponseInfo_detect_terminateprocess'], list):
        for item in row['ResponseInfo_detect_terminateprocess']:
            desc = item.get('Description', '')

            if '부모' in desc: # '부모' 키워드가 포함되어 있다면 parent_info로 간주
                parent_info = item
            elif any(keyword in desc for keyword in ['자식', '의심 행위', '커맨드/스크립트']): # 관련 키워드가 있으면 child_info로 간주
                child_info = item
    # 1. 관계 유형 피처
    if parent_info['ProcName'] != 'Unknown' and child_info['ProcName'] != 'Unknown':
        relation_type = 'ParentChild'
    elif child_info['ProcName'] != 'Unknown':
        relation_type = 'Self' # 부모 없이 행위자만 있는 경우
    else:
        relation_type = 'None'

    # 2. 시스템 프로세스 여부
    parent_is_system = parent_info.get('SystemService', False)
    child_is_system = child_info.get('SystemService', False)

    # 3. 경로 유사성
    try:
        parent_dir = '\\'.join(parent_info.get('ProcPath', '').split('\\')[:-1])
        child_dir = '\\'.join(child_info.get('ProcPath', '').split('\\')[:-1])
        is_path_similar = (parent_dir == child_dir) and parent_dir != ''
    except:
        is_path_similar = False

    # 4. 부모-자식 쌍
    parent_child_pair = f"{parent_info.get('ProcName', 'Unknown')}->{child_info.get('ProcName', 'Unknown')}"

    return pd.Series([
        relation_type,
        parent_is_system,
        child_is_system,
        is_path_similar,
        parent_child_pair,
        parent_info.get('CmdLine', ''), 
        child_info.get('CmdLine', '')
    ])

if 'ResponseInfo_detect_terminateprocess' in feature_df.columns:
    # 데이터프레임의 각 행에 함수 적용
    new_proc_features = df.apply(extract_advanced_process_info, axis=1)
    new_proc_features.columns = [
        'proc_relation_type', 'parent_is_system', 'child_is_system',
        'is_path_similar', 'parent_child_pair', 'parent_cmdline', 'child_cmdline'
    ]

    # 범주형/불리언 피처는 원-핫 인코딩 또는 그대로 사용
    proc_categorical_features = pd.get_dummies(new_proc_features[[
        'proc_relation_type', 'parent_is_system', 'child_is_system', 
        'is_path_similar', 'parent_child_pair'
    ]])
    feature_list.append(proc_categorical_features)
    print(f"-> 완료: 프로세스 관계 피처 {proc_categorical_features.shape[1]}개 생성.")

    # 부모/자식 CmdLine은 TF-IDF로 벡터화
    # tfidf_parent_cmd = TfidfVectorizer(max_features=30, prefix='pcmd_')
    tfidf_parent_cmd = TfidfVectorizer(max_features=30)
    parent_cmd_vectors = tfidf_parent_cmd.fit_transform(new_proc_features['parent_cmdline'].fillna(''))
    
    parent_cmd_df = pd.DataFrame(
        parent_cmd_vectors.toarray(),
        columns=[f"pcmd_{col}" for col in tfidf_parent_cmd.get_feature_names_out()]  # ← 접두어 직접 추가
    )
    feature_list.append(parent_cmd_df)

    # 자식 CmdLine TF-IDF
    # tfidf_child_cmd = TfidfVectorizer(max_features=30, prefix='ccmd_')
    tfidf_child_cmd = TfidfVectorizer(max_features=30)
    child_cmd_vectors = tfidf_child_cmd.fit_transform(new_proc_features['child_cmdline'].fillna(''))
    
    # child_cmd_df = pd.DataFrame(child_cmd_vectors.toarray(), columns=tfidf_child_cmd.get_feature_names_out())
        
    child_cmd_df = pd.DataFrame(
        child_cmd_vectors.toarray(),
        columns=[f"ccmd_{col}" for col in tfidf_child_cmd.get_feature_names_out()]  # ← 접두어 직접 추가
    )
    feature_list.append(child_cmd_df)

    print(f"-> 완료: 부모/자식 CmdLine 피처 {parent_cmd_df.shape[1] + child_cmd_df.shape[1]}개 생성.\n")
else:
    print("-> 경고: 'ResponseInfo_detect_terminateprocess' 컬럼이 없습니다.\n")


### 6. ResponseInfo_detect_terminateprocess 정보 피처 처리 시작 ###
-> 완료: 프로세스 관계 피처 30개 생성.
-> 완료: 부모/자식 CmdLine 피처 59개 생성.



### 최종 모든 feature dataframe 병합 및 저장

In [59]:
import pandas as pd
from IPython.display import display

print("### 7. 최종 피처 병합 ###")

# feature_list에 저장된 모든 피처 데이터프레임을 수평으로(axis=1) 합칩니다.
# 모든 피처가 feature_df와 동일한 인덱스(0, 1, 2...)를 기준으로 정렬되어 있습니다.
try:
    final_features_df = pd.concat(feature_list, axis=1)
    print(f"-> 완료: 모든 개별 피처 DataFrames 병합. (총 {final_features_df.shape[1]}개 피처)")

    # 모델 학습에 필요한 식별자, 레이블과 피처를 최종적으로 결합합니다.
    # (중요) 1단계에서 정렬/인덱스 리셋을 마친 feature_df에서 컬럼을 가져옵니다.
    key_columns = ['HostName', 'EventTime', 'threat_label_case_id', 'threat_label_verdict', 'threat_label_scenario']
    
    # feature_df에 실제 존재하는 키 컬럼만 선택합니다.
    existing_key_columns = [col for col in key_columns if col in feature_df.columns]
    
    # 정렬된 키 컬럼 + 피처 컬럼을 수평으로 결합
    final_model_input_df = pd.concat([
        feature_df[existing_key_columns].reset_index(drop=True), # 안전을 위해 인덱스 리셋
        final_features_df.reset_index(drop=True)
    ], axis=1)

    print(f"-> 완료: 최종 모델 입력 데이터프레임 생성. (shape: {final_model_input_df.shape})")
    print("\n최종 데이터프레임 샘플 (상위 5개):")
    display(final_model_input_df.head())
    
    # 다음 단계(모델 학습)를 위해 파일로 저장
    output_filename = "final_model_input.csv"
    final_model_input_df.to_csv(output_filename, index=False, encoding='utf-8-sig')
    print(f"\n✅ 모든 피처 엔지니어링 완료! '{output_filename}' 파일로 저장되었습니다.")

except ValueError as e:
    print(f"\n[오류] 피처 병합 중 문제가 발생했습니다: {e}")
    print("feature_list에 있는 DataFrame들의 행(row) 개수가 일치하는지 확인해주세요.")

### 7. 최종 피처 병합 ###
-> 완료: 모든 개별 피처 DataFrames 병합. (총 317개 피처)
-> 완료: 최종 모델 입력 데이터프레임 생성. (shape: (58, 322))

최종 데이터프레임 샘플 (상위 5개):


Unnamed: 0,HostName,EventTime,threat_label_case_id,threat_label_verdict,threat_label_scenario,time_diff_sec,EventType_file,EventType_network,EventType_process,EventType_registry,...,ccmd_start,ccmd_system,ccmd_system32,ccmd_t1036,ccmd_temp,ccmd_txt,ccmd_username,ccmd_users,ccmd_vbs,ccmd_windows
0,DESKTOP-PJUQHNC,1759308290516,INCIDENT-20251001-003,malicious,Indicator Removal - Stop terminal from logging...,0.0,True,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.579132,0.0,0.0
1,DESKTOP-PJUQHNC,1759308339416,INCIDENT-20251001-005,malicious,Indicator Removal - Prevent PowerShell history...,48.9,True,False,False,False,...,0.0,0.516622,0.187143,0.0,0.0,0.0,0.0,0.0,0.0,0.187143
2,DESKTOP-PJUQHNC,1759308455712,INCIDENT-20251001-004,malicious,Impair Defenses - Disable or Modify Security T...,116.296,True,False,False,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.492256,0.0,0.0
3,DESKTOP-PJUQHNC,1759308765584,INCIDENT-20251001-001,malicious,Ransomware,309.872,False,False,True,False,...,0.0,0.516622,0.187143,0.0,0.0,0.0,0.0,0.0,0.0,0.187143
4,DESKTOP-PJUQHNC,1759311540828,INCIDENT-20251001-008,malicious,Hide Artifacts - Create Hidden File with Attrib,2775.244,False,False,True,False,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0



✅ 모든 피처 엔지니어링 완료! 'final_model_input.csv' 파일로 저장되었습니다.


## MLP 기반 샴 네트워크

### traning

In [60]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from collections import defaultdict
import random
from tqdm import tqdm
import os

#### 1. hyper parameterst 설정

In [61]:
# -- 1. 하이퍼파라미터 설정 --
INPUT_FILE = "final_model_input.csv"
MODEL_OUTPUT_DIR = "model_checkpoint" # 모델 저장용 디렉터리
BEST_MODEL_NAME = "best_mlp_base_network.pth"

# 데이터 분리 비율
VAL_SPLIT_RATIO = 0.15
TEST_SPLIT_RATIO = 0.15

# 모델 파라미터
EMBEDDING_SIZE = 64  # 이벤트 벡터를 압축할 최종 차원 (64차원 '지문')
MARGIN = 2.0         # Contrastive Loss의 마진 값

# 훈련 파라미터
EPOCHS = 30          # 전체 데이터셋 반복 훈련 횟수
BATCH_SIZE = 32      # 한 번에 훈련시킬 페어(pair)의 개수
LEARNING_RATE = 0.001

#### 2. Pytorch 데이터셋 클래스 정의

In [62]:
class EventPairDataset(Dataset):
    """
    DataFrame을 직접 입력받아
    (이벤트 A, 이벤트 B, 레이블) 페어를 생성하는 클래스
    """
    def __init__(self, dataframe):
        # 1. 키 컬럼과 피처 컬럼 분리
        key_columns = ['HostName', 'EventTime', 'threat_label_case_id', 'threat_label_verdict', 'threat_label_scenario']
        existing_key_columns = [col for col in dataframe.columns if col in key_columns]
        feature_cols = [col for col in dataframe.columns if col not in existing_key_columns]
        
        # 2. 피처 데이터와 레이블(case_id) 저장
        self.features = dataframe[feature_cols].values.astype(np.float32)
        self.labels = dataframe['threat_label_case_id'].values
        
        # 3. Positive Pair를 빠르게 찾기 위한 맵(dict) 생성
        self.label_to_indices = defaultdict(list)
        for idx, label in enumerate(self.labels):
            self.label_to_indices[label].append(idx)
            
        self.unique_labels = list(self.label_to_indices.keys())

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, index):
        anchor_event = self.features[index]
        anchor_label = self.labels[index]
        
        if random.random() > 0.5:
            # Positive 페어 (Label = 1.0)
            positive_list = self.label_to_indices[anchor_label]
            if len(positive_list) == 1:
                positive_index = index
            else:
                # 자기 자신을 제외하고 랜덤 선택 (만약 자기 자신만 남으면 그냥 자기 자신)
                positive_index = random.choice([i for i in positive_list if i != index] or [index])
                
            pair_event = self.features[positive_index]
            label = 1.0
        else:
            # Negative 페어 (Label = 0.0)
            # 다른 case_id에서 랜덤하게 이벤트 선택
            negative_label = random.choice([l for l in self.unique_labels if l != anchor_label])
            negative_index = random.choice(self.label_to_indices[negative_label])
            
            pair_event = self.features[negative_index]
            label = 0.0
            
        return (
            torch.tensor(anchor_event, dtype=torch.float32),
            torch.tensor(pair_event, dtype=torch.float32),
            torch.tensor([label], dtype=torch.float32)
        )

#### 3. AI 모델 및 손실 함수 정의

In [63]:
class MlpBaseNetwork(nn.Module):
    """
    이벤트 벡터(1D)를 입력받아 임베딩 벡터(1D)를 출력하는 Base Network
    (LSTM이 아닌 MLP/FFN 구조)
    """
    def __init__(self, input_size, embedding_size):
        super(MlpBaseNetwork, self).__init__()
        self.network = nn.Sequential(
            nn.Linear(input_size, 256),
            nn.ReLU(),
            nn.BatchNorm1d(256), # 과적합 방지 및 안정화
            nn.Dropout(0.3),     # 과적합 방지
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.BatchNorm1d(128),
            nn.Dropout(0.3),
            nn.Linear(128, embedding_size) # 최종 '지문' 벡터
        )
    
    def forward(self, x_event):
        # x_event shape: (batch_size, input_size)
        embedding = self.network(x_event)
        return embedding

class SiameseNetwork(nn.Module):
    """
    두 개의 이벤트를 입력받는 샴 네트워크
    """
    def __init__(self, base_network):
        super(SiameseNetwork, self).__init__()
        self.base_network = base_network

    def forward(self, event1, event2):
        embedding1 = self.base_network(event1)
        embedding2 = self.base_network(event2)
        return embedding1, embedding2

class ContrastiveLoss(nn.Module):
    """
    대조 손실 함수
    Label=1 이면 거리를 가깝게, Label=0 이면 거리를 margin보다 멀게 학습
    """
    def __init__(self, margin=2.0):
        super(ContrastiveLoss, self).__init__()
        self.margin = margin
        self.eps = 1e-9 # 0으로 나누는 것을 방지

    def forward(self, output1, output2, label):
        # 유클리드 거리 계산
        euclidean_distance = nn.functional.pairwise_distance(output1, output2) + self.eps
        
        # Contrastive Loss 계산
        loss_contrastive = torch.mean(
            (label) * torch.pow(euclidean_distance, 2) +
            (1 - label) * torch.pow(torch.clamp(self.margin - euclidean_distance, min=0.0), 2)
        )
        return loss_contrastive

#### 4. 검증(Validation) 함수 정의

In [64]:
def validate(model, loader, criterion, device):
    """
    검증 데이터셋으로 모델의 손실(loss)을 평가하는 함수
    """
    model.eval() # 평가 모드 (Dropout, BatchNorm 비활성화)
    total_loss = 0
    with torch.no_grad(): # 기울기 계산 비활성화 (메모리 절약, 속도 향상)
        for anchor_event, pair_event, label in loader:
            anchor_event = anchor_event.to(device)
            pair_event = pair_event.to(device)
            label = label.to(device)
            
            output1, output2 = model(anchor_event, pair_event)
            loss = criterion(output1, output2, label)
            total_loss += loss.item()
            
    return total_loss / len(loader)

#### 피처 엔지니어링 도구 저장 
-> 학습 데이터 기준으로 fit된 모든 전처리기의 최종 컬럼 목록을 preprocessors.joblib 파일로 저장

In [65]:
import joblib
import os

In [66]:
print("### 8. (신규) 추론을 위한 피처 엔지니어링 도구 저장 ###")

# 1. 저장할 디렉터리 생성 (모델 저장 위치와 동일하게 사용)
MODEL_OUTPUT_DIR = "model_checkpoint" 
os.makedirs(MODEL_OUTPUT_DIR, exist_ok=True)

# 2. 전처리기 도구들을 딕셔너리에 수집
# (주의: 변수명은 Sagemaker 노트북의 각 셀에서 사용된 최종 변수명과 일치해야 합니다)
preprocessors = {}

try:
    # --- ES 조회 필드 목록 저장 ---
    if 'fields_to_include' in locals():
        preprocessors['fields_to_include'] = fields_to_include
    else:
        print("경고: 'fields_to_include' 변수를 찾을 수 없습니다.")

    # --- 3. 텍스트 피처 (CmdLine) ---
    if 'tfidf_vectorizer' in locals():
        preprocessors['cmdline_tfidf'] = tfidf_vectorizer

    # --- 4. 경로 피처 (ProcPath) ---
    if 'word_to_idx' in locals():
        preprocessors['path_word_to_idx'] = word_to_idx
        preprocessors['path_embedder_params'] = {
            'vocab_size': vocab_size,
            'embedding_dim': EMBEDDING_DIM,
            'hidden_dim': HIDDEN_DIM
        }

    # --- 5. ATT&CK 피처 (TacticID, TechniqueID) ---
    if 'attack_mlbs' in locals():
         preprocessors['attack_mlbs'] = attack_mlbs

    # --- 6. ResponseInfo 피처 ---
    if 'tfidf_parent_cmd' in locals():
        preprocessors['parent_cmd_tfidf'] = tfidf_parent_cmd
    if 'tfidf_child_cmd' in locals():
        preprocessors['child_cmd_tfidf'] = tfidf_child_cmd
    
    # --- 7. 최종 컬럼 목록 ---
    if 'final_features_df' in locals():
        preprocessors['final_feature_columns'] = final_features_df.columns.tolist()
    else:
        raise ValueError("final_features_df가 정의되지 않았습니다. 7단계가 정상 실행되었는지 확인하세요.")

    # 3. 파일로 저장
    preprocessor_path = os.path.join(MODEL_OUTPUT_DIR, "preprocessors.joblib")
    joblib.dump(preprocessors, preprocessor_path)
    
    print(f"✅ 전처리기 도구 저장 완료: {preprocessor_path}")
    print(f"저장된 항목: {list(preprocessors.keys())}")

except Exception as e:
    print(f"[오류] 전처리기 저장 중 문제 발생: {e}")
    print("-> 각 단계(3, 4, 5, 6, 7)의 변수명(tfidf_vectorizer, word_to_idx 등)이 올바른지 확인하세요.")



### 8. (신규) 추론을 위한 피처 엔지니어링 도구 저장 ###
✅ 전처리기 도구 저장 완료: model_checkpoint/preprocessors.joblib
저장된 항목: ['fields_to_include', 'cmdline_tfidf', 'path_word_to_idx', 'path_embedder_params', 'attack_mlbs', 'parent_cmd_tfidf', 'child_cmd_tfidf', 'final_feature_columns']


#### 5. 훈련(Training) 스크립트 실행

In [68]:
if __name__ == "__main__":
    
    # -- [핵심] 그룹(case_id) 기반 데이터 분리 --
    print(f"'{INPUT_FILE}' 파일 로드 및 그룹 기반 분리 시작...")
    df = pd.read_csv(INPUT_FILE)
    
    # 1. 고유한 case_id 리스트 추출
    unique_case_ids = df['threat_label_case_id'].unique()
    np.random.shuffle(unique_case_ids) # case_id 리스트를 섞음
    
    # 2. Test, Validation, Train 용 case_id 분리
    test_size = int(len(unique_case_ids) * TEST_SPLIT_RATIO)
    val_size = int(len(unique_case_ids) * VAL_SPLIT_RATIO)
    
    test_ids = unique_case_ids[:test_size]
    val_ids = unique_case_ids[test_size : test_size + val_size]
    train_ids = unique_case_ids[test_size + val_size:]
    
    # 3. case_id 리스트를 기준으로 DataFrame 분리
    train_df = df[df['threat_label_case_id'].isin(train_ids)]
    val_df = df[df['threat_label_case_id'].isin(val_ids)]
    test_df = df[df['threat_label_case_id'].isin(test_ids)]
    
    print("데이터 분리 완료:")
    print(f"  - Train Set: {len(train_ids)}개 Case ID, {len(train_df)}개 이벤트")
    print(f"  - Val Set  : {len(val_ids)}개 Case ID, {len(val_df)}개 이벤트")
    print(f"  - Test Set : {len(test_ids)}개 Case ID, {len(test_df)}개 이벤트")
    
    # 4. 데이터셋 및 데이터로더 준비
    train_dataset = EventPairDataset(dataframe=train_df)
    val_dataset = EventPairDataset(dataframe=val_df)
    # Test 데이터셋은 나중에 최종 평가 시 사용
    
    train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=0)
    val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False, num_workers=0)

    # 5. 모델, 손실함수, 옵티마이저 초기화
    INPUT_SIZE = train_dataset.features.shape[1] 
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"\n훈련 시작... Device: {device}")
    print(f"입력 피처 수: {INPUT_SIZE}, 임베딩 크기: {EMBEDDING_SIZE}\n")

    base_net = MlpBaseNetwork(INPUT_SIZE, EMBEDDING_SIZE).to(device)
    model = SiameseNetwork(base_net).to(device)
    criterion = ContrastiveLoss(margin=MARGIN).to(device)
    optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)
    
    # 모델 체크포인트 디렉터리 생성
    os.makedirs(MODEL_OUTPUT_DIR, exist_ok=True)
    best_model_path = os.path.join(MODEL_OUTPUT_DIR, BEST_MODEL_NAME)
    
    # 6. 훈련 루프 (검증 및 모델 저장 로직 추가)
    best_val_loss = float('inf') # 가장 낮은 검증 손실을 추적

    for epoch in range(EPOCHS):
        model.train() # 훈련 모드
        total_train_loss = 0
        
        for anchor_event, pair_event, label in tqdm(train_loader, desc=f"Epoch {epoch+1}/{EPOCHS} [Train]"):
            anchor_event, pair_event, label = anchor_event.to(device), pair_event.to(device), label.to(device)
            
            optimizer.zero_grad()
            output1, output2 = model(anchor_event, pair_event)
            loss = criterion(output1, output2, label)
            loss.backward()
            optimizer.step()
            total_train_loss += loss.item()
            
        avg_train_loss = total_train_loss / len(train_loader)
        
        # --- [검증 단계] ---
        avg_val_loss = validate(model, val_loader, criterion, device)
        
        print(f"Epoch {epoch+1}/{EPOCHS} 완료 | Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
        
        # --- [베스트 모델 저장] ---
        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            # (중요) 샴 네트워크(model)가 아닌 Base Network(base_net)의 가중치를 저장
            torch.save(base_net.state_dict(), best_model_path)
            print(f"  -> Validation Loss 개선! 베스트 모델 저장: {best_model_path}")

    print("\n🎉 훈련이 완료되었습니다!")
    print(f"가장 낮은 검증 손실(Best Val Loss): {best_val_loss:.4f}")

    # -- 7. 최종 Test Set 평가 (참고) --
    print("\n최종 Test Set으로 성능을 평가합니다...")
    # 저장된 베스트 모델 가중치를 로드
    final_base_net = MlpBaseNetwork(INPUT_SIZE, EMBEDDING_SIZE).to(device)
    final_base_net.load_state_dict(torch.load(best_model_path))
    final_model = SiameseNetwork(final_base_net).to(device)

    # Test 데이터로더 생성 및 평가
    test_dataset = EventPairDataset(dataframe=test_df)
    test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)
    
    final_test_loss = validate(final_model, test_loader, criterion, device)
    print(f"\n✅ 최종 Test Loss: {final_test_loss:.4f}")
    print("이것이 모델의 일반화 성능입니다.")

    print("\n--- [Test Set 그룹핑 결과 확인] ---")

    # 1. 필요한 라이브러리 임포트
    from sklearn.cluster import AgglomerativeClustering
    import pandas as pd
    from IPython.display import display
    
    # 2. 'final_base_net' (베스트 모델)을 평가 모드로 설정
    final_base_net.eval()
    
    # 3. Test DataFrame(test_df)에서 피처만 추출하여 텐서로 변환
    # (훈련/검증/테스트 분리 시 사용했던 key_columns를 다시 정의)
    key_columns = ['HostName', 'EventTime', 'threat_label_case_id', 'threat_label_verdict', 'threat_label_scenario']
    existing_key_columns = [col for col in test_df.columns if col in key_columns]
    feature_cols = [col for col in test_df.columns if col not in existing_key_columns]
    
    test_features_np = test_df[feature_cols].values.astype(np.float32)
    test_features_tensor = torch.tensor(test_features_np).to(device)
    
    print(f"Test Set 이벤트 {len(test_features_tensor)}개에 대한 임베딩 추출 중...")
    
    # 4. 모든 Test Set 이벤트의 임베딩을 한 번에 계산
    with torch.no_grad():
        all_embeddings = final_base_net(test_features_tensor)
        all_embeddings_np = all_embeddings.cpu().numpy()
    
    print("임베딩 추출 완료.")

    # 5. Scikit-learn을 사용한 클러스터링 (그룹핑)
    # AgglomerativeClustering: 임베딩 벡터 간의 거리를 기반으로 그룹을 묶음
    
    # distance_threshold: 이 거리(임계값) 내에 있는 벡터들은 같은 클러스터로 묶임
    # **[매우 중요]** 이 임계값은 모델의 학습 결과에 따라 사용자가 직접 조정해야 합니다.
    # 보통 MARGIN(2.0) 값의 50% ~ 75% 사이에서 시작하는 것이 좋습니다.
    # clustering_threshold = MARGIN * 0.75 # (예: 2.0 * 0.75 = 1.5)

    clustering_threshold = 0.8
    
    clustering = AgglomerativeClustering(
        n_clusters=None, # 클러스터 개수를 미리 정하지 않음
        distance_threshold=clustering_threshold, # 거리 임계값 기준으로 묶음
        metric='euclidean',
        linkage='average' # 클러스터 간의 '평균' 거리를 사용
    )
    
    predicted_labels = clustering.fit_predict(all_embeddings_np)

    # 6. 원본 DataFrame에 예측된 그룹핑 결과(predicted_cluster_id)를 추가
    results_df = test_df.copy()
    results_df['predicted_cluster_id'] = predicted_labels # 모델이 예측한 그룹 ID
    
    # 7. 결과 출력
    # 'predicted_cluster_id' (예측값)으로 먼저 정렬한 뒤, 'EventTime'으로 정렬
    results_df_sorted = results_df.sort_values(by=['predicted_cluster_id', 'EventTime'])
    
    print(f"\n--- [모델 그룹핑 결과 (임계값: {clustering_threshold:.2f})] ---")
    
    # 컬럼이 너무 많으면 보기 힘드므로, 핵심 컬럼만 선택
    display_columns = ['predicted_cluster_id', 'threat_label_case_id', 'EventTime', 'threat_label_scenario']
    available_display_columns = [col for col in display_columns if col in results_df.columns]
    
    # pandas가 모든 행을 출력하도록 설정
    with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
        print(results_df_sorted[available_display_columns])
        
    print("\n[결과 해석 가이드]")
    print(" - 'predicted_cluster_id'가 모델이 예측한 그룹입니다.")
    print(" - 'threat_label_case_id'가 실제 정답 그룹입니다.")
    print(" - **정답과 예측이 일치하는지** (예: predicted_cluster_id '3'에 case_id 'INCIDENT-XXX-010'만 있는지) 확인해보세요.")
    print(" - 만약 그룹이 너무 잘게 쪼개진다면 -> 'clustering_threshold' 값을 더 높여보세요 (예: 1.5 -> 1.8).")
    print(" - 만약 그룹이 너무 크게 하나로 묶인다면 -> 'clustering_threshold' 값을 더 낮춰보세요 (예: 1.5 -> 1.2).")

'final_model_input.csv' 파일 로드 및 그룹 기반 분리 시작...
데이터 분리 완료:
  - Train Set: 26개 Case ID, 36개 이벤트
  - Val Set  : 5개 Case ID, 12개 이벤트
  - Test Set : 5개 Case ID, 10개 이벤트

훈련 시작... Device: cpu
입력 피처 수: 317, 임베딩 크기: 64



Epoch 1/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 85.13it/s]


Epoch 1/30 완료 | Train Loss: 22.0550 | Val Loss: 705.1249
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 2/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 121.47it/s]


Epoch 2/30 완료 | Train Loss: 38.1176 | Val Loss: 533.5474
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 3/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 125.67it/s]


Epoch 3/30 완료 | Train Loss: 18.8339 | Val Loss: 421.4908
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 4/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 92.83it/s]


Epoch 4/30 완료 | Train Loss: 16.4985 | Val Loss: 607.2806


Epoch 5/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 116.06it/s]


Epoch 5/30 완료 | Train Loss: 10.7949 | Val Loss: 963.4202


Epoch 6/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 127.95it/s]


Epoch 6/30 완료 | Train Loss: 12.5174 | Val Loss: 187.4905
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 7/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 132.94it/s]


Epoch 7/30 완료 | Train Loss: 7.1945 | Val Loss: 95.0134
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 8/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 118.59it/s]


Epoch 8/30 완료 | Train Loss: 8.3254 | Val Loss: 97.9440


Epoch 9/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 84.87it/s]


Epoch 9/30 완료 | Train Loss: 16.3744 | Val Loss: 602.9628


Epoch 10/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 125.39it/s]


Epoch 10/30 완료 | Train Loss: 13.3937 | Val Loss: 671.3900


Epoch 11/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 138.20it/s]


Epoch 11/30 완료 | Train Loss: 23.1016 | Val Loss: 455.0936


Epoch 12/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 132.77it/s]


Epoch 12/30 완료 | Train Loss: 15.2436 | Val Loss: 264.0363


Epoch 13/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 135.42it/s]


Epoch 13/30 완료 | Train Loss: 18.7163 | Val Loss: 50.0028
  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 14/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 130.74it/s]


Epoch 14/30 완료 | Train Loss: 14.1319 | Val Loss: 199.1831


Epoch 15/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 134.53it/s]


Epoch 15/30 완료 | Train Loss: 5.3548 | Val Loss: 53.1447


Epoch 16/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 131.36it/s]


Epoch 16/30 완료 | Train Loss: 8.7092 | Val Loss: 65.5678


Epoch 17/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 146.67it/s]


Epoch 17/30 완료 | Train Loss: 19.0753 | Val Loss: 186.6539


Epoch 18/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 135.03it/s]


Epoch 18/30 완료 | Train Loss: 11.9317 | Val Loss: 52.0544


Epoch 19/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 136.65it/s]


Epoch 19/30 완료 | Train Loss: 11.2791 | Val Loss: 243.9752


Epoch 20/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 147.50it/s]


Epoch 20/30 완료 | Train Loss: 15.8209 | Val Loss: 80.8892


Epoch 21/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 96.50it/s]


Epoch 21/30 완료 | Train Loss: 11.2954 | Val Loss: 244.0966


Epoch 22/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 122.68it/s]


Epoch 22/30 완료 | Train Loss: 18.8246 | Val Loss: 93.9698


Epoch 23/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 101.60it/s]


Epoch 23/30 완료 | Train Loss: 16.5990 | Val Loss: 182.0208


Epoch 24/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 106.42it/s]

Epoch 24/30 완료 | Train Loss: 8.8108 | Val Loss: 49.8012





  -> Validation Loss 개선! 베스트 모델 저장: model_checkpoint/best_mlp_base_network.pth


Epoch 25/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 122.65it/s]


Epoch 25/30 완료 | Train Loss: 9.0995 | Val Loss: 191.3871


Epoch 26/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 130.80it/s]


Epoch 26/30 완료 | Train Loss: 9.8367 | Val Loss: 112.4034


Epoch 27/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 125.40it/s]


Epoch 27/30 완료 | Train Loss: 7.3790 | Val Loss: 67.7571


Epoch 28/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 133.99it/s]


Epoch 28/30 완료 | Train Loss: 6.9792 | Val Loss: 101.8444


Epoch 29/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 144.94it/s]


Epoch 29/30 완료 | Train Loss: 11.0977 | Val Loss: 124.9004


Epoch 30/30 [Train]: 100%|██████████| 2/2 [00:00<00:00, 128.80it/s]


Epoch 30/30 완료 | Train Loss: 12.7569 | Val Loss: 57.2597

🎉 훈련이 완료되었습니다!
가장 낮은 검증 손실(Best Val Loss): 49.8012

최종 Test Set으로 성능을 평가합니다...

✅ 최종 Test Loss: 3.6711
이것이 모델의 일반화 성능입니다.

--- [Test Set 그룹핑 결과 확인] ---
Test Set 이벤트 10개에 대한 임베딩 추출 중...
임베딩 추출 완료.

--- [모델 그룹핑 결과 (임계값: 0.80)] ---
    predicted_cluster_id   threat_label_case_id      EventTime                              threat_label_scenario
1                      0  INCIDENT-20251001-005  1759308339416  Indicator Removal - Prevent PowerShell history...
3                      0  INCIDENT-20251001-001  1759308765584                                         Ransomware
7                      0  INCIDENT-20251001-005  1759387591524  Indicator Removal - Prevent PowerShell history...
9                      0  INCIDENT-20251001-001  1759388257777                                         Ransomware
10                     0  INCIDENT-20251001-002  1759388362872  Command and Scripting Interpreter - PowerShell...
35                     0  INC

In [69]:
print("\n--- [Test Set 그룹핑 결과 확인] ---")

# 1. 필요한 라이브러리 임포트
from sklearn.cluster import AgglomerativeClustering
import pandas as pd
from IPython.display import display

# 2. 'final_base_net' (베스트 모델)을 평가 모드로 설정
final_base_net.eval()

# 3. Test DataFrame(test_df)에서 피처만 추출하여 텐서로 변환
# (훈련/검증/테스트 분리 시 사용했던 key_columns를 다시 정의)
key_columns = ['HostName', 'EventTime', 'threat_label_case_id', 'threat_label_verdict', 'threat_label_scenario']
existing_key_columns = [col for col in test_df.columns if col in key_columns]
feature_cols = [col for col in test_df.columns if col not in existing_key_columns]

test_features_np = test_df[feature_cols].values.astype(np.float32)
test_features_tensor = torch.tensor(test_features_np).to(device)

print(f"Test Set 이벤트 {len(test_features_tensor)}개에 대한 임베딩 추출 중...")

# 4. 모든 Test Set 이벤트의 임베딩을 한 번에 계산
with torch.no_grad():
    all_embeddings = final_base_net(test_features_tensor)
    all_embeddings_np = all_embeddings.cpu().numpy()

print("임베딩 추출 완료.")

# 5. Scikit-learn을 사용한 클러스터링 (그룹핑)
# AgglomerativeClustering: 임베딩 벡터 간의 거리를 기반으로 그룹을 묶음

# distance_threshold: 이 거리(임계값) 내에 있는 벡터들은 같은 클러스터로 묶임
# **[매우 중요]** 이 임계값은 모델의 학습 결과에 따라 사용자가 직접 조정해야 합니다.
# 보통 MARGIN(2.0) 값의 50% ~ 75% 사이에서 시작하는 것이 좋습니다.
clustering_threshold = MARGIN * 0.75 # (예: 2.0 * 0.75 = 1.5)

clustering = AgglomerativeClustering(
    n_clusters=None, # 클러스터 개수를 미리 정하지 않음
    distance_threshold=clustering_threshold, # 거리 임계값 기준으로 묶음
    metric='euclidean',
    linkage='average' # 클러스터 간의 '평균' 거리를 사용
)

predicted_labels = clustering.fit_predict(all_embeddings_np)

# 6. 원본 DataFrame에 예측된 그룹핑 결과(predicted_cluster_id)를 추가
results_df = test_df.copy()
results_df['predicted_cluster_id'] = predicted_labels # 모델이 예측한 그룹 ID

# 7. 결과 출력
# 'predicted_cluster_id' (예측값)으로 먼저 정렬한 뒤, 'EventTime'으로 정렬
results_df_sorted = results_df.sort_values(by=['predicted_cluster_id', 'EventTime'])

print(f"\n--- [모델 그룹핑 결과 (임계값: {clustering_threshold:.2f})] ---")

# 컬럼이 너무 많으면 보기 힘드므로, 핵심 컬럼만 선택
display_columns = ['predicted_cluster_id', 'threat_label_case_id', 'EventTime', 'threat_label_scenario']
available_display_columns = [col for col in display_columns if col in results_df.columns]

# pandas가 모든 행을 출력하도록 설정
with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
    print(results_df_sorted[available_display_columns])
    
print("\n[결과 해석 가이드]")
print(" - 'predicted_cluster_id'가 모델이 예측한 그룹입니다.")
print(" - 'threat_label_case_id'가 실제 정답 그룹입니다.")
print(" - **정답과 예측이 일치하는지** (예: predicted_cluster_id '3'에 case_id 'INCIDENT-XXX-010'만 있는지) 확인해보세요.")
print(" - 만약 그룹이 너무 잘게 쪼개진다면 -> 'clustering_threshold' 값을 더 높여보세요 (예: 1.5 -> 1.8).")
print(" - 만약 그룹이 너무 크게 하나로 묶인다면 -> 'clustering_threshold' 값을 더 낮춰보세요 (예: 1.5 -> 1.2).")


--- [Test Set 그룹핑 결과 확인] ---
Test Set 이벤트 10개에 대한 임베딩 추출 중...
임베딩 추출 완료.

--- [모델 그룹핑 결과 (임계값: 1.50)] ---
    predicted_cluster_id   threat_label_case_id      EventTime                              threat_label_scenario
1                      0  INCIDENT-20251001-005  1759308339416  Indicator Removal - Prevent PowerShell history...
3                      0  INCIDENT-20251001-001  1759308765584                                         Ransomware
7                      0  INCIDENT-20251001-005  1759387591524  Indicator Removal - Prevent PowerShell history...
9                      0  INCIDENT-20251001-001  1759388257777                                         Ransomware
10                     0  INCIDENT-20251001-002  1759388362872  Command and Scripting Interpreter - PowerShell...
35                     0  INCIDENT-20251003-024  1759471547834                                         Ransomware
37                     0  INCIDENT-20251003-024  1759471600787                                 