In [1]:
import json, re, os, sys
from pathlib import Path
from typing import Dict, List, Optional, Tuple

sys.path.append(os.path.abspath("../src"))

import MappingLLVM_taxonomy as map_t

# パス設定
LABEL_JSONL = Path("../data/label_taxonomy.jsonl").resolve()
IR_ROOT = Path("../data/out_dir/taxonomy_llvm").resolve()

print(f"脆弱性データ: {LABEL_JSONL}")
print(f"LLVM-IRルート: {IR_ROOT}")

脆弱性データ: C:\Users\psych\Project\gnn-vuln\data\label_taxonomy.jsonl
LLVM-IRルート: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm


In [2]:
# 修正版で再検索
print("LLVM-IRファイルを検索")
ir_files_map = map_t.find_ir_files(IR_ROOT)

LLVM-IRファイルを検索
  116 -> basic-00001-med.ll
  117 -> basic-00001-min.ll
  119 -> basic-00002-large.ll
  120 -> basic-00002-med.ll
  121 -> basic-00002-min.ll
  123 -> basic-00003-large.ll
  124 -> basic-00003-med.ll
  125 -> basic-00003-min.ll
  127 -> basic-00004-large.ll
  128 -> basic-00004-med.ll
  129 -> basic-00004-min.ll
  131 -> basic-00005-large.ll
  132 -> basic-00005-med.ll
  133 -> basic-00005-min.ll
  135 -> basic-00006-large.ll
  136 -> basic-00006-med.ll
  137 -> basic-00006-min.ll
  139 -> basic-00007-large.ll
  140 -> basic-00007-med.ll
  141 -> basic-00007-min.ll
  143 -> basic-00008-large.ll
  144 -> basic-00008-med.ll
  145 -> basic-00008-min.ll
  147 -> basic-00009-large.ll
見つかったLLVM-IRファイル数: 24


In [3]:

# 脆弱性解析を実行
analysis_results = map_t.analyze_vulnerabilities(LABEL_JSONL, ir_files_map)

# JSONLファイルに保存
output_path = '../data/ir_taxonomy_mapping.jsonl'
output_file = map_t.save_to_jsonl(analysis_results,output_path)

処理対象の脆弱性: 24件
  116: 1ソース行 -> 4IR行
  117: 1ソース行 -> 4IR行
  119: 1ソース行 -> 5IR行
  120: 1ソース行 -> 5IR行
  121: 1ソース行 -> 5IR行
  123: 1ソース行 -> 4IR行
  124: 1ソース行 -> 4IR行
  125: 1ソース行 -> 4IR行
  127: 1ソース行 -> 4IR行
  128: 1ソース行 -> 4IR行
  129: 1ソース行 -> 4IR行
  131: 1ソース行 -> 4IR行
  132: 1ソース行 -> 4IR行
  133: 1ソース行 -> 4IR行
  135: 1ソース行 -> 4IR行
  136: 1ソース行 -> 4IR行
  137: 1ソース行 -> 4IR行
  139: 1ソース行 -> 4IR行
  140: 1ソース行 -> 4IR行
  141: 1ソース行 -> 4IR行
  143: 1ソース行 -> 4IR行
  144: 1ソース行 -> 4IR行
  145: 1ソース行 -> 4IR行
  147: 1ソース行 -> 4IR行
結果をJSONLファイルに保存しました: ..\data\ir_taxonomy_mapping.jsonl
総レコード数: 24


In [4]:
# 生成されたJSONLファイルの内容を確認
print("生成されたJSONLファイルの内容:")
print("=" * 60)

with open(output_file, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f, 1):
        print(f"レコード {i}:")
        data = json.loads(line.strip())
        print(f"  テストID: {data['test_id']}")
        print(f"  CWE-ID: {data['cwe_id']}")
        print(f"  ソース行: {data['source_lines']}")
        print(f"  IRファイル: {data['ir_file'] if data['ir_file'] else '未発見'}")
        print(f"  IR行: {data['ir_lines']}")
        print()

生成されたJSONLファイルの内容:
レコード 1:
  テストID: 116
  CWE-ID: CWE-119
  ソース行: [56]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm\116\src\basic-00001-med.ll
  IR行: [7, 16, 17, 18]

レコード 2:
  テストID: 117
  CWE-ID: CWE-119
  ソース行: [56]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm\117\src\basic-00001-min.ll
  IR行: [7, 16, 17, 18]

レコード 3:
  テストID: 119
  CWE-ID: CWE-119
  ソース行: [57]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm\119\src\basic-00002-large.ll
  IR行: [7, 17, 18, 19, 20]

レコード 4:
  テストID: 120
  CWE-ID: CWE-119
  ソース行: [57]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm\120\src\basic-00002-med.ll
  IR行: [7, 17, 18, 19, 20]

レコード 5:
  テストID: 121
  CWE-ID: CWE-119
  ソース行: [57]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\taxonomy_llvm\121\src\basic-00002-min.ll
  IR行: [7, 17, 18, 19, 20]

レコード 6:
  テストID: 123
  CWE-ID: CWE-119
  ソース行: [56]
  IRファイル: C:\Users\psych\Project\gnn-vuln\data\out_dir\

In [5]:
import MappingLLVM_juliet as map_j

LABEL_JSONL = Path("../data/label_juliet.jsonl").resolve()
IR_ROOT = Path("../data/out_dir/juliet_llvm").resolve()
print("LLVM-IRファイルを検索")
ir_files_map = map_j.find_ir_files(IR_ROOT)

LLVM-IRファイルを検索
[INFO] found IR combined.ll count: 98 (keys: 196)


In [6]:
results = map_j.analyze_vulnerabilities(LABEL_JSONL, ir_files_map)
map_j.save_to_jsonl(results, "../data/ir_juliet_mapping.jsonl")

[INFO] reading: C:\Users\psych\Project\gnn-vuln\data\label_juliet.jsonl
[MAP] TEST-ID=82110: src_lines=1 -> ir_lines=475
[MAP] TEST-ID=82111: src_lines=1 -> ir_lines=511
[MAP] TEST-ID=82112: src_lines=1 -> ir_lines=511
[MAP] TEST-ID=82113: src_lines=1 -> ir_lines=511
[MAP] TEST-ID=82114: src_lines=1 -> ir_lines=558
[MAP] TEST-ID=82115: src_lines=1 -> ir_lines=511
[MAP] TEST-ID=82116: src_lines=1 -> ir_lines=557
[MAP] TEST-ID=82117: src_lines=1 -> ir_lines=560
[MAP] TEST-ID=82118: src_lines=1 -> ir_lines=556
[MAP] TEST-ID=82119: src_lines=1 -> ir_lines=556
[MAP] TEST-ID=82120: src_lines=1 -> ir_lines=556
[MAP] TEST-ID=82121: src_lines=1 -> ir_lines=547
[MAP] TEST-ID=82122: src_lines=1 -> ir_lines=556
[MAP] TEST-ID=82123: src_lines=1 -> ir_lines=556
[MAP] TEST-ID=82124: src_lines=1 -> ir_lines=511
[MAP] TEST-ID=82125: src_lines=1 -> ir_lines=487
[MAP] TEST-ID=82126: src_lines=1 -> ir_lines=541
[MAP] TEST-ID=82127: src_lines=1 -> ir_lines=487
[MAP] TEST-ID=82128: src_lines=1 -> ir_lines=5

'..\\data\\ir_juliet_mapping.jsonl'