**載入基本套件**

In [1]:
import  fitz
from sentence_transformers import SentenceTransformer
import os
import re
import json
from openai import OpenAI

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
def read_pdf(pdf_path):
    """讀取 PDF 檔案並依據文本頁數返回其內容"""
    page_content= []
    doc = fitz.open(pdf_path)
    for page_num, page in enumerate(doc):
        text = page.get_text()
        page_content.append({'page':page_num+1,'content':text})
    doc.close()
    return page_content


### 提示樣板說明

此模板用於生成基於文本內容的問答對，要求如下：

1. **問題類型要求**
    - 模擬真實場景使用者問題
    - 避免名詞解釋型問題
    - 問題須基於文本內容

2. **答案規範**
    - 必須來自原文內容
    - 可直接引用或摘錄
    - 禁止改寫或推測

3. **輸出格式**
    ```json
    {
      {"question": "問題1", "answer": "答案1"},
      {"question": "問題2", "answer": "答案2"}
    }
    ```
    
    若無法產生問題則返回：
    ```json
    {}
    ```

4. **其他要求**
    - 問題數量應與文本資訊量相匹配
    - 僅返回 JSON 格式，無需額外說明

In [None]:
prompt_template = '''    請根據以下文本內容，產生使用者在真實情境下可能會遇到的問題與答案，並以 JSON 格式輸出。
    ### 文本內容：
    {content}

    ### 輸出要求：
    1. **問題應模擬真實場景下使用者可能會問的內容**，例如當有人需要處理資安通報、評估影響程度或判斷應變措施時可能會問的問題。
    3. **問題應基於文本內容，並且答案可以在文本中找到具體對應的解釋**，不得捏造或推測資訊。
    4. **答案必須來自原文內容，可直接引用或適當摘錄**，不得改寫、推測或延伸答案。
    5. 若有問題可產生，請返回 JSON 格式：
       ```json
       {{
         "QA": [
           {{"question": "問題1", "answer": "答案1"}},
           {{"question": "問題2", "answer": "答案2"}},
           ...
         ]
       }}
       ```
    6. **若文本無法產生符合要求的問題，請回傳：**
       ```json
       {{}}
       ```
    7. 產生的問題數量應與文本資訊量相匹配，不固定數量。
    8. **僅返回 JSON 格式**，請勿添加額外說明、註解或解釋。

    請依據上述要求生成對應的 JSON 結果。'''

print(prompt_template.format(content="測試"))

    請根據以下文本內容，產生使用者在真實情境下可能會遇到的問題與答案，並以 JSON 格式輸出。
    ### 文本內容：
    測試

    ### 輸出要求：
    1. **問題應模擬真實場景下使用者可能會問的內容**，例如當有人需要處理資安通報、評估影響程度或判斷應變措施時可能會問的問題。
    2. **避免產生名詞解釋型問題**（例如「什麼是資安通報？」、「資安事件等級是什麼？」）。
    3. **問題應基於文本內容，並且答案可以在文本中找到具體對應的解釋**，不得捏造或推測資訊。
    4. **答案必須來自原文內容，可直接引用或適當摘錄**，不得改寫、推測或延伸答案。
    5. 若有問題可產生，請返回 JSON 格式：
       ```json
       {
         "QA": [
           {"question": "問題1", "answer": "答案1"},
           {"question": "問題2", "answer": "答案2"},
           ...
         ]
       }
       ```
    6. **若文本無法產生符合要求的問題，請回傳：**
       ```json
       {}
       ```
    7. 產生的問題數量應與文本資訊量相匹配，不固定數量。
    8. **僅返回 JSON 格式**，請勿添加額外說明、註解或解釋。

    請依據上述要求生成對應的 JSON 結果。


**生成問題**

In [None]:
folder_path ="../pdf/CERT"
question_list = []
pdf_files = [f for f in os.listdir(folder_path) if f.lower().endswith('.pdf')]
api_key = "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"
client = OpenAI(api_key=api_key)  
for file_name in pdf_files : 
    data = read_pdf(folder_path+'/'+file_name)
    for page in data :
        prompt = prompt_template.format(content=page['content'])
        completion = client.chat.completions.create(
            model="gpt-4o-mini",
            temperature=0.1, 
            messages=[
                {"role": "system", "content": 
                    "你是一個專析文件產生高品質 QA 的助手。"
                    "你的目標是基於使用者提供的惡意文件文本內容，產生真實情境下可能會遇到的問題與答案，並確保答案完全來自文件。"
                    "請遵守以下規則："
                    "1. **問題必須來自文章內容**，不可發明或推測資訊。"
                    "4. **答案應該完整且可以直接從文章中找到**，不得改寫或推測。"
                    "5 **所有產生的問題中必須包含使用者實際處理惡意文件時可能遇到的情境且泛用性高的內容**"
                    "7. 只回傳 JSON 格式的 QA 結果，不要添加額外的說明或解釋。"
                },
                {"role": "user", "content": prompt}
            ]
        )
        data = completion.choices[0].message.content.strip()
        # Use regex to extract valid JSON content
        json_pattern = r'\{[\s\S]*\}'
        json_match = re.search(json_pattern, data)
        if json_match:
            data = json_match.group()
        temp = ""
        try :   
            temp = json.loads(data)
        except :
            print(data)
        if(temp) : 
            QA_list = temp['QA']
            for QA in QA_list :
                QA['File_Name'] = file_name
                QA['Page_Num'] = page['page']
                print(QA)
                question_list.append(QA)
         

{'question': '如何判斷一個Word文檔是否可能散播Locky病毒？', 'answer': '利用DDE散播Locky病毒的Word文檔事件分析報告', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 1}
{'question': '在處理Locky病毒事件時，應該參考哪個機構的報告？', 'answer': '臺灣學術網路危機處理中心團隊(TACERT)製106年12月', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 1}
{'question': '在2017年10月，駭客是如何散布惡意程式的？', 'answer': '駭客濫用微軟Windows中的動態資料交換（Dynamic Data Exchange，DDE）協定來散布惡意程式。', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 2}
{'question': 'Locky勒索病毒在2017年9月產生了什麼新的變種？', 'answer': 'Locky勒索病毒在2017年9月產生一個新的以「.YKCOL」為副檔名的Locky變種病毒。', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 2}
{'question': '本中心是如何進行Locky變種病毒的攻擊與感染過程分析的？', 'answer': '本中心在取得樣本後進行分析。', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 2}
{'question': '本案檢測使用了什麼樣的環境進行測試？', 'answer': '使用3台Windows 7的VM虛擬主機進行隔離環境測試，並且設定一些網路共用資料夾與網路磁碟機。', 'File_Name': '個案分析-透過DDE攻擊的無檔案式Locky變種病毒事件分析報告.pdf', 'Page_Num': 2}
{'question': '如何判斷受害主機是否會下載惡意程式？

**儲存問題**

In [19]:
print(len(question_list))

with open('pdf_malware_questions.json', 'w', encoding='utf-8') as f:
    json.dump(question_list, f, ensure_ascii=False, indent=4)

4404
