# PDF 文件萃取與向量化流程

## 資料處理流程
- 使用 OpenAI API 萃取 PDF 文件結構化內容
- 將結構化內容轉換為向量表示
- 使用 FAISS 建立向量資料庫儲存

## 步驟
1. PDF 內容萃取
    - 使用 OpenAI API 進行文本結構化
    - 將內容轉換為標準 JSON 格式
2. 向量化處理
    - 建立 FAISS 向量資料庫
    - 將文件內容轉換為向量
3. 資料儲存與索引
    - 儲存向量索引
    - 建立文件檢索機制


In [1]:
import  fitz
import os
import re
import json
from openai import OpenAI

def read_pdf(pdf_path):
    """讀取 PDF 檔案並依據文本頁數返回其內容"""
    page_content= []
    doc = fitz.open(pdf_path)
    for page_num, page in enumerate(doc):
        text = page.get_text()
        page_content.append({'page':page_num+1,'content':text})
    doc.close()
    return page_content

prompt_template = """
你是一個專業的文本標記助手，請根據以下文本內容，在適當的位置加上標記，並返回 **有效的 JSON 格式** 結果。
### 文本內容：
    {content}
### **請使用以下標記類型**
- `"TITLE"`：章節標題
- `"TEXT"`：正文
- `"TABLE"`：表格（表格應以 JSON 陣列表示，每一行包含 `label` 和 `value`）

### **請確保**
1. **保持原始文本內容**，僅添加標記，不要修改任何文字。
2. **輸出結果必須是 JSON 格式**，**不能包含額外的說明**。
3. **JSON 結構必須符合以下格式**：
```json
{{
    "document": [
        {{
            "type": "TITLE",
            "content": "標題文字"
        }},
        {{
            "type": "TEXT",
            "content": "正文內容..."
        }},
        {{
            "type": "TABLE",
            "content": [
                {{
                    "label": "欄位名稱",
                    "value": "對應值"
                }}
            ]
        }}
    ]
}}
"""


In [2]:
folder_path = '../pdf'
question_list = []
pdf_files = [f for f in os.listdir(folder_path) if f.lower().endswith('.pdf')]

api_key = "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"
client = OpenAI(api_key=api_key)





In [3]:
data = []
for file_name in pdf_files:
    file_data = {
        "file_name": file_name,
        "pages": []
    }
    pdf_content = read_pdf(folder_path + '/' + file_name)
    for page in pdf_content:
        # Remove header text
        page['content'] = page['content'].replace('臺灣學術網路危機處理中心(TACERT) \nTANet Computer Emergency Response Team  ','')
        
        # Create prompt and get completion
        prompt = prompt_template.format(content=page['content'])
        completion = client.chat.completions.create(
            model="gpt-4o",
            temperature=0.2,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        
        # Parse JSON response
        json_str = completion.choices[0].message.content.strip().strip('```json\n').strip('```')
        parsed_json = json.loads(json_str)
        
        # Add page data
        page_data = {
            "page_number": page['page'],
            "content": parsed_json
        }
        file_data["pages"].append(page_data) 
    data.append(file_data)


# Save data to JSON file with proper formatting
with open('unstracted_pdf.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)



# 向量化處理流程

In [None]:
with open('unstracted_pdf.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

processed_data = []

for file in data:
    file_name = file['file_name']
    current_title = ''
    current_content = []
    file_content = []
    page_numbers = set()  # Using set to track unique page numbers
    section_page_numbers = set()  # Track pages for current section

    for page in file['pages']:
        current_page = page['page_number']
        
        for item in page['content']['document']:
            if item['type'] == 'TITLE':
                # If we have a previous section, save it with its page numbers
                if current_title and current_content:
                    file_content.append({
                        'content':  "".join(current_content),
                        'Page_Num': list(section_page_numbers)  # Convert set to list
                    })
                
                # Start new section
                current_title = item['content']
                current_content = [item['content']]
                section_page_numbers = {current_page}  # Initialize with current page
                
            elif item['type'] == 'TABLE':
                temp = item['content'] 
                for tablelist in temp:
                    current_content.append(str(tablelist['label']) + str(tablelist['value']))
                section_page_numbers.add(current_page)
            else:
                current_content.append(item['content'])
                section_page_numbers.add(current_page)

    # Don't forget to add the last section
    if current_title and current_content:
        file_content.append({
            'content': "".join(current_content),
            'Page_Num': list(section_page_numbers)
        })
    
    processed_data.append({
        'file_name': file_name,
        'sections': file_content
    })


print(processed_data[11])

{'file_name': 'TACERT資安窗口常見問題 .pdf', 'sections': [{'content': ['TACERT 資安窗口常見問題'], 'Page_Num': [1]}, {'content': ['⚫ 密碼變更、重設失敗： TACERT 會進後台人工重設密碼，連同OID 一起寄信回覆。 校方須提供完整校名或OID，以及Email，使得TACERT 查詢、重設密碼與提供資訊給對方。 「請提供本中心貴單位全名/OID，以及Email，謝謝您。」'], 'Page_Num': [1]}, {'content': ['⚫ 事件單等級、內容調整： 因送出後學校無法調整內容，由TACERT 依照要求進後台調整。 「請提供本中心欲調整之事件單編號，以及欲調整之內容，謝謝您。」'], 'Page_Num': [1]}, {'content': ['⚫ 事件單錯誤重派、刪除問題： TACERT 進後台重新輸入正確OID 並重派，或是把工單刪除。 「請提供本中心錯誤事件單之編號，以及有問題之內容，謝謝您。」'], 'Page_Num': [1]}, {'content': ['⚫ HITCON 修補回報： 學校方告知漏洞編號，並由TACERT 進入HITCON 後台更改漏洞狀態。 「請確認HITCON 之漏洞詳情頁面，若該漏洞上方發信單位為TACERT 台灣學術網路危機處理中心，即可由本中心調整漏洞狀態為已修補，再請提供本中心HITCON 漏洞編號，謝謝您。」'], 'Page_Num': [1]}, {'content': ['⚫ HITCON 帳號遺失、申請組織帳號問題： HITCON 將漏洞所屬權派給校方，因帳號遺失或沒有組織帳號，無法自行更改，會由本中心寄信通知HITCON 修改漏洞狀態，或是請學校申請一個組織帳號並驗證，通過後自行更改漏洞狀態。討論過後可請學校自行通知HITCON，或是將HITCON 聯繫方式告訴校方。 「由於HITCON官方會優先將漏洞權限派發給有HITCON平台帳號的單位，因此本中心無法更改漏洞的狀態，也無法從後台查詢到此漏洞，需使用貴單位的HITCON 帳號，才有權限將漏洞狀態更改為已修補。因此有以下建議方式： 1. 重新創辦貴單位之HITCON 帳號，並申請組織帳號，申請組織帳號後可自行新增或移除共同管理組織帳號的使用者