# PDF 文件萃取與向量化流程

## 資料處理流程
- 使用 OpenAI API 萃取 PDF 文件結構化內容
- 將結構化內容轉換為向量表示
- 使用 FAISS 建立向量資料庫儲存

## 步驟
1. PDF 內容萃取
    - 使用 OpenAI API 進行文本結構化
    - 將內容轉換為標準 JSON 格式
2. 向量化處理
    - 建立 FAISS 向量資料庫
    - 將文件內容轉換為向量
3. 資料儲存與索引
    - 儲存向量索引
    - 建立文件檢索機制


In [4]:
import  fitz
import os
import re
import json
from openai import OpenAI

def read_pdf(pdf_path):
    """讀取 PDF 檔案並依據文本頁數返回其內容"""
    page_content= []
    doc = fitz.open(pdf_path)
    for page_num, page in enumerate(doc):
        text = page.get_text()
        page_content.append({'page':page_num+1,'content':text})
    doc.close()
    return page_content

prompt_template = """
你是一個專業的文本標記助手，請根據以下文本內容，在適當的位置加上標記，並返回 **有效的 JSON 格式** 結果。
### 文本內容：
    {content}

### **請使用以下標記類型**
- `"TITLE"`：章節標題
- `"TEXT"`：正文
### **請確保**
1. **保持原始文本內容**，僅添加標記，不要修改任何文字。  
2. **每個段落作為一個獨立的區塊，標記為 `"TITLE"` 或 `"TEXT"`**。  
3. **若內容為標題，標記為 `"TITLE"`，其餘內容標記為 `"TEXT"`**。  
4. **`"TEXT"` 與 `"TITLE"` 內容需保持一致**，不可遺漏或刪減。  
5. **輸出結果必須是 JSON 格式**，且符合以下結構：  

```json
{{
    "document": [
        {{
            "type": "TITLE",
            "content": "標題文字"
        }},
        {{
            "type": "TEXT",
            "content": "正文內容..."
        }}
    ]
}}
"""


In [None]:
folder_path = '../pdf'
question_list = []
pdf_files = [f for f in os.listdir(folder_path) if f.lower().endswith('.pdf')]

api_key = ""
client = OpenAI(api_key=api_key)





In [6]:
data = []
for file_name in pdf_files:
    file_data = {
        "file_name": file_name,
        "pages": []
    }
    pdf_content = read_pdf(folder_path + '/' + file_name)
    for page in pdf_content:
        # Remove header text
        page['content'] = page['content'].replace('臺灣學術網路危機處理中心(TACERT) \nTANet Computer Emergency Response Team  ','')
        
        # Create prompt and get completion
        prompt = prompt_template.format(content=page['content'])
        completion = client.chat.completions.create(
            model="gpt-4o",
            temperature=0.2,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        
        # Parse JSON response
        json_str = completion.choices[0].message.content.strip().strip('```json\n').strip('```')
        parsed_json = json.loads(json_str)
        
        # Add page data
        page_data = {
            "page_number": page['page'],
            "content": parsed_json
        }
        file_data["pages"].append(page_data) 
    data.append(file_data)


# Save data to JSON file with proper formatting
with open('unstracted_pdf.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)



# 向量化處理流程

In [8]:
with open('unstracted_pdf.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

processed_data = []

for file in data:
    file_name = file['file_name']
    current_title = ''
    current_content = []
    file_content = []
    page_numbers = set()  # Using set to track unique page numbers
    section_page_numbers = set()  # Track pages for current section

    for page in file['pages']:
        current_page = page['page_number']
        
        for item in page['content']['document']:
            if item['type'] == 'TITLE':
                # If we have a previous section, save it with its page numbers
                if current_title and current_content:
                    file_content.append({
                        'content':  "".join(current_content),
                        'Page_Num': list(section_page_numbers)  # Convert set to list
                    })             
                # Start new section
                current_title = item['content']
                current_content = [item['content']]
                section_page_numbers = {current_page}  # Initialize with current page
            else:
                current_content.append(item['content'])
                section_page_numbers.add(current_page)

    # Don't forget to add the last section
    if current_title and current_content:
        file_content.append({
            'content': "".join(current_content),
            'Page_Num': list(section_page_numbers)
        })
    
    processed_data.append({
        'file_name': file_name,
        'sections': file_content
    })



In [9]:
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss
# 初始化嵌入模型
embed_model = SentenceTransformer("BAAI/bge-m3")
EMBEDDING_DIM = 1024  # **請根據你的 embedding 模型改變這個數值**
index = faiss.IndexFlatL2(EMBEDDING_DIM)  # L2 距離索引
faiss_metadata = {}


for pdf_file in processed_data:
    file_name = pdf_file['file_name']
    for idx, chunk in enumerate(pdf_file['sections']):
        text = chunk["content"]

        
        # **🚀 計算 embedding 並存入 cache**
        embedding = embed_model.encode(text).astype(np.float32)

        # **🚀 儲存 metadata**
        data.append({
            "File_Name": file_name,
            "content": text,
            "Page_Num": ','.join(str(p) for p in chunk["Page_Num"])
        })
        index.add(np.array([embedding]))  # 加入 FAISS
        faiss_metadata[len(faiss_metadata)] = data[-1]  # FAISS ID 對應 metadata
    
faiss.write_index(index, "faiss_element_chunk_index.idx")
with open("faiss_element_chunk_metadata.json", "w", encoding="utf-8") as f:
    json.dump(faiss_metadata, f, ensure_ascii=False, indent=4)

  from .autonotebook import tqdm as notebook_tqdm
