# 非結構化文件在 AI 中的挑戰  
*(The Challenge of Unstructured Documents in AI)*

世界上相當大部分的資訊，特別是在企業內部，存在於**非結構化文件**中。這些文件包括 PDF、Word 文件、簡報、電子郵件、掃描影像、網頁等。與整齊存放在資料庫中的結構化資料不同，非結構化文件為 AI 系統帶來許多挑戰。

![ai-challenges.png](attachment:95e5930b-ddda-44f4-be85-d13e7be2db1a.png)

### 多樣化的格式 (Diverse Formats)
每種文件類型都有各自的內部結構與編碼，使得統一處理變得困難。

### 複雜的版面設計 (Complex Layouts)
文件常包含多欄排版、頁首、頁尾、表格、圖片、說明文字與註腳等。機器要理解正確的閱讀順序及這些元素之間的關係並不容易。

### 嵌入式的豐富內容 (Embedded Rich Content)
表格、圖表、圖片，甚至手寫筆記都很常見。若要正確回答問題，必須準確抽取並理解這些內容。

### 掃描與影像型文件 (Scanned and Image-based Content)
許多舊文件僅以掃描影像的形式存在，需要使用光學字元辨識（OCR）工具將影像轉換為可機器讀取的文字，但過程中可能引入錯誤。

### 語義上的歧義 (Semantic Ambiguity)
文字的含義高度依賴上下文，而文件的視覺呈現方式往往提供了額外線索，但在純文字抽取後可能會丟失。

# Docling

**Docling** 是一個開源的 Python 工具包與函式庫，用於解析與抽取各種多格式文件中的非結構化資料。其主要功能包括：

### 多格式解析 (Multi-Format Parsing)
能夠匯入多種文件格式（如 PDF、DOCX、XLSX、HTML 等），提供資料準備工作流程中的統一入口。

### 版面分析 (Layout Analysis)
具備進階 PDF 理解能力，包括頁面版面、閱讀順序、表格結構、程式碼、公式、影像分類等。  
Docling 可以準確偵測表格、解析表格的單元格結構，並以可用的格式抽取表格資料。

### OCR 整合 (OCR Integration)
對於掃描文件或內含文字的影像，Docling 可整合 OCR 引擎（如 Tesseract）將視覺資訊轉換為文字。

### 結構化輸出 (Structured Output)
能將文件轉換為豐富的結構化表示（`DoclingDocument` 物件），不僅保留文字，還包含版面配置、來源資訊與語意角色等中繼資料。  
此種結構化輸出對 AI 來說比純文字更有價值。

### 本地處理與高效能 (Local Processing & Efficiency)
設計為可在本地執行，確保資料隱私，並針對業界標準硬體進行效能最佳化。

### AI 生態系統整合 (AI Ecosystem Integration)
像 Docling 這類工具常能無縫整合至主流 AI 框架，例如 **IBM Data Prep Kit、LangChain、LlamaIndex**，簡化將資料準備好以供 LLM 流程（如 RAG）使用的過程。