In [1]:
import fitz  # PyMuPDF 的匯入名稱為 fitz

def pdf_to_txt(pdf_path: str, txt_path: str):
    """
    doc: 將指定的 PDF 檔案內容轉換並儲存為 TXT 純文字檔案。
    
    Args:
        pdf_path (str): 輸入的 PDF 檔案路徑。
        txt_path (str): 輸出的 TXT 檔案路徑。
    """
    try:
        # doc: 使用 with fitz.open() 開啟 PDF 檔案，確保處理完畢後自動關閉。
        with fitz.open(pdf_path) as doc:
            # doc: 初始化一個空字串，用來存放所有頁面的文字。
            full_text = ""
            
            # doc: 逐頁讀取 PDF 內容。
            for page_num, page in enumerate(doc):
                # doc: 在每頁文字前加上頁碼標記，方便閱讀。
                full_text += f"--- PAGE {page_num + 1} ---\n\n"
                # doc: 使用 get_text() 方法提取目前頁面的純文字。
                full_text += page.get_text()
                full_text += "\n\n"
            
            # doc: 使用 with open() 將提取出的所有文字寫入指定的 TXT 檔案。
            # 'w' 代表寫入模式，encoding='utf-8' 確保能正確處理中文字元。
            with open(txt_path, 'w', encoding='utf-8') as txt_file:
                txt_file.write(full_text)
                
        print(f"成功將 '{pdf_path}' 轉換為 '{txt_path}'")
        
    except Exception as e:
        print(f"轉換過程中發生錯誤: {e}")

# doc: 這是程式碼的執行進入點，當您直接執行此 .py 檔時，下方的程式碼會被執行。
if __name__ == "__main__":
    # doc: 設定您要轉換的 PDF 檔案路徑。
    # 請將 'jasper_articles_combined.pdf' 放在與此 .py 檔相同的資料夾，或提供完整路徑。
    input_pdf_path = 'jasper_articles_combined.pdf'
    
    # doc: 設定轉換後要儲存的 TXT 檔案名稱與路徑。
    output_txt_path = 'output_converted_text.txt'
    
    # doc: 呼叫轉換函式。
    pdf_to_txt(input_pdf_path, output_txt_path)

成功將 'jasper_articles_combined.pdf' 轉換為 'output_converted_text.txt'
