In [4]:
import pymupdf4llm
md_text = pymupdf4llm.to_markdown("../.docsource/truongbokinh.pdf")

Processing ../.docsource/truongbokinh.pdf...


In [6]:
import pathlib
pathlib.Path("output/kinhtruongbo.md").write_bytes(md_text.encode())


1845901

bây giờ clear text, dùng tay để clean

In [8]:
# -*- coding: utf-8 -*-
# Import các thư viện cần thiết
import re
import os
from slugify import slugify # Thư viện để tạo slug thân thiện với URL/tên file

# --- Cấu hình ---
input_file = 'output/kinhtruongbo.md' # Tên file markdown nguồn
output_dir = 'output/kinhtruongbo/'       # Thư mục để lưu các file đã chia
encoding = 'utf-8'               # Encoding của file
number_padding = 3               # Số ký tự cho phần số (vd: 3 -> 001, 024)

# --- Logic xử lý ---

# Tạo thư mục output nếu chưa tồn tại
os.makedirs(output_dir, exist_ok=True)
print(f"Thư mục output: '{output_dir}'")

# Biến để lưu trữ file đang ghi và nội dung
current_file_handle = None
current_filename = None
file_count = 0

# Biểu thức chính quy để tìm dòng tiêu đề bài kinh
# ####\s+(\d+)\.\s+(.*)
# - ^####: Bắt đầu bằng ####
# - \s+: Theo sau bởi một hoặc nhiều khoảng trắng
# - (\d+): Nhóm 1: Một hoặc nhiều chữ số (số thứ tự bài kinh)
# - \.: Dấu chấm literal
# - \s+: Theo sau bởi một hoặc nhiều khoảng trắng
# - (.*): Nhóm 2: Bất kỳ ký tự nào cho đến cuối dòng (tên bài kinh)
pattern = re.compile(r'^####\s+(\d+)\.\s+(.*)', re.IGNORECASE)

try:
    with open(input_file, 'r', encoding=encoding) as infile:
        print(f"Đang đọc file: '{input_file}'...")
        for line in infile:
            match = pattern.match(line)
            if match:
                # Nếu tìm thấy dòng tiêu đề mới
                file_count += 1

                # Đóng file cũ nếu đang mở
                if current_file_handle:
                    current_file_handle.close()
                    print(f" -> Đã ghi xong: '{current_filename}'")

                # Lấy thông tin từ kết quả khớp regex
                kinh_num_str = match.group(1)
                kinh_title_raw = match.group(2).strip()

                # Tạo tên file slug
                padded_num = kinh_num_str.zfill(number_padding)
                slug_title = slugify(kinh_title_raw)
                filename = f"{padded_num}-{slug_title}.md"
                filepath = os.path.join(output_dir, filename)

                # Mở file mới để ghi
                print(f"\n{file_count}. Tìm thấy bài kinh: '{kinh_title_raw}' - Đang tạo file: '{filename}'...", end='')
                current_filename = filename
                current_file_handle = open(filepath, 'w', encoding=encoding)

            # Ghi dòng hiện tại vào file đang mở (nếu có)
            if current_file_handle:
                current_file_handle.write(line)

    # Đóng file cuối cùng sau khi kết thúc vòng lặp
    if current_file_handle:
        current_file_handle.close()
        print(f" -> Đã ghi xong: '{current_filename}'")

    print(f"\nHoàn tất! Đã chia thành công {file_count} file trong thư mục '{output_dir}'.")

except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy file '{input_file}'. Vui lòng kiểm tra lại tên file và đường dẫn.")
except Exception as e:
    print(f"Đã xảy ra lỗi không mong muốn: {e}")
    # Đảm bảo đóng file nếu có lỗi xảy ra giữa chừng
    if current_file_handle and not current_file_handle.closed:
        current_file_handle.close()
        print(f"Đã đóng file '{current_filename}' do lỗi.")

Thư mục output: 'output/kinhtruongbo/'
Đang đọc file: 'output/kinhtruongbo.md'...

1. Tìm thấy bài kinh: 'KINH PHẠM VÕNG' - Đang tạo file: '001-kinh-pham-vong.md'... -> Đã ghi xong: '001-kinh-pham-vong.md'

2. Tìm thấy bài kinh: 'KINH SA MÔN QỦA' - Đang tạo file: '002-kinh-sa-mon-qua.md'... -> Đã ghi xong: '002-kinh-sa-mon-qua.md'

3. Tìm thấy bài kinh: 'KINH AMBATTHA (A-MA-TRÚ)' - Đang tạo file: '003-kinh-ambattha-a-ma-tru.md'... -> Đã ghi xong: '003-kinh-ambattha-a-ma-tru.md'

4. Tìm thấy bài kinh: 'KINH SONADANDA (CHỦNG ÐỨC)' - Đang tạo file: '004-kinh-sonadanda-chung-duc.md'... -> Đã ghi xong: '004-kinh-sonadanda-chung-duc.md'

5. Tìm thấy bài kinh: 'KINH KÙTADANTA (CỨU-LA-ÐÀN-ÐẦU)' - Đang tạo file: '005-kinh-kutadanta-cuu-la-dan-dau.md'... -> Đã ghi xong: '005-kinh-kutadanta-cuu-la-dan-dau.md'

6. Tìm thấy bài kinh: 'KINH MAHÀLI' - Đang tạo file: '006-kinh-mahali.md'... -> Đã ghi xong: '006-kinh-mahali.md'

7. Tìm thấy bài kinh: 'KINH JÀLIYA' - Đang tạo file: '007-kinh-jaliya.md'.

Vào tạo filelist 1make_filelist.ipynb