In [19]:
import pdfplumber
import re
import pandas as pd

In [20]:
def clean_text(text):
    if not text: return ""
    # Nối các từ bị ngắt dòng (Ví dụ: "chiến-\nthắng" -> "chiến thắng")
    text = re.sub(r'(?<=[^\n])\n(?=[a-zà-ỹ])', ' ', text)
    return text

In [21]:
chapter10_pdf_path = "data/Lịch sử Việt Nam - Tập 10 - Từ năm 1945 đến năm 1950 (tái bản lần 1) - PGS TS NCVCC Đinh Thị Thu Cúc (Chủ biên).pdf"
chapter11_pdf_path = "data/Lịch sử Việt Nam - Tập 11 - Từ năm 1951 đến năm 1954 (tái bản lần 1) - PGS TS NCVCC Nguyễn Văn Nhật (Chủ biên).pdf"
chapter12_pdf_path = "data/Lịch sử Việt Nam - Tập 12 - Từ năm 1954 đến năm 1965 - PGS TS NCVCC Trần Đức Cường (Chủ biên).pdf"
chapter13_pdf_path = "data/Lịch sử Việt Nam - Tập 13 - Từ năm 1965 đến năm 1975 (tái bản lần 1) - PGS TS NCVCC Nguyễn Văn Nhật (Chủ biên).pdf"

In [22]:
def extract_pdf_content(pdf_path, output_path):
    print(f"Đang xử lý: {pdf_path}")
    full_content = []

    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            page_content = f"\n\n--- Page {i+1} ---\n\n"
            
            text = page.extract_text()
            if text:
                cleaned = clean_text(text)
                page_content += cleaned
            
            full_content.append(page_content)

    # Lưu kết quả
    with open(output_path, "w", encoding="utf-8") as f:
        f.write("".join(full_content))
    print(f"Hoàn tất! Đã lưu tại {output_path}")

In [23]:
extract_pdf_content(chapter10_pdf_path, "cleaned_chapter10.md")

Đang xử lý: data/Lịch sử Việt Nam - Tập 10 - Từ năm 1945 đến năm 1950 (tái bản lần 1) - PGS TS NCVCC Đinh Thị Thu Cúc (Chủ biên).pdf
Hoàn tất! Đã lưu tại cleaned_chapter10.md


Thêm header

In [32]:
with open("cleaned_chapter10.md", "r", encoding="utf-8") as f:
    chapter10_text = f.read()

# Tìm và thay thế các trang có header "LỊCH SỬ VIỆT NAM - TẬP 10"
modified_text = chapter10_text
for m in re.finditer(r'--- Page (\d+) ---\n\nLỊCH SỪ VIỆT NAM - TẬP 10', chapter10_text):
    page_num = m.group(1)
    old_section = m.group(0)
    new_section = f"--- Page {page_num} ---\n\n<header>\nLỊCH SỬ VIỆT NAM - TẬP 10\n</header>"
    modified_text = modified_text.replace(old_section, new_section, 1)
    print(f"Đã thêm <header> vào Page {page_num}")

# Lưu lại file
with open("cleaned_chapter10.md", "w", encoding="utf-8") as f:
    f.write(modified_text)
    
print("Hoàn tất!")

Đã thêm <header> vào Page 12
Đã thêm <header> vào Page 20
Đã thêm <header> vào Page 24
Đã thêm <header> vào Page 26
Đã thêm <header> vào Page 38
Đã thêm <header> vào Page 40
Đã thêm <header> vào Page 46
Đã thêm <header> vào Page 48
Đã thêm <header> vào Page 52
Đã thêm <header> vào Page 54
Đã thêm <header> vào Page 58
Đã thêm <header> vào Page 62
Đã thêm <header> vào Page 64
Đã thêm <header> vào Page 66
Đã thêm <header> vào Page 70
Đã thêm <header> vào Page 72
Đã thêm <header> vào Page 76
Đã thêm <header> vào Page 82
Đã thêm <header> vào Page 90
Đã thêm <header> vào Page 92
Đã thêm <header> vào Page 98
Đã thêm <header> vào Page 100
Đã thêm <header> vào Page 104
Đã thêm <header> vào Page 108
Đã thêm <header> vào Page 116
Đã thêm <header> vào Page 120
Đã thêm <header> vào Page 122
Đã thêm <header> vào Page 126
Đã thêm <header> vào Page 132
Đã thêm <header> vào Page 136
Đã thêm <header> vào Page 138
Đã thêm <header> vào Page 142
Đã thêm <header> vào Page 146
Đã thêm <header> vào Page 152
Đ

In [48]:
with open("cleaned_chapter10.md", "r", encoding="utf-8") as f:
    chapter10_text = f.read()

# Tìm và thay thế các trang có header "LỊCH SỬ VIỆT NAM - TẬP 10"
modified_text = chapter10_text
for m in re.finditer(r'--- Page (\d+) ---\n\n.{4,10}. Việt Nam dân chủ cộng hòa xây dựng..', chapter10_text):
    page_num = m.group(1)
    old_section = m.group(0)
    new_section = f"--- Page {page_num} ---\n\n<header>\nChương VI. Việt Nam dân chủ cộng hòa xây dựng..\n</header>"
    modified_text = modified_text.replace(old_section, new_section, 1)
    print(f"Đã thêm <header> vào Page {page_num}")

# Lưu lại file
with open("cleaned_chapter10.md", "w", encoding="utf-8") as f:
    f.write(modified_text)
    
print("Xong")

Đã thêm <header> vào Page 429
Đã thêm <header> vào Page 431
Đã thêm <header> vào Page 433
Đã thêm <header> vào Page 435
Đã thêm <header> vào Page 437
Đã thêm <header> vào Page 441
Đã thêm <header> vào Page 443
Đã thêm <header> vào Page 445
Đã thêm <header> vào Page 447
Đã thêm <header> vào Page 449
Đã thêm <header> vào Page 451
Đã thêm <header> vào Page 453
Đã thêm <header> vào Page 455
Đã thêm <header> vào Page 457
Đã thêm <header> vào Page 459
Đã thêm <header> vào Page 461
Đã thêm <header> vào Page 463
Đã thêm <header> vào Page 465
Đã thêm <header> vào Page 467
Đã thêm <header> vào Page 469
Đã thêm <header> vào Page 471
Đã thêm <header> vào Page 473
Đã thêm <header> vào Page 475
Đã thêm <header> vào Page 477
Đã thêm <header> vào Page 479
Đã thêm <header> vào Page 481
Đã thêm <header> vào Page 483
Đã thêm <header> vào Page 485
Đã thêm <header> vào Page 487
Đã thêm <header> vào Page 489
Đã thêm <header> vào Page 491
Đã thêm <header> vào Page 493
Đã thêm <header> vào Page 495
Đã thêm <h