In [None]:
%pip install python-docx

In [None]:
from docx import Document

def clean_word_remove_footer(input_path, output_path):
    # Mở tài liệu Word
    doc = Document(input_path)
    
    for section in doc.sections:
        # Xóa nội dung trong footer
        for paragraph in section.footer.paragraphs:
            paragraph.text = ""  # Làm trống nội dung
        
        # Xóa nội dung trong header (nếu cần)
        for paragraph in section.header.paragraphs:
            paragraph.text = ""  # Làm trống nội dung
    
    # Lưu tài liệu đã làm sạch
    doc.save(output_path)
    print(f"Footer và Header đã được làm trống. Tệp mới lưu tại: {output_path}")

# Sử dụng
clean_word_remove_footer("QUỐC HỘI.docx", "52.2014.QH13_clean.docx")


In [None]:
from docx import Document

def clean_word_based_on_keywords(input_path, output_path, keywords_to_remove_start, keywords_to_remove_end):
    """
    Xóa các phần đầu và cuối tài liệu dựa trên từ khóa xác định.
    
    input_path: Đường dẫn file gốc (.docx)
    output_path: Đường dẫn file kết quả (.docx)
    keywords_to_remove_start: Danh sách từ khóa để xác định phần đầu không liên quan.
    keywords_to_remove_end: Danh sách từ khóa để xác định phần cuối không liên quan.
    """
    doc = Document(input_path)
    paragraphs = doc.paragraphs
    new_doc = Document()

    # Tìm và loại bỏ các phần đầu không liên quan
    start_index = 0
    for i, paragraph in enumerate(paragraphs):
        if any(keyword in paragraph.text for keyword in keywords_to_remove_start):
            start_index = i + 1  # Bắt đầu từ đoạn sau phần đầu không liên quan
        else:
            break

    # Tìm và loại bỏ các phần cuối không liên quan
    end_index = len(paragraphs)
    for i, paragraph in enumerate(reversed(paragraphs)):
        if any(keyword in paragraph.text for keyword in keywords_to_remove_end):
            end_index = len(paragraphs) - i - 1  # Dừng lại ở đoạn trước phần cuối không liên quan
        else:
            break

    # Thêm các đoạn văn còn lại vào tài liệu mới
    for i, paragraph in enumerate(paragraphs[start_index:end_index]):
        new_doc.add_paragraph(paragraph.text)

    # Lưu tài liệu đã làm sạch
    new_doc.save(output_path)
    print(f"Đã làm sạch tài liệu. Tệp lưu tại: {output_path}")

# Sử dụng:
keywords_to_remove_start = ["Cộng hòa xã hội chủ nghĩa Việt Nam", "Quốc hội", "Chủ tịch"]
keywords_to_remove_end = ["Chữ ký", "Phê duyệt", "Chủ tịch"]

clean_word_based_on_keywords(
    "QUỐC HỘI.docx",
    "52.2014.QH13_clean.docx",
    keywords_to_remove_start=keywords_to_remove_start,
    keywords_to_remove_end=keywords_to_remove_end
)