In [5]:
import os
import re
import PyPDF2

In [3]:
!pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
Installing collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [27]:
def extract_text_from_pdf(pdf_path):
    """Trích xuất toàn bộ văn bản từ file PDF"""
    text = ""
    with open(pdf_path, "rb") as f:
        pdf_reader = PyPDF2.PdfReader(f)
        for page in pdf_reader.pages:
            page_text = page.extract_text()
            if page_text:
                text += page_text + "\n"
    return text

In [43]:
#Sửa lỗi văn bản 
def sanitize_filename(filename):
    """Làm sạch tên file để tránh lỗi khi lưu"""
    filename = filename.replace("\n", " ").replace(" ", "_")
    filename = re.sub(r'[^\w\s-]', '', filename).strip("_")
    return filename

In [45]:
def split_into_chapters(text):
    chapter_pattern = r'(Chương\s+[IVXLC\d]+)'
    parts = re.split(chapter_pattern, text)
    chapters = []
    for i in range(0, len(parts), 2):
        chapter_label = sanitize_filename(parts[i].strip())
        chapter_content = parts[i+1].strip() if i+1 <(parts) else ""
        chapters.aappend((chapter_label, chapter_content))
    return chapters

In [47]:
def split_chapter_into_articles(chapter_text):
    """Tách từng Chương thành các Điều luật"""
    article_pattern = r'(Điều\s+\d+)'
    parts = re.split(article_pattern, chapter_text)
    articles = []
    
    if len(parts) == 1:
        articles.append(("Toàn_Chương", chapter_text))
        return articles
    
    if parts[0].strip():
        articles.append(("Giới_thiệu_chương", parts[0].strip()))
    
    for i in range(1, len(parts), 2):
        article_label = sanitize_filename(parts[i].strip())
        article_content = parts[i+1].strip() if i+1 < len(parts) else ""
        articles.append((article_label, article_content))
    
    return articles

In [49]:
def process_pdf_file(pdf_file, output_folder):
    """
    Xử lý file PDF đơn lẻ:
      - Trích xuất nội dung.
      - Tạo folder cho bộ luật dựa trên tên file PDF (sau khi làm sạch).
      - Lưu toàn bộ nội dung vào một file *_full.txt.
      - Tách nội dung thành các chương và bên trong tách thành các Điều, lưu thành các file riêng.
    """
    # Lấy tên file (không bao gồm phần mở rộng) và làm sạch
    law_name = os.path.splitext(os.path.basename(pdf_file))[0]
    law_folder = os.path.join(output_folder, sanitize_filename(law_name))
    if not os.path.exists(law_folder):
        os.makedirs(law_folder)
    
    # Trích xuất nội dung từ PDF
    full_text = extract_text_from_pdf(pdf_file)
    
    # Lưu toàn bộ nội dung của bộ luật thành file *_full.txt
    full_text_path = os.path.join(law_folder, f"{sanitize_filename(law_name)}_full.txt")
    with open(full_text_path, "w", encoding="utf-8") as f:
        f.write(full_text)
    
    # Tách theo chương
    chapters = split_into_chapters(full_text)
    for chapter_label, chapter_content in chapters:
        chapter_folder = os.path.join(law_folder, chapter_label)
        if not os.path.exists(chapter_folder):
            os.makedirs(chapter_folder)
        
        # Tách từng chương thành các Điều và lưu thành file riêng
        articles = split_chapter_into_articles(chapter_content)
        for article_label, article_content in articles:
            if not article_label:
                article_label = "Unlabeled"
            file_name = f"{article_label}.txt"
            file_path = os.path.join(chapter_folder, file_name)
            with open(file_path, "w", encoding="utf-8") as f:
                f.write(article_content)
            print(f"Lưu file: {file_path}")

In [51]:
def process_all_pdf_files(input_folder, output_folder):
    """
    Duyệt qua tất cả các file PDF trong thư mục input_folder (bao gồm cả thư mục con)
    và xử lý từng file bằng hàm process_pdf_file.
    """
    for root, dirs, files in os.walk(input_folder):
        for file in files:
            if file.lower().endswith(".pdf"):
                pdf_path = os.path.join(root, file)
                print(f"Đang xử lý file: {pdf_path}")
                try:
                    process_pdf_file(pdf_path, output_folder)
                except Exception as e:
                    print(f"Lỗi khi xử lý {pdf_path}: {e}")

In [58]:
def test_pdf_file_handling(pdf_path):
    """Kiểm tra việc xử lý file PDF có lỗi dữ liệu không."""
    try:
        with open(pdf_path, "rb") as f:
            pdf_reader = PyPDF2.PdfReader(f)
            for page in pdf_reader.pages:
                print(page.extract_text())
    except Exception as e:
        print(f"Lỗi trong file PDF: {e}")

input_folder = r"law_prediction-master\data_crawl"
for root, dirs, files in os.walk(input_folder):
    for file in files:
        if file.endswith(".pdf"):
            pdf_path = os.path.join(root, file)
            print(f"Đang kiểm tra file: {pdf_path}")
            test_pdf_file_handling(pdf_path)

In [60]:
input_folder = "law_prediction-master/law_prediction-master/data_crawl" 
output_folder = "data_train"  
if not os.path.exists(output_folder):
    os.makedirs(output_folder)    
process_all_pdf_files(input_folder, output_folder)

Đang xử lý file: law_prediction-master/law_prediction-master/data_crawl\bo_luat_dan_su\bo_luat_dan_su.pdf
Lỗi khi xử lý law_prediction-master/law_prediction-master/data_crawl\bo_luat_dan_su\bo_luat_dan_su.pdf: '<' not supported between instances of 'int' and 'list'
Đang xử lý file: law_prediction-master/law_prediction-master/data_crawl\bo_luat_to_tung_hinh_su\to_tung_hinh_su.pdf
Lỗi khi xử lý law_prediction-master/law_prediction-master/data_crawl\bo_luat_to_tung_hinh_su\to_tung_hinh_su.pdf: '<' not supported between instances of 'int' and 'list'
