In [None]:
#Tạo đường dẫn chung để đọc utils
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

In [None]:
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTTextLine, LTChar
from pypdf import PdfReader
from utils.load_chunks_json import load_chunks_from_json
from utils.save_chunks_json import save_chunks_to_json
from utils.bm25 import bm25_tokenize, text_to_sparse_vector_bm25

from sentence_transformers import SentenceTransformer
from rank_bm25 import BM25Okapi

import unicodedata
import torch
import numpy as np
import re

# ***Chunk văn bản***

In [49]:
def get_text_size_TrietHoc(pdf_path, total_pages):
    '''
        Hàm được sử dụng để kiểm tra xem toàn bộ các size text có trong tài liệu, chuẩn bị cho việc chunking
        Các tham số:
            - pdf_path: đường dẫn đến file pdf của môn Lịch sử đảng
        
        Hàm sẽ trả về 1 set chứa toàn bộ các text_size của tài liệu
    '''
    #Duyệt qua từng trang trong file pdf, bắt đầu từ trang 2 (bỏ qua trang bìa)
    size_set = set()
    for page_layout in extract_pages(pdf_path, page_numbers=range(2, total_pages)):
        
        #Duyệt qua từng phần tử trong trang
        for element in page_layout:
            if isinstance(element, LTTextContainer):

                # Duyet qua từng dòng chữ trong phần tử
                for text_line in element:
                    if isinstance(text_line, LTTextLine):
                        
                        #Lấy ra từng kí tự bên trong dòng chữ
                        for obj in text_line:
                            if isinstance(obj, LTChar):

                                #Lấy ra thông tin của kí tự
                                font = obj.fontname
                                text = obj.get_text()
                                text_size = obj.size

                                size_set.add(text_size)
    
    return size_set

# Xây dựng các hàm cần thiết cho quá trình xử lý văn bản

In [50]:
def parse_line(line):
    """
    Tách định danh và tiêu đề từ các dòng đề mục.

    Ví dụ:
    - 'Phần II  Những nguyên lý...' → ('Phần II', 'Những nguyên lý...')
    - 'Chương V  Vật chất...'       → ('Chương V', 'Vật chất...')
    - 'II- Nguồn gốc...'            → ('II-', 'Nguồn gốc...')
    - '3. Kết cấu...'               → ('3.', 'Kết cấu...')
    - 'b) Theo chiều sâu...'        → ('b)', 'Theo chiều sâu...')

    Nếu không khớp, trả về ('None', original_line)
    """

    line = line.strip()

    pattern = re.compile(
        r"""^
        (
            (Phần|Chương)\s+[IVXLCDM\d]+            # Phần II, Chương V
            |
            [IVXLCDM]+[-\.]                         # II- hoặc II.
            |
            \d+[\.\)]                               # 3. hoặc 3)
            |
            [a-zA-Z][\.\)]                          # a) hoặc A.
        )
        \s+(.+)                                     # phần còn lại là tiêu đề
        """, re.VERBOSE | re.IGNORECASE
    )

    match = pattern.match(line)
    if match:
        number = match.group(1).strip().rstrip(".-)")  # loại . - )
        title = match.group(3).strip()
        return number, title
    else:
        return "", line

In [51]:
def normalize_text(text):
    """
    Chuyển chuỗi thành lowercase, xóa dấu, và xóa toàn bộ khoảng trắng.
    """
    # Lowercase
    text = text.lower()

    # Bỏ dấu
    text = unicodedata.normalize('NFD', text)
    text = ''.join(c for c in text if unicodedata.category(c) != 'Mn')

    # Xóa toàn bộ khoảng trắng (space, tab, newline)
    text = re.sub(r'\s+', '', text)

    return text

In [52]:
#Hàm dùng để nhận thông tin từ raw chunks, chuyển đổi sang DENSE vector để chuẩn bị nạp vào Database
def TrietHoc_raw_to_dense(part, chapter, section, subsection, sub_subsection, content, model, max_chars = 2048):

    #Tách các đề mục sang số mục và tiêu đề
    part_number, part_title = parse_line(part)
    chapter_number, chapter_title = parse_line(chapter)
    section_number, section_title = parse_line(section)
    subsection_number, subsection_title = parse_line(subsection)
    sub_subsection_number, sub_subsection_title = parse_line(sub_subsection)

    chunk_type = 'EXERCISES' if ("Câu hỏi ôn tập" in section or "câu hỏi ôn tập" in section) else 'THEORY'

    from langchain.text_splitter import RecursiveCharacterTextSplitter

    splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=300,
        separators=["\n\n", "\n", ".", " ", ""]
    )
    content_chunks = splitter.split_text(content)

    result = []
    for i, content_piece in enumerate(content_chunks):
        chunk = {
            "id": f"TrietHoc_{normalize_text(part_number) if part_number else 0}_{normalize_text(chapter_number) if chapter_number else 0}_{section_number if section_number else 0}_{subsection_number if section_number else 0}_{sub_subsection_number if sub_subsection_number else 0}_{i}",
            "values": model.encode(content).tolist(),
            "metadata": {
                "subject": "Triết học Mác_Lênin",
                "part": part_number,
                "part_title": part_title,
                "chapter": chapter_number,
                "chapter_title": chapter_title,
                "section": section_number,
                "section_title": section_title,
                "subsection": subsection_number,
                "subsection_title": subsection_title,
                "sub_subsection": sub_subsection_number,
                "sub_subsection_title": sub_subsection_title,
                "content": content_piece,
                "tokens": len(content_piece),
                "type": chunk_type
            }
        }
        result.append(chunk)

    return result

In [54]:
#Hàm dùng để nhận thông tin từ raw chunks, chuyển đổi sang SPARSE vector để chuẩn bị nạp vào Database
def TrietHoc_raw_to_sparse(part, chapter, section, subsection, sub_subsection, content, bm25 = None, vocabluary = None, max_chars = 2048):

    #Tách các đề mục sang số mục và tiêu đề
    part_number, part_title = parse_line(part)
    chapter_number, chapter_title = parse_line(chapter)
    section_number, section_title = parse_line(section)
    subsection_number, subsection_title = parse_line(subsection)
    sub_subsection_number, sub_subsection_title = parse_line(sub_subsection)

    chunk_type = 'EXERCISES' if ("Câu hỏi ôn tập" in section or "câu hỏi ôn tập" in section) else 'THEORY'

    from langchain.text_splitter import RecursiveCharacterTextSplitter

    splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chars,
        chunk_overlap=300,
        separators=["\n\n", "\n", ".", " ", ""]
    )
    content_chunks = splitter.split_text(content)

    result = []
    for i, content_piece in enumerate(content_chunks):
        chunk = {
            "id": f"TrietHoc_{normalize_text(part_number) if part_number else 0}_{normalize_text(chapter_number) if chapter_number else 0}_{section_number if section_number else 0}_{subsection_number if section_number else 0}_{sub_subsection_number if sub_subsection_number else 0}_{i}",
            "sparse_values": text_to_sparse_vector_bm25(content_piece.strip(), bm25, vocabluary),
            "metadata": {
                "subject": "Triết học Mác_Lênin",
                "part": part_number,
                "part_title": part_title,
                "chapter": chapter_number,
                "chapter_title": chapter_title,
                "section": section_number,
                "section_title": section_title,
                "subsection": subsection_number,
                "subsection_title": subsection_title,
                "sub_subsection": sub_subsection_number,
                "sub_subsection_title": sub_subsection_title,
                "content": content_piece,
                "tokens": len(content_piece),
                "type": chunk_type
            }
        }
        result.append(chunk)

    return result

# Xử lý tách văn bản thành các chunks

In [55]:
#Phân chia các tiêu đề
SUBSECTION_PATTERN = re.compile(r"^\s*\d+[\.\)]")    # 1. hoặc 2)
SUBSECTION_PATTERN_CHAP2 = re.compile(r"^\s*[IVX]+-", re.IGNORECASE)   # 1. hoặc 2)
SUB_SUBSECTION_PATTERN = re.compile(r"^\s*[a-zA-Z][\.\)]")  # a), b.

In [56]:
#Hàm đung để kiểm tra xem tiêu đề hiện tại có phải sub section không
def is_subsection(line_chars, chapter_title):
    line = ''.join([obj.get_text() for obj in line_chars]).strip()
    if "Chương II  " in chapter_title:
        return bool(SUBSECTION_PATTERN_CHAP2.match(line))
    return bool(SUBSECTION_PATTERN.match(line))

#Hàm đung để kiểm tra xem tiêu đề hiện tại có phải subsub section không
def is_sub_subsection(line_chars, chapter_title):
    line = ''.join([obj.get_text() for obj in line_chars]).strip()
    if "Chương II " in chapter_title:
        return bool(SUBSECTION_PATTERN.match(line))
    return bool(SUB_SUBSECTION_PATTERN.match(line))

#Hàm đung để kiểm tra xem hiện tại có phải câu hỏi ôn tập hay không
def is_questions(line_chars):
    line = ''.join([obj.get_text() for obj in line_chars]).strip()
    return ("Câu hỏi ôn tập" in line or "câu hỏi ôn tập" in line)

In [57]:
#Hàm dùng để trả về diction chứa các phần raw_chunks của môn Triết Học
def get_raw_chunks(pdf_path, total_pages):
    is_content = False

    chunk_list = []

    part_title = curr_content_line =  ""
    chapter_title = curr_content_line =  ""
    section_title = curr_content_line =  ""
    subsection_title = curr_content_line =  ""
    sub_subsection_title = curr_content_line =  ""
    curr_content_line = curr_content_line =  ""

    for page_layout in extract_pages(pdf_path, page_numbers=range(3, total_pages)):
        
        #Duyệt qua từng phần tử trong trang
        for element in page_layout:
            if isinstance(element, LTTextContainer):

                # Duyet qua từng dòng chữ trong phần tử
                for text_line in element:
                    if isinstance(text_line, LTTextLine):

                        line_chars = [obj for obj in text_line if isinstance(obj, LTChar)]
                        
                        for i, obj in enumerate(line_chars):
                            font = obj.fontname
                            text = obj.get_text()
                            text_size = obj.size

                            #Xử lý các phần lớn
                            if text_size >= 22 :
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    part_title = chapter_title = section_title = subsection_title = sub_subsection_title = curr_content_line =  ""
                                
                                if i == len(line_chars) - 1:
                                    part_title = part_title + text + " "
                                else:   
                                    part_title += text
                            
                            #Xử lý các chương lớn
                            elif text_size == 18:
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    chapter_title = section_title = subsection_title = sub_subsection_title = curr_content_line =  ""
                                
                                if i == len(line_chars) - 1:
                                    chapter_title = chapter_title + text + " "
                                else:   
                                    chapter_title += text

                            #Xử lý các mục I, II, III,...
                            #Trong chương 2 thì đây sẽ là các phần A, B, C lớn (Dobe)
                            elif 13.5 < text_size < 14:
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    section_title = subsection_title = sub_subsection_title = curr_content_line =  ""
                                
                                if i == len(line_chars) - 1:
                                    section_title = section_title + text + " "
                                else:   
                                    section_title += text

                            #Xử lý phần câu hỏi ôn tập ở mỗi chương (Được xem là 1 mục trong chương)
                            if is_questions(line_chars):
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    section_title = subsection_title = sub_subsection_title = curr_content_line =  ""
                                
                                if i == len(line_chars) - 1:
                                    section_title = section_title + text + " "
                                else:   
                                    section_title += text

                            #Xử lý các mục con như 1, 2, 3
                            #Trong chương 2 thì đây sẽ là các phần I, II, III la mã
                            elif 13 <= text_size <= 13.1 and is_subsection(line_chars, chapter_title):
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    subsection_title = sub_subsection_title = curr_content_line =  ""

                                if i == len(line_chars) - 1:
                                    subsection_title = subsection_title + text + " "
                                else:   
                                    subsection_title += text

                            #Xử lý các mục con như a, b, c,..
                            #Trong chương 2 thì đây sẽ là các phần 1, 2, 3
                            elif 13 <= text_size <= 13.1 and is_sub_subsection(line_chars, chapter_title):
                                if is_content:
                                    
                                    chunk_list.append({
                                        "part": part_title,
                                        "chapter": chapter_title,
                                        "section": section_title,
                                        "sub_section": subsection_title,
                                        "sub_subsection": sub_subsection_title,
                                        "content": curr_content_line
                                    })
                                    is_content = False
                                    sub_subsection_title = curr_content_line =  ""

                                if i == len(line_chars) - 1:
                                    sub_subsection_title = sub_subsection_title + text + " "
                                else:   
                                    sub_subsection_title += text

                            # Xử lý các trường hợp nội dung còn lại
                            elif 11.6 <= text_size < 12.4:
                                is_content = True
                                if i == len(line_chars) - 1:
                                    curr_content_line = curr_content_line + text + " "
                                else:   
                                    curr_content_line += text
    if is_content:
        
        chunk_list.append({
            "part": part_title,
            "chapter": chapter_title,
            "section": section_title,
            "sub_section": subsection_title,
            "sub_subsection": sub_subsection_title,
            "content": curr_content_line
        })
    
    return chunk_list

# ***Tạo ra Dense Vector và Sparse Vector từ Raw***

## Tạo Dense Vector

In [58]:
def chunk_with_embedding(raw_chunks, embedding_model):
    """
    Nhận vào danh sách raw_chunks, sau đó gọi hàm split_chunk_langchain để xử lý nhỏ ra và thêm embedding nếu cần.
    """
    final_chunks = []
    for chunk in raw_chunks:
        split_chunks = TrietHoc_raw_to_dense(
            chunk['part'],
            chunk['chapter'],
            chunk['section'],
            chunk['sub_section'],
            chunk['sub_subsection'],
            chunk['content'],
            max_chars=2048,
            model=embedding_model
        )
        final_chunks.extend(split_chunks)

    return final_chunks

## Tạo Sparse Vector

In [59]:
def chunk_with_sparse(raw_chunks, bm25, vocabulary):
    """
    Nhận vào danh sách raw_chunks, sau đó gọi hàm split_chunk_langchain để xử lý nhỏ ra và thêm embedding nếu cần.
    """
    final_chunks = []
    for chunk in raw_chunks:
        split_chunks = TrietHoc_raw_to_sparse(
            chunk['part'],
            chunk['chapter'],
            chunk['section'],
            chunk['sub_section'],
            chunk['sub_subsection'],
            chunk['content'],
            bm25=bm25,
            vocabluary=vocabulary
        )
        final_chunks.extend(split_chunks)

    return final_chunks

# ***Tạo các file json cần thiết***

# ***Main***

In [None]:
pdf_path = "./Triet_Hoc.pdf"

# Lấy số trang trong file PDF
reader = PdfReader(pdf_path)
total_pages = len(reader.pages)
print("Số trang trong PDF:", total_pages)

# Lấy ra toàn bộ fontsize của file PDF
# size_set = get_text_size_TrietHoc(pdf_path, total_pages)
# print(size_set)

# - Phân loại các nội dung (Format của môn Triết học sẽ theo thứ tự: Phần -> Chương -> I, II, III,... -> 1, 2,... -> a, b, c,....):
#     - Kích thước chữ >= 22: Các phần và tiêu đề của các phần đó
#     - Kích thước chữ == 18: Chương và các tiêu đề của Chương
#     - Kích thước chữ == 14 (> 13.5 and < 14): Các mục I, II, III (Có thể là ABC đối với chương II và 123 đói với chương IV)
#     - Kích thước chữ == 13 (13 <= text_size < 13.1): Các mục con như 1, 2, 3,... (Đối với chương 2 sẽ là I, II, III,...) và các mục nhỏ hơn như a, b, c....
#     - Kích thước chữ == 12 (11.6 <= text_size < 12,4): Nội dung của môn

# Đọc file PDF, chuyển qua RAW chunks
TrietHoc_raw_chunks = get_raw_chunks(pdf_path, total_pages)

# # Đưa RAW chunks vào chuyển đổi sang Dense Vector
# embedding_model = SentenceTransformer("AITeamVN/Vietnamese_Embedding")
# embedding_model.max_seq_length = 2048
# TrietHoc_dense_vector = chunk_with_embedding(TrietHoc_raw_chunks, embedding_model)

# # Đưa RAW chunks vào chuyển đổi sang Sparse Vector
# corpus_texts = [chunk["content"] for chunk in TrietHoc_raw_chunks]
# tokenized_corpus = [bm25_tokenize(text) for text in corpus_texts]
# bm25 = BM25Okapi(tokenized_corpus)
# vocabulary = list(bm25.idf.keys())
# TrietHoc_sparse_vector = chunk_with_sparse(TrietHoc_raw_chunks, bm25, vocabulary)


# #Lưu các Vector vừa tạo được vào file Json

# Lưu RAW vào JSON
save_chunks_to_json(TrietHoc_raw_chunks, r"./TrietHoc_Raw.json")
# # Lưu Dense Vector
# save_chunks_to_json(TrietHoc_dense_vector, r"./TrietHoc_Dense.json")
# # Lưu Sparse Vector
# save_chunks_to_json(TrietHoc_sparse_vector, r"./TrietHoc_Sparse.json")                    

# Đọc file Json 
TrietHoc_raw_vector = load_chunks_from_json(r"./TrietHoc_Raw.json")
TrietHoc_dense_vector = load_chunks_from_json(r"./TrietHoc_Dense.json")
TrietHoc_sparse_vector = load_chunks_from_json(r"./TrietHoc_Sparse.json")

parsing for Object Streams


Số trang trong PDF: 215
✅ Đã lưu 207 chunks vào: ./TrietHoc_Raw.json
