In [1]:
import tiktoken

# Chọn encoding cho GPT-4 hoặc GPT-3.5
encoding = tiktoken.encoding_for_model("gpt-4")

text = "Xin chào, tôi là ChatGPT!"
tokens = encoding.encode(text)

print("Số token:", len(tokens))
print("Danh sách token:", tokens)


Số token: 14
Danh sách token: [55, 258, 523, 6496, 78, 11, 259, 9769, 72, 39015, 13149, 38, 2898, 0]


In [35]:
import json
import logging
from pathlib import Path
from hashlib import md5
from nano_graphrag._op import get_chunks, chunking_by_token_size, chunking_by_seperators
from typing import Callable, Dict, List, Optional, Type, Union, cast
import docx
import tiktoken

chunk_func: Callable[
    [
        list[list[int]],
        List[str],
        tiktoken.Encoding,
        Optional[int],
        Optional[int],
    ],
    List[Dict[str, Union[str, int]]],
] = chunking_by_token_size

def compute_mdhash_id(content, prefix: str = ""):
    return prefix + md5(content.encode()).hexdigest()

def insert_and_dump_chunks(
    string_or_strings,
    chunk_func,
    chunk_overlap_token_size=128,
    chunk_token_size=2024,
    output_file="inserting_chunks.json"
):
    # Bắt đầu
    logging.info("Starting insert...")
    
    # Convert về list nếu là 1 chuỗi đơn
    if isinstance(string_or_strings, str):
        string_or_strings = [string_or_strings]
    
    # Tạo new_docs
    new_docs = {
        compute_mdhash_id(c.strip(), prefix="doc-"): {"content": c.strip()}
        for c in string_or_strings
    }

    if not len(new_docs):
        logging.warning("All docs are already in the storage")
        return
    
    logging.info(f"[New Docs] inserting {len(new_docs)} docs")

    # Chunking
    inserting_chunks = get_chunks(
        new_docs=new_docs,
        chunk_func=chunk_func,
        overlap_token_size=chunk_overlap_token_size,
        max_token_size=chunk_token_size,
    )

    # Ghi inserting_chunks ra file
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(inserting_chunks, f, ensure_ascii=False, indent=2)
    
    logging.info(f"Chunks written to: {output_file}")
    return inserting_chunks


In [36]:
import re

def chunking_by_special_separators(
    tokens_list: list[list[int]],
    doc_keys,
    tiktoken_model,
    overlap_token_size=128,
    max_token_size=2024
):
    results = []

    for index, tokens in enumerate(tokens_list):
        chunk_order_index=0
        chunk_text = []
        decoded_text = tiktoken_model.decode(tokens)
        special_spec = ["\nChương", "\nĐiều"]
        pattern = r"(?=" + "|".join(map(re.escape, special_spec)) + ")"

        # Tách các đoạn theo chương/điều
        chunks = re.split(pattern, decoded_text)
        if chunks:
            if not chunks[0].startswith(tuple(special_spec)):
                chunk_text.append(chunks[0].strip())
                chunks = chunks[1:]
        for chunk in chunks:
            if chunk.strip():
                chunk_text.append(chunk.strip())

        # Tokenize các chunk sau khi split
        chunk_token_lists = tiktoken_model.encode_batch(chunk_text)

        for i, token_list in enumerate(chunk_token_lists):
            text_chunks = []
            # Nếu đoạn ngắn thì giữ nguyên
            if len(token_list) <= max_token_size:
                text_chunks = [token_list]
            else:
                # Sliding window để chia nhỏ
                text_chunks = []
                start = 0
                while start < len(token_list):
                    end = start + max_token_size
                    text_chunks.append(token_list[start:end])
                    if end >= len(token_list):
                        break
                    start += max_token_size - overlap_token_size  # trượt có overlap

            # Decode các phần nhỏ và thêm vào kết quả
            for j, chunk_tokens in enumerate(text_chunks):
                decoded_chunk = tiktoken_model.decode(chunk_tokens)
                results.append({
                    "tokens": len(chunk_tokens),
                    "content": decoded_chunk.strip(),
                    "chunk_order_index": chunk_order_index,
                    "full_doc_id": doc_keys[index],
                })
                chunk_order_index += 1

    return results


In [37]:
def getText(filename):
        doc = docx.Document(filename)
        fullText = []
        for para in doc.paragraphs:
            fullText.append(para.text)
        return '\n'.join(fullText)

FAKE_TEXT = getText("data/36_2024_QH15_444251.docx")
# print(FAKE_TEXT)
insert_and_dump_chunks(
    string_or_strings=FAKE_TEXT,
    chunk_func=chunking_by_special_separators,
    output_file="my_chunks.json"
)

INFO:root:Starting insert...
INFO:root:[New Docs] inserting 1 docs
INFO:root:Chunks written to: my_chunks.json


{'chunk-1a4430b10fb1661130be902f6053ed15': {'tokens': 62,
  'content': 'LUẬT\nTRẬT TỰ, AN TOÀN GIAO THÔNG ĐƯỜNG BỘ\nCăn cứ Hiến pháp nước Cộng hòa xã hội chủ nghĩa Việt Nam;\nQuốc hội ban hành Luật Trật tự, an toàn giao thông đường bộ.',
  'chunk_order_index': 0,
  'full_doc_id': 'doc-cd2871d457e32453d1d56ffb584e710e'},
 'chunk-1f5f20debf5d7143059e1c1375b5ce3b': {'tokens': 15,
  'content': 'Chương I\nNHỮNG QUY ĐỊNH CHUNG',
  'chunk_order_index': 1,
  'full_doc_id': 'doc-cd2871d457e32453d1d56ffb584e710e'},
 'chunk-f11417fc5d1f6888562530a74b1d4f2b': {'tokens': 89,
  'content': 'Điều 1. Phạm vi điều chỉnh\nLuật này quy định về quy tắc, phương tiện, người tham gia giao thông đường bộ, chỉ huy, điều khiển, tuần tra, kiểm soát, giải quyết tai nạn giao thông đường bộ, trách nhiệm quản lý nhà nước và trách nhiệm của cơ quan, tổ chức, cá nhân có liên quan đến trật tự, an toàn giao thông đường bộ.',
  'chunk_order_index': 2,
  'full_doc_id': 'doc-cd2871d457e32453d1d56ffb584e710e'},
 'chunk-f7c0a

In [5]:
import openai
import os
import dotenv
dotenv.load_dotenv()
openai.api_key = os.getenv("API_KEY_EMB")  # Hoặc gán trực tiếp nếu cần
print("OpenAI API Key:", openai.api_key)

response = openai.embeddings.create(
    model="text-embedding-3-large",
    input="Xin chào, đây là văn bản kiểm tra embedding"
)
print("Embedding response:", response)



OpenAI API Key: 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
Embedding response: CreateEmbeddingResponse(data=[Embedding(embedding=[-0.02076360583305359, 0.002257815795019269, -0.00531916506588459, -0.00421006279066205, 0.06687812507152557, 0.0014212734531611204, 0.0034517988096922636, 0.037181343883275986, 0.0034593436866998672, -0.0043496438302099705, 0.01502947136759758, 0.0023351511918008327, -0.017926719039678574, -0.013030068948864937, -0.018334144726395607, 0.012275577522814274, -0.006718746852129698, -0.006586710922420025, -0.02948552928864956, -0.015844322741031647, 0.058608900755643845, -0.0067489268258214, 0.0006733837071806192, 0.012999888509511948, 0.03271475061774254, -0.005134314764291048, 0.019797857850790024, 0.015218093991279602, -0.0055040158331394196, -0.007111082784831524, 0.01875665970146656, -0.005262578371912241, -0.04152721166610718, 0.0152482