In [1]:
from llama_index.core import PromptTemplate
import json
import torch
from llama_index.core import Document
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core import StorageContext
from llama_index.core import VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from pyvi import ViTokenizer
import weaviate
from weaviate.classes.init import Auth

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
WEAVIATE_URL="9dqhtyrjq9sqb4a8xcxs2w.c0.asia-southeast1.gcp.weaviate.cloud"
WEAVIATE_API_KEY="OmIjIioYPkbmGw6DZpdBlThzjhdrxgOOiPWo"
DATA_COLLECTION = "ND168"
DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
MODEL_NAME = "bkai-foundation-models/vietnamese-bi-encoder"
CHUNK_SIZE = 512  # Optimized for Vietnamese text
CHUNK_OVERLAP = 50  # Small overlap to maintain context

In [3]:
# Setup vector store
client = weaviate.connect_to_weaviate_cloud(
    cluster_url=WEAVIATE_URL,
    auth_credentials=Auth.api_key(WEAVIATE_API_KEY),
)


# client = weaviate.connect_to_local(
#                      host="192.168.100.125",
#                         port=8080,
#                         grpc_port=50051
#                 )
vector_store = WeaviateVectorStore(
    weaviate_client=client,
    index_name=DATA_COLLECTION
)

            We encourage you to update your code to use the async client instead when running inside async def functions!


In [4]:
index = VectorStoreIndex.from_vector_store(
    vector_store=vector_store,
    embed_model = HuggingFaceEmbedding(model_name=MODEL_NAME, device=DEVICE, trust_remote_code=True,cache_folder="/home/drissdo/.cache/huggingface/hub"),
)

In [5]:
# Create retriever
retriever = index.as_retriever(
    vector_store_query_mode="hybrid",
    similarity_top_k=10,
    alpha=0.3,
)

In [6]:
question = "Luật giao thông quy định như thế nào về tổng số điểm của giấy phép lái xe và quy định về việc cộng điểm?"
retrieved_docs = retriever.retrieve(question)

for i, node in enumerate(retrieved_docs):
    print(f"Result {i+1}:\n")
    print(f"Text: {node.text}\n")
    print(f"Metadata: {node.metadata}\n")
    print(f"Score: {node.score}\n")
    print("="*50)

Result 1:

Text: loại phương_tiện : ô_tô 
 mức phạt : trừ 06 điểm giấy_phép lái_xe 
 nội_dung vi_phạm : điều_khiển xe ( kể_cả rơ_moóc và sơ_mi rơ_moóc ) không gắn biển số ( đối_với loại xe có quy_định phải gắn biển số )

Metadata: {'category': 'ô tô', 'fine_amount': 'Trừ 06 điểm giấy phép lái xe', 'violation_type': 'khác', 'original_text': 'Loại phương tiện: ô tô\nMức phạt: Trừ 06 điểm giấy phép lái xe\nNội dung vi phạm: Điều khiển xe (kể cả rơ moóc và sơ mi rơ moóc) không gắn biển số (đối với loại xe có quy định phải gắn biển số)'}

Score: 0.8671495914459229

Result 2:

Text: loại phương_tiện : ô_tô 
 mức phạt : trừ 02 điểm giấy_phép lái_xe 
 nội_dung vi_phạm : dừng xe , đỗ xe , quay đầu xe trái quy_định gây ùn_tắc giao_thông

Metadata: {'category': 'ô tô', 'fine_amount': 'Trừ 02 điểm giấy phép lái xe', 'violation_type': 'khác', 'original_text': 'Loại phương tiện: ô tô\nMức phạt: Trừ 02 điểm giấy phép lái xe\nNội dung vi phạm: Dừng xe, đỗ xe, quay đầu xe trái quy định gây ùn tắc giao 

In [7]:
# client.collections.delete_all()