<a href="https://colab.research.google.com/github/nguyenfan20/AI-Agents-using-LangChain/blob/main/Vietnamese_Legal_Traffic_RAG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tổng quan dự án 🤖

Notebook này trình bày cách tạo một chatbot bằng hệ thống RAG dựa vào thư viện LangChain và LLMs

In [None]:
!pip uninstall -y fsspec datasets gcsfs
!pip install fsspec==2024.12.0 datasets==3.5.0 gcsfs==2024.12.0
!pip install -q torch transformers accelerate bitsandbytes \
  langchain sentence-transformers faiss-cpu openpyxl pacmap datasets \
  langchain-community ragatouille tqdm pymupdf python-docx pandas

Found existing installation: fsspec 2025.3.2
Uninstalling fsspec-2025.3.2:
  Successfully uninstalled fsspec-2025.3.2
[0mFound existing installation: gcsfs 2025.3.2
Uninstalling gcsfs-2025.3.2:
  Successfully uninstalled gcsfs-2025.3.2
Collecting fsspec==2024.12.0
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Collecting datasets==3.5.0
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting gcsfs==2024.12.0
  Downloading gcsfs-2024.12.0-py2.py3-none-any.whl.metadata (1.6 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets==3.5.0)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets==3.5.0)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets==3.5.0)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Downloading fsspec-2024.12.0-py3-none-any.whl (183 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
import os
from tqdm.notebook import tqdm
import pandas as pd
from typing import Optional, List, Tuple

FILE_01 = '/content/luatgt.pdf'


VECTOR_DATABASE_PATH = '/content/vectordatabase'
os.makedirs('/content/vectordatabase', exist_ok=True)

# Chunking 🔪

In [None]:
from langchain.docstore.document import Document as LangchainDocument
from tqdm import tqdm
from langchain.document_loaders import PyMuPDFLoader
from docx import Document as DocxDocument
import pandas as pd
import os

def load_pdf_file(file_path):
    """Loads a PDF file and returns its entire content using PyMuPDFLoader."""
    loader = PyMuPDFLoader(file_path)
    documents = loader.load()
    full_content = ""
    for doc in documents:
        full_content += doc.page_content + "\n"  # Add a newline to separate pages
    return full_content  # Return the entire content

def load_txt_file(file_path):
    """Loads a TXT file and returns its content as a string."""
    with open(file_path, 'r', encoding='utf-8') as file:
        return file.read()

def load_docx_file(file_path):
    """Loads a DOCX file and returns its content as a string."""
    doc = DocxDocument(file_path)
    full_text = []
    for para in doc.paragraphs:
        full_text.append(para.text)
    return "\n".join(full_text)

def load_csv_file(file_path):
    """Loads a CSV file and concatenates all rows as a single string."""
    df = pd.read_csv(file_path)
    return df.to_string(index=False)  # Converts the DataFrame to a string (without row indices)

def load_file(file_path):
    """Determines the file type and loads the file content."""
    ext = os.path.splitext(file_path)[1].lower()
    if ext == '.txt':
        return load_txt_file(file_path)
    elif ext in ['.doc', '.docx']:
        return load_docx_file(file_path)
    elif ext == '.pdf':
        return load_pdf_file(file_path)
    elif ext == '.csv':
        return load_csv_file(file_path)
    else:
        raise ValueError(f"Unsupported file type: {ext}")

In [None]:
# List of document file paths (PDF, DOCX, TXT, CSV)
file_paths = [FILE_01] # Example file paths. It can be like: file_paths = [FILE_01, FILE_02,..]

RAW_KNOWLEDGE_BASE = []
for file_path in tqdm(file_paths):
    try:
        content = load_file(file_path)
        RAW_KNOWLEDGE_BASE.append(
            LangchainDocument(page_content=content, metadata={"source": file_path})
        )
    except Exception as e:
        print(f"Failed to process {file_path}: {e}")

100%|██████████| 1/1 [00:00<00:00,  1.19it/s]


In [None]:
for doc in RAW_KNOWLEDGE_BASE:
    print(f"Source: {doc.metadata['source']}")
    print(f"Content snippet: {doc.page_content[:500]}...\n")

Source: /content/luatgt2.pdf
Content snippet: CHÍNH PHỦ
--------
CỘNG HÒA XÃ HỘI CHỦNGHĨA VIỆT NAM
Độc lập - Tựdo - Hạnh phúc
---------------
Số: 168/2024/NĐ-CP
Hà Nội, ngày 26 tháng 12 năm 2024
NGHỊĐỊNH
QUY ĐỊNH XỬPHẠT VI PHẠM HÀNH CHÍNH VỀTRẬT TỰ, AN TOÀN GIAO
THÔNG TRONG LĨNH VỰC GIAO THÔNG ĐƯỜNG BỘ; TRỪĐIỂM, PHỤC HỒI
ĐIỂM GIẤY PHÉP LÁI XE
Căn cứLuật Tổchức Chính phủngày 19 tháng 6 năm 2015; Luật sửa đổi, bổsung một
sốđiều của Luật Tổchức Chính phủvà Luật Tổchức chính quyền địa phương ngày 22
tháng 11 năm 2019;
Căn cứLuật Xửlý vi phạm hà...



In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# We use a hierarchical list of separators specifically tailored for splitting Markdown documents
# This list is taken from LangChain's MarkdownTextSplitter class
MARKDOWN_SEPARATORS = [
    "\n#{1,6} ",
    "```\n",
    "\n\\*\\*\\*+\n",
    "\n---+\n",
    "\n___+\n",
    "\n\n",
    "\n",
    " ",
    "",
]

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # The maximum number of characters in a chunk: we selected this value arbitrarily
    chunk_overlap=100,  # The number of characters to overlap between chunks
    add_start_index=True,  # If `True`, includes chunk's start index in metadata
    strip_whitespace=True,  # If `True`, strips whitespace from the start and end of every document
    separators=MARKDOWN_SEPARATORS,
)

docs_processed = []
for doc in RAW_KNOWLEDGE_BASE:
    docs_processed += text_splitter.split_documents([doc])
print(docs_processed[1])

page_content='Chương I
NHỮNG QUY ĐỊNH CHUNG
Điều 1. Phạm vi điều chỉnh
1. Nghịđịnh này quy định về:
a) Xửphạt vi phạm hành chính vềtrật tự, an toàn giao thông trong lĩnh vực giao thông
đường bộbao gồm: hành vi vi phạm hành chính; hình thức, mức xửphạt, biện pháp khắc
phục hậu quảđối với từng hành vi vi phạm hành chính; thẩm quyền lập biên bản, thẩm
quyền xửphạt, mức phạt tiền cụthểtheo từng chức danh đối với hành vi vi phạm hành
chính vềtrật tự, an toàn giao thông trong lĩnh vực giao thông đường bộ;
b) Mức trừđiểm giấy phép lái xe đối với từng hành vi vi phạm hành chính; trình tự, thủ
tục, thẩm quyền trừđiểm, phục hồi điểm giấy phép lái xe đểquản lý việc chấp hành pháp
luật vềtrật tự, an toàn giao thông đường bộcủa người lái xe.
2. Các hành vi vi phạm hành chính trong lĩnh vực quản lý nhà nước khác liên quan đến
trật tự, an toàn giao thông trong lĩnh vực giao thông đường bộmà không quy định tại
Nghịđịnh này thì áp dụng quy định tại các Nghịđịnh quy định vềxửphạt vi phạm hành' metadata=

# Embedding document 📂

In [None]:
from huggingface_hub import login
login()


VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from transformers import AutoTokenizer

EMBEDDING_MODEL_NAME = "AITeamVN/Vietnamese_Embedding"


def split_documents(
    chunk_size: int,
    knowledge_base: List[LangchainDocument],
    tokenizer_name: Optional[str] = EMBEDDING_MODEL_NAME,
) -> List[LangchainDocument]:
    """
    Split documents into chunks of maximum size `chunk_size` tokens and return a list of documents.
    """
    text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
        AutoTokenizer.from_pretrained(tokenizer_name),
        chunk_size=chunk_size,
        chunk_overlap=int(chunk_size / 10),
        add_start_index=True,
        strip_whitespace=True,
        separators=MARKDOWN_SEPARATORS,
    )

    docs_processed = []
    for doc in knowledge_base:
        docs_processed += text_splitter.split_documents([doc])

    # Remove duplicates
    unique_texts = {}
    docs_processed_unique = []
    for doc in docs_processed:
        if doc.page_content not in unique_texts:
            unique_texts[doc.page_content] = True
            docs_processed_unique.append(doc)

    return docs_processed_unique


docs_processed = split_documents(
    258,  # We choose a chunk size adapted to our model
    RAW_KNOWLEDGE_BASE,
    tokenizer_name=EMBEDDING_MODEL_NAME,
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

# Vector Database 📂

In [None]:
import os
from langchain.vectorstores import FAISS
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores.utils import DistanceStrategy

embedding_model = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODEL_NAME,
    multi_process=True,
    model_kwargs={"device": "cuda"},
    encode_kwargs={"normalize_embeddings": True}
)

KNOWLEDGE_VECTOR_DATABASE = FAISS.from_documents(
    docs_processed, embedding_model, distance_strategy=DistanceStrategy.COSINE
)


  embedding_model = HuggingFaceEmbeddings(


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/171 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.51k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/708 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

config.json:   0%|          | 0.00/297 [00:00<?, ?B/s]

# Lưu Vector Database được xử lý vào các thư mục

In [None]:
import faiss  # Make sure to import FAISS
import pickle

# Save the FAISS index to a file
faiss_file_path = os.path.join(VECTOR_DATABASE_PATH, 'faiss_index.bin')
faiss.write_index(KNOWLEDGE_VECTOR_DATABASE.index, faiss_file_path)
print(f"FAISS index saved to {faiss_file_path}")

# Save the document store to a pickle file
docstore_file_path = os.path.join(VECTOR_DATABASE_PATH, 'docstore.pkl')
with open(docstore_file_path, 'wb') as f:
    pickle.dump(KNOWLEDGE_VECTOR_DATABASE.docstore, f)
print(f"Document store saved to {docstore_file_path}")

# Save the index_to_docstore_id mapping
mapping_file_path = os.path.join(VECTOR_DATABASE_PATH, 'index_to_docstore_id.pkl')
with open(mapping_file_path, 'wb') as f:
    pickle.dump(KNOWLEDGE_VECTOR_DATABASE.index_to_docstore_id, f)
print(f"Index to document store ID mapping saved to {mapping_file_path}")

# Load the FAISS index from the file
loaded_index = faiss.read_index(faiss_file_path)

# Load the document store from the pickle file
with open(docstore_file_path, 'rb') as f:
    loaded_docstore = pickle.load(f)

# Load the index_to_docstore_id mapping
with open(mapping_file_path, 'rb') as f:
    index_to_docstore_id = pickle.load(f)

# Create the FAISS vector store using the loaded index and document store
loaded_vector_database = FAISS(
    index=loaded_index,
    docstore=loaded_docstore,
    index_to_docstore_id=index_to_docstore_id,
    embedding_function=embedding_model.embed_query
)
print("Vector database loaded successfully.")



FAISS index saved to /content/vectordatabase/faiss_index.bin
Document store saved to /content/vectordatabase/docstore.pkl
Index to document store ID mapping saved to /content/vectordatabase/index_to_docstore_id.pkl
Vector database loaded successfully.


# Chain với thư mục đã lưu

In [None]:
# Embed a user query in the same space
user_query = "Quy định về độ tuổi lái xe mô tô hai bánh?"
query_vector = embedding_model.embed_query(user_query)

In [None]:
print(f"\nStarting retrieval for {user_query=}...")
# retrieved_docs = KNOWLEDGE_VECTOR_DATABASE.similarity_search(query=user_query, k=5)

retrieved_docs = loaded_vector_database.similarity_search(query=user_query, k=5)

print(
    "\n==================================Top document=================================="
)
print(retrieved_docs[0].page_content)
print("==================================Metadata==================================")
print(retrieved_docs[0].metadata)


Starting retrieval for user_query='Quy định về độ tuổi lái xe mô tô hai bánh?'...

Giao thông đường bộnăm 1968 cấp (trừgiấy phép lái xe quốc tếdo Việt Nam cấp)
nhưng không mang theo giấy phép lái xe quốc gia phù hợp với loại xe được phép điều
khiển;
c) Sửdụng giấy phép lái xe không hợp lệ(giấy phép lái xe có sốphôi ghi ởmặt sau
không trùng với sốphôi được cấp mới nhất trong hệthống thông tin quản lý giấy phép lái
xe).
6. Phạt tiền từ4.000.000 đồng đến 6.000.000 đồng đối với người từđủ16 tuổi đến dưới
18 tuổi điều khiển xe ô tô, xe chởngười bốn bánh có gắn động cơ, xe chởhàng bốn bánh
có gắn động cơ và các loại xe tương tựxe ô tô.
7. Phạt tiền từ6.000.000 đồng đến 8.000.000 đồng đối với người điều khiển xe mô tô hai
bánh có dung tích xi-lanh trên 125 cm3 trởlên hoặc có công suất động cơ điện trên 11
kW, xe mô tô ba bánh thực hiện một trong các hành vi vi phạm sau đây:
a) Có giấy phép lái xe nhưng không phù hợp với loại xe đang điều khiển;
{'source': '/content/luatgt2.pdf', 'start_index

# Đưa LLM để tạo sinh câu trả lời với dữ liệu được chain

In [None]:
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

READER_MODEL_NAME = "HuggingFaceH4/zephyr-7b-beta"

# Cấu hình bitsandbytes để tải mô hình ở định dạng 4-bit tiết kiệm RAM
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,  # Đổi sang float16 nếu bfloat16 không được hỗ trợ
)

# Load mô hình với cấu hình nhẹ, tự động phân bổ thiết bị (GPU/CPU)
model = AutoModelForCausalLM.from_pretrained(
    READER_MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(READER_MODEL_NAME)

# Tạo pipeline để dùng mô hình như 1 RAG Reader
READER_LLM = pipeline(
    model=model,
    tokenizer=tokenizer,
    task="text-generation",
    do_sample=True,
    temperature=0.2,
    repetition_penalty=1.1,
    return_full_text=False,
    max_new_tokens=500,
)


Loading checkpoint shards:   0%|          | 0/8 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.80M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/168 [00:00<?, ?B/s]

Device set to use cuda:0


In [None]:
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

READER_MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"  # ✅ TinyLLaMA model

# Cấu hình tải mô hình 4-bit để tiết kiệm RAM (phù hợp GPU 4GB)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,  # float16 tương thích với nhiều GPU
)

# Load mô hình với cấu hình nhẹ
model = AutoModelForCausalLM.from_pretrained(
    READER_MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

# Load tokenizer
tokenizer = AutoTokenizer.from_pretrained(READER_MODEL_NAME)

# Tạo pipeline xử lý văn bản
READER_LLM = pipeline(
    model=model,
    tokenizer=tokenizer,
    task="text-generation",
    do_sample=True,
    temperature=0.2,
    repetition_penalty=1.1,
    return_full_text=False,
    max_new_tokens=500,
)

# Ví dụ sử dụng
prompt = "Hãy giới thiệu về Việt Nam bằng tiếng Việt."
output = READER_LLM(prompt)
print(output[0]["generated_text"])


config.json:   0%|          | 0.00/608 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.20G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/551 [00:00<?, ?B/s]

Device set to use cuda:0



Việt Nam không chỉ là một nơi được tìm kiếm, còn có nhiều người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Đây là một số người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được năng lực.
Những người dùng đang hành trình xem xét và tham gia các công việc để đạt được nă


In [None]:
!pip -q install langdetect

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/981.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m972.8/981.5 kB[0m [31m35.4 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m22.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone


In [None]:
from langdetect import detect

prompt_in_chat_format_en = [
    {
        "role": "system",
        "content": """Using the information contained in the context,
give a comprehensive answer to the question.
Respond only to the question asked, response should be concise and relevant to the question.
Provide the number of the source document when relevant.
If the answer cannot be deduced from the context, do not give an answer.""",
    },
    {
        "role": "user",
        "content": """Context:
{context}
---
Now here is the question you need to answer.

Question: {question}""",
    },
]

# Prompt template for Vietnamese
prompt_in_chat_format_vi = [
    {
        "role": "system",
        "content": """Sử dụng thông tin trong ngữ cảnh, hãy đưa ra câu trả lời đầy đủ cho câu hỏi.
Chỉ trả lời câu hỏi được hỏi, câu trả lời cần ngắn gọn và phù hợp với câu hỏi.
Cung cấp số của tài liệu nguồn khi phù hợp.
Nếu câu trả lời không thể suy ra từ ngữ cảnh, không đưa ra câu trả lời.""",
    },
    {
        "role": "user",
        "content": """Ngữ cảnh:
{context}
---
Bây giờ đây là câu hỏi mà bạn cần trả lời.

Câu hỏi: {question}""",
    },
]

def detect_language(query):
    return detect(query)

def create_prompt(question):

    language = detect_language(question)

    if language == 'vi':
        RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            prompt_in_chat_format_vi, tokenize=False, add_generation_prompt=True
        )
    else:
        RAG_PROMPT_TEMPLATE = tokenizer.apply_chat_template(
            prompt_in_chat_format_en, tokenize=False, add_generation_prompt=True
        )

    return RAG_PROMPT_TEMPLATE

#test prompt if the question is Vietnamese

test_prompt = create_prompt("Hà Nội là thủ đô của nước nào?")
print(test_prompt)

<|system|>
Sử dụng thông tin trong ngữ cảnh, hãy đưa ra câu trả lời đầy đủ cho câu hỏi.
Chỉ trả lời câu hỏi được hỏi, câu trả lời cần ngắn gọn và phù hợp với câu hỏi.
Cung cấp số của tài liệu nguồn khi phù hợp.
Nếu câu trả lời không thể suy ra từ ngữ cảnh, không đưa ra câu trả lời.</s>
<|user|>
Ngữ cảnh:
{context}
---
Bây giờ đây là câu hỏi mà bạn cần trả lời.

Câu hỏi: {question}</s>
<|assistant|>



In [None]:
retrieved_docs_text = [
    doc.page_content for doc in retrieved_docs
]  # We only need the text of the documents
context = "\nExtracted documents:\n"
context += "".join(
    [f"Document {str(i)}:::\n" + doc for i, doc in enumerate(retrieved_docs_text)]
)

user_query="Quy định về độ tuổi lái xe mô tô 2 bánh?"

rag_prompt = create_prompt(user_query)
final_prompt = rag_prompt.format(
    question=user_query, context=context
)

# Redact an answer
answer = READER_LLM(final_prompt)[0]["generated_text"]
print(answer)

Câu trả lời: Người từ 16 tuổi đến dưới 18 tuổi được phép lái xe mô tô có dung tích xi-lanh trên 50 cm3 hoặc có công suất động cơ điện từ 04 kW trở lên. Tuy nhiên, người điều khiển xe mô tô nà cần mang theo giấy phép lái xe phù hợp với loại xe đang điều khiển. Nếu không mang theo giấy phép lái xe nhưng vẫn điều khiển xe mô tô nà, người sẽ bị phạt theo quy định.


In [None]:
from transformers import pipeline, Pipeline

def answer_with_rag(
    question: str,
    llm: Pipeline,
    knowledge_index: FAISS,
    num_retrieved_docs: int = 30,
    num_docs_final: int = 5,
) -> Tuple[str, List[LangchainDocument]]:

    print("=> Retrieving documents...")
    relevant_docs = knowledge_index.similarity_search(query=question, k=num_retrieved_docs)

    if not relevant_docs:
        raise ValueError("No relevant documents retrieved.")

    # Giữ bản gốc để return
    retrieved_docs = relevant_docs[:num_docs_final]  # giữ lại LangchainDocument gốc

    # Lấy nội dung text để đưa vào prompt
    docs_text = [doc.page_content for doc in retrieved_docs]

    context = "\nExtracted documents:\n"
    context += "".join(
        [f"Document {str(i)}:::\n{doc}" for i, doc in enumerate(docs_text)]
    )

    RAG_PROMPT_TEMPLATE = create_prompt(question)
    final_prompt = RAG_PROMPT_TEMPLATE.format(question=question, context=context)

    print("=> Generating answer...")
    answer = llm(final_prompt)[0]["generated_text"]

    return answer, retrieved_docs

In [None]:
question = "Vượt đèn đỏ phạt bao nhiêu tiền"

answer, relevant_docs = answer_with_rag(
    question, READER_LLM, loaded_vector_database)

=> Retrieving documents...
=> Generating answer...


In [None]:
print("==================================Answer==================================")
print(f"{answer}")
print("==================================Source docs==================================")
for i, doc in enumerate(relevant_docs):
    print(f"Document {i}------------------------------------------------------------")
    print(doc)

Vượt đèn đỏ phạt từ 4.000.000 đồng đến 6.000.000 đồng, theo ngữ cảnh cung cấp.
Document 0------------------------------------------------------------
page_content='giữkhoảng cách theo quy định của biển báo hiệu “Cựly tối thiểu giữa hai xe”, trừcác
hành vi vi phạm quy định tại điểm d khoản 5 Điều này.
5. Phạt tiền từ4.000.000 đồng đến 6.000.000 đồng đối với người điều khiển xe thực hiện
một trong các hành vi vi phạm sau đây:
a) Vượt xe trong những trường hợp không được vượt, vượt xe tại đoạn đường có biển báo
hiệu có nội dung cấm vượt (đối với loại phương tiện đang điều khiển); không có tín hiệu
trước khi vượt hoặc có tín hiệu vượt xe nhưng không sửdụng trong suốt quá trình vượt
xe; vượt bên phải xe khác trong trường hợp không được phép;
b) Điều khiển xe không đi bên phải theo chiều đi của mình; đi không đúng phần đường
hoặc làn đường quy định (làn cùng chiều hoặc làn ngược chiều) trừhành vi quy định tại
điểm a khoản 4 Điều này; điều khiển xe đi qua dải phân cách cốđịnh ởgiữa hai phần
đ