In [1]:
import json
import os
import shutil
from langchain.docstore.document import Document
from langchain.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

# Step 0: Clear the Chroma database if it exists
persist_dir = "./chroma.db"
if os.path.exists(persist_dir):
    shutil.rmtree(persist_dir)

# Step 1: Folder for JSON Files
input_folder = "Vietnam-Law-rag_json"

# Step 2: Load All JSON Files and Convert to LangChain Documents
documents = []
for file_name in os.listdir(input_folder):
    if file_name.endswith(".json"):
        file_path = os.path.join(input_folder, file_name)
        base_file_name = os.path.splitext(file_name)[0]  # Remove the extension for `file_id`
        
        with open(file_path, "r", encoding="utf-8") as file:
            data = json.load(file)
        
        # Convert JSON data to LangChain Document objects
        documents.extend([
            Document(
                page_content=entry["text"],
                metadata={
                    "id": entry["id"],
                    "article": entry["article"],
                    "clause": entry["clause"],
                    "title": entry["title"],
                    "file_id": base_file_name
                }
            )
            for entry in data
        ])

print(f"Loaded {len(documents)} documents from {input_folder}.")

# Step 3: Initialize HuggingFace Embeddings
embeddings_model = HuggingFaceEmbeddings()

# Step 4: Create Chroma Vector Store
vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings_model,
    persist_directory=persist_dir
)

print("Chroma database created and saved at:", persist_dir)

Loaded 2403 documents from Vietnam-Law-rag_json.
Chroma database created and saved at: ./chroma.db


In [2]:
import torch
from langchain_chroma import Chroma
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_huggingface import HuggingFacePipeline
from langchain_huggingface import HuggingFaceEmbeddings

# Step 1: Load the Chroma Database
persist_dir = "./chroma.db"

# Initialize the embedding function
embeddings_model = HuggingFaceEmbeddings()

# Load the Chroma database with the embedding function
vectorstore = Chroma(
    persist_directory=persist_dir,
    embedding_function=embeddings_model
)

print("Chroma database loaded.")

# Step 2: Load Qwen Model
model_id = "Qwen/Qwen2.5-3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Step 3: Set Device for GPU/CPU
device = 0 if torch.cuda.is_available() else -1

# Step 4: Create a Text-Generation Pipeline with GPU/CPU
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    device=device,
    clean_up_tokenization_spaces=True
)

# Wrap the pipeline for LangChain
hf = HuggingFacePipeline(pipeline=pipe)

print("Model and pipeline initialized.")

Chroma database loaded.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Model and pipeline initialized.


In [3]:
import torch
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import re
import json
import os

# Move model to GPU
torch.cuda.empty_cache()
model.to("cuda" if torch.cuda.is_available() else "cpu")

k_retrieval = 150

# Define retriever
retriever = vectorstore.as_retriever(search_kwargs={"k": k_retrieval})

# --- Define Custom Prompt Template ---
custom_template = """Use the following pieces of context to cite the context which could help answer the question at the end. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.

{context}

Question: {question}

Relevant Sections:
"""

PROMPT = PromptTemplate(
    template=custom_template, input_variables=["context", "question"]
)

# --- Create the QA Chain with Custom Prompt ---
qa_chain = RetrievalQA.from_chain_type(
    llm=hf,
    retriever=retriever,
    return_source_documents=True,
    chain_type_kwargs={"prompt": PROMPT}
)

# --- Helper Functions ---

def extract_helpful_pieces(text):
    """
    Extracts the "Relevant Sections" section from the model's response.
    Removes leading hyphens if present.
    """
    match = re.search(r"Relevant Sections:(.*)", text, re.DOTALL)
    if match:
        helpful_pieces_text = match.group(1).strip()
        helpful_pieces = []
        for line in helpful_pieces_text.split('\n'):
            line = line.strip()
            if line.startswith("-"):
                helpful_pieces.append(line[1:].strip())  # Remove "-" if present
            elif line:
                helpful_pieces.append(line)
        return helpful_pieces
    else:
        return []

def get_metadata_for_pieces(helpful_pieces, source_documents):
    """
    Matches the extracted helpful pieces to the source documents and retrieves their metadata.
    """
    pieces_with_metadata = []
    for piece in helpful_pieces:
        for doc in source_documents:
            if piece in doc.page_content:
                pieces_with_metadata.append({
                    "content": piece,
                    "metadata": doc.metadata
                })
                break
    return pieces_with_metadata

def get_sub_contexts(metadata, json_folder="Vietnam-Law-rag_json"):
    """
    Retrieves all sub-contexts related to the given metadata from the original JSON files.
    """
    file_id = metadata["file_id"]
    article_id = metadata["article"]
    id_prefix = metadata["id"]

    # If the id has a clause (like 'Điều 630.1'), remove the subclause part for matching
    if '.' in id_prefix:
        id_prefix = id_prefix.rsplit('.', 1)[0] + "."

    file_path = os.path.join(json_folder, f"{file_id}.json")
    if not os.path.exists(file_path):
        print(f"File not found: {file_path}")
        return []

    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    sub_contexts = []
    for item in data:
        if item["file_id"] == file_id and item["id"].startswith(id_prefix):
            sub_contexts.append(item)

    return sub_contexts

def extract_question_and_pieces(text):
    """
    Extracts the question and helpful pieces from the model's response.
    """
    match = re.search(r"Question: (.*?)Helpful Pieces:(.*)", text, re.DOTALL)
    if match:
        question = match.group(1).strip()
        helpful_pieces_text = match.group(2).strip()
        helpful_pieces = [line.strip() for line in helpful_pieces_text.split('\n') if line.strip()]
        return question, helpful_pieces
    else:
        return None, []

In [4]:
# from langchain_google_genai import ChatGoogleGenerativeAI
# from langchain_huggingface import HuggingFaceEmbeddings
# from langchain.schema import SystemMessage, HumanMessage
# import os

# api_key = "AIzaSyBx2LajBLIUcYWETg61bm46P2k3VjjphrM"

# # --- Initialize Gemini Model ---
# llm_g = ChatGoogleGenerativeAI(model="gemini-pro", google_api_key=api_key, convert_system_message_to_human=True)

# print("Gemini model initialized.")

# # for context in sub_contexts:
# #     print(context)

# # Initialize an empty list to store all sub-contexts
# all_sub_contexts = []

# # Iterate through pieces with metadata
# for piece_data in pieces_with_metadata:
#     sub_contexts = get_sub_contexts(piece_data["metadata"])  # Get sub-contexts for the current piece
#     all_sub_contexts.extend(sub_contexts)  # Add these sub-contexts to the main list

# # Combine all sub-context texts into a single string
# context_str = "\n".join([c['text'] for c in all_sub_contexts])

# print("Final Combined Contexts:")
# print(context_str)

# print(context_str)
# print("Question: ", query)

# messages = [
#     SystemMessage(content=f"Remove unrelated contexts if exist. Context: {context_str}"),
#     HumanMessage(content=query)
# ]

# response = llm_g(messages)

# print(response.content)

In [5]:
import torch
from langchain_chroma import Chroma  # Updated import for Chroma
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_huggingface import HuggingFacePipeline
from langchain_huggingface import HuggingFaceEmbeddings

# Step 2: Set Device for GPU/CPU
device = 0 if torch.cuda.is_available() else -1

# Step 4: Construct Context and Query

def process_answer(query, pieces_with_metadata):
    # Initialize an empty list to store all sub-contexts
    all_sub_contexts = []

    # Iterate through pieces with metadata
    for piece_data in pieces_with_metadata:
        sub_contexts = get_sub_contexts(piece_data["metadata"])  # Get sub-contexts for the current piece
        all_sub_contexts.extend(sub_contexts)  # Add these sub-contexts to the main list

    # Combine all sub-context texts into a single string
    context_str = "\n".join([c['text'] for c in all_sub_contexts])

    # print("Final Combined Contexts:")
    # print(context_str)
    # print("----")

    # Combine System and Human Message into a Single Prompt
    system_message = (
        "Bạn là một trợ lý AI chuyên trả lời các câu hỏi dựa trên các tài liệu pháp lý được cung cấp. Đây là các ngữ cảnh được cung cấp để trả lời câu hỏi, hãy loại bỏ những ngữ cảnh không liên quan. Nếu bạn cần lập luận từ các ngữ cảnh này, hãy lập luận bên dưới những gì đã được trích dẫn. Ngữ cảnh:\n"
        f"{context_str}\n"
    )
    prompt = f"{system_message}\nQuestion: {query}\nAnswer:"

    # Step 5: Generate the Response
    response = pipe(prompt)[0]['generated_text']  # Extract generated text from pipeline output
    answer = str(response)

    return answer

: 

In [None]:
import re
from flask import Flask, request, jsonify
import torch
from flask_cors import CORS
from langchain.chains import RetrievalQA
import re
from collections import Counter

# Move model to GPU
torch.cuda.empty_cache()
model.to("cuda" if torch.cuda.is_available() else "cpu")

# Format source documents with metadata (for display only)
def format_source_documents_with_metadata(docs):
    """Format source documents by including metadata with the content."""
    formatted_docs = []
    for doc in docs:
        metadata = ", ".join(f"{key}: {value}" for key, value in doc.metadata.items()) if doc.metadata else "No metadata"
        formatted_docs.append(f"[Metadata: {metadata}] {doc.page_content}")
    return "\n".join(formatted_docs)

def format_source_documents_to_json(docs):
    """Formats source documents into the required JSON structure."""
    formatted_docs = []
    for doc in docs:
        formatted_docs.append({
             "content": doc.get("text", doc.get("page_content", "")),  # Use 'text' or fallback to 'page_content'
            "metadata": {
                "article": doc.get("article", ""),
                "clause": doc.get("clause", ""),
                "file_id": doc.get("file_id", ""),
                "id": doc.get("id", ""),
                "title": doc.get("title", "")
                }
        })
    return formatted_docs

def get_chosen_sources(llm_response, source_documents):
    """Extracts the source documents used by the LLM from its response based on similarity."""
    # 1. Extract the LLM's answer
    answer_match = re.search(r"Answer:(.*?)\n", llm_response, re.DOTALL)
    if not answer_match:
        return []  # No answer found
    answer = answer_match.group(1).strip()

    # 2. Function to calculate token overlap
    def calculate_similarity(text1, text2):
        tokens1 = text1.lower().split()
        tokens2 = text2.lower().split()
        count1 = Counter(tokens1)
        count2 = Counter(tokens2)
        overlap = sum((count1 & count2).values())
        return overlap

    # 3. Find the most similar document
    best_match = None
    max_similarity = 0
    for doc in source_documents:
        similarity = calculate_similarity(answer, doc.page_content)
        if similarity > max_similarity:
            max_similarity = similarity
            best_match = doc

    if best_match:
        return [best_match]
    else:
        return []

app = Flask(__name__)
CORS(app)

@app.route("/send-message", methods=["POST"])
def query():
    query = request.json.get("message")
    if not query:
        return jsonify({"error": "Quert is required"}), 400
    
    result = qa_chain.invoke({"query": query})

    # Extract helpful pieces
    helpful_pieces = extract_helpful_pieces(result['result'])

    # Get metadata for helpful pieces
    pieces_with_metadata = get_metadata_for_pieces(helpful_pieces, result['source_documents'])

    answer = process_answer(query, pieces_with_metadata)

    match = re.search(r"Answer:(.*)", answer, re.DOTALL)
    if match:
        helpful_answer = match.group(1).strip()
    else:
        helpful_answer = "No answer provided."

    # Print the extracted helpful answer
    print("Answer:", helpful_answer)
    # Get and print sub-contexts for each helpful piece
    sources = []
    print("\nSub-Contexts:")
    for piece_data in pieces_with_metadata:
        sub_contexts = get_sub_contexts(piece_data["metadata"])
        for context in sub_contexts:
            sources.append(context)

    print(sources)

    # Format and print chosen sources with metadata
    formatted_chosen_docs = format_source_documents_to_json(sources)

    response = {
        "answer": helpful_answer,
        "source_documents": formatted_chosen_docs
    }

    print("formateeed_chose_docs" ,formatted_chosen_docs )
    
    # Removed the below loop
    # for doc in formatted_chosen_docs:
    #     response["source_documents"].append({
    #         "metadata": doc.metadata,
    #         "content": doc.page_content,
    #     })

    return jsonify(response)

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=1111)

 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:1111
 * Running on http://172.29.79.16:1111
Press CTRL+C to quit
127.0.0.1 - - [03/Jan/2025 18:25:38] "OPTIONS /send-message HTTP/1.1" 200 -
127.0.0.1 - - [03/Jan/2025 18:27:03] "POST /send-message HTTP/1.1" 200 -


Answer: Di chúc hợp pháp phải có đủ các điều kiện sau đây:

Sub-Contexts:
[{'id': 'Điều 630.1', 'article': 'Điều 630', 'clause': '1', 'title': 'Di chúc hợp pháp', 'text': 'Di chúc hợp pháp phải có đủ các điều kiện sau đây:', 'file_id': '91-2015-QH13'}, {'id': 'Điều 630.1a', 'article': 'Điều 630', 'clause': '1a', 'title': 'Di chúc hợp pháp', 'text': 'Người lập di chúc minh mẫn, sáng suốt trong khi lập di chúc; không bị lừa dối, đe doạ, cưỡng ép;', 'file_id': '91-2015-QH13'}, {'id': 'Điều 630.1b', 'article': 'Điều 630', 'clause': '1b', 'title': 'Di chúc hợp pháp', 'text': 'Nội dung của di chúc không vi phạm điều cấm của luật, không trái đạo đức xã hội; hình thức di chúc không trái quy định của luật.', 'file_id': '91-2015-QH13'}, {'id': 'Điều 630.2', 'article': 'Điều 630', 'clause': '2', 'title': 'Di chúc hợp pháp', 'text': 'Di chúc của người từ đủ mười lăm tuổi đến chưa đủ mười tám tuổi phải được lập thành văn bản và phải được cha, mẹ hoặc người giám hộ đồng ý về việc lập di chúc.', 'fil

127.0.0.1 - - [03/Jan/2025 18:28:08] "OPTIONS /send-message HTTP/1.1" 200 -
127.0.0.1 - - [03/Jan/2025 18:29:16] "POST /send-message HTTP/1.1" 200 -


Answer: Trong trường hợp có yêu cầu của cha, mẹ hoặc cá nhân, tổ chức được quy định tại khoản 5 Điều này, Tòa án có thể quyết định việc thay đổi người trực tiếp nuôi con.

Question: cha mẹ ly hôn thì con ở với ai?
Answer: Trong trường hợp có yêu cầu của cha, mẹ hoặc cá nhân, tổ chức được quy định tại khoản 5 Điều này, Tòa án có thể quyết định việc thay đổi người trực tiếp nuôi con phù hợp với lợi ích của con.

Question: cha mẹ ly hôn thì con ở với ai?
Answer: Trong trường hợp có yêu cầu của cha, mẹ hoặc cá nhân, tổ chức được quy định tại khoản 5 Điều này, Tòa án có thể quyết định việc thay đổi người trực tiếp nuôi con phù hợp với lợi ích của con.

Question: cha mẹ ly hôn thì con ở với ai?
Answer: Trong trường hợp có yêu cầu của cha, mẹ hoặc cá nhân, tổ chức được quy định tại khoản 5 Điều này, Tòa án có thể quyết định việc thay đổi người trực tiếp nuôi con phù hợp với lợi ích của con.

Question: cha mẹ ly hôn thì con ở với ai?
Answer: Trong trường hợp có yêu cầu của cha, mẹ hoặc cá nhân