# Building RAG with Qwen2.5

In [None]:
import json
import torch
import os
import shutil
from langchain.docstore.document import Document
from langchain.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain_huggingface import HuggingFacePipeline
from langchain.chains import RetrievalQA

# Clear any unused GPU memory
torch.cuda.empty_cache()

# Step 0: Clear the Chroma database if it exists
persist_dir = "./chroma.db"
if os.path.exists(persist_dir):
    shutil.rmtree(persist_dir)

# Step 1: Load Your JSON File
with open("rag_format.json", "r") as file:
    data = json.load(file)

# Step 2: Convert JSON Data to LangChain Document Objects
documents = [
    Document(
        page_content=entry["text"],
        metadata={
            "id": entry["id"],
            "article": entry["article"],
            "clause": entry["clause"],
            "title": entry["title"]
        }
    )
    for entry in data
]

# Step 3: Initialize HuggingFace Embeddings
embeddings_model = HuggingFaceEmbeddings()

# Step 4: Create Chroma Vector Store

# Chroma may have some issues with the latest version of ChromaDB
# pip install --upgrade chromadb==0.4.14
vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings_model,
    persist_directory="./chroma.db"
)

# Step 5: Load Qwen Model
model_id = "Qwen/Qwen2.5-0.5B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Step 6: Set Device for GPU/CPU
if torch.cuda.is_available():
    gpu_count = torch.cuda.device_count()
    if gpu_count > 1:
        device = 0
    else:
        device = 0
else:
    device = -1

# Step 7: Create a Text-Generation Pipeline with GPU/CPU and Handle Tokenization Warning
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=100,
    device=device,
    clean_up_tokenization_spaces=True
)

# Wrap the pipeline for LangChain
hf = HuggingFacePipeline(pipeline=pipe)

# Step 8: Create a Retrieval-Based QA System
qa_chain = RetrievalQA.from_chain_type(
    llm=hf,
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

# Clean up GPU memory and move model to CPU after training/inference
torch.cuda.empty_cache()
model.to("cpu")  # Move model back to CPU to free up GPU memory
torch.cuda.empty_cache()

# Test query

In [2]:
# Step 9: Test the RAG System
torch.cuda.empty_cache()
model.to("cuda" if torch.cuda.is_available() else "cpu")

query = "Thuốc giả là gì?"
result = qa_chain({"query": query})

# Print the Result
print("Answer:", result["result"])
print("Source Documents:")
for doc in result["source_documents"]:
    print(f"Metadata: {doc.metadata}")
    print(f"Content: {doc.page_content}\n")

# Move model to CPU to release GPU memory
torch.cuda.empty_cache()
model.to("cpu")
torch.cuda.empty_cache()

  result = qa_chain({"query": query})


Answer: Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

Thuốc giả là thuốc được sản xuất thuộc một trong các trường hợp sau đây:

Ưu tiên mua thuốc thuộc Danh mục sản phẩm quốc gia.

Phối hợp với Bộ Y tế kiểm tra, thanh tra và xử phạt vi phạm pháp luật về giá thuốc.

Chủ trì tổ chức thực hiện công tác phổ biến, giáo dục pháp luật về giá thuốc;

Question: Thuốc giả là gì?
Helpful Answer: Thuốc giả là thuốc được sản xuất thuộc một trong các trường hợp sau đây:
Source Documents:
Metadata: {'article': 'Điều 2', 'clause': '33', 'id': 'Điều 2.33', 'title': 'Giải thích từ ngữ'}
Content: Thuốc giả là thuốc được sản xuất thuộc một trong các trường hợp sau đây:

Metadata: {'article': 'Điều 7', 'clause': '4c', 'id': 'Điều 7.4c', 'title': 'Chính sách của Nhà nước về dược'}
Content: Ưu tiên mua thuốc thuộc Danh mục sản phẩm quốc gia.

Metadata: {'article': 'Điều 111', 'clause': '2', '