# Build RAG with Milvus


In [1]:
# 📌 Cell 1: Import thư viện cần thiết
from pymilvus import MilvusClient
from sentence_transformers import SentenceTransformer
from tqdm import tqdm
from glob import glob
import os

milvus_client = MilvusClient(uri="http://localhost:19530")
collection_name = "my_rag_collection"

# 📌 Cell 2: Load SentenceTransformer model load một lần duy nhất
# Model sẽ được tải và lưu cache tại D:\Big_project_2025
model = SentenceTransformer(
    'all-MiniLM-L6-v2',
    cache_folder="D:/Big_project_2025"
)

# Hàm tiện ích để sinh embeddings cho text
def emb_text(text): 
    return model.encode(text).tolist()




In [12]:
# 📌 Cell 3: Đọc dữ liệu từ file .md
# Lấy toàn bộ file trong thư mục data
text_lines = []
for file_path in glob(r"D:\Big_project_2025\RAG_Milvus\data_Shop\*.md", recursive=True):
    with open(file_path, "r", encoding="utf-8") as file:
        file_text = file.read()
    # Cắt text theo header Markdown "# ..."
    text_lines += file_text.split("# ")

# Loại bỏ dòng rỗng + strip khoảng trắng
text_lines = [line.strip() for line in text_lines if line.strip() and line]
print(f"✅ Số đoạn văn lấy được: {len(text_lines)}")


✅ Số đoạn văn lấy được: 13


In [13]:
# 📌 Cell 4: Tạo embeddings cho dữ liệu
embeddings = [emb_text(line) for line in tqdm(text_lines, desc="Creating embeddings")]
print(f"✅ Đã tạo {len(embeddings)} embeddings")

Creating embeddings: 100%|██████████| 13/13 [00:00<00:00, 22.80it/s]

✅ Đã tạo 13 embeddings





In [14]:
# 📌 Cell 5: Kết nối Milvus
milvus_client = MilvusClient(uri="http://localhost:19530")
collection_name = "my_rag_collection"

# Nếu collection đã tồn tại thì xóa để tạo mới
if milvus_client.has_collection(collection_name):
      milvus_client.drop_collection(collection_name)
      print("⚠️ Đã xóa collection cũ:", collection_name)

⚠️ Đã xóa collection cũ: my_rag_collection


In [15]:
# 📌 Cell 6: Tạo collection mới trong Milvus
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=384,  # 384 = embedding size của all-MiniLM-L6-v2
    metric_type="IP",  # Inner Product (phù hợp cho similarity search)
    consistency_level="Bounded",
)
print("✅ Đã tạo collection:", collection_name)


✅ Đã tạo collection: my_rag_collection


In [16]:
# 📌 Cell 7: Chuẩn bị dữ liệu và insert vào Milvus
data = [
    {"id": i, "vector": vec, "text": text}
    for i, (text, vec) in enumerate(zip(text_lines, embeddings))
]

milvus_client.insert(collection_name=collection_name, data=data)
print(f"🎉 Đã chèn {len(data)} records vào Milvus collection '{collection_name}'")


🎉 Đã chèn 13 records vào Milvus collection 'my_rag_collection'


## triển khai RAG

In [17]:
# 📌 Câu hỏi
question = "vật liệu là gì?"

# 📌 Search trong Milvus (chỉ lấy top 1)
search_res = milvus_client.search(
    collection_name=collection_name,
    data=[emb_text(question)],
    limit=1,  # 🔹 Chỉ lấy 1 kết quả tốt nhất
    search_params={"metric_type": "IP", "params": {}},
    output_fields=["text"],
)

# 📌 Lấy text từ kết quả
best_text = search_res[0][0]["entity"]["text"]
#best_distance = search_res[0][0]["distance"]

print("kết quả của:", best_text)
#print("📏 Độ tương đồng:", best_distance)


kết quả của: Danh sách bàn làm việc

**Desks Boulerard**
- Giá: 39.999.000 VNĐ
- Mô tả: Phù hợp cho học tập, làm việc tại nhà hoặc văn phòng.

**Desks Cottage**
- Giá: 379.999.000 VNĐ
- Mô tả: Bàn làm việc đa năng, có ngăn kéo tiện lợi.

**Desks Harper**
- Giá: 100.000.000 VNĐ
- Mô tả: Chất liệu gỗ công nghiệp bền đẹp, chống ẩm mốc.


# Hybrid Search with Milvus

In [15]:
# Kiểm tra cài đặt
import pymilvus
import langchain
import sentence_transformers
print("pymilvus version:", pymilvus.__version__)
print("langchain version:", langchain.__version__)
print("sentence_transformers version:", sentence_transformers.__version__)

pymilvus version: 2.6.1
langchain version: 0.3.27
sentence_transformers version: 5.1.0


In [None]:
import os
import torch
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility
from pymilvus.model.hybrid import BGEM3EmbeddingFunction
from sentence_transformers import SentenceTransformer
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate
import requests

# Kết nối Milvus
connections.connect("default", uri="http://localhost:19530")
collection_name = "hybrid_search_SHOP"

# Khởi tạo BGE-M3 (lưu model ở D:/Big_project_2025)
if 'ef' not in globals():
    ef = BGEM3EmbeddingFunction(model_name="BAAI/bge-m3", use_fp16=False, device="cpu", cache_dir="D:/Big_project_2025")
    dense_dim = ef.dim["dense"]
    use_hybrid = True
    print("Khởi tạo lại BGE-M3.")
else:
    print("BGE-M3 đã được khởi tạo trước đó, không cần chạy lại.")

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

.DS_Store:   0%|          | 0.00/6.15k [00:00<?, ?B/s]

colbert_linear.pt:   0%|          | 0.00/2.10M [00:00<?, ?B/s]

miracl.jpg:   0%|          | 0.00/576k [00:00<?, ?B/s]

.gitattributes: 0.00B [00:00, ?B/s]

bm25.jpg:   0%|          | 0.00/132k [00:00<?, ?B/s]

mkqa.jpg:   0%|          | 0.00/608k [00:00<?, ?B/s]

long.jpg:   0%|          | 0.00/485k [00:00<?, ?B/s]

nqa.jpg:   0%|          | 0.00/158k [00:00<?, ?B/s]

others.webp:   0%|          | 0.00/21.0k [00:00<?, ?B/s]

long.jpg:   0%|          | 0.00/127k [00:00<?, ?B/s]

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

Constant_7_attr__value:   0%|          | 0.00/65.6k [00:00<?, ?B/s]

onnx/model.onnx:   0%|          | 0.00/725k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/698 [00:00<?, ?B/s]

onnx/model.onnx_data:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

onnx/sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

onnx/tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

sparse_linear.pt:   0%|          | 0.00/3.52k [00:00<?, ?B/s]

In [None]:
# Tạo schema collection
fields = [ # Danh sách các trường trong collection
    FieldSchema(name="pk", dtype=DataType.VARCHAR, is_primary=True, auto_id=True, max_length=100),
    FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=8192),
    FieldSchema(name="dense_vector", dtype=DataType.FLOAT_VECTOR, dim=dense_dim),
]
if use_hybrid: # Nếu dùng hybrid thì thêm trường sparse_vector
    fields.append(FieldSchema(name="sparse_vector", dtype=DataType.SPARSE_FLOAT_VECTOR))
schema = CollectionSchema(fields)

# Tạo collection nếu chưa tồn tại
if utility.has_collection(collection_name):
    Collection(collection_name).drop()
col = Collection(collection_name, schema)

# Tạo index và load dữ liệu vào bộ nhớ
dense_index = {"index_type": "AUTOINDEX", "metric_type": "IP"}
col.create_index("dense_vector", dense_index)
if use_hybrid: # Nếu dùng hybrid thì tạo index cho sparse_vector
    sparse_index = {"index_type": "SPARSE_INVERTED_INDEX", "metric_type": "IP"}
    col.create_index("sparse_vector", sparse_index)
col.load()

In [None]:
# Đường dẫn data
data_folder = r"D:\Big_project_2025\RAG_Milvus\data_Shop"

# Đọc và xử lý data từ folder
docs = []
splitter = RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=50) # Cắt đoạn văn bản thành các chunks nhỏ hơn
for filename in os.listdir(data_folder):
    if filename.endswith(".md"):
        file_path = os.path.join(data_folder, filename)
        with open(file_path, "r", encoding="utf-8") as f:
            text = f.read()
            chunks = splitter.split_text(text)
            docs.extend(chunks)

print(f"Tổng số chunks: {len(docs)}")

Tổng số chunks: 13


In [None]:
# Tạo embeddings
docs_embeddings = ef(docs)

# Chèn vào Milvus (batch) với chuyển đổi dữ liệu phù hợp
batch_size = 50
for i in range(0, len(docs), batch_size):
    batched_docs = docs[i:i + batch_size]
    batched_dense = docs_embeddings["dense"][i:i + batch_size]
    batched_sparse = docs_embeddings["sparse"][i:i + batch_size]

    # Chuyển dense sang list (nếu cần)
    batched_dense_converted = [vec.tolist() for vec in batched_dense]

    # Chuyển sparse sang định dạng dict {index: value} cho SPARSE_FLOAT_VECTOR
    batched_sparse_converted = []
    for sparse_vec in batched_sparse:
        coo = sparse_vec.tocoo()  # Chuyển sang COO format để lấy index và value
        sparse_dict = {int(idx): float(val) for idx, val in zip(coo.col, coo.data)}
        batched_sparse_converted.append(sparse_dict)

    # Thứ tự chèn phải khớp schema: text, dense_vector, sparse_vector (nếu hybrid)
    batched_entities = [
        batched_docs,  # text
        batched_dense_converted,  # dense_vector
    ]
    if use_hybrid:
        batched_entities.append(batched_sparse_converted)  # sparse_vector (thêm sau dense)

    col.insert(batched_entities)

print(f"Inserted {col.num_entities} entities.")

Inserted 0 entities.


In [None]:
from pymilvus import AnnSearchRequest, WeightedRanker
from scipy.sparse import issparse

def search(query, limit=5, sparse_weight=0.7, dense_weight=1.0):
    query_emb = ef([query])
    
    # Chuyển đổi dense vector sang list
    dense_vec = query_emb["dense"][0].tolist()
    
    # Chuyển đổi sparse vector sang dict {index: value}
    sparse_vec = query_emb["sparse"][0]
    if issparse(sparse_vec):
        coo = sparse_vec.tocoo()
        sparse_dict = {int(idx): float(val) for idx, val in zip(coo.col, coo.data)}
    else:
        sparse_dict = sparse_vec  # Nếu đã ở định dạng dict
    
    # Tạo search requests
    dense_req = AnnSearchRequest([dense_vec], "dense_vector", {"metric_type": "IP"}, limit=limit)
    sparse_req = AnnSearchRequest([sparse_dict], "sparse_vector", {"metric_type": "IP"}, limit=limit)
    
    # Thực hiện hybrid search với reranking
    rerank = WeightedRanker(sparse_weight, dense_weight)
    res = col.hybrid_search([sparse_req, dense_req], rerank=rerank, limit=limit, output_fields=["text"])[0]
    return [hit.get("text") for hit in res]

In [None]:
import requests

def generate_answer(query, retrieved_docs):
    context = "\n".join(retrieved_docs)
    prompt = PromptTemplate.from_template(
        "Bạn là chatbot bán hàng tiếng Việt. Dựa trên thông tin sau để trả lời câu hỏi: {query}\n\nContext: {context}\n\nTrả lời hữu ích, ngắn gọn bằng tiếng Việt."
    ).format(query=query, context=context)
    
    # Gọi API xAI với key của bạn
    api_url = "https://api.x.ai/v1/chat/completions"
    headers = {
        "Content-Type": "application/json",
        "Authorization": "Bearer xai-GM5dDZHsyHVeue72pFibiLpeTHLuvJHlmRk356y4H8WLU83bNdfrUICGT9LAFRFryiaerfVgyLVCKNlF"
    }
    data = {
        "messages": [
            {"role": "system", "content": "You are a test assistant."},
            {"role": "user", "content": prompt}
        ],
        "model": "grok-4-latest",
        "stream": False,
        "temperature": 0
    }
    
    try:
        response = requests.post(api_url, headers=headers, json=data, timeout=30)
        response.raise_for_status()  # Kiểm tra lỗi HTTP
        result = response.json()
        return result["choices"][0]["message"]["content"]
    except requests.exceptions.RequestException as e:
        return f"Lỗi khi gọi API: {str(e)}"

In [None]:
result = search("giá sofa")
print(result)

['# Chính sách bảo hành\n\n## Thời gian bảo hành\n- Tất cả sản phẩm: 12 tháng kể từ ngày mua.\n- Một số sản phẩm sofa cao cấp: 24 tháng.\n\n## Điều kiện bảo hành\n- Sản phẩm bị lỗi do nhà sản xuất.\n- Còn phiếu bảo hành hoặc hóa đơn mua hàng.\n\n## Không áp dụng bảo hành\n- Hư hỏng do sử dụng sai cách (ẩm mốc, va đập, cháy xước).\n- Sản phẩm bị sửa chữa ở nơi khác.\n- Quá thời hạn bảo hành.\n\n## Hỗ trợ sau bảo hành\n- Có dịch vụ sửa chữa, thay mới với giá ưu đãi.\n- Hỗ trợ tư vấn miễn phí qua hotline.', '# Thông tin cửa hàng\n\nCửa hàng Nội Thất PT chuyên cung cấp sofa, bàn ăn, bàn làm việc và các sản phẩm nội thất cao cấp.\n\n- Địa chỉ: 256 Nguyễn Văn Cừ, An Hòa, Ninh Kiều, Cần Thơ\n- Hotline: 0292-3894050\n- Email: turnthuan1@gmail.com\n- Fanpage: https://github.com/phithuan/AI_Challenge_2025\n\nCam kết:\n- Sản phẩm chính hãng, chất lượng cao.\n- Giá cả minh bạch, cạnh tranh.\n- Bảo hành 12 tháng toàn quốc.\n- Hỗ trợ khách hàng nhanh chóng, tận tâm.', '# Danh sách Sofa\n\n## Sofa CA

In [None]:
# Chatbot loop
print("Chatbot sẵn sàng! Nhập 'exit' để thoát")
while True:
    query = input("Câu hỏi của bạn: ")
    if query.lower() == "exit":
        break
    retrieved = search(query)
    if not retrieved:  # Kiểm tra nếu không tìm thấy kết quả
        print("Trả lời: Không tìm thấy thông tin phù hợp.")
    else:
        answer = generate_answer(query, retrieved)
        print("Trả lời:", answer)

Chatbot sẵn sàng! Nhập 'exit' để thoát
Trả lời: Lỗi khi gọi API: 403 Client Error: Forbidden for url: https://api.x.ai/v1/chat/completions
