In [1]:
from sentence_transformers import SentenceTransformer
from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)
model = SentenceTransformer("vinai/phobert-base", device='cuda' if torch.cuda.is_available() else 'cpu')


No sentence-transformers model found with name vinai/phobert-base. Creating a new one with mean pooling.


In [2]:
import pandas as pd
BASE_OUTPUT_DATA_DIR = "../data/processed_data/Original_news_dataset.csv"
df = pd.read_csv(BASE_OUTPUT_DATA_DIR, dtype=str, nrows=2000)
df.head()

Unnamed: 0.1,Unnamed: 0,id,author,content,picture_count,processed,source,title,topic,url,crawled_at
0,0,218270,,"chiều 31/7, công an tỉnh thừa thiên - huế đã c...",3,0,docbao.vn,"Tên cướp tiệm vàng tại Huế là đại uý công an, ...",Pháp luật,https://docbao.vn/phap-luat/ten-cuop-tiem-vang...,2022-08-01 09:09:22.817308
1,1,218269,(Nguồn: Sina),"gần đây, thứ trưởng bộ phát triển kỹ thuật số,...",1,0,vtc.vn,"Bỏ qua mạng 5G, Nga tiến thẳng từ 4G lên 6G",Sống kết nối,https://vtc.vn/bo-qua-mang-5g-nga-tien-thang-t...,2022-08-01 09:09:21.181469
2,2,218268,Hồ Sỹ Anh,kết quả thi tốt nghiệp thpt năm 2022 cho thấy ...,3,0,thanhnien.vn,Địa phương nào đứng đầu cả nước tổng điểm 3 mô...,Giáo dục,https://thanhnien.vn/dia-phuong-nao-dung-dau-c...,2022-08-01 09:09:15.311901
3,3,218267,Ngọc Ánh,thống đốc kentucky andy beshear hôm 31/7 cho h...,1,0,vnexpress,Người chết trong mưa lũ 'nghìn năm có một' ở M...,Thế giới,https://vnexpress.net/nguoi-chet-trong-mua-lu-...,2022-08-01 09:09:02.211498
4,4,218266,HẢI YẾN - MINH LÝ,vụ tai nạn giao thông liên hoàn trên phố đi bộ...,12,0,soha,"Hải Phòng: Hình ảnh xe ""điên"" gây tai nạn liên...",Thời sự - Xã hội,https://soha.vn/hai-phong-hinh-anh-xe-dien-gay...,2022-08-01 09:09:01.601170


In [3]:
def merge_sentences(sentences, max_tokens=256):
  chunks = []
  current_chunk = []
  current_length = 0

  for sentence in sentences:
    if not sentence:
      continue
    tokenized = tokenizer.tokenize(sentence)
    token_length = len(tokenized)

    if token_length >= max_tokens:
      # Nếu câu này đã >= max_tokens thì tách riêng, không ghép thêm
      if current_chunk:
        chunks.append(" ".join(current_chunk))
        current_chunk = []
        current_length = 0
      chunks.append(sentence)
    else:
      if current_length + token_length <= max_tokens:
        current_chunk.append(sentence)
        current_length += token_length
      else:
        if current_chunk:
          chunks.append(" ".join(current_chunk))
        current_chunk = [sentence]
        current_length = token_length

  if current_chunk:
    chunks.append(" ".join(current_chunk))

  return chunks



In [4]:
import numpy as np

def vectorize(text):
    return model.encode(text, normalize_embeddings=True)
  
def process_content(sentences):
    chunks = merge_sentences(sentences)
    vectors = [vectorize(chunk) for chunk in chunks]
    return vectors, chunks

output_data = []

for idx, row in df.head(10).iterrows():
  content = row['content']
  if pd.isnull(content):
    continue
  
  sentences = content.split('.')
  vectors, sentences_chunks = process_content(sentences)
  chunks = []
  
  for i, vector in enumerate(vectors):
    chunks.append({
      "chunk_index": i + 1,
      "vector": np.frombuffer(vector, dtype=np.float32).tolist(),
      "text": sentences_chunks[i]
    })
  metadata = {
    "id": row['id'],
    "title": row['title'],
    "author": row['author'],
    "tags": row['topic'],
    "publish_time": row['crawled_at'],
    "source": row['source'],
    "url": row['url']
  }
  output_data.append({
    "chunks": chunks,
    "metadata": metadata
  })

  return forward_call(*args, **kwargs)


In [5]:
output_data

[{'chunks': [{'chunk_index': 1,
    'vector': [-0.009784053079783916,
     0.037110619246959686,
     -0.010326522402465343,
     -0.004958206322044134,
     -0.04131731763482094,
     0.03268720954656601,
     0.026151111349463463,
     -0.030490806326270103,
     0.0009645777754485607,
     -0.012288632802665234,
     -0.004561991430819035,
     0.03752171993255615,
     -0.023459961637854576,
     0.005639223847538233,
     0.03334082290530205,
     -0.02094002440571785,
     -0.012197956442832947,
     -0.016558995470404625,
     0.01945256069302559,
     0.01673119328916073,
     -0.030154647305607796,
     -0.005833571311086416,
     -0.0013222842244431376,
     0.07228375971317291,
     -0.01921079307794571,
     -0.011639855802059174,
     0.03385002538561821,
     0.04205366596579552,
     -0.007439087610691786,
     -0.023740533739328384,
     0.024473141878843307,
     0.00855550542473793,
     -0.008835450746119022,
     -0.029420772567391396,
     0.08514560759067535,
    

In [6]:
import json
with open("output_vectors.json", "w", encoding="utf-8") as f:
  json.dump(output_data, f, ensure_ascii=False, indent=2)


In [7]:
!pip3 install qdrant_client



In [8]:
from uuid import uuid4
from qdrant_client import QdrantClient, models


# Use in-memory Qdrant instance
client = QdrantClient(
    url="https://69cd4264-af23-4dd2-9791-819696c8125e.us-east4-0.gcp.cloud.qdrant.io:6333",  # ví dụ: https://abcd1234.qdrant.cloud
    api_key="eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.-G0OO8JkbtUUien-2OZ3PdxbeexP88KhMnVRnJmZsD8"  # từ Qdrant Cloud
)

collection_name = "news_vectors_v12"

# Tạo collection nếu chưa có
# get vector size
if collection_name not in [c.name for c in client.get_collections().collections]:
  client.recreate_collection(
    collection_name=collection_name,
    vectors_config=models.VectorParams(
      size=len(output_data[0]['chunks'][0]['vector']),
      distance=models.Distance.COSINE
    )
  )

# Lưu vectors vào Qdrant
for item in output_data:
  points = []
  for chunk in item["chunks"]:
    points.append(
      models.PointStruct(
        id=str(uuid4()),
        vector=chunk["vector"],
        payload={
          "text": chunk["text"],
          **item["metadata"]
        }
      )
    )
  client.upsert(
    collection_name=collection_name,
    points=points,
    
  )


In [9]:
from underthesea import word_tokenize
from qdrant_client.models import Filter, FieldCondition, MatchValue


user_query = word_tokenize("tránh nhầm lẫn  chính sách bảo mật rss".strip().lower(), format="text")
print(f"User query: {user_query}")
user_query_vector = vectorize(user_query)
query_result = client.query_points(
    collection_name=collection_name,
    query=user_query_vector,
    limit=6, 
    with_payload=True,
)

query_result.dict()

User query: tránh nhầm_lẫn chính_sách bảo_mật rss


/tmp/ipykernel_7956/2795568272.py:15: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.11/migration/
  query_result.dict()


{'points': [{'id': '585b3bdb-30f7-41c7-af6c-0eee984360a3',
   'version': 20,
   'score': 0.5937139,
   'payload': {'text': 'vn đọc báo trực tuyến hiện tại chỉ sử dụng tên miền duy nhất là docbao vn; độc giả lưu ý tránh nhầm lẫn  chính sách bảo mật rss',
    'id': '218270',
    'title': 'Tên cướp tiệm vàng tại Huế là đại uý công an, công tác tại Trại giam',
    'author': None,
    'tags': 'Pháp luật',
    'publish_time': '2022-08-01 09:09:22.817308',
    'source': 'docbao.vn',
    'url': 'https://docbao.vn/phap-luat/ten-cuop-tiem-vang-tai-hue-la-dai-uy-cong-an-cong-tac-tai-trai-giam-tintuc834608'},
   'vector': None,
   'shard_key': None,
   'order_value': None},
  {'id': '5f800614-d1bc-4934-84cd-0fee2f9ba907',
   'version': 30,
   'score': 0.5937139,
   'payload': {'text': 'vn đọc báo trực tuyến hiện tại chỉ sử dụng tên miền duy nhất là docbao vn; độc giả lưu ý tránh nhầm lẫn  chính sách bảo mật rss',
    'id': '218270',
    'title': 'Tên cướp tiệm vàng tại Huế là đại uý công an, công 

In [10]:
!pip3 install fastapi uvicorn
!pip3 install pydantic
!pip3 install aiofiles



In [None]:
from fastapi import FastAPI, Request
from pydantic import BaseModel

app = FastAPI()

class QueryRequest(BaseModel):
  user_query: str
  page: int = 1
  limit: int = 10

@app.post("/search")
async def search_vectors(request: QueryRequest):
  # Tokenize and vectorize the user query
  user_query_tokenized = word_tokenize(request.user_query.strip().lower(), format="text")
  user_query_vector = vectorize(user_query_tokenized)
  
  # Calculate offset for pagination
  offset = (request.page - 1) * request.limit
  
  # Query Qdrant
  result = client.search(
    collection_name=collection_name,
    query_vector=user_query_vector,
    limit=request.limit,
    offset=offset,
    with_payload=True,
  )
  seen_ids = set()
  filtered_results = []
  for r in result:
    item_id = r.payload.get("id")
    if item_id and item_id not in seen_ids:
      filtered_results.append(r.payload)
      seen_ids.add(item_id)
    if len(filtered_results) >= request.limit:
      break

  return {"results": filtered_results}

import nest_asyncio
nest_asyncio.apply()

import uvicorn
uvicorn.run(app, host="0.0.0.0", port=8000)


INFO:     Started server process [7956]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
