# Ví dụ sử dụng model halong_embedding cho bài toán semantic_search Tiếng Việt

In [None]:
# ==============================================================================
#  This code was written by hiieu && himmeow the coder.
#  Contact: https://www.linkedin.com/in/hieu-ngo-500818174
#           himmeow.thecoder@gmail.com
#  Discord server: https://discord.gg/deua7trgXc
#
#  Feel free to use and modify this code as you see fit.
# ==============================================================================

## Cài đặt thư viện cần thiết

In [None]:
!pip install -U sentence-transformers

Collecting sentence-transformers
  Downloading sentence_transformers-3.0.1-py3-none-any.whl (227 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.1/227.1 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.11.0->sentence-transformers)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.11.0->sentence-transformers)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch>=1.11.0->sentence-transform

## Cài đặt và sử dụng model

In [None]:
from sentence_transformers import SentenceTransformer
import torch

# Tải model từ Hugging Face Hub
model = SentenceTransformer("hiieu/halong_embedding")

# Câu truy vấn và danh sách tài liệu
query = "Bóng đá có lợi ích gì cho sức khỏe?"
docs = [
    "Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền.",
    "Bóng đá là môn thể thao phổ biến nhất thế giới.",
    "Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý.",
    "Bóng đá có thể giúp bạn kết nối với nhiều người hơn.",
    "Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí."
]

# Mã hóa câu truy vấn và tài liệu thành vector embedding
query_embedding = model.encode([query])
doc_embeddings = model.encode(docs)

# Tính toán cosine similarity giữa câu truy vấn và các tài liệu
similarities = model.similarity(query_embedding, doc_embeddings).flatten()

# Sắp xếp tài liệu theo cosine similarity giảm dần
sorted_indices = torch.argsort(similarities, descending=True)
sorted_docs = [docs[idx] for idx in sorted_indices]
sorted_scores = [similarities[idx].item() for idx in sorted_indices]

# In ra các tài liệu đã sắp xếp cùng với điểm số cosine similarity
for doc, score in zip(sorted_docs, sorted_scores):
    print(f"Tài liệu: {doc} - Điểm số Cosine Similarity: {score:.4f}")

Tài liệu: Bóng đá giúp cải thiện sức khỏe tim mạch và tăng cường sức bền. - Điểm số Cosine Similarity: 0.7318
Tài liệu: Chơi bóng đá giúp giảm căng thẳng và cải thiện tâm lý. - Điểm số Cosine Similarity: 0.6623
Tài liệu: Bóng đá không chỉ là môn thể thao mà còn là cách để giải trí. - Điểm số Cosine Similarity: 0.6102
Tài liệu: Bóng đá có thể giúp bạn kết nối với nhiều người hơn. - Điểm số Cosine Similarity: 0.4988
Tài liệu: Bóng đá là môn thể thao phổ biến nhất thế giới. - Điểm số Cosine Similarity: 0.4828
