In [1]:
!pip install sentence_transformers

Collecting sentence_transformers
  Downloading sentence_transformers-3.4.1-py3-none-any.whl.metadata (10 kB)
Collecting transformers<5.0.0,>=4.41.0 (from sentence_transformers)
  Downloading transformers-4.48.3-py3-none-any.whl.metadata (44 kB)
Collecting torch>=1.11.0 (from sentence_transformers)
  Downloading torch-2.6.0-cp312-none-macosx_11_0_arm64.whl.metadata (28 kB)
Collecting huggingface-hub>=0.20.0 (from sentence_transformers)
  Downloading huggingface_hub-0.28.1-py3-none-any.whl.metadata (13 kB)
Collecting Pillow (from sentence_transformers)
  Downloading pillow-11.1.0-cp312-cp312-macosx_11_0_arm64.whl.metadata (9.1 kB)
Collecting fsspec>=2023.5.0 (from huggingface-hub>=0.20.0->sentence_transformers)
  Downloading fsspec-2025.2.0-py3-none-any.whl.metadata (11 kB)
Collecting pyyaml>=5.1 (from huggingface-hub>=0.20.0->sentence_transformers)
  Using cached PyYAML-6.0.2-cp312-cp312-macosx_11_0_arm64.whl.metadata (2.1 kB)
Collecting networkx (from torch>=1.11.0->sentence_transforme

In [5]:
from sentence_transformers import SentenceTransformer

# 1. Load a pretrained Sentence Transformer model
model = SentenceTransformer("all-MiniLM-L6-v2")

# Các câu tiếng Việt để mã hóa
sentences = [
    "Thời tiết hôm nay thật đẹp.",
    "Trời nắng quá!",
    "Anh ấy lái xe đến sân vận động.",
    "Cô ấy đang đọc sách.",
    "Tôi thích ăn kem.",
    "Chúng tôi đi dạo trong công viên.",
    "Hôm nay là một ngày tuyệt vời.",
    "Anh ấy đang học lập trình.",
    "Cô ấy thích nghe nhạc.",
    "Tôi đang viết một bài báo.",
    "Chúng tôi đang xem phim.",
    "Anh ấy đang chơi bóng đá.",
    "Cô ấy đang nấu ăn.",
    "Tôi đang học tiếng Anh.",
    "Chúng tôi đang làm việc nhóm.",
    "Anh ấy đang chơi đàn guitar.",
    "Cô ấy đang vẽ tranh.",
    "Tôi đang đọc báo.",
    "Chúng tôi đang uống cà phê.",
    "Anh ấy đang chạy bộ.",
    "Cô ấy đang tập yoga.",
    "Tôi đang viết nhật ký.",
    "Chúng tôi đang chơi cờ."
]

# 2. Calculate embeddings by calling model.encode()
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# 3. Calculate the embedding similarities
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6660, 0.1046],
#         [0.6660, 1.0000, 0.1411],
#         [0.1046, 0.1411, 1.0000]])

(23, 384)
tensor([[1.0000, 0.4874, 0.5413, 0.6462, 0.5059, 0.5842, 0.5678, 0.5657, 0.4091,
         0.6140, 0.5661, 0.5699, 0.5879, 0.7344, 0.6302, 0.5139, 0.6427, 0.6787,
         0.5697, 0.5160, 0.5126, 0.6791, 0.5968],
        [0.4874, 1.0000, 0.4287, 0.4204, 0.4573, 0.4860, 0.3970, 0.4376, 0.4247,
         0.4270, 0.4082, 0.4354, 0.4866, 0.4651, 0.4968, 0.3410, 0.4770, 0.4174,
         0.4570, 0.4089, 0.3415, 0.4421, 0.3991],
        [0.5413, 0.4287, 1.0000, 0.7135, 0.4366, 0.5613, 0.3396, 0.6875, 0.3600,
         0.6052, 0.5963, 0.7549, 0.6599, 0.6480, 0.5858, 0.6696, 0.6648, 0.6361,
         0.6478, 0.7013, 0.4960, 0.6197, 0.6056],
        [0.6462, 0.4204, 0.7135, 1.0000, 0.4044, 0.6643, 0.3717, 0.7501, 0.4758,
         0.7020, 0.6224, 0.7514, 0.8501, 0.7184, 0.6846, 0.6557, 0.8531, 0.8210,
         0.7166, 0.7691, 0.6743, 0.7263, 0.7400],
        [0.5059, 0.4573, 0.4366, 0.4044, 1.0000, 0.4433, 0.3445, 0.4596, 0.6153,
         0.4529, 0.4664, 0.4220, 0.4266, 0.5377, 0.5327, 0.37

In [6]:
import numpy as np

# Find the indices of the two sentences with the highest similarity
similarities_np = similarities.numpy()
np.fill_diagonal(similarities_np, -np.inf)  # Ignore self-similarity
max_indices = np.unravel_index(np.argmax(similarities_np), similarities_np.shape)

# Extract the sentences
sentence1 = sentences[max_indices[0]]
sentence2 = sentences[max_indices[1]]

print(f"The two sentences with the highest similarity are:\n1. {sentence1}\n2. {sentence2}")

The two sentences with the highest similarity are:
1. Tôi đang viết một bài báo.
2. Tôi đang đọc báo.


In [7]:
from sentence_transformers.util import paraphrase_mining

paraphrases = paraphrase_mining(model, sentences)

for paraphrase in paraphrases[0:10]:
    score, i, j = paraphrase
    print("{} \t\t {} \t\t Score: {:.4f}".format(sentences[i], sentences[j], score))

Tôi đang viết một bài báo. 		 Tôi đang đọc báo. 		 Score: 0.8940
Chúng tôi đang uống cà phê. 		 Chúng tôi đang chơi cờ. 		 Score: 0.8623
Chúng tôi đang làm việc nhóm. 		 Chúng tôi đang chơi cờ. 		 Score: 0.8567
Cô ấy đang đọc sách. 		 Cô ấy đang vẽ tranh. 		 Score: 0.8531
Cô ấy đang đọc sách. 		 Cô ấy đang nấu ăn. 		 Score: 0.8501
Cô ấy đang nấu ăn. 		 Cô ấy đang vẽ tranh. 		 Score: 0.8480
Tôi đang đọc báo. 		 Tôi đang viết nhật ký. 		 Score: 0.8435
Chúng tôi đang làm việc nhóm. 		 Chúng tôi đang uống cà phê. 		 Score: 0.8356
Chúng tôi đi dạo trong công viên. 		 Chúng tôi đang uống cà phê. 		 Score: 0.8306
Tôi đang viết một bài báo. 		 Tôi đang viết nhật ký. 		 Score: 0.8279
