In [1]:
# Cell 1: Import các thư viện cần thiết
from sentence_transformers import SentenceTransformer, util
import numpy as np

# Tải model từ Hugging Face Hub.
# Lần đầu tiên chạy, nó sẽ tải model về máy (có thể mất vài phút).
# Những lần sau sẽ rất nhanh vì model đã được lưu lại.
print("Đang tải model...")
model = SentenceTransformer('all-MiniLM-L6-v2')
print("Model đã sẵn sàng!")

  from .autonotebook import tqdm as notebook_tqdm


Đang tải model...


Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


Model đã sẵn sàng!


In [2]:
# Cell 2: Chuẩn bị một vài câu để thí nghiệm
cau_1 = "Chú chó đang chơi đùa trong công viên."
cau_2 = "Con mèo đang nằm ngủ trên ghế sô pha."
cau_3 = "Hôm nay tôi sẽ đi học lập trình."

# Mã hóa các câu này thành vector
embedding_1 = model.encode(cau_1)
embedding_2 = model.encode(cau_2)
embedding_3 = model.encode(cau_3)

# In ra để xem vector trông như thế nào
print("Vector của câu 1 (chỉ in 5 số đầu tiên):")
print(embedding_1[:5])
print("\nKích thước của vector (số chiều):")
print(embedding_1.shape)

Vector của câu 1 (chỉ in 5 số đầu tiên):
[-0.09788508  0.04476633 -0.01082056 -0.00391032 -0.04591976]

Kích thước của vector (số chiều):
(384,)


In [3]:
# Cell 3: Tính toán độ tương đồng
# So sánh câu 1 (chó) và câu 2 (mèo)
similarity_1_2 = util.cos_sim(embedding_1, embedding_2)

# So sánh câu 1 (chó) và câu 3 (lập trình)
similarity_1_3 = util.cos_sim(embedding_1, embedding_3)

print(f"Độ tương đồng giữa 'chó' và 'mèo': {similarity_1_2.item():.4f}")
print(f"Độ tương đồng giữa 'chó' và 'lập trình': {similarity_1_3.item():.4f}")

# So sánh độ tương đồng
if similarity_1_2 > similarity_1_3:
    print("\n=> AI hiểu rằng: câu về 'chó' và 'mèo' có ý nghĩa gần nhau hơn câu về 'chó' và 'lập trình'.")
else:
    print("\n=> Có gì đó không đúng!")

Độ tương đồng giữa 'chó' và 'mèo': 0.7199
Độ tương đồng giữa 'chó' và 'lập trình': 0.6332

=> AI hiểu rằng: câu về 'chó' và 'mèo' có ý nghĩa gần nhau hơn câu về 'chó' và 'lập trình'.


In [4]:
# Cell 4: Thử với dữ liệu thực tế
cau_hoi_nguoi_dung = "Làm cách nào để tạo đối tượng mà không cần chỉ định lớp cụ thể?"
mo_ta_factory = "Factory Method cung cấp một giao diện để tạo các đối tượng trong một lớp cha, nhưng cho phép các lớp con thay đổi loại đối tượng sẽ được tạo."
mo_ta_singleton = "Singleton đảm bảo một lớp chỉ có một thể hiện duy nhất và cung cấp một điểm truy cập toàn cục đến thể hiện đó."

# Mã hóa
emb_cau_hoi = model.encode(cau_hoi_nguoi_dung)
emb_factory = model.encode(mo_ta_factory)
emb_singleton = model.encode(mo_ta_singleton)

# Tính độ tương đồng
sim_q_factory = util.cos_sim(emb_cau_hoi, emb_factory)
sim_q_singleton = util.cos_sim(emb_cau_hoi, emb_singleton)

print(f"Độ tương đồng với Factory Method: {sim_q_factory.item():.4f}")
print(f"Độ tương đồng với Singleton: {sim_q_singleton.item():.4f}")

Độ tương đồng với Factory Method: 0.6473
Độ tương đồng với Singleton: 0.6091
