<a href="https://colab.research.google.com/github/manhhad32/nlp/blob/master/Doc2VecTinhtoandtd.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Bước 1: Chuẩn Bị Dữ Liệu

In [1]:
from gensim.models.doc2vec import TaggedDocument
import gensim

# Dữ liệu văn bản
documents = [
    "Tôi yêu học ngôn ngữ tự nhiên",
    "Ngôn ngữ tự nhiên rất thú vị",
    "Học ngôn ngữ tự nhiên giúp tôi hiểu văn bản tốt hơn"
]

# Gán nhãn cho các tài liệu
tagged_documents = [TaggedDocument(doc.split(), [i]) for i, doc in enumerate(documents)]


Bước 2: Huấn Luyện Mô Hình


In [2]:
# Khởi tạo và huấn luyện mô hình Doc2Vec
model = gensim.models.Doc2Vec(vector_size=100, window=2, min_count=1, workers=4, epochs=40)
model.build_vocab(tagged_documents)
model.train(tagged_documents, total_examples=model.corpus_count, epochs=model.epochs)


Bước 3: Mã Hóa Câu Truy Vấn và Văn Bản


In [3]:
# Câu truy vấn
query = "Tôi muốn tìm hiểu về ngôn ngữ tự nhiên"
query_vector = model.infer_vector(query.split())

# Mã hóa các văn bản đã huấn luyện
document_vectors = [model.dv[i] for i in range(len(documents))]


Bước 4: Tính Toán Độ Tương Đồng

In [4]:
import numpy as np

# Hàm tính độ tương đồng cosine
def cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# Tính độ tương đồng giữa câu truy vấn và các văn bản
similarities = [cosine_similarity(query_vector, doc_vector) for doc_vector in document_vectors]

# Sắp xếp các văn bản theo độ tương đồng giảm dần
sorted_docs = sorted(zip(documents, similarities), key=lambda x: x[1], reverse=True)

# In ra các văn bản có độ tương đồng cao nhất
for doc, similarity in sorted_docs:
    print(f"Document: {doc}, Similarity: {similarity}")


Document: Học ngôn ngữ tự nhiên giúp tôi hiểu văn bản tốt hơn, Similarity: 0.07464040070772171
Document: Tôi yêu học ngôn ngữ tự nhiên, Similarity: 0.006966250017285347
Document: Ngôn ngữ tự nhiên rất thú vị, Similarity: -0.1045224592089653
