In [3]:
import gensim
from datasets import load_dataset
import gensim.models.doc2vec
from gensim.models.doc2vec import TaggedDocument

In [None]:
assert gensim.models.doc2vec.FAST_VERSION > -1

print("Завантаження датасету 'ccdv/arxiv-classification'...")
dataset = load_dataset("ccdv/arxiv-classification", split='train')
print("Датасет успішно завантажено.")

def create_tagged_corpus(dataset):
    """
    Функція для створення корпусу з тегами для Doc2Vec.
    Кожен документ (анотація) отримує унікальний тег.
    """
    for i, doc in enumerate(dataset):
        tokens = gensim.utils.simple_preprocess(doc['text'])
        yield TaggedDocument(tokens, [i])

train_corpus = list(create_tagged_corpus(dataset))

print("\nПриклад підготовленого документа (TaggedDocument):")
print(train_corpus[0])

Завантаження датасету 'ccdv/arxiv-classification'...
Датасет успішно завантажено.

Приклад підготовленого документа (TaggedDocument):
TaggedDocument<['constrained', 'submodular', 'maximization', 'via', 'non', 'symmetric', 'technique', 'arxiv', 'cs', 'ds', 'nov', 'niv', 'buchbinder', 'moran', 'feldman', 'november', 'abstract', 'the', 'study', 'of', 'combinatorial', 'optimization', 'problems', 'with', 'submodular', 'objective', 'has', 'attracted', 'much', 'attention', 'in', 'recent', 'years', 'such', 'problems', 'are', 'important', 'in', 'both', 'theory', 'and', 'practice', 'because', 'their', 'objective', 'functions', 'are', 'very', 'general', 'obtaining', 'further', 'improvements', 'for', 'many', 'submodular', 'maximization', 'problems', 'boils', 'down', 'to', 'finding', 'better', 'algorithms', 'for', 'optimizing', 'relaxation', 'of', 'them', 'known', 'as', 'the', 'multilinear', 'extension', 'in', 'this', 'work', 'we', 'present', 'an', 'algorithm', 'for', 'optimizing', 'the', 'multilin

In [None]:
print("\nСтворення моделі Doc2Vec...")
model = gensim.models.doc2vec.Doc2Vec(vector_size=100, min_count=5, epochs=10)

print("Побудова словника...")
model.build_vocab(train_corpus)
print(f"Словник побудовано. Розмір: {len(model.wv.key_to_index)} слів.")

print("Навчання моделі...")
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)
print("Модель успішно навчено.")


Створення моделі Doc2Vec...
Побудова словника...
Словник побудовано. Розмір: 268917 слів.
Навчання моделі...
Модель успішно навчено.


In [None]:
import random

doc_id = random.randint(0, len(train_corpus) - 1)
doc_tokens = train_corpus[doc_id].words

inferred_vector = model.infer_vector(doc_tokens)

sims = model.dv.most_similar([inferred_vector], topn=5)

print("\n--- Пошук схожих документів ---")
print(f"\nОБРАНИЙ ДОКУМЕНТ (ID: {doc_id}):")
print("Текст:", dataset[doc_id]['text'][:500] + "...")


most_similar_id = -1
if sims[0].index == doc_id:
    most_similar_id = sims[1][0]
    similarity_score = sims[1][1]
else:
    most_similar_id = sims[0][0]
    similarity_score = sims[0][1]


print(f"\nНАЙБІЛЬШ СХОЖИЙ ДОКУМЕНТ (ID: {most_similar_id}) з подібністю {similarity_score:.4f}:")
print("Текст:", dataset[most_similar_id]['text'][:500] + "...")


--- Пошук схожих документів ---

ОБРАНИЙ ДОКУМЕНТ (ID: 13171):
Текст: An Optimal Polarization Tracking Algorithm for
Lithium-Niobate-based Polarization Controllers
Joaquim D. Garcia and Gustavo C. Amaral

arXiv:1603.06751v1 [cs.SY] 12 Mar 2016

February 27, 2018
Abstract
We present an optimal algorithm for the three-stage arbitrary polarization tracking using LithiumNiobate-based Polarization Controllers: device calibration, polarization state rotation, and stabilization. The theoretical model representing the lithium-niobate-based polarization controller is deriv...

НАЙБІЛЬШ СХОЖИЙ ДОКУМЕНТ (ID: 13171) з подібністю 0.9690:
Текст: An Optimal Polarization Tracking Algorithm for
Lithium-Niobate-based Polarization Controllers
Joaquim D. Garcia and Gustavo C. Amaral

arXiv:1603.06751v1 [cs.SY] 12 Mar 2016

February 27, 2018
Abstract
We present an optimal algorithm for the three-stage arbitrary polarization tracking using LithiumNiobate-based Polarization Controllers: device calibration, 