Doc2Vec в НЛП (https://www.geeksforgeeks.org/doc2vec-in-nlp/)

Doc2Vec также называется Paragraph Vector — популярный метод в обработке естественного языка, который позволяет представлять документы в виде векторов.

Doc2Vec — это подход на основе нейронной сети , который изучает распределенное представление документов. Это метод неконтролируемого обучения , который сопоставляет каждый документ с вектором фиксированной длины в многомерном пространстве. Векторы изучаются таким образом, что похожие документы сопоставляются с близлежащими точками в векторном пространстве. Это позволяет нам сравнивать документы на основе их векторного представления и выполнять такие задачи, как классификация документов , кластеризация и анализ сходства .

Существует два основных варианта подхода Doc2Vec: 

- Распределенная память (DM)
- Распределенный мешок слов (DBOW)

код Python для реализации Doc2Vec с использованием библиотеки Gensim Python.

In [16]:
from gensim.models.doc2vec import Doc2Vec,TaggedDocument
from nltk.tokenize import word_tokenize
import nltk

nltk.download('all')

# define a list of documents.
data = ["This is the first document",
		"This is the second document",
		"This is the third document",
		"This is the fourth document"]

# preproces the documents, and create TaggedDocuments
tagged_data = [TaggedDocument(words=word_tokenize(doc.lower()), tags=[str(i)]) for i, doc in enumerate(data)]

# train the Doc2vec model
model = Doc2Vec(vector_size=20, min_count=2, epochs=50)
model.build_vocab(tagged_data)
model.train(tagged_data, total_examples=model.corpus_count, epochs=model.epochs)

# get the document vectors
document_vectors = [model.infer_vector(word_tokenize(doc.lower())) for doc in data]

# print the document vectors
for i, doc in enumerate(data):
	print("Document", i+1, ":", doc)
	print("Vector:", document_vectors[i])
	print()


[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_eng is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_

Document 1 : This is the first document
Vector: [-0.01728634  0.01214473 -0.00485655  0.01904036 -0.01898626  0.00390779
  0.00247364 -0.02458298  0.00276187 -0.00133738 -0.01929183 -0.01576518
  0.02195568  0.01184651 -0.0228979   0.01520456  0.02094741 -0.00275439
 -0.00683532 -0.01626698]

Document 2 : This is the second document
Vector: [-1.0916991e-02 -6.6735642e-03  1.6950808e-02 -1.1525640e-02
  2.0718569e-02 -1.8885912e-03 -1.6342212e-02  1.3740396e-02
 -7.1619201e-05 -1.8058576e-02 -7.8177666e-03 -1.3765789e-02
  3.2431767e-03 -1.3987222e-02 -2.4949834e-02  2.4376847e-02
  3.0628415e-03 -3.2648873e-03 -1.1665544e-02  2.4669984e-02]

Document 3 : This is the third document
Vector: [ 0.00724823 -0.02166078  0.00959998  0.01205564  0.01155521 -0.01158373
 -0.01665192  0.00582115 -0.01083067 -0.02253643 -0.00187227 -0.02162382
  0.00822653 -0.01936832  0.0064238  -0.01160832  0.01589739 -0.02381135
  0.01159317 -0.02244058]

Document 4 : This is the fourth document
Vector: [-0.008

In [15]:
import gensim
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from nltk.tokenize import word_tokenize
import nltk

# Скачиваем необходимые данные для токенизации
nltk.download('all')

# Пример данных: список предложений (документов)
data = [
    "Это первый документ.",
    "Это второй документ, который немного длиннее.",
    "А это третий документ, и он тоже содержит текст.",
    "Doc2Vec — это мощный инструмент для обработки естественного языка.",
    "Мы используем Doc2Vec для векторного представления документов."
]

# Токенизация и создание TaggedDocument
tagged_data = [TaggedDocument(words=word_tokenize(doc.lower()), tags=[str(i)]) for i, doc in enumerate(data)]

# Параметры модели
vector_size = 20  # Размерность вектора
window_size = 2   # Размер окна
min_count = 1     # Минимальное количество вхождений слова
sampling_threshold = 1e-5
negative_size = 5
epochs = 100
dm = 1            # 1 для PV-DM, 0 для PV-DBOW

# Создание и обучение модели
model = Doc2Vec(
    documents=tagged_data,
    vector_size=vector_size,
    window=window_size,
    min_count=min_count,
    sample=sampling_threshold,
    negative=negative_size,
    epochs=epochs,
    dm=dm
)

# Сохранение модели
model.save("doc2vec.model")
print("Модель сохранена как 'doc2vec.model'")

# Загрузка модели
# model = Doc2Vec.load("doc2vec.model")

# Пример использования модели
# Векторное представление документа
vector = model.infer_vector(word_tokenize("Это новый документ для тестирования.".lower()))
print("Вектор документа:", vector)

# Поиск наиболее похожих документов
similar_docs = model.docvecs.most_similar([vector])
print("Наиболее похожие документы:", similar_docs)

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_eng is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_

Модель сохранена как 'doc2vec.model'
Вектор документа: [ 0.01258386 -0.01029278 -0.00115353 -0.02325111  0.01204374 -0.00541875
  0.00169894 -0.01046041  0.01556888  0.01429932  0.00600403 -0.01375925
  0.00496219  0.02357171  0.00561646  0.0010686  -0.00223179  0.01674847
 -0.01151434  0.0004399 ]
Наиболее похожие документы: [('2', 0.17639495432376862), ('0', -0.09845700114965439), ('4', -0.13653476536273956), ('1', -0.20321574807167053), ('3', -0.3909977078437805)]


  similar_docs = model.docvecs.most_similar([vector])


Преимущества Doc2Vec

- Doc2Vec может улавливать семантическое значение целых документов или абзацев, в отличие от традиционных моделей «мешка слов» , которые обрабатывают каждое слово независимо.
- Его можно использовать для создания внедрений документов, которые можно использовать для различных последующих задач, таких как классификация документов, кластеризация и поиск сходства.
- Doc2Vec может обрабатывать невидимые слова, используя контекст, в котором они появляются в корпусе документов, в отличие от таких методов, как  TF-IDF , которые полагаются на частоту слов в корпусе.
- Его можно обучать на больших массивах данных с использованием параллельной обработки, что делает его масштабируемым для приложений с большими данными.
- Он гибок и его можно легко настраивать, изменяя различные гиперпараметры , такие как размерность вложений документов, количество эпох обучения и алгоритм обучения.