<a href="https://colab.research.google.com/github/maripkl/topic_modeling/blob/main/topic_modeling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Тематическое моделирование коротких текстовых сообщений
### Topic Modeling with Contextualized Word Representation Clusters
#### *Поклонская Мария*

Первым делом нам нужно подключить все необходимые библиотеки. 

In [None]:
!pip install -U contextualized_topic_models

In [None]:
from contextualized_topic_models.models.ctm import CombinedTM
from contextualized_topic_models.utils.data_preparation import TopicModelDataPreparation
from contextualized_topic_models.utils.data_preparation import bert_embeddings_from_file
from contextualized_topic_models.utils.preprocessing import WhiteSpacePreprocessing
from contextualized_topic_models.models.ctm import ZeroShotTM


import nltk
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random

Для начала загрузим данные с kaggle и приведем их в табличный вид для дальнейшего анализа. 

In [None]:
from google.colab import files
files.upload()

Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"mariapoklonskaya","key":"927a746bbe6e2597bd9842ac5da7ede2"}'}

In [None]:
!rm -r ~/.kaggle
!mkdir ~/.kaggle
!mv ./kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

rm: cannot remove '/root/.kaggle': No such file or directory


In [None]:
!kaggle datasets download -d Cornell-University/arxiv

Downloading arxiv.zip to /content
 99% 1.06G/1.07G [00:05<00:00, 179MB/s]
100% 1.07G/1.07G [00:05<00:00, 192MB/s]


In [None]:
!unzip /content/arxiv.zip

Archive:  /content/arxiv.zip
  inflating: arxiv-metadata-oai-snapshot.json  


In [None]:
import json

data_file = '/content/arxiv-metadata-oai-snapshot.json'

def get_metadata():
    with open(data_file, 'r') as f:
        for line in f:
            yield line

In [None]:
metadata = get_metadata()
for paper in metadata:
    paper_dict = json.loads(paper)
    print('Title: {}\n\nAbstract: {}\nRef: {}'.format(paper_dict.get('title'), paper_dict.get('abstract'), paper_dict.get('journal-ref')))
    break

Title: Calculation of prompt diphoton production cross sections at Tevatron and
  LHC energies

Abstract:   A fully differential calculation in perturbative quantum chromodynamics is
presented for the production of massive photon pairs at hadron colliders. All
next-to-leading order perturbative contributions from quark-antiquark,
gluon-(anti)quark, and gluon-gluon subprocesses are included, as well as
all-orders resummation of initial-state gluon radiation valid at
next-to-next-to-leading logarithmic accuracy. The region of phase space is
specified in which the calculation is most reliable. Good agreement is
demonstrated with data from the Fermilab Tevatron, and predictions are made for
more detailed tests with CDF and DO data. Predictions are shown for
distributions of diphoton pairs produced at the energy of the Large Hadron
Collider (LHC). Distributions of the diphoton pairs from the decay of a Higgs
boson are contrasted with those produced from QCD processes at the LHC, showing
tha

У нас есть ограничения по памяти, поэтому мы не можем использовать весь датасет. Давайте будем анализировать данные начиная с 2012 года. 

In [None]:
titles = []
ids = []
abstracts = []
authors_parsed = []
authors = []
years = []
metadata = get_metadata()
for paper in metadata:
    paper_dict = json.loads(paper)
    ref = paper_dict.get('journal-ref')
    try:
        year = int(ref[-4:]) 
        if 2011 < year <= 2022:
            years.append(year)
            ids.append(paper_dict.get('id'))
            authors_parsed.append(paper_dict.get('authors_parsed'))
            authors.append(paper_dict.get('authors'))
            titles.append(paper_dict.get('title'))
            abstracts.append(paper_dict.get('abstract'))
    except:
        pass 

len(titles), len(abstracts), len(years)

(43668, 43668, 43668)

In [None]:
papers = pd.DataFrame({
    'id' : ids,
    'title': titles,
    'authors': authors,
    'authors parsed': authors_parsed,
    'abstract': abstracts,
    'year': years
})
papers.head()

Unnamed: 0,id,title,authors,authors parsed,abstract,year
0,704.0304,The World as Evolving Information,Carlos Gershenson,"[[Gershenson, Carlos, ]]",This paper discusses the benefits of describ...,2012
1,704.0498,A unified analysis of the reactor neutrino pro...,"Guillaume Mention (DAPNIA), Thierry Lasserre (...","[[Mention, Guillaume, , DAPNIA], [Lasserre, Th...",We present in this article a detailed quanti...,2013
2,704.2768,Heat Equations and the Weighted $\bar\partial$...,Andrew Raich,"[[Raich, Andrew, ]]",The purpose of this article is to establish ...,2012
3,705.0505,Non Supersymmetric Metastable Vacua in N=2 SYM...,Georgios Pastras,"[[Pastras, Georgios, ]]",We find non-supersymmetric metastable vacua ...,2013
4,705.0681,Entanglement in a Jaynes-Cummings Model with T...,Samina S. Masood and Allen Miller,"[[Masood, Samina S., ], [Miller, Allen, ]]",We investigate the conditions of entanglemen...,2014


Дальнейший анализ будет строиться на столбце "Abstract", в котором собраны аннотации к статьям. 

При работе модели используются два вида данных - предобработанные для построения мешка слов и необработанные для построения предобученных векторных эмбеддингов BERT. 

Обрабатывать данные мы будем следующим образом: переведем все в нижний регистр, исключим знаки пунктуации, числа и лишние слова (предлоги, местоимения и т. д.) при помощи Natural Language Toolkit. 

In [None]:
import string
documents = papers.abstract.to_list()
nltk.download('punkt')
nltk.download('stopwords')

from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('english'))
def process_text(text, stop_words=stop_words):
    return ' '.join([word for word in word_tokenize(text.lower()) if (word not in string.punctuation and word not in stop_words and not word.isdigit())])

preprocessed = papers.abstract.apply(process_text)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Ниже мы видим какие получаются данные для построения мешка слов:

In [None]:
preprocessed[:4]

0    paper discusses benefits describing world info...
1    present article detailed quantitative discussi...
2    purpose article establish regularity pointwise...
3    find non-supersymmetric metastable vacua four ...
Name: abstract, dtype: object

В семействе CTM представлены две модели CombinedTM и ZeroShotTM. Разница заключается в том, что первая модель работает с комбинацией контекстуальных эмбеддингов и BoW, ее целью является создание осмысленных согласованных тем, а вторая модель принимает только контекстуальные эмбеддинги и направлена на то, чтобы уметь обрабатывать неизвестные новые слова на этапе тестирования и применяться к другим языкам без больших вычислительных сложностей. 

###Начнем с изучения модели CombinedTM. 

Для создания набора данных для обучения модели передадим предварительно обработанные и необработанные данные объекту TopicModelDataPreparation, который создаст мешок слов и получит контекстуальные представления BERT всех документов. Таким образом мы создадим набор данных для обучения в подходящим для этой модели виде. 

У самой модели несколько параметров:

- bow_size - размер словаря
- contextual_size - размер контекстуальных эмбеддингов
- n_components - количество тем, которые мы хотим получить от модели
- num_epochs - количество эпох для обучения

Мы будем использовать контекстуальную модель "paraphrase-distilroberta-base-v2", так как она работает с представлениями предложений и абзацев, что соответствует требованиям используемой модели. 

In [None]:
# создаем датасет для обучения
qt = TopicModelDataPreparation("paraphrase-distilroberta-base-v2")
training_dataset = qt.fit(text_for_contextual=documents, text_for_bow=preprocessed)

Downloading:   0%|          | 0.00/736 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.74k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/686 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/329M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.12k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/798k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/229 [00:00<?, ?B/s]



Batches:   0%|          | 0/219 [00:00<?, ?it/s]



Может быть интересно взглянуть на словарь, который мы получили:

In [None]:
print(random.sample(qt.vocab, 15))

['dutton', 'embeddding', 'uninterrupted', 'chaplygin', 'liter', 'unrealized', 'capturable', '252no', 'mininet', 'involuntary', 'internodons', 'k5', 'ekiti', 'adenocarcinoma', 'optimisers']


Мы видим, что словарь в основном состоит из научных терминов без каких-то малозначащих ненужных слов, а значит из таких слов и темы должны быть более осмысленные (чем если бы мы описывали темы через местоимения или числа)

In [None]:
# обучаем модель
ctm = CombinedTM(bow_size=len(qt.vocab), contextual_size=768, n_components=50, num_epochs=15) 
ctm.fit(training_dataset) 

Epoch: [15/15]	 Seen Samples: [655020/655020]	Train Loss: 1020.055829640698	Time: 0:00:41.043169: : 15it [10:02, 40.15s/it]
Sampling: [20/20]: : 20it [09:09, 27.50s/it]


Теперь посмотрим на темы, которые получила наша модель после обучения, всего их 50. 

При помощи параметра в методе get_topics мы можем выбирать какое количество слов будут характеризовать каждую тему. 

In [None]:
ctm.get_topics(5)

defaultdict(list,
            {0: ['disease', 'population', 'clinical', 'treatment', 'brain'],
             1: ['quantum', 'classical', 'entanglement', 'codes', 'channels'],
             2: ['relieve', 'regressive', 'accumulates', '785', 'tion'],
             3: ['ray', 'emission', 'spectral', 'sources', 'detected'],
             4: ['temperature',
              'temperatures',
              'diffraction',
              'atomic',
              'molecules'],
             5: ['agents', 'agent', 'strategies', 'strategy', 'game'],
             6: ['security', 'services', 'smart', 'internet', 'application'],
             7: ['reconstruction',
              'loss',
              'regularization',
              'subspace',
              'kernel'],
             8: ['flows', 'steady', 'boltzmann', 'law', 'stokes'],
             9: ['numerical',
              'order',
              'element',
              'discretization',
              'differential'],
             10: ['power', 'transmission'

Можем заметить, что модель хорошо справляется с однородностью, согласованностью тем. К примеру ['disease', 'population', 'clinical', 'treatment', 'brain'] можно объединить темой *медицина*, а ['graphs', 'graph', 'tree', 'edges', 'vertex'] - к *работе с графами*. 

Также из этого можно сделать выод, что нам не нужно много слов для описания каждой темы, хватит и нескольких, которые уже будут давать представление о теме в достаточной мере. 

Таким образом мы получили список из 50 основных тем, которые встречаются в нашем датасете. Но пока что от этого мало практической пользы, так как о каждом отдельном документе-статье мы ничего не знаем, а хотели бы понимать к каким темам она относится. 

Поэтому теперь мы соотнесем абстракт каждой статьи с соответствующей для него темой. 

Метод get_thetas возвращает матрицу размера (n_documents, n_topics) с распределением тем для каждого документа. 

In [None]:
topics_predictions = ctm.get_thetas(training_dataset, n_samples=5) # get all the topic predictions

Sampling: [5/5]: : 5it [02:26, 29.22s/it]


Для начала сделаем это для первой статьи и посмотрим на полученные результаты. 

In [None]:
topic_number = np.argmax(topics_predictions[0]) # get the topic id of the first document
print('Abstract: ', documents[0])
print('Topic: ', ctm.get_topic_lists(5)[topic_number])

Abstract:    This paper discusses the benefits of describing the world as information,
especially in the study of the evolution of life and cognition. Traditional
studies encounter problems because it is difficult to describe life and
cognition in terms of matter and energy, since their laws are valid only at the
physical scale. However, if matter and energy, as well as life and cognition,
are described in terms of information, evolution can be described consistently
as information becoming more complex.
  The paper presents eight tentative laws of information, valid at multiple
scales, which are generalizations of Darwinian, cybernetic, thermodynamic,
psychological, philosophical, and complexity principles. These are further used
to discuss the notions of life, cognition and their evolution.

Topic:  ['social', 'media', 'community', 'online', 'patterns']


Можем заметить, что хотя тема и не попадает на 100 процентов под описание данной статьи - все равно она примерно описывает корректную область исследования. 

Теперь создадим отдельный столбец в нашем датасете с темами статей. 

In [None]:
topics_predictions.shape

(43668, 50)

In [None]:
idx = np.argmax(topics_predictions, axis=1)

topic_ctm = []
for i in range(idx.shape[0]):
  topic_ctm.append(ctm.get_topic_lists(5)[idx[i]])


In [None]:
papers['topic_ctm'] = topic_ctm
papers

Unnamed: 0,id,title,authors,authors parsed,abstract,year,topic_ctm
0,0704.0304,The World as Evolving Information,Carlos Gershenson,"[[Gershenson, Carlos, ]]",This paper discusses the benefits of describ...,2012,"[social, media, community, online, patterns]"
1,0704.0498,A unified analysis of the reactor neutrino pro...,"Guillaume Mention (DAPNIA), Thierry Lasserre (...","[[Mention, Guillaume, , DAPNIA], [Lasserre, Th...",We present in this article a detailed quanti...,2013,"[nuclear, production, decay, proton, collisions]"
2,0704.2768,Heat Equations and the Weighted $\bar\partial$...,Andrew Raich,"[[Raich, Andrew, ]]",The purpose of this article is to establish ...,2012,"[infty, frac, in, alpha, positive]"
3,0705.0505,Non Supersymmetric Metastable Vacua in N=2 SYM...,Georgios Pastras,"[[Pastras, Georgios, ]]",We find non-supersymmetric metastable vacua ...,2013,"[theory, formalism, transformations, theories,..."
4,0705.0681,Entanglement in a Jaynes-Cummings Model with T...,Samina S. Masood and Allen Miller,"[[Masood, Samina S., ], [Miller, Allen, ]]",We investigate the conditions of entanglemen...,2014,"[quantum, classical, entanglement, codes, chan..."
...,...,...,...,...,...,...,...
43663,quant-ph/0606049,Full security of quantum key distribution from...,"Ll. Masanes, R. Renner, M. Christandl, A. Wint...","[[Masanes, Ll., ], [Renner, R., ], [Christandl...",We analyze a cryptographic protocol for gene...,2014,"[quantum, classical, entanglement, codes, chan..."
43664,quant-ph/0606131,How many copies are needed for state discrimin...,Aram W. Harrow and Andreas Winter,"[[Harrow, Aram W., ], [Winter, Andreas, ]]","Given a collection of states (rho_1, ..., rh...",2012,"[probability, random, log, matrices, conditional]"
43665,quant-ph/9508004,Alternative Derivation of the Hu-Paz-Zhang Mas...,J.J.Halliwell and T.Yu,"[[Halliwell, J. J., ], [Yu, T., ]]","Hu, Paz and Zhang [ B.L. Hu, J.P. Paz and Y....",2019,"[flows, steady, boltzmann, law, stokes]"
43666,quant-ph/9809076,Guiding Neutral Atoms with a Wire,"Johannes Denschlag, Donatella Cassettari, Joer...","[[Denschlag, Johannes, ], [Cassettari, Donatel...",We demonstrate guiding of cold neutral atoms...,2017,"[785, accumulates, regressive, embryonic, inthe]"


Давайте попробуем понять насколько качественно мы кластеризовали наш датасет при помощи модели CombinedTM. Для этого посмотрим на 10 случайных статей и оеним насколько согласованны название и абстракт с полученной темой. 

In [None]:
papers[['title', 'abstract', 'topic_ctm']].sample(10)

Unnamed: 0,title,abstract,topic_ctm
31559,Entanglement protection in higher-dimensional ...,The inevitable dissipative interaction of an...,"[quantum, classical, entanglement, codes, chan..."
27379,Multi-Channel Attention Selection GAN with Cas...,Cross-view image translation is challenging ...,"[image, object, 3d, images, face]"
5079,Random Fluid Limit of an Overloaded Polling Model,"In the present paper, we study the evolution...","[agents, agent, strategies, strategy, game]"
30551,A Full Implementation of Spectro-Perfectionism...,We present a computationally tractable imple...,"[ray, emission, spectral, sources, detected]"
2161,Hawking radiation as perceived by different ob...,Given a field vacuum state in a black hole s...,"[scalar, gravity, flat, metric, einstein]"
10242,Proper-Time Hypersurface of Non-Relativistic M...,We compute the second-order density fluctuat...,"[scalar, gravity, flat, metric, einstein]"
6829,Late-replicating CNVs as a source of new genes,Asynchronous replication of the genome has b...,"[disease, population, clinical, treatment, brain]"
519,On the conjugacy problem for finite-state auto...,We study the conjugacy problem in the automo...,"[category, categorical, categories, modules, lie]"
30337,Certified Adversarial Robustness for Deep Rein...,Deep Neural Network-based systems are now th...,"[ml, machine, real, autonomous, driving]"
26047,Differential Privacy for Power Grid Obfuscation,The availability of high-fidelity energy net...,"[resources, ad, protocol, routing, protocols]"


Конечно выборка маленькая и случайная, но даже на ней мы видим, что модель хорошо справилась. 

К примеру статьи про GAN и изображения описываются темой **image, object, 3d, images, face**.  А статья про обучение с подкрепление описывает темой **ml, machine, real, autonomous, driving**. 
 

In [None]:
topics_ctm = papers[['title', 'abstract', 'topic_ctm']]
topics_ctm.to_csv('topics_ctm.csv', encoding='utf-8')


И напоследок, когда мы уже справились с главной задачей по кластеризации статей, хочется немного вернуться назад и визуализировать полученные темы. Как раз для таких целей существует бибилиотека pyLDAvis - с ее помощью мы сможем интерактивно визуализировать результаты тематического моделирования. 


In [None]:
 lda_vis_data = ctm.get_ldavis_data_format(qt.vocab, training_dataset, n_samples=10)

Sampling: [10/10]: : 10it [04:40, 28.03s/it]


In [None]:
!pip install pyLDAvis

In [None]:
import pyLDAvis as vis
ctm_pd = vis.prepare(**lda_vis_data)
vis.display(ctm_pd)

  from collections import Iterable
  from collections import Mapping
  by='saliency', ascending=False).head(R).drop('saliency', 1)


Из чего состоит данная визуализация:
- Каждый пузырь соответствует теме и чем он больше, тем больший процент статей соответствует данной теме
- На голубых строках в графике представлена общая частота каждого слова в корпусе
- На красных строках показано примерное число раз, когда данный термин был создан по заданной теме


Мы можем заметить, что наши темы сгруппировались на две далеких друг от друга части. Но при этом кластеризация получилась довольно равномерной (судя по размерам пузырей) и каждой теме соответствует приблизительно одинаковое количество статетй. 

И на всякий случай сохраним обученную модель. 

In [None]:
ctm.save(models_dir="./")



### Теперь посмотрим на работу модели Zero-Shot Contextualized Topic Model и сравним результаты кластеризации обеих моделей. 

Запускать и обучать модель мы будем аналогично предыдущей. Различия в архитиктере моделей я подробно описывала в теоретической части, поэтому на практике нам важно помнить основные моменты: мы используем "distiluse-base-multilingual-cased" для создания многоязычных контекстуальных эмбеддингов, а сама модель на вход получает только контекстуальные эмбеддинги. 

In [None]:
tp = TopicModelDataPreparation("distiluse-base-multilingual-cased")
training_dataset2 = tp.fit(text_for_contextual=documents, text_for_bow=preprocessed)

Downloading:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/114 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.37k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/607 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/539M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/528 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/996k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/341 [00:00<?, ?B/s]



Batches:   0%|          | 0/219 [00:00<?, ?it/s]



In [None]:
ctm2 = ZeroShotTM(bow_size=len(tp.vocab), contextual_size=512, n_components=50, num_epochs=15)
ctm2.fit(training_dataset2)

Epoch: [15/15]	 Seen Samples: [655020/655020]	Train Loss: 1029.161393658543	Time: 0:00:30.153204: : 15it [07:45, 31.05s/it]
Sampling: [20/20]: : 20it [09:15, 27.76s/it]


In [None]:
ctm2.get_topic_lists(5)

[['power', 'multiple', 'channel', 'transmission', 'scheme'],
 ['gauge', 'theories', 'supersymmetric', 'theory', 'symmetries'],
 ['convergence', 'solution', 'differential', 'solving', 'stochastic'],
 ['codes', 'coding', 'rate', 'channels', 'channel'],
 ['consistent', 'star', 'stellar', 'stars', '10'],
 ['disaggregation',
  'unparalleled',
  'assuring',
  'unintentionally',
  'discerning'],
 ['project', 'software', 'business', 'development', 'game'],
 ['stars', 'disk', 'galaxies', 'star', 'galaxy'],
 ['neural', 'training', 'representations', 'deep', 'loss'],
 ['perturbs', 'rejects', 'reprocessed', 'necessitating', 'inaccurately'],
 ['cloud', 'internet', 'security', 'services', 'iot'],
 ['nodes', 'routing', 'node', 'network', 'distributed'],
 ['visual', 'content', 'video', 'retrieval', 'vision'],
 ['graphs', 'vertex', 'vertices', 'every', 'edges'],
 ['temperature', '_2', '_3', 'temperatures', 'diffraction'],
 ['3d', 'reconstruction', 'resolution', 'depth', 'image'],
 ['laser', 'optical', 

In [None]:
topics_predictions2 = ctm2.get_thetas(training_dataset2, n_samples=5) 
idx2 = np.argmax(topics_predictions2, axis=1)

topic_zero = []
for i in range(idx2.shape[0]):
  topic_zero.append(ctm2.get_topic_lists(5)[idx2[i]])

Sampling: [5/5]: : 5it [02:17, 27.56s/it]


In [None]:
topics_ctm['topic_zero'] = topic_zero
topics_ctm

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,title,abstract,topic_ctm,topic_zero
0,The World as Evolving Information,This paper discusses the benefits of describ...,"[social, media, community, online, patterns]","[project, software, business, development, game]"
1,A unified analysis of the reactor neutrino pro...,We present in this article a detailed quanti...,"[nuclear, production, decay, proton, collisions]","[rays, shock, radiation, intensity, detector]"
2,Heat Equations and the Weighted $\bar\partial$...,The purpose of this article is to establish ...,"[infty, frac, in, alpha, positive]","[operator, spaces, operators, smooth, sobolev]"
3,Non Supersymmetric Metastable Vacua in N=2 SYM...,We find non-supersymmetric metastable vacua ...,"[theory, formalism, transformations, theories,...","[gauge, theories, supersymmetric, theory, symm..."
4,Entanglement in a Jaynes-Cummings Model with T...,We investigate the conditions of entanglemen...,"[quantum, classical, entanglement, codes, chan...","[states, topological, transition, spin, coupling]"
...,...,...,...,...
43663,Full security of quantum key distribution from...,We analyze a cryptographic protocol for gene...,"[quantum, classical, entanglement, codes, chan...","[codes, coding, rate, channels, channel]"
43664,How many copies are needed for state discrimin...,"Given a collection of states (rho_1, ..., rh...","[probability, random, log, matrices, conditional]","[in, positive, right, frac, infty]"
43665,Alternative Derivation of the Hu-Paz-Zhang Mas...,"Hu, Paz and Zhang [ B.L. Hu, J.P. Paz and Y....","[flows, steady, boltzmann, law, stokes]","[equations, differential, stability, equation,..."
43666,Guiding Neutral Atoms with a Wire,We demonstrate guiding of cold neutral atoms...,"[785, accumulates, regressive, embryonic, inthe]","[disaggregation, unparalleled, assuring, unint..."


Снова посмотрим на несколько случайных статей и сравним полученные темы. 

In [63]:
topics_ctm.sample(5)

Unnamed: 0,title,abstract,topic_ctm,topic_zero
20303,Algebraic Description of Shape Invariance Revi...,We revisit the algebraic description of shap...,"[theory, formalism, transformations, theories,...","[mechanics, quantum, relativity, einstein, the..."
39415,Feature Completion for Occluded Person Re-Iden...,Person re-identification (reID) plays an imp...,"[image, object, 3d, images, face]","[3d, reconstruction, resolution, depth, image]"
42474,Manipulating Twitter Through Deletions,Research into influence campaigns on Twitter...,"[social, media, community, online, patterns]","[project, software, business, development, game]"
5030,Measurement of Permanent Electric Dipole Momen...,Permanent Electric Dipole Moments (EDMs) of ...,"[nuclear, production, decay, proton, collisions]","[qcd, nucleon, quark, chiral, momentum]"
14582,Lens depth function and k-relative neighborhoo...,In recent years it has become popular to stu...,"[algorithms, algorithm, search, parallel, clus...","[problems, convergence, function, gaussian, ca..."


Постараемся проанализировать полученные результаты. 

Можем заметить, что обе модели хорошо справляются со статьями в области компьютерного зрения, работы с изображениями. Так, к примеру, статью *Feature Completion for Occluded Person Re-Identification* CombinedTM отнесла к теме **image,object,3d,images,face**, а ZeroShotTM к **3d,reconstruction,resolution,depth,image**. 

Логичные темы получились и для статьи *Manipulating Twitter Through Deletions*: **social,media,community,online,patterns** и **project,software,business,development,game**, хотя на мой взгляд первая модель здесь справилась лучше, а у второй получилось лишь приблизительно угадать направление. 

Для статьи *Algebraic Description of Shape Invariance Revisited* модели подобрали темы **theory,formalism,transformations,theories,gauge** и **mechanics,quantum,relativity,einstein,theory**, что соответствует истине, так как статья и правда про теорию и кванотовую механику. 

В целом мы видим, что темы получаются довольно общие и чаще всего 2-3 слова из них и правда описывают соответствующую статью, а некоторые слова уже не очень попадают. 
Также заметим, что темы получаются достаточно однородными и чаще всего слова формируют общее представление о некотором научном исследовательском направлении. 

Сохраним финальный результат. 

In [65]:
topics_ctm.to_csv('topics_res.csv', encoding='utf-8')
# topics_ctm.drop(['abstract'],1).to_csv('topics_res.csv', encoding='utf-8')


  


In [None]:
lda_vis_data = ctm2.get_ldavis_data_format(tp.vocab, training_dataset2, n_samples=10)
ctm_pd = vis.prepare(**lda_vis_data)
vis.display(ctm_pd)

0it [01:44, ?it/s]
Sampling: [10/10]: : 10it [04:44, 28.50s/it]
  by='saliency', ascending=False).head(R).drop('saliency', 1)


Заметим, что в работе мы не пользовались главным свойством данной модели - многоязычностью, так как весь датасет представлен на одном английском языке. 

Из визуализации мы видим, что результаты работы обеих моделей довольно похожи. 