In [1]:
# Run in python console
import nltk; nltk.download('stopwords')
# Run in terminal or command prompt
!python3 -m spacy download en
import re
import numpy as np
import pandas as pd
from pprint import pprint
# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
# spacy for lemmatization
import spacy
# Plotting tools
!pip install pyLDAvis
import pyLDAvis
import pyLDAvis.gensim_models  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline
# Enable logging for gensim - optional
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.ERROR)
import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting en_core_web_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.5/en_core_web_sm-2.2.5.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 1.9 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/en_core_web_sm -->
/usr/local/lib/python3.7/dist-packages/spacy/data/en
You can now load the model via spacy.load('en')
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyLDAvis
  Downloading pyLDAvis-3.3.1.tar.gz (1.7 MB)
[K     |████████████████████████████████| 1.7 MB 5.0 MB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend depend

  from collections import Iterable


In [2]:
from nltk.corpus import stopwords
stop_words = stopwords.words('russian')
stop_words.extend(['from', 'subject', 're', 'edu', 'use'])

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
data = pd.read_csv("/content/drive/MyDrive/titles.csv")
data['title']

0      истории философии понятия целом положительном ...
1      вопросу распространении теплоты текущей жидкос...
2       интегрировании посредством эллиптических функций
3      Наблюдение Казанской обсерватории метеорного п...
4               Летопись Физико-математического Общества
                             ...                        
480          Функция E(x) применение теории вероятностей
481    переходе кривых разных типов Пирсона гистограммам
482    отличительных свойствах сфер пространствах пос...
483                         Умножение приближенных чисел
484    Постоянные поля векторов тензоров порядка Рима...
Name: title, Length: 485, dtype: object

In [5]:
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))  # deacc=True removes punctuations

data_words = list(sent_to_words(data['title']))
data_words

[['истории', 'философии', 'понятия', 'целом', 'положительном', 'числе'],
 ['вопросу',
  'распространении',
  'теплоты',
  'текущеи',
  'жидкости',
  'путем',
  'конвекции'],
 ['интегрировании', 'посредством', 'эллиптических', 'функции'],
 ['наблюдение', 'казанскои', 'обсерватории', 'метеорного', 'потока'],
 ['летопись', 'физико', 'математического', 'общества'],
 ['устав', 'физико', 'математического', 'общества'],
 ['список', 'членов', 'физико', 'математического', 'общества'],
 ['протоколы', 'заседании', 'физико', 'математического', 'общества'],
 ['список',
  'книг',
  'поступивших',
  'библиотеку',
  'физико',
  'математического',
  'общества'],
 ['отзыв'],
 ['теория', 'света'],
 ['поверхности'],
 ['обобщение', 'поверхностеи'],
 ['велечин'],
 ['протоколы', 'заседании', 'физико', 'математического', 'общества'],
 ['отзыв'],
 ['теория', 'света'],
 ['бернуллиевы', 'функции', 'произвольными', 'указателями'],
 ['заметка', 'числе', 'комбинации', 'гальванических', 'элементов'],
 ['протоколы', 

In [6]:
def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts]

data_words = remove_stopwords(data_words)
data_words

[['истории', 'философии', 'понятия', 'целом', 'положительном', 'числе'],
 ['вопросу',
  'распространении',
  'теплоты',
  'текущеи',
  'жидкости',
  'путем',
  'конвекции'],
 ['интегрировании', 'посредством', 'эллиптических', 'функции'],
 ['наблюдение', 'казанскои', 'обсерватории', 'метеорного', 'потока'],
 ['летопись', 'физико', 'математического', 'общества'],
 ['устав', 'физико', 'математического', 'общества'],
 ['список', 'членов', 'физико', 'математического', 'общества'],
 ['протоколы', 'заседании', 'физико', 'математического', 'общества'],
 ['список',
  'книг',
  'поступивших',
  'библиотеку',
  'физико',
  'математического',
  'общества'],
 ['отзыв'],
 ['теория', 'света'],
 ['поверхности'],
 ['обобщение', 'поверхностеи'],
 ['велечин'],
 ['протоколы', 'заседании', 'физико', 'математического', 'общества'],
 ['отзыв'],
 ['теория', 'света'],
 ['бернуллиевы', 'функции', 'произвольными', 'указателями'],
 ['заметка', 'числе', 'комбинации', 'гальванических', 'элементов'],
 ['протоколы', 

In [7]:
id2word = corpora.Dictionary(data_words)
texts = data_words
corpus = [id2word.doc2bow(text) for text in texts]
corpus

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)],
 [(6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
 [(13, 1), (14, 1), (15, 1), (16, 1)],
 [(17, 1), (18, 1), (19, 1), (20, 1), (21, 1)],
 [(22, 1), (23, 1), (24, 1), (25, 1)],
 [(23, 1), (24, 1), (25, 1), (26, 1)],
 [(23, 1), (24, 1), (25, 1), (27, 1), (28, 1)],
 [(23, 1), (24, 1), (25, 1), (29, 1), (30, 1)],
 [(23, 1), (24, 1), (25, 1), (27, 1), (31, 1), (32, 1), (33, 1)],
 [(34, 1)],
 [(35, 1), (36, 1)],
 [(37, 1)],
 [(38, 1), (39, 1)],
 [(40, 1)],
 [(23, 1), (24, 1), (25, 1), (29, 1), (30, 1)],
 [(34, 1)],
 [(35, 1), (36, 1)],
 [(15, 1), (41, 1), (42, 1), (43, 1)],
 [(5, 1), (44, 1), (45, 1), (46, 1), (47, 1)],
 [(23, 1), (24, 1), (25, 1), (29, 1), (30, 1)],
 [(48, 1), (49, 1), (50, 1), (51, 1)],
 [(35, 1), (36, 1)],
 [(23, 1), (24, 1), (25, 1), (29, 1), (30, 1)],
 [(52, 1), (53, 1), (54, 1), (55, 1), (56, 2)],
 [(25, 1), (27, 1), (32, 1), (57, 1), (58, 1), (59, 1), (60, 1)],
 [(35, 2), (36, 1), (61, 1), (62, 1), (63, 1)

In [8]:
[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]]

[[('истории', 1),
  ('положительном', 1),
  ('понятия', 1),
  ('философии', 1),
  ('целом', 1),
  ('числе', 1)]]

In [9]:
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=10, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)
lda_model.print_topics()

[(0,
  '0.050*"лобачевского" + 0.038*"геометрии" + 0.035*"проф" + 0.020*"света" + 0.019*"отзыв" + 0.018*"системе" + 0.014*"линеичатои" + 0.013*"конкурсе" + 0.009*"разложении" + 0.009*"отзывы"'),
 (1,
  '0.047*"список" + 0.044*"членов" + 0.038*"теории" + 0.027*"приложение" + 0.016*"формул" + 0.016*"интегралов" + 0.015*"вероятностеи" + 0.015*"типа" + 0.013*"применение" + 0.013*"вывода"'),
 (2,
  '0.074*"теория" + 0.028*"научная" + 0.023*"хроника" + 0.020*"векторов" + 0.013*"способу" + 0.012*"проективная" + 0.012*"числе" + 0.009*"перевод" + 0.008*"академик" + 0.008*"сонин"'),
 (3,
  '0.019*"одном" + 0.016*"заметка" + 0.014*"определения" + 0.013*"несколько" + 0.013*"некоторых" + 0.013*"кривых" + 0.011*"слов" + 0.011*"mathematica" + 0.011*"rossica" + 0.011*"bibliographia"'),
 (4,
  '0.125*"отчет" + 0.097*"год" + 0.041*"секретаря" + 0.041*"библиотекаря" + 0.037*"казначея" + 0.034*"общества" + 0.031*"деятельности" + 0.023*"комиссии" + 0.022*"отчеты" + 0.013*"смета"'),
 (5,
  '0.182*"общества"

In [10]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model, corpus, id2word)
vis

  by='saliency', ascending=False).head(R).drop('saliency', 1)
