In [1]:
# подключаем необходимые библиотеки

import numpy as np
from scipy.spatial import distance

import gensim
from gensim import corpora
from gensim.models import LdaModel
from gensim.utils import simple_preprocess

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize

from pymystem3 import Mystem

In [2]:
# загружаем словарь часто используемых в русском языке слов

nltk.download('stopwords')
stop_words = stopwords.words('russian')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kisnikser\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [221]:
# открываем файл на чтение

with open("text.txt", "r", encoding = "utf-8") as doc:
    text = doc.read()
    doc.close()

In [222]:
# функция предобработки текста - возвращает (список предложений, токенизированный текст, список слов)

def preprocess_text(text):
    mystem = Mystem() # лемматизатор (приводит слова к начальной форме)
    preprocessed_text = list() # токенизированный текст (содержит основные слова, приведенные к начальной форме)
    sentences = sent_tokenize(text, language = "russian") # текст, разбитый на предложения
    for sentence in sentences:
        tokenized_sentence = simple_preprocess(sentence, deacc = False)
        tokenized_sentence_without_stop_words = [word for word in tokenized_sentence if word not in stop_words]
        lemmatized_sentence = [word for word in mystem.lemmatize(" ".join(tokenized_sentence_without_stop_words))\
                              if word != " " and word != "\n"]
        preprocessed_text.append(lemmatized_sentence)
    words = [word for sentence in preprocessed_text for word in sentence] # список всех слов в тексте
    return sentences, preprocessed_text, words

In [223]:
sentences, preprocessed_text, words = preprocess_text(text)

In [224]:
sentences

['Кошка — домашнее животное, одно из наиболее популярных (наряду с собакой) «животных-компаньонов».',
 'С точки зрения научной систематики, домашняя кошка — млекопитающее семейства кошачьих отряда хищных.',
 'Нередко домашнюю кошку рассматривают как подвид лесной кошки, однако, с точки зрения современной биологической систематики (2017 год), домашняя кошка является отдельным биологическим видом.',
 'Являясь одиночным охотником на грызунов и других мелких животных, кошка — социальное животное, использующее для общения широкий диапазон звуковых сигналов, а также феромоны и движения тела.',
 'В настоящее время в мире насчитывается около 600 млн домашних кошек, выведено около 200 пород, от длинношёрстных (персидская кошка) до лишённых шерсти (сфинксы), признанных и зарегистрированных различными фелинологическими организациями.',
 'На протяжении 10 000 лет кошки ценятся человеком, в том числе за способность охотиться на грызунов и других домашних вредителей.',
 'Чай — напиток, получаемый ва

In [225]:
preprocessed_text

[['кошка',
  'домашний',
  'животное',
  'один',
  'наиболее',
  'популярный',
  'наряду',
  'собака',
  'животное',
  'компаньон'],
 ['точка',
  'зрение',
  'научный',
  'систематика',
  'домашний',
  'кошка',
  'млекопитающее',
  'семейство',
  'кошачий',
  'отряд',
  'хищный'],
 ['нередко',
  'домашний',
  'кошка',
  'рассматривать',
  'подвид',
  'лесной',
  'кошка',
  'однако',
  'точка',
  'зрение',
  'современный',
  'биологический',
  'систематика',
  'год',
  'домашний',
  'кошка',
  'являться',
  'отдельный',
  'биологический',
  'вид'],
 ['являться',
  'одиночный',
  'охотник',
  'грызунов',
  'другой',
  'мелкий',
  'животное',
  'кошка',
  'социальный',
  'животное',
  'использовать',
  'общение',
  'широкий',
  'диапазон',
  'звуковой',
  'сигнал',
  'также',
  'феромон',
  'движение',
  'тело'],
 ['настоящий',
  'время',
  'мир',
  'насчитываться',
  'около',
  'млн',
  'домашний',
  'кошка',
  'выводить',
  'около',
  'порода',
  'длинношерстный',
  'персидский',
  'кош

In [226]:
words

['кошка',
 'домашний',
 'животное',
 'один',
 'наиболее',
 'популярный',
 'наряду',
 'собака',
 'животное',
 'компаньон',
 'точка',
 'зрение',
 'научный',
 'систематика',
 'домашний',
 'кошка',
 'млекопитающее',
 'семейство',
 'кошачий',
 'отряд',
 'хищный',
 'нередко',
 'домашний',
 'кошка',
 'рассматривать',
 'подвид',
 'лесной',
 'кошка',
 'однако',
 'точка',
 'зрение',
 'современный',
 'биологический',
 'систематика',
 'год',
 'домашний',
 'кошка',
 'являться',
 'отдельный',
 'биологический',
 'вид',
 'являться',
 'одиночный',
 'охотник',
 'грызунов',
 'другой',
 'мелкий',
 'животное',
 'кошка',
 'социальный',
 'животное',
 'использовать',
 'общение',
 'широкий',
 'диапазон',
 'звуковой',
 'сигнал',
 'также',
 'феромон',
 'движение',
 'тело',
 'настоящий',
 'время',
 'мир',
 'насчитываться',
 'около',
 'млн',
 'домашний',
 'кошка',
 'выводить',
 'около',
 'порода',
 'длинношерстный',
 'персидский',
 'кошка',
 'лишенный',
 'шерсть',
 'сфинкс',
 'признавать',
 'различный',
 'организа

In [227]:
# создаем словарь из текста (dictionary.token2id - пары: word - id)
# создаем корпус слов (пары: id - count)

dictionary = corpora.Dictionary([words])
corpus = [dictionary.doc2bow(words)]

In [319]:
# обучаем LDA модель (по умолчанию пока что стоит 3 темы в тексте)

LDA_model = LdaModel(corpus = corpus, id2word = dictionary, num_topics = 3, passes = 1)

In [320]:
# создаем словарь с вероятностями принадлежности слов к темам (пары: word - (p1, p2, ..., pn))

words_topics_dict = dict()
for id_, word in enumerate(list(dictionary.token2id)):
    topics = LDA_model.get_term_topics(id_, minimum_probability=0)
    probs = [topics[i][1] for i in range(len(topics))]
    words_topics_dict[word] = probs

In [321]:
# создаем словарь с вероятностями принадлежности предложений к темам (пары: sentence - (p1, p2, ..., pn))

sentences_topics_dict = dict()
for k, sentence in enumerate(preprocessed_text):
    sentence_words_topics = [words_topics_dict.get(word) for word in sentence]
    sentences_topics_dict[k] = list(np.mean(sentence_words_topics, axis = 0))

In [322]:
sentences_topics_dict

{0: [0.0057202694, 0.0069193677, 0.0045757657],
 1: [0.005367316, 0.0059665483, 0.004159903],
 2: [0.0067671626, 0.007561973, 0.005410635],
 3: [0.0040337387, 0.005303367, 0.0033108636],
 4: [0.0044406867, 0.0050157295, 0.0034216587],
 5: [0.004805964, 0.0052593197, 0.003608698],
 6: [0.00564517, 0.0054421583, 0.0037310375],
 7: [0.0072719655, 0.007387153, 0.005128591],
 8: [0.0020445122, 0.0024411818, 0.0018695068],
 9: [0.005082406, 0.0055106017, 0.0038598536],
 10: [0.005832569, 0.005684824, 0.0042194915],
 11: [0.0049727554, 0.0051191836, 0.0034802726],
 12: [0.0071194363, 0.007241314, 0.0049884524],
 13: [0.003193729, 0.0037527655, 0.0024483853],
 14: [0.004205175, 0.005207103, 0.0024711108],
 15: [0.0046276217, 0.0055522234, 0.0028970342],
 16: [0.0038105184, 0.0044714017, 0.0025388792],
 17: [0.0049057375, 0.005310369, 0.0034304014],
 18: [0.0037812847, 0.0047483183, 0.0028383387]}

In [323]:
# определяем косинусные расстояния между соседними предложениями (n предложений -> (n-1) расстояний)

count = len(sentences_topics_dict)

sentences_distances = [distance.cosine(sentences_topics_dict.get(u), sentences_topics_dict.get(v))\
                       for (u, v) in zip(range(count - 1), range(1, count))]

In [324]:
sentences_distances

[0.0007132291793823242,
 7.021427154541016e-05,
 0.0029219388961791992,
 0.0022682547569274902,
 0.00010389089584350586,
 0.0019201040267944336,
 0.00039458274841308594,
 0.005044460296630859,
 0.002409994602203369,
 0.0011211633682250977,
 0.0005927681922912598,
 1.8775463104248047e-05,
 0.002082228660583496,
 0.006045341491699219,
 0.0004830360412597656,
 0.00040799379348754883,
 0.001281440258026123,
 0.002213776111602783]

In [325]:
# функция возвращает топ k предложений, после которых стоит начинать новый слайд

def slides_partition(k):
    return sorted(list(reversed(list(np.argsort(sentences_distances))))[:k])

In [326]:
slides_partition(2)
print(slides_partition(2))

[7, 13]
