In [1]:
# подключаем необходимые библиотеки

import numpy as np
from scipy.spatial import distance

import gensim
from gensim import corpora
from gensim.models import LdaModel
from gensim.utils import simple_preprocess

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize

from pymystem3 import Mystem

In [2]:
# загружаем словарь часто используемых в русском языке слов

nltk.download('stopwords')
stop_words = stopwords.words('russian')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kisnikser\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [5]:
# открываем файл на чтение

with open("text.txt", "r", encoding="utf-8") as doc:
    text = doc.read()
    doc.close()

In [6]:
# функция предобработки текста - возвращает (список предложений, токенизированный текст, список слов)

def preprocess_text(text):
    mystem = Mystem() # лемматизатор (приводит слова к начальной форме)
    preprocessed_text = list() # токенизированный текст (содержит основные слова, приведенные к начальной форме)
    sentences = sent_tokenize(text, language="russian") # текст, разбитый на предложения
    for sentence in sentences:
        tokenized_sentence = simple_preprocess(sentence, deacc = False)
        tokenized_sentence_without_stop_words = [word for word in tokenized_sentence if word not in stop_words]
        lemmatized_sentence = [word for word in mystem.lemmatize(" ".join(tokenized_sentence_without_stop_words))\
                              if word != " " and word != "\n"]
        preprocessed_text.append(lemmatized_sentence)
    words = [word for sentence in preprocessed_text for word in sentence] # список всех слов в тексте
    return sentences, preprocessed_text, words

In [7]:
sentences, preprocessed_text, words = preprocess_text(text)

In [26]:
sentences

['Кошка — домашнее животное, одно из наиболее популярных (наряду с собакой) «животных-компаньонов».',
 'С точки зрения научной систематики, домашняя кошка — млекопитающее семейства кошачьих отряда хищных.',
 'Нередко домашнюю кошку рассматривают как подвид лесной кошки, однако, с точки зрения современной биологической систематики (2017 год), домашняя кошка является отдельным биологическим видом.',
 'Являясь одиночным охотником на грызунов и других мелких животных, кошка — социальное животное, использующее для общения широкий диапазон звуковых сигналов, а также феромоны и движения тела.',
 'В настоящее время в мире насчитывается около 600 млн домашних кошек, выведено около 200 пород, от длинношёрстных (персидская кошка) до лишённых шерсти (сфинксы), признанных и зарегистрированных различными фелинологическими организациями.',
 'На протяжении 10 000 лет кошки ценятся человеком, в том числе за способность охотиться на грызунов и других домашних вредителей.',
 'Чай — напиток, получаемый ва

In [27]:
preprocessed_text

[['кошка',
  'домашний',
  'животное',
  'один',
  'наиболее',
  'популярный',
  'наряду',
  'собака',
  'животное',
  'компаньон'],
 ['точка',
  'зрение',
  'научный',
  'систематика',
  'домашний',
  'кошка',
  'млекопитающее',
  'семейство',
  'кошачий',
  'отряд',
  'хищный'],
 ['нередко',
  'домашний',
  'кошка',
  'рассматривать',
  'подвид',
  'лесной',
  'кошка',
  'однако',
  'точка',
  'зрение',
  'современный',
  'биологический',
  'систематика',
  'год',
  'домашний',
  'кошка',
  'являться',
  'отдельный',
  'биологический',
  'вид'],
 ['являться',
  'одиночный',
  'охотник',
  'грызунов',
  'другой',
  'мелкий',
  'животное',
  'кошка',
  'социальный',
  'животное',
  'использовать',
  'общение',
  'широкий',
  'диапазон',
  'звуковой',
  'сигнал',
  'также',
  'феромон',
  'движение',
  'тело'],
 ['настоящий',
  'время',
  'мир',
  'насчитываться',
  'около',
  'млн',
  'домашний',
  'кошка',
  'выводить',
  'около',
  'порода',
  'длинношерстный',
  'персидский',
  'кош

In [28]:
words

['кошка',
 'домашний',
 'животное',
 'один',
 'наиболее',
 'популярный',
 'наряду',
 'собака',
 'животное',
 'компаньон',
 'точка',
 'зрение',
 'научный',
 'систематика',
 'домашний',
 'кошка',
 'млекопитающее',
 'семейство',
 'кошачий',
 'отряд',
 'хищный',
 'нередко',
 'домашний',
 'кошка',
 'рассматривать',
 'подвид',
 'лесной',
 'кошка',
 'однако',
 'точка',
 'зрение',
 'современный',
 'биологический',
 'систематика',
 'год',
 'домашний',
 'кошка',
 'являться',
 'отдельный',
 'биологический',
 'вид',
 'являться',
 'одиночный',
 'охотник',
 'грызунов',
 'другой',
 'мелкий',
 'животное',
 'кошка',
 'социальный',
 'животное',
 'использовать',
 'общение',
 'широкий',
 'диапазон',
 'звуковой',
 'сигнал',
 'также',
 'феромон',
 'движение',
 'тело',
 'настоящий',
 'время',
 'мир',
 'насчитываться',
 'около',
 'млн',
 'домашний',
 'кошка',
 'выводить',
 'около',
 'порода',
 'длинношерстный',
 'персидский',
 'кошка',
 'лишенный',
 'шерсть',
 'сфинкс',
 'признавать',
 'различный',
 'организа

In [8]:
# создаем словарь из текста (dictionary.token2id - пары: word - id)
# создаем корпус слов (пары: id - count)

dictionary = corpora.Dictionary([words])
corpus = dictionary.doc2bow(words)

In [18]:
# обучаем LDA модель (по умолчанию пока что стоит 3 темы в тексте)

LDA_model = gensim.models.ldamodel.LdaModel(corpus=[corpus], id2word=dictionary, num_topics=3, passes=100)

In [19]:
# создаем словарь с вероятностями принадлежности слов к темам (пары: word - (p1, p2, ..., pn))

words_topics_dict = dict()
for id_, word in enumerate(list(dictionary.token2id)):
    topics = LDA_model.get_term_topics(id_, minimum_probability=0)
    probs = [topics[i][1] for i in range(len(topics))]
    words_topics_dict[word] = probs

In [20]:
# создаем словарь с вероятностями принадлежности предложений к темам (пары: sentence - (p1, p2, ..., pn))

sentences_topics_dict = dict()
for k, sentence in enumerate(preprocessed_text):
    sentence_words_topics = [words_topics_dict.get(word) for word in sentence]
    sentences_topics_dict[k] = list(np.sum(sentence_words_topics, axis = 0))

In [21]:
sentences_topics_dict

{0: [0.08443833, 0.0071349978, 0.0071349978],
 1: [0.08393339, 0.007848476, 0.007848476],
 2: [0.19298527, 0.014269893, 0.014269893],
 3: [0.12614784, 0.01427002, 0.01427002],
 4: [0.1263911, 0.014270088, 0.014270088],
 5: [0.08062744, 0.008562026, 0.008562026],
 6: [0.09529367, 0.009275469, 0.009275469],
 7: [0.008034861, 0.002140538, 0.002140538],
 8: [0.087668195, 0.0064214263, 0.0064214263],
 9: [0.03812367, 0.008562115, 0.008562115],
 10: [0.06355601, 0.0064215274, 0.0064215274],
 11: [0.17073976, 0.015696896, 0.015696896],
 12: [0.08055137, 0.008562005, 0.008562005],
 13: [0.16967525, 0.012842981, 0.012842981],
 14: [0.09854657, 0.014983618, 0.014983618],
 15: [0.071587466, 0.008562064, 0.008562064],
 16: [0.045994427, 0.0049945097, 0.0049945097],
 17: [0.059699688, 0.007848542, 0.007848542],
 18: [0.07477164, 0.00784848, 0.00784848],
 19: [0.07408605, 0.009275526, 0.009275526]}

In [22]:
# определяем косинусные расстояния между соседними предложениями (n предложений -> (n-1) расстояний)

sentences_distances = [distance.cosine(sentences_topics_dict.get(u), sentences_topics_dict.get(v))\
                       for (u, v) in zip(range(20), range(1, 20))]

In [23]:
# функция возвращает топ k предложений, после которых стоит начинать новый слайд

def slides_partition(k):
    return sorted(list(reversed(list(np.argsort(sentences_distances))))[:k])

In [25]:
slides_partition(3)
print(slides_partition(3))

[6, 7, 8]
