In [1]:
import os
import pandas as pd
import re
import json
from nltk.corpus import stopwords
import nltk
from nltk.tokenize import word_tokenize
import spacy


nltk.download('punkt')
nltk.download('stopwords')


class TextPreprocessor:
    def __init__(self):
        self.stop_phrases = [
            'Ещё больше новостей — в телеграм-канале Москва 24 Подписывайтесь!', 
            'Подробнее – в эфире телеканала Москва 24.'
        ]

        self.tags_keyword = '\nTags: '

        self.word_with_capital_letter_pattern = re.compile('^[А-ЯA-Z]')
        self.sentence_ending_char_on_new_line_pattern = re.compile('(?<=[а-я])\n(?=\\.)')
        self.footnote_pattern = re.compile('^\\*+')
        self.citation_beginning_pattern = re.compile('^("|“|«)')
        self.two_spaces_pattern = re.compile('\\s{2,}')
        self.two_quotes_pattern = re.compile('"{2,}')

        self.stop_words = stopwords.words('russian')
        self.stop_words.extend(['это', 'эта', 'этот', 'ещё', 'которые', 'который', 'также'])

        self.russian_nlp = spacy.load('ru_core_news_lg')


    def _preprocess_tags(self, tags: list[str]):
        _tags = [t.lower().replace('#', '') for t in tags]

        _tags = [t for t in _tags if len(t.split(' ')) == 1]

        return _tags
    

    def _tokenize_text(self, text: str):
        document = self.russian_nlp(text)

        tokens = []

        for token in document:
            t = token.lemma_.lower()

            if (t in self.stop_words) or not t.isalpha():
                continue

            tokens.append(t)

        return tokens


    def preprocess_text(self, text: str):
        # There is a key word "Tags:" in some news items. This word marks 
        # the beginning of a sequence of tags that were assigned to a corresponding 
        # news message. These tags are irrelevant for the topic modeling of the corpus, so we delete them
        text = text.strip('"')
        text = re.sub(self.two_quotes_pattern, '"', text)

        if self.tags_keyword in text:
            _text, tags_sequence = text.split(self.tags_keyword)

            tags = [t.strip(' ') for t in tags_sequence.split(',')]

            # We preprocess tags to use them later as 
            # ground truth in the topic modeling quality estimation
            tags = self._preprocess_tags(tags)
        else:
            _text = text + ''

            tags = []

        lines = _text.split('\n')

        relevant_lines = []
        footnotes = []

        for l in lines:
            l = l.strip(' \t')

            if len(l) == 0:
                continue
            
            # We identify lines of text that are footnotes and set them aside of a news message text
            if bool(self.footnote_pattern.search(l)):
                footnotes.append(l)
            else:
                relevant_lines.append(l)

        _text = ' '.join(relevant_lines)
        _text = re.sub(self.two_spaces_pattern, ' ', _text)
        _text = _text.strip()

        # We delete stop phrases from the text
        for phi in self.stop_phrases:
            _text = _text.replace(phi, '')

        tokens = self._tokenize_text(_text)

        return _text, tokens, tags, footnotes

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/mdmytriiev/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mdmytriiev/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
root_path = 'datasets'

filename = 'processed_test_assignment_data.csv'

raw_data = pd.read_csv(os.path.join(root_path, filename))

preprocessor = TextPreprocessor()

X = []
processed_texts = []
processed_dataset = []

for i, row in raw_data.iterrows():
    text, tokens, tags, footnotes = preprocessor.preprocess_text(row['fullText'])

    processed_dataset.append({
        'text': text, 
        'tokens': tokens, 
        'tags': tags, 
        'footnotes': footnotes
    })

    processed_texts.append(text)
    X.append(tokens)

with open(os.path.join(root_path, 'processed_dataset.json'), 'w') as f:
    json.dump(processed_dataset, f)

In [3]:
processed_texts[:10]

['Бабушкинский суд столицы приговорил трех активистов движения "СтопХам" к шести годам тюремного заключения каждого за драку с сотрудниками спецподразделения "Гром" в Москве. Об этом сообщается в телеграм-канале судов общей юрисдикции столицы.Там уточнили, что суд признал виновными Кирилла Бунина, Кирилла Котова и Алексея Горбачевского. Они обвиняются в применении насилия в отношении представителя власти (статья 318 УК РФ) и в совершенном группой лиц хулиганстве (часть 2 статьи 213 УК РФ). Отбывать наказание мужчины будут в колонии общего режима, добавили там. Конфликт между активистами и правоохранителями произошел на Ярославском шоссе 23 июня 2022 года из-за неправильно припаркованной машины сотрудников спецотряда. Отмечалось, что обвиняемые ругались и били по капоту машины, после чего началась драка.Спустя два дня Бабушкинский суд Москвы арестовал нападавших до 23 августа 2022 года. В июле 2023-го в столице начался процесс над активистами "СтопХама". ',
 'Бывшего совладельца сетей "

In [4]:
from gensim import corpora
from gensim.models import LdaModel
from gensim.models.coherencemodel import CoherenceModel
import pyLDAvis
import pyLDAvis.gensim_models as gensimvisualize

In [8]:
# load dictionary
dictionary = corpora.Dictionary(X)
dictionary.filter_extremes(no_below=5, no_above=0.9)

# generate corpus as BoW
corpus = [dictionary.doc2bow(tokens_list) for tokens_list in X]

num_topics = 70

# train LDA model
lda_model = LdaModel(corpus=corpus, 
                     id2word=dictionary, 
                     random_state=4583, 
                     chunksize=50, 
                     num_topics=num_topics, 
                     passes=200, 
                     iterations=400)

# print LDA topics
for topic in lda_model.print_topics(num_topics=num_topics, num_words=10):
    print(topic)

lda_model.save('topic_model/lda_model')

(0, '0.388*"тысяча" + 0.188*"дорога" + 0.095*"дорожный" + 0.054*"переход" + 0.053*"свыше" + 0.045*"подробность" + 0.042*"быстрый" + 0.033*"проживать" + 0.019*"автомобильный" + 0.015*"москвич"')
(1, '0.344*"житель" + 0.169*"гражданин" + 0.077*"электронный" + 0.070*"хороший" + 0.063*"активный" + 0.058*"собрать" + 0.057*"сервис" + 0.041*"полезный" + 0.031*"портал" + 0.023*"название"')
(2, '0.135*"украина" + 0.075*"страна" + 0.073*"россия" + 0.054*"заявить" + 0.046*"против" + 0.033*"власть" + 0.032*"ранее" + 0.032*"запад" + 0.029*"война" + 0.026*"европа"')
(3, '0.067*"проект" + 0.049*"новый" + 0.037*"программа" + 0.030*"центр" + 0.027*"работа" + 0.024*"среда" + 0.022*"спортивный" + 0.021*"рамка" + 0.021*"специалист" + 0.021*"первый"')
(4, '0.000*"нелёгкий" + 0.000*"языковой" + 0.000*"мирнинский" + 0.000*"фап" + 0.000*"совхоз" + 0.000*"сконцентрировать" + 0.000*"айсен" + 0.000*"азс" + 0.000*"модельный" + 0.000*"опровержение"')
(5, '0.000*"нелёгкий" + 0.000*"языковой" + 0.000*"мирнинский" + 

In [9]:
coherence_model = CoherenceModel(model=lda_model, texts=X, dictionary=dictionary, coherence='c_v')
coherence_score = coherence_model.get_coherence()
print(coherence_score)

0.4775055732506118


In [10]:
russian_news_topics_visualization = gensimvisualize.prepare(lda_model, corpus, dictionary, mds='mmds')
pyLDAvis.display(russian_news_topics_visualization)