<a href="https://colab.research.google.com/github/Arseniy-Polyakov/applied_linguistics_course/blob/main/Task_2_Topic_modeling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

В данной работе будем проводить тематическое моделирование корпуса советской песни с помощью BERTopic

Устанавливаем модель и необходимые библиотеки для работы

In [None]:
!pip install bertopic gensim

In [1]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.4-py3-none-any.whl.metadata (2.4 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.4-py3-none-any.whl (54 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m54.1/54.1 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
Successfully installed dawg2-python-0.9.0 pymorphy3-2.0.4 pymorphy3-dicts-ru-2.4.417150.4580142


Импортируем необходимые модули для предобработки текста и работы с BERTopic

In [2]:
import re
import nltk
import pymorphy3
import pandas as pd
from nltk.corpus import stopwords
import umap.umap_ as UMAP
import hdbscan.hdbscan_ as HDBSCAN
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer
from bertopic import BERTopic
from gensim.models import LdaModel
from gensim.corpora.dictionary import Dictionary
from gensim.test.utils import common_texts

Загружаем списки стоп-слов на русском языке для предобработки текстов

In [3]:
nltk.download("stopwords")
stop_words = stopwords.words("russian")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Загружаем данные из корпуса советской песни

In [4]:
df = pd.read_excel("corpus.xlsx")
df.head()

Unnamed: 0,id,year,country,lyrics_text,LOC,ORG,PER,Tag,artist,track,composer,lyricist
0,0,1964,USSR,Поднимать тугие паруса —\nЭто значит верить в ...,,,Леонов\n,"творчество, любовь, судьба",Эдита Пьеха,Это здорово,А. Броневицкий,И. Шаферан
1,1,1965,USSR,"Бура-Бура-Буратино,\nМилый мальчик мой,\nТы ли...",,,Бура-Бура-Буратино\nБура-Буратино\n,любовь,Раиса Неменова,Помоги Мне Буратино,"В. Хвойницкий, У. Лапсинь",Г. Бейлин
2,2,1967,USSR,"Прыг-скок, утром на лужок. \nПрыг-скок, выскоч...",,,Летка-Енка\n,природа,Тамара Миансарова,Летка Енка,Р. Лехтинен,М. Пляцковский
3,3,1966,USSR,"Вот и опять не спит мой Ленинград,\nКак он кра...",Летний сад\nНева\nЛенинград\n,,,город,Эдита Пьеха,Белая Ночь,М. Фрадкин,Е.Долматовский
4,4,1966,USSR,"В январе зима всерьез,\nОтморозить можно нос.\...",Ленинград\nНева\n,,,город,Анатолий Королёв,Моржи,А. Броневицкий,С. Фогельсон


Напишем функцию препроцессинга текста (до этого были проведены эксперименты по обучению BERTopic без процессинга, в результате чего большое количество стоп-слов, а также форм одного слова попадали в триграммы)

In [None]:
def preprocessing(text: str) -> str:
  """
  Функция для препроцессинга текста: удаление знаков препинания и стоп-слов,
  приведение к нижнему регистру, лемматизация
  """
  lemmatizer = pymorphy3.MorphAnalyzer()
  text_without_punct = re.sub(r"[^а-яё\s\-]", "", text.lower())
  text_preprocessed = " ".join([lemmatizer.parse(token)[0].normal_form for token in text_without_punct.split() if token not in stop_words])
  return text_preprocessed

Выводим предобработанные тексты советских песен

In [None]:
corpus_texts = list(df["lyrics_text"])
corpus_texts_preprocessed = [preprocessing(text) for text in corpus_texts]
corpus_texts_preprocessed

['поднимать тугой парус это значит верить чудо собирать ладонь звёздный свет это значит восемнадцать год это здорово это здорово это очень очень это здорово это здорово это очень целовать горячо любить это значит молодой переплыть солёный окен это значит сильный капитан это здорово это здорово это очень очень это здорово это здорово это очень горизонт потрогать захотеть это значит вечно стареть леонов космос выходить это значит самый смелый это здорово это здорово это очень очень это здорово это здорово это очень бодрый ритм петь танцевать это значит скука бывать твёрдо верить будущий успех это значит богатый',
 'бура-бура-буратин милый мальчик лишь кукла нос длинный немой б чудо совершиться ответить мочь ты обратиться просьба дружок одолжить одолжить ключик золотой подсказать подсказать найти буратино секрет открыть тайна ключик золотой видеть бур-буратино жить тоска - держать сердце любимый упорно замок твой волшебный ключик чудо творить помочь счастие дверь открыть одолжить одолжить

Загружаем модель эмбеддингов для векторизации текста

In [None]:
embedding_model = SentenceTransformer("cointegrated/rubert-tiny2")

Загружаем векторизатор. Мы будем использовать векторизацию с помощью bow, а не TF-IDF или Word2Vec, так TF-IDF ставит большее значение для частотных слов в контексте одного документа, а модели типа Word2Vec учитывают контекст и порядок слов. В свою очередь для моделей типа трансформеры необходимо разносильное представление каждого токена

In [None]:
vectorizer_model = CountVectorizer(ngram_range=(1, 3), min_df=5)

Используем модель UMAP для снижения размерности

In [None]:
umap_model = UMAP.UMAP(n_neighbors=15, n_components=5, min_dist=0.0, metric='cosine', random_state=42)

Используем модель HDBSCAN для ограничения минимального количества кластеров (топиков)

In [None]:
hdbscan_model = HDBSCAN.HDBSCAN(min_cluster_size=10, metric='euclidean', cluster_selection_method='eom', prediction_data=True)

Создаем объект модели, подаем в аргументы модели векторизации, эмбеддингов, уменьшения размерности и ограничения по количеству топиков, задаем язык

In [None]:
bertopic_model = BERTopic(
  language = "Russian",
  embedding_model=embedding_model,
  umap_model=umap_model,
  hdbscan_model=hdbscan_model,
  vectorizer_model=vectorizer_model,
  min_topic_size=10,
  calculate_probabilities=False,

  verbose=True
)

Обучаем модель на нашем корпусе

In [None]:
topics, probs = bertopic_model.fit_transform(corpus_texts_preprocessed)

2025-06-18 01:15:27,292 - BERTopic - Embedding - Transforming documents to embeddings.


Batches:   0%|          | 0/50 [00:00<?, ?it/s]

2025-06-18 01:15:29,649 - BERTopic - Embedding - Completed ✓
2025-06-18 01:15:29,651 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-06-18 01:15:41,411 - BERTopic - Dimensionality - Completed ✓
2025-06-18 01:15:41,413 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-06-18 01:15:41,479 - BERTopic - Cluster - Completed ✓
2025-06-18 01:15:41,484 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-06-18 01:15:42,192 - BERTopic - Representation - Completed ✓


Выведем основную информацию о полученных кластерах

In [None]:
bertopic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,671,-1_мы_земля_твой_ты,"[мы, земля, твой, ты, песня, наш, город, день,...",[тот злой тишина тот неверный тень развести мо...
1,0,140,0_ночь_снег_извинить_свет,"[ночь, снег, извинить, свет, спешить, ты, прих...",[лунный свет равнина рассеянный вдалеке село о...
2,1,105,1_то_нота_всё_мол,"[то, нота, всё, мол, свой, бить, это, сказать,...",[лукоморье дуб простыть след дуб годиться парк...
3,2,65,2_любовь_трудный_сказать_могила,"[любовь, трудный, сказать, могила, дорога, сер...",[туча город встать воздух пахнуть гроза далёки...
4,3,52,3_наш_мы_поклониться_битва,"[наш, мы, поклониться, битва, солдат, бой, бат...",[птица петь дерево расти плечо плечо врастать ...
5,4,44,4_ах_однажды_иван_пара,"[ах, однажды, иван, пара, выходить, одесса, де...",[развесёлый цыган молдавия гулять один село бо...
6,5,43,5_любовь_жизнь_звать_мир,"[любовь, жизнь, звать, мир, мой, любить, сказа...",[родный имя натали звучать загадочно грустно о...
7,6,42,6_весна_песня_играть_гармошка,"[весна, песня, играть, гармошка, где то, приве...",[мой серёга шагать петровка сам бровка сам бро...
8,7,26,7_ай_эх_жениться_ох,"[ай, эх, жениться, ох, вдоль, ой, волос, кудри...",[вдоль речка вдоль казанка сизый селезень плыт...
9,8,24,8_любовь_твой_голос_сердце,"[любовь, твой, голос, сердце, петь, вселенная,...",[мы ты мы ты казаться любовь любовь река течь ...


In [None]:
bertopic_model.get_topic(21)

[('ошибка', 0.09865547384960158),
 ('нелепый', 0.09865547384960158),
 ('городок', 0.08016542581931674),
 ('самый', 0.06922849431175589),
 ('любить', 0.06517117374558512),
 ('уходить', 0.06437072475237009),
 ('милый', 0.06158446955547536),
 ('ой', 0.05468081442835861),
 ('ах', 0.04289348876631782),
 ('улыбка', 0.04185866434225869)]

Визуализируем наш результат

In [None]:
bertopic_model.visualize_topics()

In [None]:
bertopic_model.visualize_barchart()

In [None]:
bertopic_model.visualize_hierarchy()

In [None]:
bertopic_model.visualize_heatmap()

Исходя из тематического моделирования и визуализации полученных результатов можно сделать вывод о том, какие темы выделяются: тема войны (кластер 3), тема жизни, мира (кластер 5), тема радости (кластер 6) и тема сложности отношений (кластер 2)

Сравним темы, определенные BERTopic с разметкой датасета по темам

In [22]:
tags = " ".join(df["Tag"])
tags_preprocessed = re.sub(r"[^а-яА-ЯёЁ\s]", "", tags).lower()
tags_final = set(tags_preprocessed.split())
tags_final

{'вера',
 'война',
 'герои',
 'город',
 'грусть',
 'детство',
 'дом',
 'другое',
 'дружба',
 'жизнь',
 'космос',
 'любовь',
 'люди',
 'мама',
 'мать',
 'надежда',
 'одиночество',
 'память',
 'победа',
 'подвиг',
 'природа',
 'путешествие',
 'радость',
 'разлука',
 'революция',
 'религия',
 'родина',
 'родины',
 'свобода',
 'сказка',
 'смерть',
 'спорт',
 'судьба',
 'творчество',
 'труд'}

К кластеру 3 (война) подходят тэги "война", "герои", "победа", "подвиг", "смерть"; к кластеру 5, жизнь и мир тэги "жизнь", "свобода"; к кластеру 6, тема радости, тэги "радость", "свобода"; к кластеру 2 о сложности отношений подходят тэги "любовь", "одиночество", "разлука".

Вывод: тематическое моделирование с помощью модели BERTopic помогло выделить кластеры, на основании которых можно классифицировать песни из корпуса советской песни. Данные кластеры совпали с целевой разметкой и покрыли большинство тэгов корпуса