In [1]:
import json
import re
from pathlib import Path
import pandas as pd
import glob
import os

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
json_folder = Path('/content/drive/MyDrive/yandex_matmod')
json_paths = glob.glob(str(json_folder / '*.json'))
json_paths

['/content/drive/MyDrive/yandex_matmod/chat2021.json',
 '/content/drive/MyDrive/yandex_matmod/chat2022.json',
 '/content/drive/MyDrive/yandex_matmod/chat2023.json',
 '/content/drive/MyDrive/yandex_matmod/chat2024.json']

In [4]:
def normalize_text(field):
    if isinstance(field, str):
        return field.strip()
    if isinstance(field, list):
        parts = []
        for el in field:
            if isinstance(el, str):
                parts.append(el.strip())
            elif isinstance(el, dict) and 'text' in el and isinstance(el['text'], str):
                parts.append(el['text'].strip())
        return ' '.join([p for p in parts if p])
    return ''

In [5]:
EMOJI_PATTERN = re.compile(
    r"[\U0001F300-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]+",
    flags=re.UNICODE
)

def remove_emojis(text: str) -> str:
    return EMOJI_PATTERN.sub('', text)

In [6]:
rows = []
for p in json_paths:
    with open(p, 'r', encoding='utf-8') as f:
        data = json.load(f)
    msgs = data.get('messages', [])
    for m in msgs:
        text = normalize_text(m.get('text', ''))
        txt = remove_emojis(text).strip()
        if not text:
            continue
        if len(txt.split()) <= 4:
            continue
        rows.append({
            'source': os.path.splitext(os.path.basename(p))[0],
            'id': m.get('id'),
            'date': m.get('date'),
            'from':m.get('from'),
            # 'from_id':m.get('from_id'),
            'reply_to_message_id': m.get('reply_to_message_id'),
            'text': text,
        })


In [7]:
df = pd.DataFrame(rows)
df['date'] = pd.to_datetime(df['date'], errors='coerce')
df = df.sort_values('date').reset_index(drop=True)

In [8]:
df.tail()

Unnamed: 0,source,id,date,from,reply_to_message_id,text
59039,chat2024,70490,2024-09-16 17:42:52,Максим Приемка,,Еще 5-ть мест на экскурсию для перваков 8 инст...
59040,chat2024,70505,2024-11-18 17:41:44,Максим Приемка,2.0,👀 Мы знаем как волнительна и тревожна для перв...
59041,chat2024,70507,2024-11-20 14:08:17,(Архив 2024) 8 институт МАИ - это IT 2024,,👀 Мы знаем как волнительна и тревожна для перв...
59042,chat2024,70509,2024-11-22 10:01:41,(Архив 2024) 8 институт МАИ - это IT 2024,70507.0,8️⃣ Дорогие родители студентов 1 курса 8 инсти...
59043,chat2024,70511,2024-12-07 12:14:06,(Архив 2024) 8 институт МАИ - это IT 2024,2.0,"Вадим Кондаратцев, академический руководитель ..."


### Диалоги

In [9]:
df['global_id'] = df['source'] + '_' + df['id'].astype(int).astype(str)
df['global_parent_id'] = df.apply(lambda r: f"{r.source}_{int(r.reply_to_message_id)}"
                                           if pd.notna(r.reply_to_message_id) else None,
                                  axis=1)

In [10]:
all_gids = set(df['global_id'])

In [11]:
from collections import defaultdict
children = defaultdict(list)
for row in df.itertuples():
    gid  = row.global_id
    pgid = row.global_parent_id
    if pgid and pgid in all_gids:
        children[pgid].append(gid)

In [12]:
roots = [
    row.global_id for row in df.itertuples()
    if not row.global_parent_id or row.global_parent_id not in all_gids
]

In [13]:
def collect_paths(gid, path=None):
    path = (path or []) + [gid]
    if gid not in children or not children[gid]:
        yield path
    else:
        for child in children[gid]:
            yield from collect_paths(child, path)

dialog_paths = []
for root in roots:
    dialog_paths.extend(collect_paths(root))

In [14]:
info_map = df.set_index('global_id')[['from','id', 'text']].to_dict('index')
records = []
for thread_id, path in enumerate(dialog_paths, 1):
    plain, ann, parts = [], [], []
    for gid in path:
        rec  = info_map[gid]
        nick = rec['from']
        uid = rec['id']
        txt  = rec['text']
        plain.append(txt)
        ann.append(f"[{nick} ({uid})] {txt}")
        parts.append((nick, uid))
    records.append({
        'thread_id':        thread_id,
        'root_global_id':   path[0],
        'turns':            len(path),
        'dialog_plain':     "\n".join(plain),
        'dialog_annotated': "\n".join(ann),
        'participants':     parts,
        'global_ids':       path
    })

threads_df = pd.DataFrame(records)

In [15]:
threads_df

Unnamed: 0,thread_id,root_global_id,turns,dialog_plain,dialog_annotated,participants,global_ids
0,1,chat2021_6,1,Порядок распределения по кафедрам/направлениям...,[Институт №8 МАИ 2021 (6)] Порядок распределен...,"[(Институт №8 МАИ 2021, 6)]",[chat2021_6]
1,2,chat2021_7,1,Порядок получения общежития При зачислении мес...,[Институт №8 МАИ 2021 (7)] Порядок получения о...,"[(Институт №8 МАИ 2021, 7)]",[chat2021_7]
2,3,chat2021_10,1,Возможность заселения в одну комнату знакомых/...,[Институт №8 МАИ 2021 (10)] Возможность заселе...,"[(Институт №8 МАИ 2021, 10)]",[chat2021_10]
3,4,chat2021_11,1,Перевод между направлениями 8 института. Перев...,[Институт №8 МАИ 2021 (11)] Перевод между напр...,"[(Институт №8 МАИ 2021, 11)]",[chat2021_11]
4,5,chat2021_12,1,Программа обучения программированию на 1 курсе...,[Институт №8 МАИ 2021 (12)] Программа обучения...,"[(Институт №8 МАИ 2021, 12)]",[chat2021_12]
...,...,...,...,...,...,...,...
42977,42978,chat2024_70489,1,"👀 Студенты, а вы помните крышесносную приемную...","[Максим Приемка (70489)] 👀 Студенты, а вы помн...","[(Максим Приемка, 70489)]",[chat2024_70489]
42978,42979,chat2024_70490,1,Еще 5-ть мест на экскурсию для перваков 8 инст...,[Максим Приемка (70490)] Еще 5-ть мест на экск...,"[(Максим Приемка, 70490)]",[chat2024_70490]
42979,42980,chat2024_70505,1,👀 Мы знаем как волнительна и тревожна для перв...,[Максим Приемка (70505)] 👀 Мы знаем как волнит...,"[(Максим Приемка, 70505)]",[chat2024_70505]
42980,42981,chat2024_70507,2,👀 Мы знаем как волнительна и тревожна для перв...,[(Архив 2024) 8 институт МАИ - это IT 2024 (70...,"[((Архив 2024) 8 институт МАИ - это IT 2024, 7...","[chat2024_70507, chat2024_70509]"


In [16]:
threads_df.dialog_plain[10]

'Староста Задачи старосты\nПередавать информацию от дирекции и начальника курса, задавать им вопросы, интересующие студентов: староста - лицо группы; связываться с преподавателями, передавать от них информацию и задавать вопросы; отмечать посещаемость своей группы, передавать информацию о ней преподавателям и дирекции; посещать собрания старост. \nКак стать старостой:\nЕсть 2 исхода, как будет решено, кто будет старостой группы. 1й -- Выборы, 2й -- назначение дирекцией. Обычно старосте, со второго семестра доплачивают 670 рублей. В случае сильного желания, вы можете связаться со своим начальником курса и выразить его (желание). Основные задачи старосты: информирование группы, учет посещаемости.'

In [17]:
threads_df.query("turns == 2").head()

Unnamed: 0,thread_id,root_global_id,turns,dialog_plain,dialog_annotated,participants,global_ids
15,16,chat2021_27,2,Здравствуйте. Нужны ли какие-нибудь справки дл...,[Василий Захаров (27)] Здравствуйте. Нужны ли ...,"[(Василий Захаров, 27), (Институт №8 МАИ Чат, ...","[chat2021_27, chat2021_28]"
16,17,chat2021_29,2,"Ну лист диспансерный, форма 086-У\nСправка по ...","[Василий Захаров (29)] Ну лист диспансерный, ф...","[(Василий Захаров, 29), (Институт №8 МАИ Чат, ...","[chat2021_29, chat2021_30]"
19,20,chat2021_40,2,Ключевые даты приемной кампании на направления...,[Институт №8 МАИ 2021 (40)] Ключевые даты прие...,"[(Институт №8 МАИ 2021, 40), (Институт №8 МАИ ...","[chat2021_40, chat2021_42]"
24,25,chat2021_67,2,"Если уже подал документы, но не указал результ...","[Уля (67)] Если уже подал документы, но не ука...","[(Уля, 67), (Институт №8 МАИ Чат, 68)]","[chat2021_67, chat2021_68]"
25,26,chat2021_67,2,"Если уже подал документы, но не указал результ...","[Уля (67)] Если уже подал документы, но не ука...","[(Уля, 67), (Институт №8 МАИ Чат, 69)]","[chat2021_67, chat2021_69]"


## Подготовка к тематическому моделированию

In [18]:
!pip install spacy[transformers] rusenttokenize
!python -m spacy download ru_core_news_sm

Collecting rusenttokenize
  Downloading rusenttokenize-0.0.5-py3-none-any.whl.metadata (2.7 kB)
Collecting spacy_transformers<1.4.0,>=1.1.2 (from spacy[transformers])
  Downloading spacy_transformers-1.3.8-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.0 kB)
Collecting transformers<4.50.0,>=3.4.0 (from spacy_transformers<1.4.0,>=1.1.2->spacy[transformers])
  Downloading transformers-4.49.0-py3-none-any.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting spacy-alignments<1.0.0,>=0.7.2 (from spacy_transformers<1.4.0,>=1.1.2->spacy[transformers])
  Downloading spacy_alignments-0.9.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.7 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.8.0->spacy_transformers<1.4.0,>=1.1.2->spacy[transformers])
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5

In [19]:
import spacy
from rusenttokenize import ru_sent_tokenize
from string import punctuation

nlp = spacy.load("ru_core_news_sm")
stop_words = nlp.Defaults.stop_words

In [20]:
def preprocess_text(text: str) -> str:
    doc = nlp(text)
    tokens = []
    for tok in doc:
        if tok.is_punct:
            tokens.append(tok.text)
            continue

        lemma = tok.lemma_.lower().strip()
        if (not lemma
            or lemma in stop_words
            or lemma.isdigit()
            or len(lemma) <= 2
           ):
            continue
        tokens.append(lemma)
    return " ".join(tokens)

threads_df['text_proc'] = threads_df['dialog_plain'].apply(preprocess_text)

In [22]:
threads_df['text_proc'].head()

Unnamed: 0,text_proc
0,порядок распределение кафедрам / направление г...
1,порядок получение общежитие зачисление место р...
2,возможность заселение комната знакомых / друг ...
3,перевод направление институт . перевод направл...
4,программа обучение программирование курс обуче...


## Кластеризация

In [23]:
!pip install sentence-transformers hdbscan umap-learn wordcloud bertopic[all]

Collecting bertopic[all]
  Downloading bertopic-0.17.0-py3-none-any.whl.metadata (23 kB)
Downloading bertopic-0.17.0-py3-none-any.whl (150 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m150.6/150.6 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bertopic
Successfully installed bertopic-0.17.0


In [24]:
import matplotlib.pyplot as plt
import seaborn as sns

In [26]:
texts = threads_df['text_proc'].tolist()

### Эмбеддинги + HDBSCAN + PCA + WordCloud

In [46]:
from itertools import islice

def chunked(iterable, n):
    it = iter(iterable)
    while True:
        chunk = list(islice(it, n))
        if not chunk:
            break
        yield chunk

In [70]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("ai-forever/ru-en-RoSBERTa")

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/241 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/52.6k [00:00<?, ?B/s]

Some weights of RobertaModel were not initialized from the model checkpoint at ai-forever/ru-en-RoSBERTa and are newly initialized: ['pooler.dense.bias', 'pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


config.json:   0%|          | 0.00/297 [00:00<?, ?B/s]

In [71]:
embeddings = model.encode(texts, convert_to_tensor=True)

In [74]:
threads_df.drop(columns=['embed_texts'], errors='ignore', inplace=True)

In [75]:
print(type(threads_df))
print(threads_df.shape)
print(threads_df.columns)


<class 'pandas.core.frame.DataFrame'>
(42982, 8)
Index(['thread_id', 'root_global_id', 'turns', 'dialog_plain',
       'dialog_annotated', 'participants', 'global_ids', 'text_proc'],
      dtype='object')


In [76]:
X = embeddings.cpu().numpy()    # shape (n, dim)
emb_list = X.tolist()

In [77]:
threads_df['embed_texts'] = emb_list

In [None]:
threads_df.to_csv('threads_df.csv')

In [80]:
import hdbscan
from sklearn.preprocessing import normalize
from sklearn.decomposition import PCA
from wordcloud import WordCloud, STOPWORDS

In [None]:
from sklearn.preprocessing import normalize
embeds_norm = normalize(X)
clusterer = hdbscan.HDBSCAN(min_cluster_size=15, metric='euclidean')
labels = clusterer.fit_predict(embeds_norm)

In [None]:
threads_df['hdbscan'] = labels

In [None]:
pca = PCA( n_components=2, random_state=42)
coords = pca.fit_transform(X)
threads_df['pca_x'], threads_df['pca_y'] = coords[:,0], coords[:,1]

In [None]:
plt.figure(figsize=(8,6))

palette = sns.color_palette('tab10', np.unique(labels).max()+2)
sns.scatterplot(x='pca_x', y='pca_y', hue='hdbscan',
                data=threads_df, palette=palette,
                legend='full', s=20)

plt.title("HDBSCAN")
plt.legend(bbox_to_anchor=(1,1)); plt.show()

In [None]:
for cl in sorted(set(labels)):

    if cl == -1: continue  # шум
    texts_cl = threads_df.loc[threads_df['hdbscan']==cl, 'text_proc']

    wc = WordCloud(width=400, height=200, background_color='white',
                   stopwords=STOPWORDS).generate(" ".join(texts_cl))

    plt.figure(figsize=(4,2))
    plt.imshow(wc, interpolation='bilinear')
    plt.axis('off')
    plt.title(f"Cluster {cl} ({len(texts_cl)} docs)")
    plt.show()

### BERTopic + UMAP + c-TF-IDF

In [None]:
from bertopic import BERTopic
from umap import UMAP

In [31]:
umap_model = UMAP(n_neighbors=15, n_components=7, metric='cosine', random_state=42, min_dist=0.6)

In [None]:
topic_model = BERTopic(embedding_model=model,
                       umap_model=umap_model,
                       nr_topics="auto",
                       diversity=0.7,
                       top_n_words=20)

In [None]:
topics, probs = topic_model.fit_transform(texts)

In [None]:
threads_df['bertopic'] = topics

In [None]:
topic_info = topic_model.get_topic_info()
display(topic_info.head(10))

In [None]:
for t in topic_info['Topic'].unique():
    if t == -1: continue
    fig = topic_model.visualize_barchart(topic=t, top_n_topics=1)
    fig.show()

In [None]:
vis = topic_model.visualize_topics()
vis.show()