In [1]:
import pandas as pd
import numpy as np

import nltk
from nltk import tokenize
from nltk.corpus import stopwords

import re
import pymorphy2

import itertools

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.model_selection import GridSearchCV, train_test_split

import matplotlib.pyplot as plt
import seaborn as sns

import pyLDAvis.lda_model

from tqdm import tqdm_notebook
import warnings
import joblib

from utils import *

warnings.filterwarnings('ignore')

nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dmitry/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/dmitry/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
df = pd.read_csv('data/topic_modeling_task_sample_trainPart.csv') 

In [3]:
df['replicas'] = df['text_employer'].str.split('.')
data = df[['ucid','replicas']].explode('replicas').reset_index(drop=True).dropna()
data = data[data['replicas'] != '']

In [4]:
stop_words = stopwords.words('russian')
extra_stop_words = get_stopwords_from_file('stopwords.txt')
stop_words_extended = set(stop_words + extra_stop_words)

morph = pymorphy2.MorphAnalyzer()

def process_string(input_string, morph=morph, stop_words=stop_words_extended):
    words = re.findall(r'\b[а-яА-Я_]+\b', input_string)
    result_string = ' '.join([word if '_' in word else morph.parse(word)[0].normal_form for word in words if word not in stop_words])
    
    return result_string

data['replicas_processed'] = data['replicas'].apply(process_string)

In [5]:
X_train, X_test = train_test_split(data.replicas, test_size=0.5, random_state=42)

# LDA

In [6]:
vector_ben = CountVectorizer(
    analyzer='word',
    min_df=10,
    ngram_range=(1, 2),
    stop_words=stopwords.words('russian'),
    # max_features=10000,
)
train_vec_ben = vector_ben.fit_transform(X_train)
test_vec_ben = vector_ben.transform(X_test)
train_vec_ben.shape

(278107, 29171)

In [7]:
lda_model_ben = LatentDirichletAllocation(
        n_components=15,
        learning_method='online',
        random_state=42,
        max_iter=10,
        n_jobs=4,
        verbose=1
    )

with joblib.parallel_backend(backend='loky', n_jobs=4):
    lda_model_ben.fit(train_vec_ben)

iteration: 1 of max_iter: 10
iteration: 2 of max_iter: 10
iteration: 3 of max_iter: 10
iteration: 4 of max_iter: 10
iteration: 5 of max_iter: 10
iteration: 6 of max_iter: 10
iteration: 7 of max_iter: 10
iteration: 8 of max_iter: 10
iteration: 9 of max_iter: 10
iteration: 10 of max_iter: 10


In [8]:
pyLDAvis.enable_notebook()
panel = pyLDAvis.lda_model.prepare(
    lda_model_ben,
    train_vec_ben,
    vector_ben,
    mds='tsne'
)
panel

# Идеи

**Вообще** большая часть экспериментов пропушена. 
В них я менял параметры CountVectorizer и LatentDirichletAllocation и вот какие сделал выводы:
1. Кажется что нормализация может навредить в определнии некоторых категорий, например Призыв к действию
2. Имеет смысл использовать биграммы и триграммы
3. Увеличение количества топиков (до 30) позволяет выявить более разнообразные кластеры, из которых можно черпать темы, отличные от заданных
4. Некоторые топики прослеживаются от запуска к заупску, но не вместе:
    - Приветствие
    - Окончание разговора
    - Инструкция по подключению/приобретению
    - тарифы / цены
    - Вовлечение (подведение к диалогу)
    - Следующие шаги

5. Есть топики, которые классическими методами, кажется, совсем трудно уловить, например
- Болтовня — его скорее стоит использовать, когда другие топики сложно определить, то есть совокупный класс для всего, что не подошло
- Призыв к действию — здесь, возможно, нормализация вообще сделает только хуже, призыв к действию я бы обнаруживал по наличию повелительной формы глаголов
- Вопрос клиента — совсем непонятно, реплик клиента нет, реплика может быть ответом на вопрос клиента, но ее можно классифицировать как инструкцию, например

6. Некоторые топики могут сильно пересекаться:
- Преимущества, Удобство работы, Тарифы / Цены

7. LatentDirichletAllocation из sklearn не параллелится в несколько потоков нормально, все потоки, кроме главного, используют максимум 5% мощности (не помогает и joblib), из-за чего проведение экспериментов занимает слишком много времени.

### Что-то кроме Topic Modeling

1. Самое базовое: проверить наличие ключевых слов в репликах, например для Акции — акция, специальный предложение, Безопасность — безопасность, безопасно, надежно и т.д. Можно для каждой категории составить список слов.
2. Использовать для векторизации что-то более сложное, например, Word2Vec для улавливания семантической близости
3. Суммаризация текста с помощью больших языковых моделей и рассчитывание косинусного расстояния между эмбедингом реплики и эмбедингом каждого топика — выбрать тот, у которого наименьшее расстояние.
4. Можно для каждого топика выбрать несколько реплик 3-7 (автоматически по вхождению слов или вручную) и использовать метрические методы для определения близости.
5. Таким образом можно использовать LDA для выявления новых топиков, а классификацию делать с помощью метрических методов

**Итог**: Последние две идеи кажутся очень перспективными. Вообще, полученна, жаль не хватает времени, чтобы все проверить