In [9]:
import pandas as pd
import numpy as np

from gensim.models import CoherenceModel

import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt
from gensim.models import LdaModel

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\S\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\S\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [4]:
df = pd.read_csv('../ready.csv').dropna()

In [5]:
# Есть ли пропуски:
print(df.isnull().sum())
# Есть ли дубликаты
print(df.duplicated().any())
print(len(df))

Unnamed: 0                         0
ucid                               0
message                            0
ACTION_ITEM_RESULT_PRODUCT_NAME    0
dtype: int64
False
42620


In [6]:
df.head()

Unnamed: 0.1,Unnamed: 0,ucid,message,ACTION_ITEM_RESULT_PRODUCT_NAME
0,0,"5,01000641613474E+017",добрый день это клиентский менеджер виктория с...,Бизнес-карта
1,1,"5,01001121614156E+017",добрый день звать клиентский менеджер сбербанк...,Зарплатные проекты
2,2,"5,01001811614178E+017",добрый день звать сбербанк блок сбер бизнес об...,Зарплатные проекты
3,3,"5,01002531614256E+017",добрый день клиентский менеджер удобно разгова...,Бизнес-карта
4,4,"5,01005041613457E+017",добрый день это сбербанк блок сбер бизнес клие...,Зарплатные проекты


In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(df.message, test_size=0.3, random_state=42)

In [22]:
from gensim import corpora

# Словарь
texts = [[word for word in doc.split()] for doc in X_train]
dictionary = corpora.Dictionary(texts)

# Корпус на основе матрицы подсчета слов
corpus = [dictionary.doc2bow(text) for text in texts]

In [28]:
# Build LDA model
lda_model = LdaModel(corpus=corpus,
                     id2word=dictionary,
                     num_topics=16,
                     random_state=42,
                     update_every=1,
                     chunksize=500,
                     passes=15,
                     alpha='auto',
                     per_word_topics=True)

In [29]:
lda_model.save('../models/lda.model')

In [30]:
# Compute Perplexity
print('\nPerplexity: ', lda_model.log_perplexity(corpus))

texts = [[word for word in doc.split()] for doc in X_test]
# Compute Coherence Score
coherence_model_lda = CoherenceModel(model=lda_model, texts=texts, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)


Perplexity:  -6.181423706689315

Coherence Score:  0.49316492604394724


In [31]:
# Вывод тем и соответствующих им ключевых слов
for idx, topic in lda_model.print_topics(-1):
    print(f'Topic: {idx} \nWords: {topic}')

Topic: 0 
Words: 0.038*"пожалуйста" + 0.036*"линия" + 0.032*"информация" + 0.029*"мочь" + 0.022*"бизнес" + 0.021*"вопрос" + 0.020*"ваш" + 0.018*"организация" + 0.018*"клиент" + 0.017*"поддержка"
Topic: 1 
Words: 0.061*"зарплатный" + 0.053*"проект" + 0.043*"карта" + 0.024*"мочь" + 0.022*"переводить" + 0.022*"сотрудник" + 0.020*"перевод" + 0.019*"комиссия" + 0.017*"подключить" + 0.017*"это"
Topic: 2 
Words: 0.095*"терминал" + 0.091*"эквайринг" + 0.071*"торговый" + 0.035*"точка" + 0.029*"оборудование" + 0.025*"сбербанк" + 0.024*"установка" + 0.024*"оплата" + 0.022*"дополнительный" + 0.020*"установить"
Topic: 3 
Words: 0.020*"код" + 0.018*"это" + 0.017*"нужно" + 0.014*"нажимать" + 0.013*"зайти" + 0.012*"заявление" + 0.012*"далее" + 0.011*"бизнес" + 0.011*"нажать" + 0.011*"указать"
Topic: 4 
Words: 0.039*"вопрос" + 0.032*"услуга" + 0.027*"ваш" + 0.027*"время" + 0.025*"звонить" + 0.022*"добрый" + 0.020*"быть" + 0.020*"банк" + 0.019*"помочь" + 0.018*"дистанционно"
Topic: 5 
Words: 0.071*"карт

In [32]:
import pyLDAvis

# Visualize the topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
vis

In [64]:
# Функция для получения топика из текста
def get_topic(text):
    # tokens = preprocess_text(text)
    bow_vector = dictionary.doc2bow(text.split())
    topics_distribution = lda_model.get_document_topics(bow_vector)
    # Возвращаем номер топика с наибольшей вероятностью для данного документа
    return max(topics_distribution, key=lambda item: item[1])[0]

# Добавление столбца с номером топика для каждой строки
df['g_topics'] = df['message'].apply(get_topic)