In [1]:
import pandas as pd
import numpy as np

from gensim.models import CoherenceModel

import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt
from gensim.models import LdaModel

In [2]:
df = pd.read_csv('../ready.csv').dropna()

In [3]:
# Есть ли пропуски:
print(df.isnull().sum())
# Есть ли дубликаты
print(df.duplicated().any())
print(len(df))

Unnamed: 0.2                       0
Unnamed: 0.1                       0
Unnamed: 0                         0
ucid                               0
text_employer                      0
ACTION_ITEM_RESULT_PRODUCT_NAME    0
dtype: int64
False
42620


In [4]:
df.head()

Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,ucid,text_employer,ACTION_ITEM_RESULT_PRODUCT_NAME
0,0,0,0,"5,01000641613474E+017",добрый день это клиентский менеджер виктория с...,Бизнес-карта
1,1,1,1,"5,01001121614156E+017",добрый день звать клиентский менеджер сбербанк...,Зарплатные проекты
2,2,2,2,"5,01001811614178E+017",добрый день звать сбербанк блок сбер бизнес об...,Зарплатные проекты
3,3,3,3,"5,01002531614256E+017",добрый день клиентский менеджер удобно разгова...,Бизнес-карта
4,4,4,4,"5,01005041613457E+017",добрый день это сбербанк блок сбер бизнес клие...,Зарплатные проекты


In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test = train_test_split(df.text_employer, test_size=0.3, random_state=42)

In [7]:
from gensim import corpora

# Словарь
texts = [[word for word in doc.split()] for doc in X_train]
dictionary = corpora.Dictionary(texts)

# Корпус на основе матрицы подсчета слов
corpus = [dictionary.doc2bow(text) for text in texts]

In [8]:
# Построение LDA модели
lda_model = LdaModel(corpus=corpus,
                     id2word=dictionary,
                     num_topics=16,
                     random_state=42,
                     update_every=1,
                     chunksize=500,
                     passes=15,
                     alpha='auto',
                     per_word_topics=True)

In [9]:
lda_model.save('../models/lda.model')

In [10]:
# Сложность модели
print('\nPerplexity: ', lda_model.log_perplexity(corpus))

texts = [[word for word in doc.split()] for doc in X_test]
# Когеренция
coherence_model_lda = CoherenceModel(model=lda_model, texts=texts, dictionary=dictionary, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)


Perplexity:  -6.311725654424939

Coherence Score:  0.5114780003801879


In [3]:
# Вывод тем и соответствующих им ключевых слов
for idx, topic in lda_model.print_topics(-1):
    print(f'Topic: {idx} \nWords: {topic}')

Topic: 0 
Words: 0.035*"пожалуйста" + 0.032*"линия" + 0.031*"информация" + 0.028*"мочь" + 0.021*"вопрос" + 0.017*"обращаться" + 0.017*"бизнес" + 0.017*"организация" + 0.016*"ваш" + 0.016*"уточнить"
Topic: 1 
Words: 0.147*"зарплатный" + 0.133*"проект" + 0.052*"выплата" + 0.031*"мочь" + 0.023*"ваш" + 0.020*"реестр" + 0.019*"перечисление" + 0.018*"договор" + 0.017*"подключить" + 0.017*"помощь"
Topic: 2 
Words: 0.071*"почта" + 0.061*"номер" + 0.047*"направить" + 0.043*"телефон" + 0.042*"электронный" + 0.042*"мочь" + 0.041*"указать" + 0.037*"информация" + 0.017*"точка" + 0.016*"инструкция"
Topic: 3 
Words: 0.023*"код" + 0.017*"нужно" + 0.017*"это" + 0.015*"зайти" + 0.015*"заявление" + 0.015*"нажимать" + 0.014*"бизнес" + 0.012*"компьютер" + 0.012*"далее" + 0.012*"заходить"
Topic: 4 
Words: 0.026*"мочь" + 0.026*"ваш" + 0.022*"контакт" + 0.022*"нный" + 0.022*"удалой" + 0.021*"свой" + 0.018*"вопрос" + 0.017*"бизнес" + 0.017*"направить" + 0.016*"сервис"
Topic: 5 
Words: 0.044*"это" + 0.029*"мочь

In [12]:
import pyLDAvis

# Визуализация топиков
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, dictionary)
vis

In [14]:
# Функция для получения топика из текста
def get_topic(text):
    bow_vector = dictionary.doc2bow(text.split())
    topics_distribution = lda_model.get_document_topics(bow_vector)

    # Возвращаем номер топика с наибольшей вероятностью для данного документа
    return max(topics_distribution, key=lambda item: item[1])[0]

# Добавление столбца с номером топика для каждой строки
df['topics'] = df['text_employer'].apply(get_topic)

In [16]:
df[['ucid', 'text_employer', 'topics']]

Unnamed: 0,ucid,text_employer,g_topics
0,"5,01000641613474E+017",добрый день это клиентский менеджер виктория с...,10
1,"5,01001121614156E+017",добрый день звать клиентский менеджер сбербанк...,14
2,"5,01001811614178E+017",добрый день звать сбербанк блок сбер бизнес об...,11
3,"5,01002531614256E+017",добрый день клиентский менеджер удобно разгова...,11
4,"5,01005041613457E+017",добрый день это сбербанк блок сбер бизнес клие...,13
...,...,...,...
42721,"5,01034111613466E+017",добрый день это ваш персональный менеджер сбер...,2
42722,"5,01034111613466E+017",здравствуйте мочь обращаться линия операционны...,0
42723,"5,01035251614262E+017",добрый день персональный менеджер сбербанк ваш...,14
42724,"5,01035571614254E+017",добрый день персональный менеджер сбер бизнес ...,11
