# Кластеризация и характеристика обращений клиентов

In [1]:
import os
import warnings
import logging

import pandas as pd
import numpy as np
import plotly.io as pio

import transformers
import torch

from sql_connect import read_sql
from text_conversion import summarization, get_summary, clean_text
from text_vectorization import Embedder
from clusterization import get_clusters, generate_topics, plot_clusters

from sklearn.metrics import silhouette_score, davies_bouldin_score
from sklearn.cluster import KMeans
from openai import OpenAI

warnings.filterwarnings("ignore", category=UserWarning)
pd.set_option('display.max_colwidth', None)
transformers.tokenization_utils.logger.setLevel(logging.ERROR)
transformers.configuration_utils.logger.setLevel(logging.ERROR)
transformers.modeling_utils.logger.setLevel(logging.ERROR)
pio.renderers.default = "notebook_connected"

SEED = 654122

In [2]:
calls_query = '''
SELECT TOP 5 *
FROM calls
WHERE CAST(call_date AS DATE) BETWEEN '2024-02-15' AND '2024-02-15';
'''

In [3]:
calls = read_sql(calls_query)
calls.drop('address',  axis=1)

Unnamed: 0,id,call_date,ak,miko,mrm,incoming,linkedid,oper,base_name,bid_id,bid_exists,ad,oper_name,call_id,bid_date
0,9496291,2024-02-15 05:49:28,True,False,True,False,1707965367.247653,МРМ,1C_Service_NNOV,Пл1248033,True,Исходящий звонок,,6296517,2024-02-11 05:07:26
1,9496292,2024-02-15 06:00:28,False,True,False,True,1707966019.1673207,Оператор_056,1C_Service_NNOV,Пл1249008,True,Визитка ЕКБ_792,Тарасова Н.В.,6296518,2024-02-15 06:03:14
2,9496293,2024-02-15 06:09:37,True,False,True,False,1707966576.2476532,МРМ,1C_Service_NNOV,Пл1248552,True,Исходящий звонок,,6296519,2024-02-13 09:18:13
3,9496294,2024-02-15 06:09:47,False,True,False,True,1707966579.1673207,Оператор_015,1C_Service_NNOV,Пл1248765,True,Повторный звонок по заявке,Фофанова М.Л.,6296520,2024-02-14 06:25:53
4,9496295,2024-02-15 06:13:33,True,False,True,False,1707966813.2476535,МРМ,1C_Service_NNOV,Пл1247668,True,Исходящий звонок,,6296521,2024-02-09 09:43:04


In [4]:
tr_query = '''
SELECT TOP 5 *
FROM transcribations
WHERE CAST(record_date AS DATE) BETWEEN '2024-02-15' AND '2024-02-15';
'''

In [5]:
transcribations = read_sql(tr_query)
transcribations.T

Unnamed: 0,0,1,2,3,4
transcribation_date,2024-02-15 03:39:37,2024-02-15 03:39:37,2024-02-15 03:39:37,2024-02-15 03:39:44,2024-02-15 03:39:44
date_y,,,,,
date_m,,,,,
date_d,,,,,
side,False,False,False,True,True
text,Продолжение следует...,Алло?,Алло?,алло,туша
start,0.33,32.31,39.93,30.9,35.82
audio_file_name,in_5056_2024-02-15-03-28-42rxtx-in.wav,in_5056_2024-02-15-03-28-42rxtx-in.wav,in_5056_2024-02-15-03-28-42rxtx-in.wav,in_5056_2024-02-15-03-28-42rxtx-out.wav,in_5056_2024-02-15-03-28-42rxtx-out.wav
conf,0.885,0.354,0.508,1.0,0.599099
end_time,30.25,33.31,40.21,31.38,36.39


In [6]:
query = '''
SELECT DISTINCT
       start,
       record_date,
       linkedid,
       audio_file_name,
       model,
       text,
       side,
       src,
       dst
FROM transcribations
WHERE linkedid IN (SELECT DISTINCT
                          linkedid
                   FROM transcribations
                   WHERE CAST(record_date AS DATE) BETWEEN '2024-02-07' AND '2024-02-15'
                       AND model=1)
    AND ((side='True' AND LEN(src)=4 AND dst NOT LIKE '[0-9][0-9][0-9][0-9]')
         OR (side='False' AND LEN(src)>4 AND dst LIKE '[0-9][0-9][0-9][0-9]')
         OR (side='True' AND LEN(src)>4 AND LEN(dst)>4))
    AND text IS NOT NULL AND text <> ''
ORDER BY start;
'''

In [7]:
df = read_sql(query)
df = df.drop(columns=['start']).drop_duplicates()
df.sample(5, random_state=SEED).drop(columns=['src', 'dst'])

Unnamed: 0,record_date,linkedid,audio_file_name,model,text,side
10647,2024-02-09 14:08:58,1707476937.1654909,in_79264924612_2024-02-09-14-08-58rxtx-in.wav,0,в холодильнике компрессора у нас отдельный компрессор два компьютера на холодильнике,False
73153,2024-02-15 18:01:03,1708009262.167602,in_4992000746_2024-02-15-18-01-03rxtx-in.wav,0,а вот на назавтра можно заказать чтобы завтра да на завтра да,False
33351,2024-02-13 15:40:53,1707828051.1668448,in_5077_2024-02-13-15-40-53rxtx-out.wav,0,а потом фирма,True
91866,2024-02-08 14:21:27,1707391286.165156,in_79647289580_2024-02-08-14-21-27rxtx-in.wav,0,аварийное вскрытие дверей,False
19112,2024-02-12 17:17:35,1707747455.2470164,a2024-02-12t17:17:35b_c9933426614d_e9852223343f_g1707747455.24701639h-out.wav,0,ага,True


In [8]:
df.to_csv('calls_transcripts.csv', index=False)
df = pd.read_csv(
    'calls_transcripts.csv',
    parse_dates=[0],
    dtype={'linkedid': 'object'}
)

In [9]:
summarized = summarization(
    df,
    [
       'linkedid',
       'audio_file_name',
       'record_date',
       'model',
       'side',
       'src',
       'dst'
    ],
    'text',
    'продолжение следует',
    r'\.{2,}'
)

In [10]:
summarized['text_length'] = summarized['text'].apply(len)
summarized = summarized[summarized['text_length'] >= 50]
summarized = summarized.sort_values(by=['linkedid', 'record_date']).drop_duplicates(subset='linkedid').reset_index(drop=True)

summarized.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8103 entries, 0 to 8102
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   linkedid         8103 non-null   object        
 1   audio_file_name  8103 non-null   object        
 2   record_date      8103 non-null   datetime64[ns]
 3   model            8103 non-null   int64         
 4   side             8103 non-null   bool          
 5   src              8103 non-null   object        
 6   dst              8103 non-null   object        
 7   text             8103 non-null   object        
 8   text_length      8103 non-null   int64         
dtypes: bool(1), datetime64[ns](1), int64(2), object(5)
memory usage: 514.5+ KB


In [11]:
summarized.to_csv('summarized_transcripts.csv', index=False)
summarized = pd.read_csv(
    'summarized_transcripts.csv',
    parse_dates=[2],
    dtype={'linkedid': 'object'}
)

In [13]:
summary = pd.DataFrame()
summary[['linkedid', 'text']] = summarized[['linkedid', 'text']]

client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", ""))
summary = get_summary(summary, client, seed=SEED)
summary[['text', 'result']].sample(5, random_state=SEED)

Unnamed: 0,text,result
1458,"елена, добрый день. алло. вы не могли меня связать с клиентом, но заявка 1-49-8-41. 2-1-4-9-8-4-1. да, это вопрос. алло, день добрый. ага. это вот по поводу ремонта холодильника. да. нет. да, значит, смотрите, берем и выправляем температуру побольше. давайте, давайте, давайте. а с чего вы взяли, что у вас внизу 27? 27 градусов, это морозилка. 27 градусов, это морозилка или холодильник? да, но прибавляйте температуру. там на нем есть кнопочки. его полностью нет кнопочек, надо поднять температуру, и все. да, не смогу. ага, ага, ага. ну, давай, я вам ширком заеду, нормально будет? все, если 7-8, нормально? все, я вам заеду вниз. я понял, я понял. хорошо, ладно, я там приеду. сегодня, сегодня буду. давайте, давайте.","- Заявка 1-49-8-41 - холодильник нужно выправить температуру внизу.\n- Сейчас у вас 27 градусов внизу, это в морозилке или холодильнике?\n- Надо поднять температуру, есть кнопочки?\n- Если 7-8, это нормально?\n- Я приеду сегодня."
3013,а да говорите пожалуйста погромче да да надо да конечно мастера а но когда пробегают хоть на холодильник выгружать можем да в общем её вода вот так вот то спасибо андрей аллея вам мы ждём она побыстрее,"Нам нужен мастер, чтобы выгрузить холодильник и разобраться с водой, спасибо."
7568,"алло, здравствуйте. я звонила, полдвенадцатого, наверное, время было, по поводу мастера по телевизору. сказали, что в течение часа перезвонит. время уже три часа, никто не звонит. нет, не установлен. могут, могут. я сама их сбрасываю. улица нагулинская, 59 иодом. да? вот не знаю, вот я говорю вам, что я ждала, ждала. сейчас сын звонит, говорит, мам, мне что, приезжать, не приезжать? я говорю, мне никто не дозвонился. я говорю, сейчас будут так, повторно звонить. ну, все, ладно, я жду, что тут рассуждать. хорошо? хорошо. алло. здравствуйте. здравствуйте. мне нужно переключить телевизор. у меня была там, это, ннтв, это, коробка, это какая-то тарелка. мне нужно сделать этот, как его, ну, на наши девятнадцать каналов. да, да. ну, конечно, не первой свежести. уж лет пятнадцать это. я все купила, у меня есть приставка. да, антенна. но у меня антенна разводка по дому. да? нет, у меня обыкновенная. но тарелка у меня есть. потому что на первом этаже у меня столов. а на втором я хочу, чтобы у меня просто наше было нижегородское телевидение. хорошо, подъезжайте. вы мне скажите, сколько примерно услуга-то стоит? все, ладно, хорошо. я буду ждать. все, до свидания.","Я звонила в полдвенадцатого по поводу мастера по телевизору, обещали перезвонить в течение часа, но уже прошло три часа, никто не перезвонил. Мне нужно переключить телевизор, у меня есть тарелка, антенна, но разводка по дому. Сколько примерно услуга стоит?"
7591,але здравствуйте да а вопрос как господи опять она за ней доставка свяжется заберёт техникум как раз сейчас решали уже вопрос вот сегодня свяжется назначить дату вылета да спасибо,Нет ключевой информации.
4145,алло сейчас да здрасьте о я сейчас мужу трубочку передавал все твой сон кое-что сказать але здравствуйте да там просто к вам смысла нет просто так ехать объясню сейчас в чем причина у нас у нас синий экран был вот синий экран ну как все никак не полностью иммигрант а светодиоды стали синими вместо белых вот соответственно приходил один мастер ну как хороший мастер нормально просто у него сейчас что-то случилось в жизни свод он сначала не те цвета диоды привёз они по размеру чуть-чуть другие были вот и потом он сказал что купил новый хотел приехать но может там смогли бы там заболели и все он уже месяц не может до нас доехать вот соответственно он маркизу полностью разобран вот там только поменять да и то заказать надо светодиоды светодиодом мы даже знаем какие аля вот вопрос можете ли вы соответственно но заранее заказать вот эти светодиоды вот и собрать у нас дома этот телевизор и поменять это делали просто сильно полностью разобран я сам собрать ну как-то не смогу идти будем вести его вот в этом вопрос что ещё раз ну вот у меня получилось кстати очень быстро разобрать матрицу аккуратно снял и там соответственно только собрать надо при всем я понял ладно хорошо спасибо большое тогда новое имеет смысл не проезжайте как бы нет я понял красиво семьнадцать,"У нас проблема с телевизором - светодиоды стали синими вместо белых, мастер не может приехать уже месяц, маркиз разобран, нужно заказать нужные светодиоды заранее. Можете ли вы это сделать?"


In [14]:
summary.to_csv('summary.csv', index=False)
summary = pd.read_csv(
    'summary.csv',
    dtype={'linkedid': 'object'}
)

In [15]:
clean = clean_text(
    summary,
    'нет ключевой информации|не удалось выделить ключевую информацию|никакого разговора не состоялось',
    'адрес|город|метро|дом|квартир|подъезд|домофон|этаж|мой телефон|наш телефон|мой номер|номер телефона|номер заявки|номер заказа|телефон для связи|контактный номер|контактный телефон|спасибо|до свидания',
    r'[а-яА-ЯёЁ]'
)
clean['text'].to_frame().sample(10, random_state=SEED)

Unnamed: 0,text
5183,У меня есть рекламная бумажка с номером 148.
3068,"У нас также проблема с холодильником, можно к вам подъехать и посмотреть?"
6072,"Не реагирует кнопка старта, как будто что-то отлетело внутри механизма."
1735,Какие предельные сроки у вас?
7821,Заказ платного мастера для уточнения времени прихода.
386,Сколько это будет стоить примерно?
1269,"Наверное, это 32-р-л-р, английская, л-л-л, тоже большая английская, 933-р-б."
1672,С этого номера?
3357,"Непонятно, почему мастер так долго не приходит."
7321,"Сориентируйтесь по цене, сколько там, вызов стоит мастера?"


In [16]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name = 'cointegrated/rubert-tiny2'

embedder = Embedder(model_name, device)
embeddings = embedder.get_embeddings(clean, 512)
embeddings.tail()

Processing batches:   0%|          | 0/19 [00:00<?, ?it/s]

Unnamed: 0,linkedid,text,embedding
9493,1708026084.1676586,"Машина перестала работать, мотор шумел, сейчас отключена от сети.","[-0.4979679, -0.16442797, 0.36842173, -1.676214, 0.3559669, 0.19501455, -0.42754954, -0.94375217, 0.71071756, 0.011492193, 0.3678645, 0.45247632, 0.5550098, 0.8986785, -0.37330252, -0.6497234, 0.6455413, -0.023895614, -0.61900723, -0.79517746, -0.095056355, 0.9744611, 0.13928863, -0.26286507, 0.85038006, 0.27458072, 0.5151521, 0.019576043, -0.033802614, 0.71436477, -0.38502896, -0.09489034, -0.05438745, -0.10605653, 0.37437785, 0.58846146, 0.014951134, -0.68956316, 0.4838717, -0.12497558, 0.630146, 0.4168074, 0.34916487, -0.34569946, 0.5091611, 0.15328164, -0.37202215, 1.0042703, 0.09382937, -0.16301294, -0.34029534, 0.07011742, -0.07011939, -0.3813418, 0.17086992, -0.26923758, 0.65138745, 0.044585854, 0.032859582, -0.10529827, 0.4048554, 0.3378154, 1.0203592, -0.7453835, 0.71147454, -0.7332988, 0.2426767, 0.2388079, 0.3004897, -0.26576555, 1.1265013, 0.35250518, -0.47162372, -0.8783016, 0.40011892, -0.8526208, 0.008848876, -0.4220984, 0.15422377, 0.27740133, -0.02472756, -0.060771517, 0.085469306, 0.39651388, -0.26952672, -0.6925851, -0.99020034, 0.38377187, -0.21832691, -0.56522065, 0.94754934, -0.22286668, 0.44678244, -0.21607503, 0.8348493, 0.31849736, 0.42448932, 0.19199519, 0.17139351, -0.1333192, ...]"
9494,1708026084.1676586,Сколько стоит диагностика?,"[-0.056837603, -0.12828873, -0.33625045, -1.046955, -0.742052, -0.19488113, 0.22727776, -0.24017954, -0.29870102, 0.15916987, 0.19967127, -0.38493606, 0.1942632, 1.7492805, -0.51252276, -0.2938362, 0.67394114, 0.9360674, -0.02574356, 0.30983338, -0.2890269, 0.093564965, 0.06499841, 0.41844738, 1.7331647, -0.1167899, 0.28999856, 1.002111, 1.0973669, 0.31991345, 0.6112205, 0.6071232, -0.58056813, -0.09902742, 0.20809667, 0.2317399, 0.8121771, -0.66393685, -0.33162472, -0.050684024, 0.52022207, -0.4664117, 0.00070955855, -0.48104763, 0.35467634, -0.38893127, -0.2684473, -0.64813644, 0.8216538, 0.57753295, 0.7762627, -0.13106127, 0.126467, -0.803066, 0.31932488, 0.020890161, 0.9325392, -0.012108277, -0.17315097, 0.13772224, 0.5116455, 0.6035383, -0.5713238, -0.07231391, 0.70880765, -0.32310212, 0.19457988, 0.059459537, 0.008304007, 0.812063, -0.33621076, 0.032670736, -0.100996114, -1.4283748, -0.041674387, -0.4458109, 0.44135237, -0.7456446, -0.21751624, -0.33863983, 0.3708571, 0.69676083, 0.63982254, 0.8091388, -0.052450042, 0.47036108, 0.086641334, 1.1323377, 0.8317266, 0.32444116, 0.7054079, -0.8803832, 2.3713877, -0.5089391, -0.6416991, 0.95585537, -0.8994674, 0.6509344, -0.62417156, 0.48268548, ...]"
9495,1708026084.1676586,Когда-то нужно будет договориться о визите.,"[-0.34886098, 0.18420686, -0.5768396, -0.92459494, -0.78742284, 0.50220793, -0.46807793, 0.18856876, -0.37399772, 0.5224119, -1.4303226, -0.041167248, -0.5882059, 0.3538309, -0.5692003, -0.8025748, 0.13674118, 0.022152692, -0.15898712, 0.42838955, -0.27624834, -0.737819, 0.22699803, 0.25646606, -0.043639973, 0.49673915, 0.078524135, 0.6307699, -0.35277545, 0.01750282, 0.048715442, -0.24806349, 0.2411568, 1.1034378, -0.20763181, 0.029430324, 0.34790978, 0.13463302, 0.7428165, 0.30425864, -0.19963543, -0.16240193, 0.9074507, -0.7507849, -0.18571396, 0.6216853, 0.13344882, -0.6508356, 0.06439314, -0.6439723, 0.28477073, -0.2647996, -0.5750727, 0.292665, -0.2901146, 0.18579142, 0.32411054, -0.9447561, -0.71872205, 0.34687603, 0.042852208, 1.061345, 0.5398519, 0.066061795, -0.038888484, -0.35797897, 0.45419025, -0.5580458, -0.20086479, 0.11485183, 0.18719535, 0.077335455, 0.07332005, -1.3662211, -0.46650842, -0.29746965, 0.5333707, -0.632391, -0.2638174, 0.7341757, -0.041143954, 0.35147747, 0.18215121, -0.13019268, 0.18489866, 0.4498696, 0.5402865, 0.2675765, -0.23448847, 0.61529845, -0.3289379, -0.39526638, 2.0416415, 0.23474663, 0.021526262, -0.07774577, 0.1917966, 0.03612532, -0.35060334, 0.052838128, ...]"
9496,1708026084.1676586,"Если мотор сломался, то гарантия действует, так?","[-0.31864417, -0.27890247, -0.5059125, -1.4831957, 0.22800377, 0.50525, -0.5260134, -0.48002812, 0.9437939, 0.84516436, -1.0372677, 0.027543563, 0.33625177, 0.7416156, 0.40094918, -0.5840792, 0.5009137, 0.0028215097, -0.5036097, -1.213757, 0.46749794, 0.7561475, -0.25839865, -0.20912123, 1.0289592, 0.87855256, -0.2178275, -0.02366028, 0.8014097, -0.22692683, -0.19602229, -0.14931437, -0.20432785, 0.37347105, 0.5417774, 0.80517966, 0.76612407, -0.48394167, 0.4656878, -0.016188521, 0.520936, 0.3479814, 0.5538897, -0.117837474, 0.16664703, -0.13879074, -0.23194078, 0.19024485, 0.2670802, -0.18072757, -0.23107536, -0.42884123, -0.09095006, -0.07580715, 0.4155105, 0.32817733, 0.92370576, -0.15396151, -0.7358697, 0.7238442, -0.11006786, -0.004326504, 0.42297518, -0.65015984, 0.23369513, -0.29056206, 0.058002017, -0.0036683495, -0.50102305, -0.12581703, -0.09847887, -0.17551497, -0.15109722, -0.71596587, 0.40811113, -0.03016415, 0.03562013, -0.11994236, 0.2716184, 1.0148294, 0.12598298, 0.02754094, -0.09212629, 0.55041254, -0.09769571, 0.3511483, 0.4723592, 0.9803202, -0.5024607, -0.34865564, 0.5078043, -0.5231152, 1.7328124, -0.30308014, 0.059215385, 0.25898445, 0.25452235, 0.74762857, -0.3430153, 0.4008558, ...]"
9497,1708026084.1676586,"У меня есть документы, чек и прочее.","[0.8516195, 0.21865739, -1.3154403, -0.7069812, 0.09856682, 0.44539574, -1.0531659, -0.06832219, -0.40329182, -0.053285714, -0.20057592, -0.43494102, -0.75635207, 0.3320254, -0.16653854, -1.237341, 0.44699094, -0.43793014, 0.21629596, 0.73894155, -0.5582424, 0.35703394, -0.007001877, -0.96258587, 0.73885745, 0.09270122, 0.25549886, 0.037465762, -0.44867697, -0.023964675, -0.18758659, -0.53644854, 0.16566505, 0.40840006, -0.43563417, 1.3051273, 0.6005733, -0.08545062, 0.3494841, -0.3512324, 0.26857412, -0.390584, 1.2163953, -0.29930755, 0.63676214, 0.05523921, -0.24737209, 0.47763968, -0.38523895, -0.29344693, 0.4009148, -0.11857378, -1.2233856, 0.49697322, 0.03582543, 0.2920246, 0.484302, 0.5175238, -0.37732133, 0.15800782, -0.61245173, 0.41713163, -0.33979356, 0.28074616, -0.16634957, -0.5737716, -0.81776506, 0.15070201, 0.99151933, 0.54743236, -0.17137302, 0.23289126, 0.021066027, -0.42454243, -0.2434722, -0.16225535, -0.32718697, 0.5515762, -0.09423862, -0.16480288, -0.44227174, -0.034356907, -0.4406661, 0.887224, -0.0958989, -0.19552375, 0.18920638, 0.37406585, -0.4569586, -0.0051096734, 0.5384566, -0.9520746, 2.2517684, 0.22888881, -0.27623412, 0.46707422, 0.31639454, 0.70201176, 0.24627633, -0.79800105, ...]"


In [17]:
embeddings.to_pickle("embeddings.pkl")
embeddings = pd.read_pickle('embeddings.pkl')

In [18]:
matrix = np.stack(embeddings.embedding.values)

best_silhouette_score = -1
best_db_index = np.inf
best_count = None
silhouette_scores = []
db_indexes = []
cluster_sizes_list = []

for count in range(4, 20):
    clusterer = KMeans(
        n_clusters=count,
        max_iter=100,
        init='random',
        n_init=10,
        random_state=SEED,
        algorithm='lloyd'
    )
    clusterer.fit(matrix)
    labels = clusterer.labels_

    cluster_sizes = np.bincount(labels[labels >= 0])
    cluster_sizes_list.append((count, cluster_sizes))
    
    if len(set(labels)) > 1:
        silhouette = silhouette_score(matrix, labels)
        db_index = davies_bouldin_score(matrix, labels)
        
        silhouette_scores.append((count, silhouette))
        db_indexes.append((count, db_index))
        
        if silhouette > best_silhouette_score:
            best_silhouette_score = silhouette
            best_count = count
        
        if db_index < best_db_index:
            best_db_index = db_index
            best_count_db = count

for count, cluster_sizes in cluster_sizes_list:
    print(f"Количество кластеров={count}, размеры кластеров: {cluster_sizes}")

print(
    "Лучшее количество кластеров по силуэту:",
    best_count,
    "с оценкой силуэта:",
    best_silhouette_score
)
print(
    "Лучшее количество кластеров по Davies-Bouldin:",
    best_count_db,
    "с индексом Davies-Bouldin:",
    best_db_index
)

Количество кластеров=4, размеры кластеров: [3009 2525  832 3132]
Количество кластеров=5, размеры кластеров: [2624 2046 2189 1915  724]
Количество кластеров=6, размеры кластеров: [2053  716 1632 1823 2128 1146]
Количество кластеров=7, размеры кластеров: [1148 1550 1226  663 1948 1699 1264]
Количество кластеров=8, размеры кластеров: [ 786  651 1781 1260 1172 1188 1084 1576]
Количество кластеров=9, размеры кластеров: [ 551 1345  963 1126  898 1716 1171  763  965]
Количество кластеров=10, размеры кластеров: [1123 1216 1195  524  894 1193  867  983  751  752]
Количество кластеров=11, размеры кластеров: [ 670  977  843 1183  642  941  892  557 1001 1085  707]
Количество кластеров=12, размеры кластеров: [1007  384  515  768 1054  633  538  709 1079 1074  985  752]
Количество кластеров=13, размеры кластеров: [ 671  785  483  979  728  741  884  893  493  967  369  475 1030]
Количество кластеров=14, размеры кластеров: [906 810 890 924 505 507 452 352 719 392 607 762 728 944]
Количество кластеро

In [19]:
embeddings['general_cluster'] = get_clusters(matrix, 4, seed=SEED)
embeddings['detail_cluster'] = get_clusters(matrix, 17, seed=SEED)
embeddings.sample(5, random_state=SEED)

Unnamed: 0,linkedid,text,embedding,general_cluster,detail_cluster
5183,1707818656.1667562,У меня есть рекламная бумажка с номером 148.,"[0.34172028, -0.33629414, -0.1097159, -1.247525, -0.27990633, 0.51260847, -0.63870245, -0.11136607, -0.4875047, 0.32284248, -0.16470568, 0.015203402, 0.018587593, 0.6370268, 0.0340221, -0.8446673, 0.98979795, -0.4644983, -0.35859728, 0.26823002, -0.058247466, 0.6324061, -0.16675235, -0.6370207, 1.0574945, 0.10695886, 0.021141259, 0.22079886, -0.30686513, 0.34525856, -0.287101, 0.18440305, 0.13792707, 0.11609897, -0.7952391, 0.49511096, 0.75084454, -0.67153275, 0.72402984, -0.15713343, -0.5967252, -0.6107762, 0.210044, -0.3394725, -0.101243064, 0.07740026, 0.17367887, 0.5916466, -0.07471143, -0.8263201, 0.19900964, 0.09298143, -0.7747403, 0.5351638, -0.5600426, 0.27307212, 0.22436999, 0.80142754, 0.8677571, -0.3782203, -0.74352413, 0.26979864, 0.2651819, -0.42189372, -0.015804779, 0.7365855, 0.10800081, -0.36456314, 0.08245278, -0.34876233, -0.18687557, 0.26697809, 0.5455688, -0.63352746, -0.24016371, -1.1038413, -0.73003876, 0.30577105, 0.76436806, -0.14990714, -0.41612893, 0.12068767, -0.23495033, 0.052044593, 0.3622946, -0.267436, 0.17798154, 0.18006182, 0.03196864, 0.23106247, 0.31619182, -0.8505343, 1.4209718, -0.003948184, -0.3130358, 0.32516816, 0.07216576, 0.85801977, 0.08876961, -0.37254053, ...]",3,14
3068,1707724891.16629,"У нас также проблема с холодильником, можно к вам подъехать и посмотреть?","[0.2545006, 0.1392384, -0.054480083, -1.4121215, -0.09274582, 0.9975856, -0.052353095, -0.52341133, -0.78428787, 0.5405477, -0.8818014, -0.469159, 0.38717964, 0.33622438, -0.5416208, -0.38187993, 0.4157743, 0.36083114, -0.22107404, -0.12873429, -0.5253635, 0.08635603, 0.19520551, -0.55480385, 1.8263806, 0.065083295, -0.6654921, 1.1063515, -0.6112403, 0.334479, 0.82683605, 0.21771508, -0.038728278, -0.26941168, -0.25802484, 0.33969948, 0.54871833, 0.18667474, 0.6995224, 0.39487487, 0.5335936, -0.091959424, 1.393002, -0.49528667, -0.07670755, -0.30062, 0.06625104, 0.3597671, -0.53423, -0.104656234, -0.04322321, -0.5818323, -0.4042913, -0.4376722, -0.5309976, 0.21567959, 0.7918464, -0.39007145, 0.087813705, -0.062349055, 0.48030698, 0.98740166, 0.27570474, -0.23271926, 0.51015127, -0.08265654, -0.9172821, -0.23571508, 0.17983995, 0.43529716, 0.40476105, -0.068572134, -0.7469017, -0.89057183, -0.17147869, -0.7769612, 0.005584174, -0.30116066, 0.28166813, 0.18170893, 0.19219936, 0.5243264, 0.6577053, 0.3601689, 0.04332704, 0.12424845, -0.09796858, 0.79882026, 0.23471326, -0.10221353, -0.11149866, -1.0448343, 1.6723366, 0.292536, 0.10000783, 0.25791496, 0.2062083, 0.25818703, -0.03979902, -0.57491183, ...]",3,0
6072,1707840665.247354,"Не реагирует кнопка старта, как будто что-то отлетело внутри механизма.","[-0.6709152, -0.6707318, 0.47345924, -1.7566266, 0.028420951, 0.17358375, -0.50820065, -0.033079147, 0.017936153, 0.5500101, -0.051851563, 1.2896618, -0.36759531, 0.56519634, -0.45167235, -1.1211188, 0.97400117, -0.24661991, -0.14096783, -0.14275493, 0.28863788, 0.44503868, 0.30111182, -0.09731217, 0.76298517, -0.06951433, 0.3902153, 0.06102607, 0.05917733, 0.39188164, 0.0034683745, -0.24695209, 0.3199617, 0.3686603, 0.13638952, 0.16828959, -0.7118788, -0.41293243, -0.106746726, -0.39510512, -0.091852695, 0.3072467, 0.14887427, -0.017114135, 0.022482641, 0.2180424, 0.23905778, -0.18210284, -0.26900724, -0.58246326, -0.067914896, -0.07626234, 0.28673488, 0.2968465, 0.053441186, 0.23410074, 0.56515545, -0.27453706, 0.039185483, -0.25378245, 0.062314205, -0.047000673, 0.79243493, 0.5410689, 0.76196873, 0.4407071, 0.6604668, -0.12108239, -0.21518749, -0.524166, 1.3093159, -0.14300953, 0.18582161, -1.1381426, 0.08196126, -0.032357812, 0.08822427, -0.07835705, -0.35311282, 0.6739111, -0.08575833, -0.29396552, -0.22878641, 0.26884902, -0.67761934, -0.117271155, -0.58375794, 1.1754014, 0.51349956, -0.0943608, 0.6671, -0.14429358, 0.9237765, 0.10406021, -0.1889983, 0.17554072, 0.28714022, -0.5563327, -0.6630008, 0.10190484, ...]",3,16
1735,1707480505.1655273,Какие предельные сроки у вас?,"[0.08146931, -0.09007655, -1.0115911, -1.2376766, -0.7238289, -0.15521502, -0.4764923, 0.1561615, -0.2808734, 0.4167557, 0.17518319, -0.82352966, -0.46885645, 1.256455, -0.011821204, 0.067808375, 0.4418817, 0.8128078, -0.17224088, 1.6121666, -0.08292531, -0.55796736, 0.0067127347, 0.16688803, 0.91747105, 0.74714595, -0.17239396, 0.6509422, 1.1038197, -0.6457285, -0.006527858, 0.32629985, 0.3454491, 0.5835285, 0.30279583, 0.7342831, 0.5361308, -0.18784252, 0.35999084, 0.48831993, -0.3488813, -0.0032547116, -0.8172761, -0.4781003, 0.14437978, -0.42864615, -0.04767509, 0.25568542, -0.5539012, -0.30958584, 0.5797055, -0.0193087, -0.50597966, -0.11046344, -0.44630945, 0.9758174, 0.60411155, 0.2310683, 0.21628165, -0.010970122, 0.39461592, 1.4189128, -1.0286751, 0.26681742, 0.64677876, -0.38574687, -1.0851102, 0.08621651, 0.56595063, 0.4795535, 0.44413722, -0.052746084, -0.8032762, -1.215993, 0.7241624, 0.1615691, 0.11516036, -0.48896545, 0.6657034, -0.07802548, 0.30292696, 0.53850365, -0.53532654, 1.0526853, 0.43756852, 0.8857227, 0.8652462, 0.8572128, 0.52576846, -0.49240193, 0.2586903, 0.022539498, 1.5412325, 0.14382522, -0.05450011, 0.31289285, -0.7436083, 0.99303544, -0.08095228, 0.25805292, ...]",1,3
7821,1707928183.1672957,Заказ платного мастера для уточнения времени прихода.,"[0.12580794, -0.49387732, -0.78011495, -1.3144271, -0.25661615, 0.0058785407, -0.27327105, -0.7457571, -1.059753, -0.05001545, -0.6714722, 0.3111212, -0.7371403, 0.87474597, -0.17510019, -0.99535614, 0.024831982, 0.22389364, -0.16907074, 1.1688865, -0.49605262, -0.8276634, -0.69810987, 0.52847666, 1.599786, 0.46340695, 0.37453786, 0.74055827, 0.7411081, 0.07876503, -0.3606429, 0.18464361, -0.05120719, 0.48675883, 0.11457984, -0.27488258, 0.110492304, 0.049387954, 0.46879217, 0.10599558, -0.62072045, 0.25157312, 0.412669, -0.58308274, -0.141791, 0.038195666, 0.99431044, -0.61555654, -0.38535586, -0.7466598, 0.6038386, -0.15605171, -0.07310459, -0.3521303, -0.031794276, 0.46136266, 0.4227428, 0.45014858, -0.7668399, 0.06510803, 0.15127592, 0.739815, 0.03342307, 0.33986694, -0.037933744, 0.42715818, -0.40984982, 0.073600106, 0.5760993, 0.6863569, 0.20728566, 0.65057915, -0.1770608, -0.91275406, -1.003875, 0.22400412, -0.09710633, 0.041158646, 0.20357388, 0.058963776, 0.2174563, 0.236448, 0.13431339, 0.38695833, -0.17211665, -0.80049324, 0.25664714, 0.124801666, 0.29985124, -0.5089502, 0.7108819, -0.44766864, -0.14649485, -0.18842147, 0.01604159, 0.6774366, -0.5091822, 0.28947023, 0.34551054, 0.0064461124, ...]",2,10


In [20]:
embeddings.to_pickle("clustered_transcripts.pkl")
embeddings = pd.read_pickle('clustered_transcripts.pkl')

In [21]:
general_topics = generate_topics(
    client,
    embeddings,
    'general_cluster',
    matrix,
    4,
    150,
    seed=SEED
)
detail_topics = generate_topics(
    client,
    embeddings,
    'detail_cluster',
    matrix,
    17,
    35,
    seed=SEED
)
display(general_topics, detail_topics)

{0: 'Проблема с оказанными услугами',
 1: 'Запрос на вызов и уточнение информации о времени и услугах',
 2: 'Запрос на цену и оценку стоимости ремонта',
 3: 'Просьба о прозвоне, уточнение деталей и контактов'}

{0: 'Вопросы о стоимости и оплате услуг',
 1: 'Запросы о способах и возможностях связаться с мастером',
 2: 'Уточнение местоположения проблемы и требуемых услуг',
 3: 'Запросы о времени и сроках приезда мастера',
 4: 'Запросы о конкретных проблемах с бытовой техникой',
 5: 'Озвучивание проблем и запросы о возможных вариантах решения',
 6: 'Неудовлетворенность качеством предоставленных услуг и запросы на прекращение сотрудничества',
 7: 'Вопросы о сроках, времени и деталях визита мастера',
 8: 'Запросы о наличии запчастей и техники, а также о ценах',
 9: 'Вопросы о предоставлении квитанций, возможности отмены вызова и других дополнительных услугах',
 10: 'Запросы на уточнение стоимости услуг и консультаций',
 11: 'Запросы на перенос визита и другие подобные запросы',
 12: 'Запросы на вызов мастера и уточнение возможности ремонта',
 13: 'Уточнение проблем с бытовой техникой и запросы на ремонт',
 14: 'Запросы на быстрый приезд мастера и оказание услуг',
 15: 'Запросы на уточнение подробн

In [22]:
embeddings['edited_cluster'] = embeddings['detail_cluster'].replace(
    {10: 0, 3: 7, 4: 13, 5: 13, 15: 13}
)
keys = [3, 4, 5, 10, 15]
edited_topics = {k: v for k, v in detail_topics.items() if k not in keys}

In [23]:
fig = plot_clusters(
    'Общие категории обращений',
    embeddings,
    'general_cluster',
    general_topics,
    36,
    30
)
fig.show()

In [24]:
fig = plot_clusters(
    'Детальные категории обращений',
    embeddings,
    'edited_cluster',
    edited_topics,
    36,
    24
)
fig.show()