# Кластеризация и характеристика обращений клиентов

In [1]:
import os
import re
import json
import warnings
import logging

import pandas as pd
import numpy as np
import plotly.express as px
import pymssql
import transformers
import torch
import tiktoken

from tqdm.auto import tqdm
from sklearn.metrics import silhouette_score, davies_bouldin_score
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
from torch.utils.data import DataLoader
from transformers import AutoTokenizer, AutoModel
from openai import OpenAI
from bert_score import score

warnings.filterwarnings("ignore", category=UserWarning)
pd.set_option('display.max_colwidth', None)
transformers.tokenization_utils.logger.setLevel(logging.ERROR)
transformers.configuration_utils.logger.setLevel(logging.ERROR)
transformers.modeling_utils.logger.setLevel(logging.ERROR)

SEED = 654321

In [2]:
def ms_sql_con():
    sql_name = 'voice_ai'
    sql_server = '10.2.4.124'
    sql_login = 'ICECORP\\1c_sql'

    with open('sql.pass','r') as file:
        sql_pass = file.read().replace('\n', '')
        file.close()

    return pymssql.connect(
            server = sql_server,
            user = sql_login,
            password = sql_pass,
            database = sql_name,
            tds_version=r'7.0',
            charset='cp1251'
    )

In [3]:
def read_sql(query):
    return pd.read_sql_query(query, con=ms_sql_con(), parse_dates=None)

In [85]:
calls_query = '''
SELECT TOP 5 *
FROM calls
WHERE CAST(call_date AS DATE) BETWEEN '2024-02-12' AND '2024-02-12';
'''

In [8]:
calls_query = '''
SELECT TOP 50 *
FROM queue
ORDER BY record_date;
'''

In [9]:
calls = read_sql(calls_query)
calls

Unnamed: 0,date,cpu_id,filepath,date_y,date_m,date_d,filename,duration,record_date,source_id,src,dst,linkedid,version,file_size
0,2024-02-27 12:03:25,0,audio/stereo/2024-02/26/,,,,in_5069_2024-02-26-09-28-09rxtx-out.wav,29.98,2024-02-26 09:28:09,1,5069,5102,1708928888.1708376,0,479724
1,2024-02-27 12:03:25,1,audio/stereo/2024-02/26/,,,,in_79032730615_2024-02-26-10-39-07rxtx-in.wav,172.18,2024-02-26 10:39:07,1,79032730615,5076,1708933146.1708755,0,2754924
2,2024-02-27 12:03:38,0,audio/mono/,,,,a2024-02-26t11:34:50b_c9035448348d_e9262855670f_g1708936490.25048526h-out.wav,139.26,2024-02-26 11:34:50,2,9035448348,9262855670,1708936490.2504852,1,2228204
3,2024-02-27 12:03:25,2,audio/stereo/2024-02/26/,,,,in_9851187036_2024-02-26-11-37-21rxtx-out.wav,236.18,2024-02-26 11:37:21,1,9851187036,5051,1708936640.1709092,0,3778924
4,2024-02-27 12:03:25,3,audio/stereo/2024-02/26/,,,,in_79258659525_2024-02-26-13-46-50rxtx-in.wav,289.0,2024-02-26 13:46:50,1,79258659525,5069,1708944409.1709816,0,4624044
5,2024-02-27 12:03:25,4,audio/stereo/2024-02/26/,,,,in_79267075427_2024-02-26-14-22-46rxtx-in.wav,123.44,2024-02-26 14:22:46,1,79267075427,5069,1708946565.1710024,0,1975084
6,2024-02-27 12:03:38,1,audio/mono/,,,,a2024-02-26t14:53:15b_c9260096272d_e9636110411f_g1708948395.25059207h-in.wav,68.18,2024-02-26 14:53:15,2,9260096272,9636110411,1708948395.250592,1,1090924
7,2024-02-27 12:03:25,5,audio/stereo/2024-02/26/,,,,in_9811487284_2024-02-26-15-01-49rxtx-in.wav,0.74,2024-02-26 15:01:49,1,9811487284,,1708948908.1710277,0,11884
8,2024-02-27 12:03:25,6,audio/stereo/2024-02/27/,,,,in_1588_2024-02-27-09-24-53rxtx-out.wav,287.36,2024-02-27 09:24:53,1,1588,main,1709015028.1712315,0,4597804
9,2024-02-27 12:03:25,7,audio/stereo/2024-02/27/,,,,in_79150417763_2024-02-27-09-25-14rxtx-in.wav,476.42,2024-02-27 09:25:14,1,79150417763,5062,1709015113.171232,0,7622764


In [6]:
tr_query = '''
SELECT TOP 5 *
FROM transcribations
WHERE CAST(record_date AS DATE) BETWEEN '2024-02-12' AND '2024-02-12';
'''

In [7]:
transcribations = read_sql(tr_query)
transcribations.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
transcribation_date,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00,2024-02-12 04:14:00
date_y,,,,,,,,,,
date_m,,,,,,,,,,
date_d,,,,,,,,,,
side,True,True,True,True,True,True,True,True,True,True
text,ага,ноля,ну просто там семи часов поэтому я позвонил там было сказано семьи,а мне бы вот вы знаете у меня холодильник,такой большой но он давно уже стоит бош называется вот холодильная камера внизу вроде морозит а сам холодильник тёпленький не работает,яков меня зовут,да,хорошо,нет наоборот,в холодильной холодильнике нет не работает а морозилка вроде морозит
start,5.04,13.35,20.88,29.97,33.15,46.23,51.9,66.63,74.58,76.95
audio_file_name,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav,in_5015_2024-02-12-03-55-42rxtx-out.wav
conf,0.658982,0.703238,0.980824,1.0,0.972066,1.0,1.0,1.0,1.0,0.937414
end_time,7.62,13.98,26.85,32.55,44.13,47.34,52.23,67.23,75.87,82.17


In [92]:
query = '''
SELECT DISTINCT
       start,
       record_date,
       linkedid,
       audio_file_name,
       model,
       text,
       side,
       src,
       dst
FROM transcribations
WHERE linkedid IN (SELECT DISTINCT
                          linkedid
                   FROM transcribations
                   WHERE CAST(record_date AS DATE) BETWEEN '2024-02-07' AND '2024-02-15'
                       AND model=1)
    AND ((side='True' AND LEN(src)=4 AND dst NOT LIKE '[0-9][0-9][0-9][0-9]')
         OR (side='False' AND LEN(src)>4 AND dst LIKE '[0-9][0-9][0-9][0-9]')
         OR (side='True' AND LEN(src)>4 AND LEN(dst)>4))
    AND text IS NOT NULL AND text <> ''
ORDER BY start;
'''

In [4]:
query = '''
SELECT DISTINCT
       start,
       record_date,
       linkedid,
       audio_file_name,
       model,
       text,
       side,
       src,
       dst
FROM transcribations
WHERE CAST(record_date AS DATE) BETWEEN '2024-02-07' AND '2024-02-13'
    AND text IS NOT NULL AND text <> ''
    AND linkedid IS NOT NULL AND linkedid <> ''
ORDER BY start;
'''

In [5]:
df = read_sql(query)
df = df.drop(columns=['start']).drop_duplicates()
df.head()

Unnamed: 0,record_date,linkedid,audio_file_name,model,text,side,src,dst
0,2024-02-07 08:22:09,1707283327.1645918,in_5056_2024-02-07-08-22-09rxtx-in.wav,1,Продолжение следует...,False,5056,main
1,2024-02-07 08:26:56,1707283614.1645925,in_5109_2024-02-07-08-26-56rxtx-in.wav,1,Субтитры создавал DimaTorzok,False,5109,main
2,2024-02-07 08:29:08,1707283748.164593,in_5021_2024-02-07-08-29-08rxtx-in.wav,0,доброе утро,False,5021,main
3,2024-02-07 08:53:22,1707285201.245539,a2024-02-07t08:53:22b_c9255710403d_e0029859534316f_g1707285201.24553903h-in.wav,0,что ладно,False,9255710403,0029859534316
4,2024-02-07 09:08:45,1707286125.1646028,in_5011_2024-02-07-09-08-45rxtx-in.wav,1,Продолжение следует...,False,5011,main


In [5]:
# df.to_csv('calls_transcripts.csv', index=False)
# df = pd.read_csv(
#     'calls_transcripts.csv',
#     parse_dates=[0],
#     dtype={'linkedid': 'object'}
# )

In [49]:
summarized = df.groupby(
    [
       'linkedid',
       'audio_file_name',
       'record_date',
       'model',
       'side',
       'src',
       'dst'
    ],
    as_index=False
).agg({'text': ' '.join})

In [50]:
summarized['text'] = summarized['text'].str.lower().replace(
    'продолжение следует',
    '',
    regex=True
)
summarized['text'] = summarized['text'].str.lower().replace(
    r'\.{2,}',
    '',
    regex=True
)

In [51]:
# summarized['text_length'] = summarized['text'].apply(len)
# summarized = summarized[summarized['text_length'] >= 50]
summarized = summarized.sort_values(by=['linkedid', 'record_date'])#.drop_duplicates(subset='linkedid').reset_index(drop=True)

In [52]:
summarized.linkedid.nunique(), summarized.shape

(43933, (90691, 8))

In [53]:
# Определяем дубликаты linkedid с учетом различия record_date
summarized['is_duplicate'] = summarized.duplicated(subset=['linkedid', 'record_date'], keep='first')

# Группируем по linkedid и фильтруем только те группы, где есть разные record_date
# Для каждой группы проверяем, что количество уникальных record_date больше 1
grouped = summarized.groupby('linkedid').filter(lambda x: x['record_date'].nunique() > 1)

# Из полученных групп исключаем строки, помеченные как дубликаты
filtered = grouped[grouped['is_duplicate']]

# Удаляем вспомогательные столбцы
filtered = filtered.drop(columns=['is_duplicate'])


In [54]:
filtered.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8136 entries, 360 to 90549
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   linkedid         8136 non-null   object        
 1   audio_file_name  8136 non-null   object        
 2   record_date      8136 non-null   datetime64[ns]
 3   model            8136 non-null   int64         
 4   side             8136 non-null   bool          
 5   src              8136 non-null   object        
 6   dst              8136 non-null   object        
 7   text             8136 non-null   object        
dtypes: bool(1), datetime64[ns](1), int64(1), object(5)
memory usage: 516.4+ KB


In [55]:
grouped.info()

<class 'pandas.core.frame.DataFrame'>
Index: 16379 entries, 359 to 90549
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   linkedid         16379 non-null  object        
 1   audio_file_name  16379 non-null  object        
 2   record_date      16379 non-null  datetime64[ns]
 3   model            16379 non-null  int64         
 4   side             16379 non-null  bool          
 5   src              16379 non-null  object        
 6   dst              16379 non-null  object        
 7   text             16379 non-null  object        
 8   is_duplicate     16379 non-null  bool          
dtypes: bool(2), datetime64[ns](1), int64(1), object(5)
memory usage: 1.0+ MB


In [56]:
grouped.sort_values(by='linkedid').head(50)

Unnamed: 0,linkedid,audio_file_name,record_date,model,side,src,dst,text,is_duplicate
359,1707282963.1645908,in_79636990202_2024-02-07-08-16-05rxtx-in.wav,2024-02-07 08:16:05,1,False,79636990202,5011,"здравствуйте, елена. меня наталья зовут. как раз я у вас несколько дней в воскресенье сделала заказ на мещерский переулок, дом 6, корпус 2. так, до сих пор мастер не пришел, не звонил. нет, не звонил, да. меня связывали с техническим отделом на второй день. и мне сказали, что он заболел и что сегодня он должен выйти. вот как бы с техническим отделом выяснить, ждать мне сегодня мастера или нет, или мне предложили заказать другого мастера. а вы не могли бы мне связать с ними, потому что меня прям напрямую связывали, потому что уже то, что говорят, мне позавчера сказали, что прям вам сейчас сейчас перезвонят, и никто мне не перезвонил в течение дня. спасибо, лена, спасибо большое. спасибо. спасибо. так. подскажите, пожалуйста, мне номер заказа мой. 214-7218. спасибо большое. в течение какого времени он перезвонит мне? хорошо, будем надеяться. просто не хотела бы плохой отзыв оставлять о вашей фирме. 24 часа срочный ремонт. уже четвертый день, но его как бы нет. все, спасибо большое. всего доброго.",False
360,1707282963.1645908,in_79636990202_2024-02-07-08-16-05rxtx-out.wav,2024-02-07 08:16:05,0,True,79636990202,5011,здравствуйте сервисный центр оператор елена чем могу помочь вам да угу так а он не звонил не звонил да я восприняла анатолий хороший я сейчас тогда вокруг контроля отправлю сообщение что они позвонили узнали понятно не знаю хорошо да оставайтесь на линии попробую вас видеть добрый день сервисный центр и оставайтесь на линии я попробую уточнить у мастера время визита ментов спасибо большое за ожидание к сожалению мастера занят телефон сейчас не смогла дозвониться я ему тогда отправлю сообщение чтобы он вам перезвонил двести четырнадцать семьдесят два восемнадцать ну пожалуйста но в течение двух часов да пожалуйста все добро,True
356,1707282963.1645908,in_5108_2024-02-07-08-17-58rxtx-in.wav,2024-02-07 08:17:58,0,False,5108,main,добрый день сервисный центр и оставайтесь на линии я попробую уточнить у мастера время визита ментов,False
357,1707282963.1645908,in_5108_2024-02-07-08-18-44rxtx-in.wav,2024-02-07 08:18:44,0,False,5108,main,спасибо большое за ожидание обсуждению у мастера занят телефон сейчас не смогла дозвониться ему тогда отправлю сообщение чтобы он вам перезвонил двести четырнадцать семьдесят два восемнадцать ну пожалуйста но в течение двух часов да пожалуйста все добро,False
358,1707282963.1645908,in_5108_2024-02-07-08-18-44rxtx-out.wav,2024-02-07 08:18:44,0,True,5108,main,как подскажите пожалуйста мне номер заказа мой весть четырнадцать двести четырнадцать семьдесят два восемнадцать спасибо большое в течение какого времени он перезвонит мне хорошо будем надеяться просто не хотелось бы плохой отзыв отзыва это оставили в вашей фирме двадцать четыре часа срочный ремонт уже четвёртый день у него как бы нету все спасибо большое всего доброго,True
442,1707283737.1645927,in_9031680317_2024-02-07-08-28-58rxtx-in.wav,2024-02-07 08:28:58,0,False,9031680317,5109,так доброе утро двести четырнадцать семьдесят девять девяносто один да тогда можно будет прослушать что она сказала оператора домой клиент но вот именно по какой причине отказа она не берет телефон потому что вчера получается она только выгрузилась и тут же отказ нет так получается понимаешь а вот я не могу понять такие заявки прослушать их нельзя она получается вчера только выгрузились и через минуту приходит отказ что это заявка такая понятно то есть у вас что прослушивание убрали что ли отказали а им именно именно именно по этой заявке даты и месяц все понял таня спасибо большая да,False
443,1707283737.1645927,in_9031680317_2024-02-07-08-28-58rxtx-out.wav,2024-02-07 08:28:58,0,True,9031680317,5109,а такая татьяна доброе так народного ополчения сейчас ой блин а не слушается не давай позвоню уточню неё а не берет он да и сейчас может возьмёт ну да как сброс идёт но чем закрывать семьдесят один и все но можешь анне сергеевне чтоб она сделала запрос вайтишников на прослушку и все вашему ниче тебе ничем не поможем почему оно есть но нет возможности что там или у оператора неправильно кнопку нажал и у нас нет возможности не удалось получить файлы аудиозаписи да да да да да да,True
440,1707283737.1645927,in_5109_2024-02-07-08-30-07rxtx-in.wav,2024-02-07 08:30:07,0,False,5109,main,ну да как сброс идёт но чем закрывать семьдесят один и все но можешь анне сергеевне чтоб она сделала запрос вайтишников на прослушку и все вашему ниче тебе ничем не поможем почему оно есть но нет возможности что там или у оператора неправильно кнопку нажал и у нас нет возможности не удалось получить файлы аудиозаписи да да да да да да,False
441,1707283737.1645927,in_5109_2024-02-07-08-30-07rxtx-out.wav,2024-02-07 08:30:07,0,True,5109,main,я так получается понимаешь вот я не могу понять такие заявки прослушать их нельзя она получается вчера только выгрузился и через минуту приходит отказ что это заявка такая понятно то есть у вас что прослушивание убрали что ли отказали а им именно именно именно по этой заявке даты и мифы все понял таня спасибо большая да,True
520,1707284834.164595,in_79518248712_2024-02-07-08-47-15rxtx-in.wav,2024-02-07 08:47:15,0,False,79518248712,5015,а здравствуйте здравствуйте марина знаете вчера к нам приходил телемастер я делал заявку и вот у меня есть наряд заказ тот номер крови какая фамилия мороз или что ли мороз или ногу заявка сто двадцать четыре пятьдесят три шестьдесят но где-то вчера часов в десять так в одиннадцать примерно в это же время те да да да правильно и вот значит он но там нужно было антенны все это сделаю подтвердил он вроде подсоединил показала там ну для проверки то включили все выключили а вечером я включил телевизор он вообще крепить стреляет глючит но вообще не можно смотреть ну что ж этот опять это же мастера вызывать да да каналы он настроил а другой телевизор антенна бетон антенна там намного эти стопера как называется род отсоединил там и вот для проверки отключили показывает ну и выключили а вечером когда включают телевизор посмотреть и все конец вообще реальные цвета стрелять что-то щёлкает экран всяко-разным но мне пока непонятно выключила сейчас звонок как было теорией ну вот вчера был вчера января а то может там другую квартиру может быть такой пожилой мужчина был вот там он проводил полностью из подъезда там его было много а вчера вот был то тоже парень пантерный только в другой квартире профильных вдоль морочили ведь восемь девятьсот пятьдесят один восемьсот двадцать четыре в этом десяти двенадцать двести сорок восемь а ещё был сто восемьдесят третьем там нормально все что что подождать подожди я на телефоне подожди я же вскричал но я чего не так встречал другим другим пультом в туле что что я не понял три тысячи да как-как обсудим мне мопед тоже платить придётся да аматор тоже этот раз другой будет пора хорошо а когда такое время когда ждать да да да да все правильно хорошо хорошо спасибо большое потом напитка все равно не запомню хорошо хорошо до свидания спасибо,False


In [163]:
filtered[filtered.duplicated(subset='linkedid', keep=False)].tail(60)

Unnamed: 0,linkedid,audio_file_name,record_date,model,side,src,dst,text,text_length
37208,1707486764.1655717,in_5111_2024-02-09-16-54-17rxtx-out.wav,2024-02-09 16:54:17,0,True,5111,main,а ездит в руководстве по залу я попросил дать мне припарковаться,64
37209,1707486764.1655717,in_5111_2024-02-09-16-54-56rxtx-in.wav,2024-02-09 16:54:56,0,False,5111,main,шлагбаум подъедете заберёте но не факт что место будет во дворе да всего доброго,80
42956,1707553208.1657314,in_5114_2024-02-10-11-20-09rxtx-in.wav,2024-02-10 11:20:09,0,False,5114,main,здесь внизу сервисный центр здравствуйте подскажите пожалуйста в какое время удобно будет чтоб мастер к вам приехал по звонкам в три часа хорошо ждать,150
42959,1707553208.1657314,in_5114_2024-02-10-11-20-56rxtx-out.wav,2024-02-10 11:20:56,0,True,5114,main,сто сто ноль позвоните позвонить за час правильно или уже нет хорошо спасибо,76
47617,1707569055.1658397,in_5111_2024-02-10-15-45-42rxtx-out.wav,2024-02-10 15:45:42,0,True,5111,main,да давайте другую и тогда двести пятнадцать ноль три девяносто пять спросите минут через пятнадцать двадцать смогут принять а то там написано после пяти,152
47618,1707569055.1658397,in_5111_2024-02-10-15-47-52rxtx-in.wav,2024-02-10 15:47:52,0,False,5111,main,да ну чеченина вас ждут минут через двадцать тридцать всего доброго,67
49100,1707575044.165872,in_5111_2024-02-10-17-25-48rxtx-in.wav,2024-02-10 17:25:48,0,False,5111,main,нова добрая оставайтесь на линии сейчас у мастера уточню давайте,64
49102,1707575044.165872,in_5111_2024-02-10-17-26-30rxtx-in.wav,2024-02-10 17:26:30,0,False,5111,main,мастер в районе семи вечера будет у вас всего добро,51
51686,1707631726.1659508,in_5108_2024-02-11-09-08-47rxtx-in.wav,2024-02-11 09:08:47,0,False,5108,main,добрый день следственный центр беспокоит оставляли заявочку на ремонт телевизора мастер к вам не смог дозвониться сейчас удобно будет поговорить дню минутку оставайтесь на линии,177
51688,1707631726.1659508,in_5108_2024-02-11-09-10-33rxtx-in.wav,2024-02-11 09:10:33,0,False,5108,main,спасибо большое за ожидание у мастера занят телефон отправлю ему сообщение чтобы он вам перезвонил ожидайте звоночка,116


In [142]:
summarized.info()
summarized[summarized.duplicated(subset='linkedid', keep=False)].head()

<class 'pandas.core.frame.DataFrame'>
Index: 73089 entries, 0 to 90690
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   linkedid         73089 non-null  object        
 1   audio_file_name  73089 non-null  object        
 2   record_date      73089 non-null  datetime64[ns]
 3   model            73089 non-null  int64         
 4   side             73089 non-null  bool          
 5   src              73089 non-null  object        
 6   dst              73089 non-null  object        
 7   text             73089 non-null  object        
 8   text_length      73089 non-null  int64         
dtypes: bool(1), datetime64[ns](1), int64(2), object(5)
memory usage: 5.1+ MB


Unnamed: 0,linkedid,audio_file_name,record_date,model,side,src,dst,text,text_length
0,1707265060.1645706,in_5056_2024-02-07-03-17-43rxtx-in.wav,2024-02-07 03:17:43,0,False,5056,main,доброе утро беспокоит вас сервисный центр оператора наталья звонили нам сейчас могу вам чем-то помочь и пропустить звонок это ремонт у нас бытовой техники ну вы я вас поняла будет необходимо обращайтесь извините всего доброго всего доброго до свидания,251
1,1707265060.1645706,in_5056_2024-02-07-03-17-43rxtx-out.wav,2024-02-07 03:17:43,0,True,5056,main,а про я не помню её названия я знаю лерою мне коробка мне,57
6,1707270147.164572,in_9139901988_2024-02-07-04-42-29rxtx-in.wav,2024-02-07 04:42:29,0,False,9139901988,5056,просьба скрыть от телефона ремонтируете так надо конечно слушать как а у тебя дисплей на айфоне десятом поменять есть не печи ну да дисней дисней так надо игорь да в этом как яндекс айфон десять сейчас моменте можно этот решить вопрос да или нет если нет дальше буду искать телефон нужен срочно все хорошо хорошо буду знать когда девятьсот тринадцать девятьсот девяносто девятнадцать восемьдесят восемь на богдана хмельницкого увидел рассердив на богдана хмельницкого на богдана хмельницкого который у вас сервис я заеду если что ну близок богдана хмельницкого где-то я же не просто так же номер телефона взял да без разницы какой номер дома без разницы я увидел просто сервис ваш здесь недалеко поэтому позвонил да да поставьте любой номер дома поставьте десять тетрадей,771
7,1707270147.164572,in_9139901988_2024-02-07-04-42-29rxtx-out.wav,2024-02-07 04:42:29,0,True,9139901988,5056,здравствуйте сервисный центр операторная туалет чем могу вам помочь телефон вы имеете в виду сотовый мобильный да да да как у нас называется не подскажите как называется не подскажите так мы этот смартфон у вас даст смартфон а что нужно поменять стекло вы имеете в виду да подскажите пожалуйста как я могу к вам обращаться игорь находитесь в новосибирске да в черте города а наш телефон посмотрели в какой рекламе магнитной карты у вас наша на магнитной карте в интернете посмотрели я вас поняла игорь по поводу стекла как он у вас называется смартфон не подскажите десятый так по поводу смартфон телефон по поводу телефон вашего мастер вам может перезвонить сначала наш в течение ближайших двух часов вы с мастером сможете ещё раз всех вот точно нить обговорить да нет но это нужно с мастером переговорить мастер перезванивает вот я по пошиву как можно быстрее чтобы он вам перезвонил вы с ним все обговариваете оставите координаты ваши телефоны и адреса можете с вашего участка перезвонит который вашу улицу обслуживает а находитесь вы что в мастеру мы подобрали ближайшего к вам в котором богдана хмельницкого номер дома это наверное не наш сервис потому что у нас нет на богдана хмельницкого сервиса богдана хмельницкого и номер думаю этого будет достаточно потому что у нас мастера одну улицу некоторые разные обслуживают так у вас девятьсот тринадцать девятьсот девяносто девятнадцать восемьдесят восемь телефон да и я боюсь у меня просто компьютер мы должны поставить номер дома или название улицы иначе компьютер просто не возьмёт вашу заявку хорошо номер десять если сумма сюртука тогда подскажите правильный адрес ожидайте звонка перезвонит в ближайшее время,1668
10,1707271464.2455256,a2024-02-07t05:04:24b_c9232212227d_e9134862910f_g1707271464.24552551h-in.wav,2024-02-07 05:04:24,0,False,9232212227,9134862910,алло здравствуйте мастер звонит вам установка чего там так ага а тот есть а тот есть для него отвод да кран кран кран ну да да да то есть надо смотреть правильно смотреть надо я подъеду наверное в обед или после обеда вы так отлично отлично отлично давайте после двух я вам заранее позвоню хорошо надо посмотреть ну наверно в районе трёх тысяч будет стоить догнал посмотри сначала посмотреть там может этот что там мне не растягивать не будем это по-любому растягивать не будем я посмотрю то есть ну и вам сразу скажу когда что я смогу это сделать и сколько времени займёт пойдёт такой рассказ а именно сегодня полностью после двух даст да у меня есть инструмент сейчас я его с собой знать это знак стоп стоп стоп значит это другому мастеру отдали я я звоню сразу это другому мастеру отдали дать опыт но я понял понял вчера вчера я вообще был свободный весь день нет нано ну хорошо хорошо все все до связи,905


In [87]:
# summarized.to_csv('summarized_transcripts.csv', index=False)
summarized = pd.read_csv(
    'summarized_transcripts.csv',
    parse_dates=[2],
    dtype={'linkedid': 'object'}
)

In [7]:
summary = pd.DataFrame()
summary[['linkedid', 'text']] = summarized[['linkedid', 'text']]

In [6]:
client = OpenAI(api_key='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')#os.environ["OPENAI_API_KEY"])

def generate_summary(text):
    response = client.chat.completions.create(
        model="gpt-3.5-turbo-1106",
        seed=SEED,
        messages=[
            {"role": "system", "content": "Выдели из полученного текста только важные для сервисного центра по ремонту бытовой техники, куда обращается клиент данным текстом, фразы с вопросами, запросами клиента, только когда он хочет что-то выяснить, обращается по поводу какой-то проблемы, заявляет о ней. НЕ ВЫВОДИ НЕНУЖНЫЕ ДЕТАЛИ, такие как адреса, время, телефоны, номера и тому подобное. ПЕРЕЧИСЛЕННОЕ - ЛИШНЯЯ ИНФОРМАЦИЯ. Твоя конечная цель - донести до руководства, с какими запросами от клиентов в первую очередь сталкиваются сотрудники компании. Выводи одной строкой, но состоящей из ОТДЕЛЬНЫХ уникальных предложений, каждое из которых будет содержать весь необходимый контекст, чтобы взглянув на предложение, можно было понять, о чём речь, не видя остальных прердложений. Для этого сначала перефразируй каждую фразу в отдельное предложение так, чтобы оно выглядело понятным и самодостаточным, но используй только исходную смысловую информацию во всём тексте, не придумывай НИКАКУЮ свою. ТОЛЬКО если ты не можешь выделить требуемую информацию, вместо самостоятельно генерируемого ответа выводи: Нет ключевой информации."},
            {"role": "user", "content": "але але да але але да да да сегодня бедняки да подъезжайте нет проблем да да да но вы поняли что у нас каждая дверь морозильной камеры или сама русловая уплотнительная резинка нужда нет ну в этот самый раз и фрагменты и у неё там ну вы же только бутылку хотите посмотреть ничего не делая как я вам могу скинуть размеры я в интернете смотрела да хорошо хорошо проще."},
            {"role": "assistant", "content": "У нас проблема с уплотнительной резинкой или дверью морозильной камеры. Вы только бутылку хотите посмотреть, как я могу вам передать размеры?"},
            {"role": "user", "content": text}
        ]
    )
    return response.choices[0].message.content

def compute_scores(row):
    P, R, F1 = score(
        [row['result']],
        [row['text']],
        lang="ru"
    )
    return pd.Series([P.item(), R.item(), F1.item()])

In [87]:
# summary['result'] = summary['text'].apply(generate_summary)
# summary[[
#     'precision',
#     'recall',
#     'f1'
# ]] = summary.apply(compute_scores, axis=1)
summary[['text', 'result']].sample(5)

Unnamed: 0,text,result
3131,алле здрасте я по поводу ремонта электропечи там и бытовой техники я правильно с вами да смотрите мне такая история я тут вызывал мастера вот он не чинил у меня или электроплита там ломалась то есть дефекты не греет конфорка он не починил как бы это вот наряд заказ да так он тут вы и сейчас я попробую прочитать двести четырёх одеться шестнадцать но в принципе могу достать телефон девятьсот шестнадцать один три один четыре пять ноль три один три один сорок пять ноль три совершенно верно да мастер храп щенков кажется а вот она опять перегорела да штучка во мне сказал стопам гарантийный срок есть да не а он объяснит платить не надо да будет хорошо то есть я жду за переключение да давайте да наталья меня зовут андрей да совершенно верно опять горела а это тот же будет или другой какой-то а это николай иванович четыре как вас зовут анализ звони я таня храпченко кажется и она а ну давайте я начну это сейчас перезвонить предметам в течение дня а хорошо спасибо сбербанка да пасибо,"Клиент обращается по поводу ремонта электрической плиты, которую мастер не починил. Он спрашивает о гарантийном сроке и ожидает перезвонка для уточнения дальнейших действий."
793,в настоящее время вызов невозможен по техническим причинам,Нет ключевой информации.
388,здравствуйте нам нужен сантехник сантехник нужен нам вера она с унитаз подтекает бачок нет нет не впервые да впервые ростов на дону укажите пожалуйста не подскажу волкова сорок один сто девятнадцать второй подъезд восьмой этаж да да вот этот не высвечивается у вас восемь девятьсот восемь сто восемьдесят восемь восемьдесят один ноль ноль шесть спасибо,Клиент обращается к сервисному центру с просьбой о вызове сантехника для устранения течи в унитазе.
531,"да, вы мне обещали в 11 позвонить, и так и не позвонили. мне пришлось уже в ваш центр звонить, жаловаться. я сказала, нет, я сказала в 11, я уже буду на связи. в 10, в 10.30 в 11. ага, а вы во сколько приедете? через полтора. давайте тогда через полтора, вот так вот, не раньше. пол второго. ну, давайте, просто у меня там будет промежуточек, у меня такой промежуточный интервал пол второго, да? ну, давайте, только, ну, вы посмотрите, вот так тогда. 46? да, 4-6. четвертый подъезд, третий, третий подъезд, четвертый этаж. 46, ключ 51-70. нет, я не смогу запустить, у меня нет брелка. у нас есть парковки такие около, ну, вот на третьей фрунзенской здесь есть они парковки. угу. ну, вы тогда, когда вот будете, можете позвонить за минут 15-20, потому что я здесь не, я же не дома сижу, я на участке, но просто я могу подойти, мне надо вот просто время понимать, понимаете? сейчас я сейчас в пределах 15-20 минутах вот так нахожусь. ага, все, давайте, жду вас. ага. спасибо.","Вы обещали мне позвонить в 11, но так и не позвонили. Я уже звонила в ваш центр, жаловалась. Так как вам придется приехать через полтора часа, давайте встретимся в 46 ключ 51-70, на третьем этаже в третьем подъезде. Позвоните за 15-20 минут до приезда, так как я не всегда дома."
1466,"о, и звонили меня. на какую? нет, нет, все уже у меня ремонтировано. угу, угу. о, понял. нет, нет, все уже.",Нет ключевой информации.


In [103]:
# summary.to_csv('summary.csv', index=False)
# summary = pd.read_csv(
#     'summary.csv',
#     dtype={'linkedid': 'object'}
# )

In [89]:
def process_text(text):
    text = text.replace('"', '')
    text = text.replace('\n', ' ')
    text = re.sub(r'\b\d\.\s*', '', text)
    text = re.sub(r'(?<=[\.?])\s+', '', text)
    text = re.sub(r'(?<!\s)-\s', '', text)
    fragments = re.split(r'(?<=[\.?])', text)
    fragments = [frag.lstrip() for frag in fragments if frag.strip()]
    return fragments

In [97]:
# summary = summary[~summary.result.str.contains(
#     'нет ключевой информации|не удалось выделить ключевую информацию|никакого разговора не состоялось',
#     case=False
# )].reset_index(drop=True)

# fragments = summary.result.apply(process_text)
# clean = pd.DataFrame({
#     'linkedid': summary.linkedid.repeat(fragments.apply(len)).values,
#     'text': [frag for list in fragments for frag in list]
# })
# clean = clean[~clean.text.str.contains(
#     'адрес|город|метро|дом|квартир|подъезд|домофон|этаж|мой телефон|наш телефон|мой номер|номер телефона|номер заявки|номер заказа|телефон для связи|контактный номер|контактный телефон|спасибо|до свидания',
#     case=False
# )]
# clean = clean[clean.text.str.contains(
#     r'[а-яА-ЯёЁ]',
#     regex=True
# )].reset_index(drop=True)

clean['text'].to_frame().sample(10)

Unnamed: 0,text
1339,Когда вы приедете?
2392,Нам как-то обычно звонят накануне или в день.
8069,"Мне не понравилась цена за диагностику и ремонт, потому что мастер ничего не объяснил, а за 15 минут работы запросил 6100 рублей."
2175,Мастер обещал помочь нам с ремонтом декомплектации барочной поверхности.
6499,"Я пенсионерка, мне сложно сейчас заплатить."
8976,"Я даже не открыла машину, а мне уже говорят, что нужно заплатить 4 тысячи."
900,Могу ли я купить и установить тэн самостоятельно?
9088,"Мне нужно уточнить, чините ли вы холодильники, и решить вопрос со временем, так как меня не будет какое-то время."
8587,"Вы говорите мне более-менее, а то я ничего не понимаю."
8381,У нас холодильник вышел из строя.


In [80]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained('cointegrated/rubert-tiny2')
model = AutoModel.from_pretrained('cointegrated/rubert-tiny2').to(device)

def ave_pool(lhs, mask):
    last_hidden_state = lhs.masked_fill(~mask[..., None].bool(), 0.0)
    return last_hidden_state.sum(dim=1) / mask.sum(dim=1)[..., None]

def get_embeddings(df):
    sentences = df['text'].astype(str).tolist()

    bs = 512
    loader = DataLoader(
        sentences,
        batch_size=bs,
        shuffle=False
    )
    embeddings = []
    
    for batch in tqdm(loader, desc='Processing batches'):
        input = tokenizer(
            batch,
            padding=True,
            truncation=True,
            return_tensors='pt'
        ).to(device)

        with torch.no_grad():
            output = model(**input).last_hidden_state

        attention_mask = input.attention_mask

        embedding = ave_pool(output, attention_mask).cpu().numpy()
        embeddings.extend(embedding)

    df['embedding'] = embeddings
    return df

In [81]:
embeddings = get_embeddings(clean)
embeddings.tail()

Processing batches:   0%|          | 0/19 [00:00<?, ?it/s]

Unnamed: 0,linkedid,text,embedding
9493,1708026084.1676586,"Машина перестала работать, мотор шумел, сейчас отключена от сети.","[-0.4979679, -0.16442797, 0.36842173, -1.676214, 0.3559669, 0.19501455, -0.42754954, -0.94375217, 0.71071756, 0.011492193, 0.3678645, 0.45247632, 0.5550098, 0.8986785, -0.37330252, -0.6497234, 0.6455413, -0.023895614, -0.61900723, -0.79517746, -0.095056355, 0.9744611, 0.13928863, -0.26286507, 0.85038006, 0.27458072, 0.5151521, 0.019576043, -0.033802614, 0.71436477, -0.38502896, -0.09489034, -0.05438745, -0.10605653, 0.37437785, 0.58846146, 0.014951134, -0.68956316, 0.4838717, -0.12497558, 0.630146, 0.4168074, 0.34916487, -0.34569946, 0.5091611, 0.15328164, -0.37202215, 1.0042703, 0.09382937, -0.16301294, -0.34029534, 0.07011742, -0.07011939, -0.3813418, 0.17086992, -0.26923758, 0.65138745, 0.044585854, 0.032859582, -0.10529827, 0.4048554, 0.3378154, 1.0203592, -0.7453835, 0.71147454, -0.7332988, 0.2426767, 0.2388079, 0.3004897, -0.26576555, 1.1265013, 0.35250518, -0.47162372, -0.8783016, 0.40011892, -0.8526208, 0.008848876, -0.4220984, 0.15422377, 0.27740133, -0.02472756, -0.060771517, 0.085469306, 0.39651388, -0.26952672, -0.6925851, -0.99020034, 0.38377187, -0.21832691, -0.56522065, 0.94754934, -0.22286668, 0.44678244, -0.21607503, 0.8348493, 0.31849736, 0.42448932, 0.19199519, 0.17139351, -0.1333192, ...]"
9494,1708026084.1676586,Сколько стоит диагностика?,"[-0.056837603, -0.12828873, -0.33625045, -1.046955, -0.742052, -0.19488113, 0.22727776, -0.24017954, -0.29870102, 0.15916987, 0.19967127, -0.38493606, 0.1942632, 1.7492805, -0.51252276, -0.2938362, 0.67394114, 0.9360674, -0.02574356, 0.30983338, -0.2890269, 0.093564965, 0.06499841, 0.41844738, 1.7331647, -0.1167899, 0.28999856, 1.002111, 1.0973669, 0.31991345, 0.6112205, 0.6071232, -0.58056813, -0.09902742, 0.20809667, 0.2317399, 0.8121771, -0.66393685, -0.33162472, -0.050684024, 0.52022207, -0.4664117, 0.00070955855, -0.48104763, 0.35467634, -0.38893127, -0.2684473, -0.64813644, 0.8216538, 0.57753295, 0.7762627, -0.13106127, 0.126467, -0.803066, 0.31932488, 0.020890161, 0.9325392, -0.012108277, -0.17315097, 0.13772224, 0.5116455, 0.6035383, -0.5713238, -0.07231391, 0.70880765, -0.32310212, 0.19457988, 0.059459537, 0.008304007, 0.812063, -0.33621076, 0.032670736, -0.100996114, -1.4283748, -0.041674387, -0.4458109, 0.44135237, -0.7456446, -0.21751624, -0.33863983, 0.3708571, 0.69676083, 0.63982254, 0.8091388, -0.052450042, 0.47036108, 0.086641334, 1.1323377, 0.8317266, 0.32444116, 0.7054079, -0.8803832, 2.3713877, -0.5089391, -0.6416991, 0.95585537, -0.8994674, 0.6509344, -0.62417156, 0.48268548, ...]"
9495,1708026084.1676586,Когда-то нужно будет договориться о визите.,"[-0.34886098, 0.18420686, -0.5768396, -0.92459494, -0.78742284, 0.50220793, -0.46807793, 0.18856876, -0.37399772, 0.5224119, -1.4303226, -0.041167248, -0.5882059, 0.3538309, -0.5692003, -0.8025748, 0.13674118, 0.022152692, -0.15898712, 0.42838955, -0.27624834, -0.737819, 0.22699803, 0.25646606, -0.043639973, 0.49673915, 0.078524135, 0.6307699, -0.35277545, 0.01750282, 0.048715442, -0.24806349, 0.2411568, 1.1034378, -0.20763181, 0.029430324, 0.34790978, 0.13463302, 0.7428165, 0.30425864, -0.19963543, -0.16240193, 0.9074507, -0.7507849, -0.18571396, 0.6216853, 0.13344882, -0.6508356, 0.06439314, -0.6439723, 0.28477073, -0.2647996, -0.5750727, 0.292665, -0.2901146, 0.18579142, 0.32411054, -0.9447561, -0.71872205, 0.34687603, 0.042852208, 1.061345, 0.5398519, 0.066061795, -0.038888484, -0.35797897, 0.45419025, -0.5580458, -0.20086479, 0.11485183, 0.18719535, 0.077335455, 0.07332005, -1.3662211, -0.46650842, -0.29746965, 0.5333707, -0.632391, -0.2638174, 0.7341757, -0.041143954, 0.35147747, 0.18215121, -0.13019268, 0.18489866, 0.4498696, 0.5402865, 0.2675765, -0.23448847, 0.61529845, -0.3289379, -0.39526638, 2.0416415, 0.23474663, 0.021526262, -0.07774577, 0.1917966, 0.03612532, -0.35060334, 0.052838128, ...]"
9496,1708026084.1676586,"Если мотор сломался, то гарантия действует, так?","[-0.31864417, -0.27890247, -0.5059125, -1.4831957, 0.22800377, 0.50525, -0.5260134, -0.48002812, 0.9437939, 0.84516436, -1.0372677, 0.027543563, 0.33625177, 0.7416156, 0.40094918, -0.5840792, 0.5009137, 0.0028215097, -0.5036097, -1.213757, 0.46749794, 0.7561475, -0.25839865, -0.20912123, 1.0289592, 0.87855256, -0.2178275, -0.02366028, 0.8014097, -0.22692683, -0.19602229, -0.14931437, -0.20432785, 0.37347105, 0.5417774, 0.80517966, 0.76612407, -0.48394167, 0.4656878, -0.016188521, 0.520936, 0.3479814, 0.5538897, -0.117837474, 0.16664703, -0.13879074, -0.23194078, 0.19024485, 0.2670802, -0.18072757, -0.23107536, -0.42884123, -0.09095006, -0.07580715, 0.4155105, 0.32817733, 0.92370576, -0.15396151, -0.7358697, 0.7238442, -0.11006786, -0.004326504, 0.42297518, -0.65015984, 0.23369513, -0.29056206, 0.058002017, -0.0036683495, -0.50102305, -0.12581703, -0.09847887, -0.17551497, -0.15109722, -0.71596587, 0.40811113, -0.03016415, 0.03562013, -0.11994236, 0.2716184, 1.0148294, 0.12598298, 0.02754094, -0.09212629, 0.55041254, -0.09769571, 0.3511483, 0.4723592, 0.9803202, -0.5024607, -0.34865564, 0.5078043, -0.5231152, 1.7328124, -0.30308014, 0.059215385, 0.25898445, 0.25452235, 0.74762857, -0.3430153, 0.4008558, ...]"
9497,1708026084.1676586,"У меня есть документы, чек и прочее.","[0.8516195, 0.21865739, -1.3154403, -0.7069812, 0.09856682, 0.44539574, -1.0531659, -0.06832219, -0.40329182, -0.053285714, -0.20057592, -0.43494102, -0.75635207, 0.3320254, -0.16653854, -1.237341, 0.44699094, -0.43793014, 0.21629596, 0.73894155, -0.5582424, 0.35703394, -0.007001877, -0.96258587, 0.73885745, 0.09270122, 0.25549886, 0.037465762, -0.44867697, -0.023964675, -0.18758659, -0.53644854, 0.16566505, 0.40840006, -0.43563417, 1.3051273, 0.6005733, -0.08545062, 0.3494841, -0.3512324, 0.26857412, -0.390584, 1.2163953, -0.29930755, 0.63676214, 0.05523921, -0.24737209, 0.47763968, -0.38523895, -0.29344693, 0.4009148, -0.11857378, -1.2233856, 0.49697322, 0.03582543, 0.2920246, 0.484302, 0.5175238, -0.37732133, 0.15800782, -0.61245173, 0.41713163, -0.33979356, 0.28074616, -0.16634957, -0.5737716, -0.81776506, 0.15070201, 0.99151933, 0.54743236, -0.17137302, 0.23289126, 0.021066027, -0.42454243, -0.2434722, -0.16225535, -0.32718697, 0.5515762, -0.09423862, -0.16480288, -0.44227174, -0.034356907, -0.4406661, 0.887224, -0.0958989, -0.19552375, 0.18920638, 0.37406585, -0.4569586, -0.0051096734, 0.5384566, -0.9520746, 2.2517684, 0.22888881, -0.27623412, 0.46707422, 0.31639454, 0.70201176, 0.24627633, -0.79800105, ...]"


In [2]:
# embeddings.to_pickle('embeddings.pkl')
# embeddings = pd.read_pickle(
#     'embeddings.pkl'
# )

In [4]:
matrix = np.stack(embeddings.embedding.values)

best_silhouette_score = -1
best_db_index = np.inf
best_count = None
silhouette_scores = []
db_indexes = []
cluster_sizes_list = []

for count in range(4, 21):
    clusterer = KMeans(
        n_clusters=count,
        max_iter=100,
        init='random',
        n_init=10,
        random_state=SEED,
        algorithm='lloyd'
    )
    clusterer.fit(matrix)
    labels = clusterer.labels_

    cluster_sizes = np.bincount(labels[labels >= 0])
    cluster_sizes_list.append((count, cluster_sizes))
    
    if len(set(labels)) > 1:
        silhouette = silhouette_score(matrix, labels)
        db_index = davies_bouldin_score(matrix, labels)
        
        silhouette_scores.append((count, silhouette))
        db_indexes.append((count, db_index))
        
        if silhouette > best_silhouette_score:
            best_silhouette_score = silhouette
            best_count = count
        
        if db_index < best_db_index:
            best_db_index = db_index
            best_count_db = count

for count, cluster_sizes in cluster_sizes_list:
    print(f"Количество кластеров={count}, размеры кластеров: {cluster_sizes}")

print(
    "Лучшее количество кластеров по силуэту:",
    best_count,
    "с оценкой силуэта:",
    best_silhouette_score
)
print(
    "Лучшее количество кластеров по Davies-Bouldin:",
    best_count_db,
    "с индексом Davies-Bouldin:",
    best_db_index
)

In [127]:
def generate_topics(df, col, matrix, n_clusters, rev_per_cluster):
    messages = [
        {"role": "system", "content": "Ты - профессиональный маркетолог с многолетним стажем. Ты специализируешься на выявлении и характеризации ключевых особенностей взаимодействия пользователей, клиентов с продуктами компаний, бизнесом. Я готов заплатить тебе за хорошее правильное решение до 200$ в зависимости от его качества. Далее представлены фрагменты диалогов клиентов с сервисным центром по ремонту бытовой техники. Эти фрагменты уже разделены на несколько указанных кластеров. Сформулируй описание, название для каждого кластера так, чтобы легко было понятно, что его выделяет, характеризует среди остальных кластеров. Ответ дай в виде подобной JSON структуры, только с двойными кавычками: {'Кластер 0': 'Название 0', 'Кластер 1': 'Название 1'} и так далее."}
    ]
    message = {"role": "user", "content":""}

    tsne = TSNE(random_state=SEED)
    vis_dims2 = tsne.fit_transform(matrix)

    for i in range(n_clusters):
        cluster_df = df[df[col] == i].reset_index(drop=True)

        cluster_center = vis_dims2[cluster_df.index].mean(axis=0)

        distances = np.sqrt(((vis_dims2[cluster_df.index] - cluster_center)**2).sum(axis=1))

        closest_indices = distances.argsort()[:rev_per_cluster]

        closest_reviews = cluster_df.iloc[closest_indices].text

        reviews = "\n ".join(
            closest_reviews.values
        )
        message["content"] += f"\n Кластер {i}: {reviews} "
    
    messages.append(message)
    
    response = client.chat.completions.create(
        model="gpt-3.5-turbo-1106",
        messages=messages
    )
    topics_json = response.choices[0].message.content

    topics_dict = json.loads(topics_json)
    return topics_dict

In [5]:
general_clusterer = KMeans(
    n_clusters=4,
    max_iter=100,
    init='random',
    n_init=10,
    random_state=SEED,
    algorithm='lloyd'
)
detail_clusterer = KMeans(
    n_clusters=17,
    max_iter=100,
    init='random',
    n_init=10,
    random_state=SEED,
    algorithm='lloyd'
)
general_clusterer.fit(matrix)
detail_clusterer.fit(matrix)

general_labels = general_clusterer.labels_
detail_labels = detail_clusterer.labels_

embeddings['general_cluster'] = general_labels
embeddings['detail_cluster'] = detail_labels

embeddings['edited_cluster'] = embeddings['detail_cluster'].replace(
    {10: 0, 3: 7, 4: 13, 5: 13, 15: 13}
)

In [12]:
# embeddings.to_pickle('clustered_transcripts.pkl')
# embeddings = pd.read_pickle(
#     'clustered_transcripts.pkl'
# )

In [166]:
px.pie(
    embeddings,
    names=embeddings.general_cluster.replace({
        0: 'Проблема с оказанными услугами',
        1: 'Запрос на вызов и уточнение информации о времени и услугах',
        2: 'Запрос на цену и оценку стоимости ремонта',
        3: 'Просьба о прозвоне, уточнение деталей и контактов'
    })
).update_traces(textinfo='percent',).update_layout(
    uniformtext_minsize=36,
    uniformtext_mode='hide',
    width=2200,
    height=900,
    title=dict(
    text='Общие категории обращений',
    x=.5,
    y=.98,
    font_size=50
    ),
    legend=dict(
        font_size=30,
        y=.5,
        yanchor='middle'
    )
)

In [165]:
px.pie(
    embeddings,
    names=embeddings.edited_cluster.replace({
        0: 'Вопросы о стоимости и оплате услуг',
        1: 'Запросы о способах и возможностях связаться с мастером',
        2: 'Уточнение местоположения проблемы и требуемых услуг',
        6: 'Неудовлетворенность качеством предоставленных услуг и запросы на прекращение сотрудничества',
        7: 'Вопросы о сроках, времени и деталях визита мастера',
        8: 'Запросы о наличии запчастей и техники, а также о ценах',
        9: 'Вопросы о предоставлении квитанций, возможности отмены вызова и других дополнительных услугах',
        11: 'Запросы на перенос визита и другие подобные запросы',
        12: 'Запросы на вызов мастера и уточнение возможности ремонта',
        13: 'Уточнение проблем с бытовой техникой и запросы на ремонт',
        14: 'Запросы на быстрый приезд мастера и оказание услуг',
        16: 'Запросы на перезвон и другие коммуникационные запросы'
    })
).update_traces(textinfo='percent',).update_layout(
    uniformtext_minsize=32,
    uniformtext_mode='hide',
    width=2200,
    height=900,
    title=dict(
    text='Детальные категории обращений',
    x=.5,
    y=.98,
    font_size=50
    ),
    legend=dict(
        font_size=24,
        y=.5,
        yanchor='middle'
    )
)

In [136]:
general_topics = generate_topics(embeddings, 'general_cluster', matrix, 4, 150)

In [130]:
detail_topics = generate_topics(embeddings, 'detail_cluster', matrix, 17, 35)

In [98]:
general_topics = {
    'Кластер 0': 'Проблема с оказанными услугами',
    'Кластер 1': 'Запрос на вызов и уточнение информации о времени и услугах',
    'Кластер 2': 'Запрос на цену и оценку стоимости ремонта',
    'Кластер 3': 'Просьба о прозвоне, уточнение деталей и контактов'
}

In [99]:
detail_topics = {
    'Кластер 0': 'Вопросы о стоимости и оплате услуг',
    'Кластер 1': 'Запросы о способах и возможностях связаться с мастером',
    'Кластер 2': 'Уточнение местоположения проблемы и требуемых услуг',
    'Кластер 3': 'Запросы о времени и сроках приезда мастера',
    'Кластер 4': 'Запросы о конкретных проблемах с бытовой техникой',
    'Кластер 5': 'Озвучивание проблем и запросы о возможных вариантах решения',
    'Кластер 6': 'Неудовлетворенность качеством предоставленных услуг и запросы на прекращение сотрудничества',
    'Кластер 7': 'Вопросы о сроках, времени и деталях визита мастера',
    'Кластер 8': 'Запросы о наличии запчастей и технике, а также о ценах',
    'Кластер 9': 'Вопросы о предоставлении квитанций, возможности отмены вызова и других дополнительных услугах',
    'Кластер 10': 'Запросы на уточнение стоимости услуг и консультаций',
    'Кластер 11': 'Запросы на перенос визита и другие подобные запросы',
    'Кластер 12': 'Запросы на вызов мастера и уточнение возможности ремонта',
    'Кластер 13': 'Уточнение проблем с бытовой техникой и запросы на ремонт',
    'Кластер 14': 'Запросы на быстрый приезд мастера и оказание услуг',
    'Кластер 15': 'Запросы на уточнение подробностей и возможности решения проблемы',
    'Кластер 16': 'Запросы на перезвон и другие коммуникационные запросы'
}

In [105]:
encoding = tiktoken.get_encoding('cl100k_base')

In [118]:
len(encoding.encode(general_topics[0]['content']+general_topics[1]['content']))

1231

In [110]:
len(encoding.encode(detail_topics[0]['content']+detail_topics[1]['content']))

15341