# Обработка базы и вывод в таблицу близких диалогов

In [None]:
!pip install -q transformers

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m23.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.0/302.0 kB[0m [31m27.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.8/3.8 MB[0m [31m53.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m53.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.0/295.0 kB[0m [31m34.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
##@title Draft V.3 обработка по диалогам, ограниченный вывод первых 100 совпадений (разбитый).
import pandas as pd
from transformers import AutoTokenizer, AutoModel
import torch
import re
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Загрузка модели и токенизатора
model_name = "cointegrated/rubert-tiny2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

def get_dialog_vector(dialog):
    # Токенизация всего диалога
    inputs = tokenizer(dialog, return_tensors='pt', truncation=True, padding=True, max_length=512)
    # Получение выходов модели
    with torch.no_grad():
        outputs = model(**inputs)
    # Усреднение скрытых состояний всех токенов в диалоге
    dialog_vector = outputs.last_hidden_state.mean(dim=1).numpy()
    return dialog_vector


In [None]:
## Для работы с Google Drive
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


In [None]:
##@title Draft V.3 # Загрузка датасета
dataset_path = "/content/drive/MyDrive/Стажировка КИА/Диалоги/service.md"

with open(dataset_path, 'r') as file:
    # Извлечение диалогов и их уровней
    matches = re.findall(r'(#+)([^#]+)', file.read())
    levels = [len(match[0]) for match in matches]
    # Заголовки чанков
    dialogs_title = [match[1].split('\n')[0].strip() for match in matches]
    dialogs = []
    for val in range(len(matches)):
      if dialogs_title[val] in matches[val][1]:
        dialogs.append(matches[val][1].replace(dialogs_title[val], '', 1).strip())
      else:
        dialogs.append('')


# def func_dialog():

# Создание DataFrame из списка диалогов и их уровней
df_manager = pd.DataFrame({'dialog': dialogs, 'level': levels})

# Создание векторов для каждого диалога
df_manager['vector'] = df_manager['dialog'].apply(get_dialog_vector)

# Измерение косинусного сходства между векторами
similarities = cosine_similarity(np.concatenate(df_manager['vector'].values))

# Отбор близких диалогов
threshold = 0.98
select = set()
selected_dialogs = []
for i, row in enumerate(similarities):
    for j, value in enumerate(row):
        if i != j and value > threshold:
            if i not in select and j not in select:
                select.add(i)
                select.add(j)
                selected_dialogs.append((df_manager.iloc[i]['dialog'], df_manager.iloc[j]['dialog']))


# Создание DataFrame для вывода результатов
output_df = pd.DataFrame(selected_dialogs, columns=['Диалог', 'Близкий диалог'])



In [None]:
##@title Draft V.3 вывод результатов

# Выводим количество близких диалогов
print(f"Количество близких диалогов: {len(output_df)}")

# Ограничение вывода первыми 100 совпадениями
#output_df = output_df.head(100)

# Запись результатов в текстовый файл
output_df.to_csv('sep_dialog.csv', index=False, encoding='utf-8-sig')

# Проверка, что таблица сформирована
output_df

Количество близких диалогов: 4


Unnamed: 0,Диалог,Близкий диалог
0,Регламентное ТО автомобиля выполняется через 1...,Регламентное ТО автомобиля KIA RIO X выполняет...
1,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...
2,Запись на сервис можно осуществить через офици...,Запись на гарантийный осмотр можно осуществить...
3,Предварительную стоимость ТО и состав работ и ...,Предварительную стоимость ТО-5 для Kia Cerato ...


#Объединение диалогов с помощью ChatGPT

##Установка библиотек. Сервисные функции

In [None]:
!pip -q install langchain
!pip -q install openai
!pip -q install faiss-cpu
!pip -q install --upgrade tiktoken

In [None]:
import os
import getpass
import re
import pandas as pd
import time
import openai
LL_MODEL = "gpt-3.5-turbo-0613"
print(f'LL_MODEL = {LL_MODEL}, OpenAi API key - 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, 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')

LL_MODEL = gpt-3.5-turbo-0613, OpenAi API key - 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, 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


## Установка OpenAI API key

In [None]:
# Установка OpenAI API key
openai.api_key = getpass.getpass("Введите OpenAi API key:")
os.environ["OPENAI_API_KEY"] = openai.api_key

Введите OpenAi API key:··········


## Объединение чанков

In [None]:
# Если нужно загрузить файл с диалогами, которые нужно загрузить (должно быть 2 колонки: 'Диалог', 'Близкий диалог')
# output_df = pd.read_csv("sep_dialog.csv", encoding='utf-8-sig')
# output_df

In [None]:
def func_chatgpt(dialog1, dialog2):

  text = f'''
  Текст 1: {dialog1}
  Текст 2: {dialog2}
  Твоя задача состоит в том, чтобы объединить два текста по одной теме в один по смыслу. Не ссылаться в объединенном тексте на другие диалоги и тексты.
  '''

  result = openai.ChatCompletion.create(
    model=LL_MODEL,
    messages=[
          {"role": "system", "content": "Ты самый лучший сотрудник службы поддержки клиентов компании Kia."},
          {"role": "user", "content": text}
      ]
  )

  # print(result)  # query result
  message = result['choices'][0]['message']['content']
  # print(f'message={message}')
  return message

In [None]:
# Объединение диалогов и запись в файл

output_df['Объединенный диалог'] = ''

combined = []

for dialog1, dialog2, dialog3 in output_df.values:
  if dialog3 == "":
    try:
      dialog3 = func_chatgpt(dialog1, dialog2)
      combined.append(dialog3)
      time.sleep(21)
    except:
      time.sleep(21)

output_df['Объединенный диалог'] = combined

# Запись результатов в текстовый файл
output_df.to_csv('combined_dialog.csv', index=False, encoding='utf-8-sig', lineterminator='\n')

In [None]:
output_df

Unnamed: 0,Диалог,Близкий диалог,Объединенный диалог
0,Регламентное ТО автомобиля выполняется через 1...,Регламентное ТО автомобиля KIA RIO X выполняет...,Регламентное ТО автомобиля Kia RIO X выполняет...
1,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...
2,Запись на сервис можно осуществить через офици...,Запись на гарантийный осмотр можно осуществить...,Запись на сервис или гарантийный осмотр у офиц...
3,Предварительную стоимость ТО и состав работ и ...,Предварительную стоимость ТО-5 для Kia Cerato ...,Предварительную стоимость технического обслужи...


In [None]:
print(combined)

['Регламентное ТО автомобиля Kia RIO X выполняется через 1 год или 15 000 км, в зависимости от того, что наступит раньше. Рекомендуется также делать первую замену масла через пол года или 5000 км. Остальные межсервисные ТО остаются на усмотрение владельца автомобиля. Нет ограничений по пробегу, поэтому рекомендуется проходить ТО заранее или в указанный срок.', 'Информацию о наличии сервисной инспекции на автомобиль можно уточнить или проверить на официальном сайте компании Kia по ссылке: https://www.kia.ru/service/check/', 'Запись на сервис или гарантийный осмотр у официального дилерского центра Kia можно осуществить по телефону или через заявку на сайте. Для составления заявки потребуется указать желаемую дату визита и выбрать интересующий дилерский центр. Также необходимо предоставить контактные данные, включая фамилию, имя и номер телефона, выразив при этом согласие на обработку персональных данных. Воспользуйтесь ссылкой для процесса бронирования: https://www.kia.ru/service/booking

In [None]:
# Если нужно удалить столбец с объединенным диалогом
output_df.drop(["Объединенный диалог"], axis=1, inplace=True)

output_df

Unnamed: 0,Диалог,Близкий диалог
0,Регламентное ТО автомобиля выполняется через 1...,Регламентное ТО автомобиля KIA RIO X выполняет...
1,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...
2,Запись на сервис можно осуществить через офици...,Запись на гарантийный осмотр можно осуществить...
3,Предварительную стоимость ТО и состав работ и ...,Предварительную стоимость ТО-5 для Kia Cerato ...


## Добавить заголовок

In [None]:
def func_title_chatgpt(dialog):

  text = f'''
  Проанализируй запрос клиента: {dialog}.

  Дай этому запросу заголовок. Заголовок должен быть кратким и отражать основную суть запроса.
  Не писать в заголовке: по запросу клиента и т.п. фразы.
  '''

  result = openai.ChatCompletion.create(
    model=LL_MODEL,
    messages=[
          {"role": "system", "content": "Ты самый лучший сотрудник службы поддержки клиентов компании Kia."},
          {"role": "user", "content": text}
      ]
  )

  # print(result)  # query result
  message = result['choices'][0]['message']['content']
  # print(f'message={message}')
  return message

In [None]:
# Добавление заголовка

output_df['Заголовок'] = ''

title_combined = []

for dialog1, dialog2, dialog3, title in output_df.values:
  if title == "":
    try:
      title = func_title_chatgpt(dialog3)
      title_combined.append(title)
      time.sleep(21)
    except:
      time.sleep(21)

output_df['Заголовок'] = title_combined

# Запись результатов в текстовый файл
output_df.to_csv('title_combined_dialog.csv', index=False, encoding='utf-8-sig', lineterminator='\n')

In [None]:
output_df

Unnamed: 0,Диалог,Близкий диалог,Объединенный диалог,Заголовок
0,Регламентное ТО автомобиля выполняется через 1...,Регламентное ТО автомобиля KIA RIO X выполняет...,Регламентное ТО автомобиля Kia RIO X выполняет...,Регламентное ТО автомобиля Kia RIO X - частота...
1,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...,Проверка наличия сервисной инспекции на автомо...
2,Запись на сервис можно осуществить через офици...,Запись на гарантийный осмотр можно осуществить...,Запись на сервис или гарантийный осмотр у офиц...,Запись на сервис или гарантийный осмотр у офиц...
3,Предварительную стоимость ТО и состав работ и ...,Предварительную стоимость ТО-5 для Kia Cerato ...,Предварительную стоимость технического обслужи...,Получение предварительной стоимости техническо...


In [None]:
# Если нужно удалить столбец с заголовком
output_df.drop(["Заголовок"], axis=1, inplace=True)

output_df

Unnamed: 0,Диалог,Близкий диалог,Объединенный диалог
0,Регламентное ТО автомобиля выполняется через 1...,Регламентное ТО автомобиля KIA RIO X выполняет...,Регламентное ТО автомобиля Kia RIO X выполняет...
1,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...,Информацию о наличии сервисной инспекции на ав...
2,Запись на сервис можно осуществить через офици...,Запись на гарантийный осмотр можно осуществить...,Запись на сервис или гарантийный осмотр у офиц...
3,Предварительную стоимость ТО и состав работ и ...,Предварительную стоимость ТО-5 для Kia Cerato ...,Предварительную стоимость технического обслужи...
