# [Техническое задание](https://docs.google.com/document/d/1ZIu6daXZRuDR796AHjKCku643hlM3xgYxW9E84DBJFc/edit?usp=sharing)

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# [Датафреймы](https://drive.google.com/drive/folders/111abiHt33Q-SV48pBPhEgDCZDI5KshnF?usp=sharing)

## Headliner

*   [`Headliner_df.pkl` Информация о звонках `Headliner`](https://drive.google.com/file/d/13mUHwvx79O4P-AucRdjBYkN5ha8LnCSp/view?usp=sharing)
*   [`Headliner_new_df.pkl` Информация о новых звонках `Headliner`](https://drive.google.com/file/d/1-Q1BxLbot7svY5hiqOquHRFvSOcwtpKS/view?usp=sharing)

*   [`Headliner_calls_df.pkl` Файлы записей звонков `Headliner`](https://drive.google.com/file/d/13pmGEYacsEHjYsIsYgf6fg4MUHAw509y/view?usp=sharing)
*   [`Headliner_new_calls_df.pkl` Файлы записей новых звонков `Headliner`](https://drive.google.com/file/d/1-Ke1q42th_NV0og0e01_-mvJ8HL8JzfS/view?usp=sharing)
*   [`Headliner_transcriptions_df` Файлы транскрибации записей звонков `Headliner`](https://drive.google.com/file/d/1ThU49xWSv3T-HK61jRykOR3UDvOVeO4i/view?usp=sharing)
*   [`Headliner_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Headliner`](https://drive.google.com/file/d/1-BSmmymyVo8VYyvDXsO1ybXldOJ5eUaH/view?usp=sharing)

*   [`Headliner_all_df.pkl` Информация о всех звонках `Headliner`](https://drive.google.com/file/d/1857LwaVtJ364yFMpXemILSuVu84YEPPw/view?usp=sharing)
*   [`Headliner_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Headliner`](https://drive.google.com/file/d/1-HOWuSAngv9dXYiMlyRXX0kmVVAAT4sV/view?usp=sharing)
*   [`Headliner_targets_df.pkl` Целевые звонки `Headliner`](https://drive.google.com/file/d/1-J1gcgb2mrNDx3R_3l12kq0htS8PTkSv/view?usp=sharing)
*   [`Headliner_not_targets_df.pkl` Нецелевые звонки `Headliner`](https://drive.google.com/file/d/1dGf3UrVeQg0VfFhBL_lZfm-gaczPYBnL/view?usp=sharing)
*   [`Headliner_moot_df.pkl` Спорные звонки `Headliner`](https://drive.google.com/file/d/1-7vtN8vJNWgWfY8JE8bqoRXkUpvRE_og/view?usp=sharing)

## Primavera

*   [`Primavera_df.pkl` Информация о звонках `Primavera`](https://drive.google.com/file/d/1-3csPnjIJXviKJzvbpCfOm29nBgl8L4Q/view?usp=sharing)
*   [`Primavera_new_df.pkl` Информация о новых звонках `Primavera`](https://drive.google.com/file/d/1-QmWkabU2_cyrXPeVaiHSt2e6sLuiCtp/view?usp=sharing)

*   [`Primavera_calls_df.pkl` Файлы записей звонков `Primavera`](https://drive.google.com/file/d/1-CLRfPyaGSc61OopNuFRlWTG-CBCaM1F/view?usp=sharing)
*   [`Primavera_new_calls_df.pkl` Файлы записей новых звонков `Primavera`](https://drive.google.com/file/d/1-Lxa0KifMiByareL94rdEzEpvvMj4D1T/view?usp=sharing)
*   [`Primavera_transcriptions_df` Файлы транскрибации записей звонков `Primavera`](https://drive.google.com/file/d/1-21AcHmdkRhKmL0uwWOJ0jHyY8sj1tME/view?usp=sharing)
*   [`Primavera_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Primavera`](https://drive.google.com/file/d/1-BtSBVH2JXol5JDA0GKV4NOIz5WUnUd5/view?usp=sharing)

*   [`Primavera_all_df.pkl` Информация о всех звонках `Primavera`](https://drive.google.com/file/d/1-2-RlxkKHj5e6RkvbrN7_vs1h5aVXJFk/view?usp=sharing)
*   [`Primavera_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Primavera`](https://drive.google.com/file/d/1-INI9JsU9jsOkPDiGMKhftt18KXgF6-K/view?usp=sharing)
*   [`Primavera_targets_df.pkl` Целевые звонки `Primavera`](https://drive.google.com/file/d/1-JVtM9fOr6XoM7MVxkoVsYfwdZ6GQ--i/view?usp=sharing)
*   [`Primavera_not_targets_df.pkl` Нецелевые звонки `Primavera`](https://drive.google.com/file/d/1-KwG8M-0wEn-5C4ta-B8_xYGCXDOhpnH/view?usp=sharing)

## Paveletskaya_city

*   [`Paveletskaya_city_df.pkl` Информация о звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-99dLkSvU3wdwjkGJpwpYUXQjxx8dwEu/view?usp=sharing)
*   [`Paveletskaya_df.pkl` Информация о звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-D6LlCFXQBMHceujvnq9H8rlx2jAnzmT/view?usp=sharing)
*   [`Paveletskaya_city_new_df.pkl` Информация о новых звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-Rtw9a1no3mKatUjc_FNv_bgUBdNrs_d/view?usp=sharing)

*   [`Paveletskaya_city_calls_df.pkl` Файлы записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-JevsfOpxzLNZmSs34qrswhGzhPwf69S/view?usp=sharing)
*   [`Paveletskaya_city_new_calls_df.pkl` Файлы записей новых звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-ODEeFLv15DN5bfLlwyrTx8D3yxydhP9/view?usp=sharing)
*   [`Paveletskaya_city_transcriptions_df` Файлы транскрибации записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-2kqmIGIraP70ekXB6LBqNjwaTnoxyk5/view?usp=sharing)
*   [`Paveletskaya_city_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-EfA8ZCpGNQk__puhiv1FuxoZC0rXxpj/view?usp=sharing)

*   [`Paveletskaya_city_all_df.pkl` Информация о всех звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-Cy78DqRZ3sbIHkg25wzVWPL-lST5oQa/view?usp=sharing)
*   [`Paveletskaya_city_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-J1BoALFH4-HRdVXjnkyr-fExmtQpUc7/view?usp=sharing)
*   [`Paveletskaya_city_targets_df.pkl` Целевые звонки `Paveletskaya_city`](https://drive.google.com/file/d/1-MrjnBHDj65CEjJxLfPnp-hq07V_wtZK/view?usp=sharing)
*   [`Paveletskaya_city_not_targets_df.pkl` Нецелевые звонки `Paveletskaya_city`](https://drive.google.com/file/d/1-WCCyYaorHkBYoh5ugNsCkD7cb1PKH6D/view?usp=sharing)

## Сводные датафреймы

*   [`total_df.pkl` Сводный датафрейм с информацией о всех звонках](https://drive.google.com/file/d/15ijhw62sp2JNH6pryqZtM5akQHUnsTzi/view?usp=sharing)
*   [`total_work_df.pkl` Сводный рабочий датафрейм с информацией о всех звонках](https://drive.google.com/file/d/1-056tLrjP5yRQW8yRtwutvXs3zmPulW7/view?usp=sharing)

# 5 неделя

In [None]:
!rm -r sample_data

In [None]:
# Подключаем google-диск
from google.colab import drive
drive.mount('/content/drive')
my_drv_path = '/content/drive/MyDrive/'

Mounted at /content/drive


## Библиотеки и переменные

In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.9/220.9 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m40.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m81.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-shdd2fb9
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-shdd2fb9
  Resolved https://github.com/openai/whisper.git to commit e58f28804528831904c3b6f2c0e473f346223433
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231117-py3-none-any.whl size=801356 sha256=81e195f08c471a4993de70060763891893e06d6ba0554d0411603286f0f35547
  Stored in directory: /tmp/pip-ephem-wheel-cache-5_16h1tp/wheels/8b/6c/d0/622666868c179f156cf595c8b6f06f88bc5d80c4b31dccaa03
Successfully built openai-whisper
Installing collec

In [None]:
import os            # для работы с операционной системой
import pickle as pkl # для сохранения и загрузки переменных
import pandas as pd  # для работы с таблицами
import numpy  as np  # для работы с массивами
import re            # для работы с регулярными выражениями
import whisper       # для транскрибации

# Параметры отображения датафреймов
pd.options.display.max_rows     = 99
pd.options.display.max_columns  = 99
pd.options.display.max_colwidth = 999

work_dir_path              = my_drv_path           + 'media108.ru/Новички/'                # путь к рабочей папке
df_path                    = work_dir_path         + 'Датафреймы/'                         # путь к папке для датафреймов
table_path                 = work_dir_path         + 'Таблицы/'                            # путь к папке для таблиц
model_path                 = work_dir_path         + 'Модели/'                             # путь к папке для моделей нейронных сетей
all_dataset_path           = work_dir_path         + 'Датасет/'                            # путь к папке всего датасета в целом
dataset_path               = all_dataset_path      + 'Записи звонков/'                     # путь к записям звонков
dataset_info_path          = dataset_path          + 'Информация о звонках/'               # путь к информации о звонках
dataset_new_path           = all_dataset_path      + 'Новые записи звонков/'               # путь к новым записям звонков
dataset_new_info_path      = dataset_new_path      + 'Информация о звонках/'               # путь к информации о новых звонках
Headliner_path             = dataset_path          + 'Записи звонков_хедлайнер'            # путь к записям звонков проекта Headliner
Headliner_info             = dataset_info_path     + 'Headliner.csv'                       # путь к информации о звонках проекта Headliner
Headliner_new_path         = dataset_new_path      + 'Записи Headliner'                    # путь к записям новых звонков проекта Headliner
Headliner_new_info         = dataset_new_info_path + 'Headliner.xlsx'                      # путь к информации о новых звонках проекта Headliner
Primavera_path             = dataset_path          + 'Записи звонков_primavera'            # путь к записям звонков проекта Primavera
Primavera_info             = dataset_info_path     + 'Primavera .csv'                      # путь к информации о звонках проекта Primavera
Primavera_new_path         = dataset_new_path      + 'Записи Primavera'                    # путь к записям новых звонков проекта Primavera
Primavera_new_info         = dataset_new_info_path + 'Примавера.xlsx'                      # путь к информации о новых звонках проекта Primavera
Paveletskaya_city_path     = dataset_path          + 'Записи звонков_павелецкая сити'      # путь к записям звонков проекта Paveletskaya_city
Paveletskaya_city_info     = dataset_info_path     + 'Павелецкая_ЖК_«Павелецкая_сити».csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_info          = dataset_info_path     + 'Павелецкая (pavcity.turbo.site).csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_city_new_path = dataset_new_path      + 'Записи Павелецкая сити'              # путь к записям новых звонков проекта Paveletskaya_city
Paveletskaya_city_new_info = dataset_new_info_path + 'Павелецкая сити.xlsx'                # путь к информации о новых звонках проекта Paveletskaya_city

## Функции

In [None]:
# Функция для создания датафрейма из списка файлов транскрибации звонков
def transcriptions_list_to_df(transcriptions_list):

  datetime_list    = [] # список для 'Дата и время'
  from_number_list = [] # список для 'Номер абонента'
  to_number_list   = [] # список для 'Номер сотрудника'
  session_list     = [] # список для 'Идентификатор сессии звонка'

  # Проходим по списку записей звонков
  for transcription in transcriptions_list:

    transcription_item_list = transcription.split('_')
    time_item_list = transcription_item_list[1].split('.')
    time_item_list = time_item_list[0].split('-')

    # Заполняем списки для столбцов
    datetime_list.append(transcription_item_list[0] + ' ' + time_item_list[0] + ':' + time_item_list[1] + ':' + time_item_list[2])
    from_number_list.append(transcription_item_list[3])
    to_number_list.append(transcription_item_list[5])
    session_list.append(transcription_item_list[7])

  # Собираем созданные списки в словарь
  transcriptions_dict = dict.fromkeys(['Дата и время', 'Номер абонента', 'Номер сотрудника', 'Идентификатор сессии звонка', 'Файл whisper-транскрибации записи звонка'], [])
  transcriptions_dict['Дата и время']                             = datetime_list
  transcriptions_dict['Номер абонента']                           = from_number_list
  transcriptions_dict['Номер сотрудника']                         = to_number_list
  transcriptions_dict['Идентификатор сессии звонка']              = session_list
  transcriptions_dict['Файл whisper-транскрибации записи звонка'] = transcriptions_list

  # Возвращаем датафрейм
  return pd.DataFrame(transcriptions_dict)

## Транскрибация

In [None]:
# Путь для файлов с текстами транскрибации
os.makedirs('transcription_files', exist_ok=True)
transcription_files_path = 'transcription_files/'

In [None]:
# Загружаем total_work_df из pkl
with open(df_path + 'total_work_df.pkl', 'rb') as f:
  total_work_df = pkl.load(f)

In [None]:
# Транскрибируем записи звонков и сохраняем тексты звонков в файлы
whisper_model = whisper.load_model('large')
for file_name in total_work_df['Файл записи звонка'].head().values:
  with open(transcription_files_path + os.path.basename(file_name).rstrip('.mp3') + '_whisper_large.txt','w') as f:
    f.write(whisper_model.transcribe(all_dataset_path + file_name, language='ru')['text'])

100%|█████████████████████████████████████| 2.88G/2.88G [00:35<00:00, 86.0MiB/s]


In [None]:
# Файлы с текстами транскрибации
os.listdir(transcription_files_path)

['2023-05-08_16-14-10.247769_from_74955199580_to_74997552563_session_2918538922_talk_whisper_large.txt',
 '2023-05-09_11-53-48.291185_from_79910665524_to_74997552563_session_2919161802_talk_whisper_large.txt',
 '2023-05-09_17-51-30.193682_from_79670165153_to_0188880_session_2919520238_talk_whisper_large.txt',
 '2023-05-09_18-34-04.371381_from_79274431546_to_74997552563_session_2919550530_talk_whisper_large.txt',
 '2023-05-09_20-19-21.050197_from_79274432048_to_74997552563_session_2919615074_talk_whisper_large.txt']

In [None]:
# Тексты транскрибации
for file_name in os.listdir(transcription_files_path):
  print(f"Содержимое файла {file_name}:")
  with open(transcription_files_path + file_name, 'r') as f:
    lines = f.readlines()
  print(lines)
  print()

Содержимое файла 2023-05-08_16-14-10.247769_from_74955199580_to_74997552563_session_2918538922_talk_whisper_large.txt:
[' Светлана, здравствуйте. Здравствуйте. Скажите, пожалуйста, фотоаппарат КНН А-603. Ой, это расшипаетесь. Нет-нет, вы позвонили в другую компанию, перезвоните.']

Содержимое файла 2023-05-09_11-53-48.291185_from_79910665524_to_74997552563_session_2919161802_talk_whisper_large.txt:
[' А, Вика, звонок по объявлению. Разговор может быть записан. Вам интересно? Позвольте, я продолжу, а потом, если что, зададите вопросы, хорошо?']

Содержимое файла 2023-05-09_17-51-30.193682_from_79670165153_to_0188880_session_2919520238_talk_whisper_large.txt:
[' Здравствуйте! Вы позвонили в группу компании «Картрос». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый вечер. Группа компании «Картрос». Меня зовут Любовь. Любовь, добрый день. Виктория рассматривает жилой комплекс «Хедлайнер». Рассматривает трехкомнатную квартиру. Бюджет 40 миллионов. Спасибо. Здравству

## Файлы транскрибации записей звонков

In [None]:
os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков')

['Расшифровки_Записи звонков_хедлайнер',
 'Расшифровки_Записи звонков_primavera',
 'Расшифровки_Записи звонков_павелецкая сити']

In [None]:
print(f"        Headliner: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер')):4d} записей")
print(f"        Primavera: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera')):4d} записей")
print(f"Paveletskaya_city: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити')):4d} записей")

        Headliner: 2055 записей
        Primavera: 1983 записей
Paveletskaya_city: 1000 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Headliner
Headliner_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер'))
Headliner_transcriptions_df.shape

(2055, 5)

In [None]:
Headliner_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-06-13 16:34:55,79253130521,188880,3020550704,2023-06-13_16-34-55.323535_from_79253130521_to_0188880_session_3020550704_talk_whisper_large.txt
1,2023-06-13 16:38:19,79854420972,188880,3001367639,2023-06-13_16-38-19.167809_from_79854420972_to_0188880_session_3001367639_talk_whisper_large.txt
2,2023-06-13 16:38:32,79010377117,74959339902,2983982802,2023-06-13_16-38-32.031681_from_79010377117_to_74959339902_session_2983982802_talk_whisper_large.txt
3,2023-06-13 16:41:01,79067578107,188880,3002111697,2023-06-13_16-41-01.418697_from_79067578107_to_0188880_session_3002111697_talk_whisper_large.txt
4,2023-06-13 16:41:49,79067578107,188880,3002112889,2023-06-13_16-41-49.321187_from_79067578107_to_0188880_session_3002112889_talk_whisper_large.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер')))
print(Headliner_transcriptions_df.shape[0])

2055
2055


In [None]:
print(Headliner_transcriptions_df.count())

Дата и время                                2055
Номер абонента                              2055
Номер сотрудника                            2055
Идентификатор сессии звонка                 2055
Файл whisper-транскрибации записи звонка    2055
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Headliner_transcriptions_df['Идентификатор сессии звонка'].nunique()

2045

In [None]:
# Количество дубликатов в столбце 'Идентификатор сессии звонка'
print(Headliner_transcriptions_df[Headliner_transcriptions_df['Идентификатор сессии звонка'].duplicated(keep='last')].shape[0])
print(Headliner_transcriptions_df[Headliner_transcriptions_df['Идентификатор сессии звонка'].duplicated()].shape[0])

10
10


In [None]:
# Удаляем дубликаты
Headliner_transcriptions_df = Headliner_transcriptions_df.drop_duplicates(subset=['Идентификатор сессии звонка'])
Headliner_transcriptions_df.shape

(2045, 5)

#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_transcriptions_df['Дата и время'].head()

0    2023-06-13 16:34:55
1    2023-06-13 16:38:19
2    2023-06-13 16:38:32
3    2023-06-13 16:41:01
4    2023-06-13 16:41:49
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_transcriptions_df['Дата и время'] = pd.to_datetime(Headliner_transcriptions_df['Дата и время'])

In [None]:
Headliner_transcriptions_df['Дата и время'].tail()

2050   2023-05-10 16:20:53
2051   2023-05-10 16:37:24
2052   2023-05-10 16:38:14
2053   2023-05-10 17:01:06
2054   2023-05-10 17:09:20
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_transcriptions_df['Номер абонента'].head()

0    79253130521
1    79854420972
2    79010377117
3    79067578107
4    79067578107
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Headliner_transcriptions_df['Номер абонента'].tail()

2050    79255171260
2051    79858802739
2052    79858802739
2053    79851934089
2054    79967109300
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_transcriptions_df['Номер сотрудника'].head()

0        0188880
1        0188880
2    74959339902
3        0188880
4        0188880
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_transcriptions_df['Номер сотрудника'].tail()

2050    79191089861
2051    79191089861
2052         188880
2053         188880
2054    74957898990
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_transcriptions_df['Идентификатор сессии звонка'].head()

0    3020550704
1    3001367639
2    2983982802
3    3002111697
4    3002112889
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_transcriptions_df['Идентификатор сессии звонка'].tail()

2050    2941971856
2051    2942032676
2052    2932306781
2053    2942121396
2054    2931817291
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0        2023-06-13_16-34-55.323535_from_79253130521_to_0188880_session_3020550704_talk_whisper_large.txt
1        2023-06-13_16-38-19.167809_from_79854420972_to_0188880_session_3001367639_talk_whisper_large.txt
2    2023-06-13_16-38-32.031681_from_79010377117_to_74959339902_session_2983982802_talk_whisper_large.txt
3        2023-06-13_16-41-01.418697_from_79067578107_to_0188880_session_3002111697_talk_whisper_large.txt
4        2023-06-13_16-41-49.321187_from_79067578107_to_0188880_session_3002112889_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/' + x)

In [None]:
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

2050    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-05-10_16-20-53.098963_from_79255171260_to_79191089861_session_2941971856_talk_whisper_large.txt
2051    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-05-10_16-37-24.862983_from_79858802739_to_79191089861_session_2942032676_talk_whisper_large.txt
2052        Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-05-10_16-38-14.627043_from_79858802739_to_0188880_session_2932306781_talk_whisper_large.txt
2053        Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-05-10_17-01-06.149864_from_79851934089_to_0188880_session_2942121396_talk_whisper_large.txt
2054    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-05-10_17-09-20.138948_from_79967109300_to_74957898990_session_2931817291_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Headliner_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Headliner_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-06-13 16:34:55,79253130521,188880,3020550704,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-06-13_16-34-55.323535_from_79253130521_to_0188880_session_3020550704_talk_whisper_large.txt,нет текста транскрибации звонка
1,2023-06-13 16:38:19,79854420972,188880,3001367639,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-06-13_16-38-19.167809_from_79854420972_to_0188880_session_3001367639_talk_whisper_large.txt,нет текста транскрибации звонка
2,2023-06-13 16:38:32,79010377117,74959339902,2983982802,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-06-13_16-38-32.031681_from_79010377117_to_74959339902_session_2983982802_talk_whisper_large.txt,нет текста транскрибации звонка
3,2023-06-13 16:41:01,79067578107,188880,3002111697,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-06-13_16-41-01.418697_from_79067578107_to_0188880_session_3002111697_talk_whisper_large.txt,нет текста транскрибации звонка
4,2023-06-13 16:41:49,79067578107,188880,3002112889,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_хедлайнер/2023-06-13_16-41-49.321187_from_79067578107_to_0188880_session_3002112889_talk_whisper_large.txt,нет текста транскрибации звонка


In [None]:
for row in Headliner_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Headliner_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Headliner_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Headliner_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0                                                                                                                                                              Здравствуйте, вы позвонили в группу компании Корт Роуз. Благодарим вас за звонок. Пожалуйста дождитесь ответа оператора. Группа компании Корт Роуз, меня зовут Елена, здравствуйте. Елена, добрый день. Меня зовут Кирилл, мы соединились с вами. Мы ищем коммерческую недвижимость. И недвижимость, соответственно, в... Прошу прощения.
1                                                                                                                                                                                                                                                                                                                                      Здравствуйте, вы позвонили в группу компании «Картрос». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Вы получили ответ. Продолжение следует.
2                     

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Headliner_transcriptions_df.count())

Дата и время                                 2045
Номер абонента                               2045
Номер сотрудника                             2045
Идентификатор сессии звонка                  2045
Файл whisper-транскрибации записи звонка     2045
Текст whisper-транскрибации записи звонка    2045
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Headliner_transcriptions_df в файл
with open(df_path + 'Headliner_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Headliner_transcriptions_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Primavera
Primavera_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera'))
Primavera_transcriptions_df.shape

(1983, 5)

In [None]:
Primavera_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-05-30 17:50:53,79264254292,197875,2974454505,2023-05-30_17-50-53.271117_from_79264254292_to_0197875_session_2974454505_talk_whisper_large.txt
1,2023-05-30 18:03:54,79258608972,111642,2959172642,2023-05-30_18-03-54.199516_from_79258608972_to_0111642_session_2959172642_talk_whisper_large.txt
2,2023-05-30 18:20:56,79255210338,197879,2989586940,2023-05-30_18-20-56.881493_from_79255210338_to_0197879_session_2989586940_talk_whisper_large.txt
3,2023-05-30 19:19:50,79165220654,111652,2959295102,2023-05-30_19-19-50.688195_from_79165220654_to_0111652_session_2959295102_talk_whisper_large.txt
4,2023-05-31 11:35:31,79051447861,197875,2974889895,2023-05-31_11-35-31.261521_from_79051447861_to_0197875_session_2974889895_talk_whisper_large.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera')))
print(Primavera_transcriptions_df.shape[0])

1983
1983


In [None]:
print(Primavera_transcriptions_df.count())

Дата и время                                1983
Номер абонента                              1983
Номер сотрудника                            1983
Идентификатор сессии звонка                 1983
Файл whisper-транскрибации записи звонка    1983
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_transcriptions_df['Дата и время'].head()

0    2023-05-30 17:50:53
1    2023-05-30 18:03:54
2    2023-05-30 18:20:56
3    2023-05-30 19:19:50
4    2023-05-31 11:35:31
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_transcriptions_df['Дата и время'] = pd.to_datetime(Primavera_transcriptions_df['Дата и время'])

In [None]:
Primavera_transcriptions_df['Дата и время'].tail()

1978   2023-05-30 14:14:18
1979   2023-05-30 14:32:23
1980   2023-05-30 14:33:49
1981   2023-05-30 17:15:46
1982   2023-05-30 17:45:51
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_transcriptions_df['Номер абонента'].head()

0    79264254292
1    79258608972
2    79255210338
3    79165220654
4    79051447861
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Primavera_transcriptions_df['Номер абонента'].tail()

1978    74950851200
1979    74954713016
1980    74954713016
1981    79189032555
1982    79645790101
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_transcriptions_df['Номер сотрудника'].head()

0    0197875
1    0111642
2    0197879
3    0111652
4    0197875
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_transcriptions_df['Номер сотрудника'].tail()

1978    197872
1979    111639
1980    111639
1981    111639
1982    150113
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_transcriptions_df['Идентификатор сессии звонка'].head()

0    2974454505
1    2959172642
2    2989586940
3    2959295102
4    2974889895
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_transcriptions_df['Идентификатор сессии звонка'].tail()

1978    2988675980
1979    2958528898
1980    2973759909
1981    2959053018
1982    2989493316
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0    2023-05-30_17-50-53.271117_from_79264254292_to_0197875_session_2974454505_talk_whisper_large.txt
1    2023-05-30_18-03-54.199516_from_79258608972_to_0111642_session_2959172642_talk_whisper_large.txt
2    2023-05-30_18-20-56.881493_from_79255210338_to_0197879_session_2989586940_talk_whisper_large.txt
3    2023-05-30_19-19-50.688195_from_79165220654_to_0111652_session_2959295102_talk_whisper_large.txt
4    2023-05-31_11-35-31.261521_from_79051447861_to_0197875_session_2974889895_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/' + x)

In [None]:
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

1978    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_14-14-18.111661_from_74950851200_to_0197872_session_2988675980_talk_whisper_large.txt
1979    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_14-32-23.124482_from_74954713016_to_0111639_session_2958528898_talk_whisper_large.txt
1980    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_14-33-49.433773_from_74954713016_to_0111639_session_2973759909_talk_whisper_large.txt
1981    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_17-15-46.023203_from_79189032555_to_0111639_session_2959053018_talk_whisper_large.txt
1982    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_17-45-51.739040_from_79645790101_to_0150113_session_2989493316_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Primavera_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Primavera_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-05-30 17:50:53,79264254292,197875,2974454505,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_17-50-53.271117_from_79264254292_to_0197875_session_2974454505_talk_whisper_large.txt,нет текста транскрибации звонка
1,2023-05-30 18:03:54,79258608972,111642,2959172642,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_18-03-54.199516_from_79258608972_to_0111642_session_2959172642_talk_whisper_large.txt,нет текста транскрибации звонка
2,2023-05-30 18:20:56,79255210338,197879,2989586940,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_18-20-56.881493_from_79255210338_to_0197879_session_2989586940_talk_whisper_large.txt,нет текста транскрибации звонка
3,2023-05-30 19:19:50,79165220654,111652,2959295102,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-30_19-19-50.688195_from_79165220654_to_0111652_session_2959295102_talk_whisper_large.txt,нет текста транскрибации звонка
4,2023-05-31 11:35:31,79051447861,197875,2974889895,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_primavera/2023-05-31_11-35-31.261521_from_79051447861_to_0197875_session_2974889895_talk_whisper_large.txt,нет текста транскрибации звонка


In [None]:
for row in Primavera_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Primavera_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Primavera_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Primavera_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0    Добрый день. Клубногородная река Примавера. Татьяна, слушаю вас. Татьяна, здравствуйте. Здравствуйте. Мне показали, что есть какие-то варианты на 2025 год. Как могу вам обращаться? Извините. Да, Максим. Максим, я соединю вас напрямую с социальной продажей и всей информацией. Оставайтесь, пожалуйста, на линии. Максим, здравствуйте. Меня зовут Кристина. Клубный город на реке Примавера. Что вам подсказать? В Испании до 2 квартал 2025 года и самые бюджетные варианты, какие у вас есть по метрам и по цене. Ваш критерий только стоимость. Вид не важен, этаж не важен, ничего такого не важно. Если мы там проходим по бюджету, то там все-таки будет выиграться. Может, подскажете, какой бюджет? Я вам уже... В районе 20. В районе 20. Две спальни отдельно нужны вам, да? Могу вам предложить варианты квартир в 6-м корпусе. Корпус недавно у нас вышел в продажу. Там есть квартиры угловые, 54 квадратных метра. Изначально мы их предполагаем как евро двухкомнатные, но при этом там спокойно можно сделать

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Primavera_transcriptions_df.count())

Дата и время                                 1983
Номер абонента                               1983
Номер сотрудника                             1983
Идентификатор сессии звонка                  1983
Файл whisper-транскрибации записи звонка     1983
Текст whisper-транскрибации записи звонка    1983
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Primavera_transcriptions_df в файл
with open(df_path + 'Primavera_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Primavera_transcriptions_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Paveletskaya_city
Paveletskaya_city_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити'))
Paveletskaya_city_transcriptions_df.shape

(1000, 5)

In [None]:
Paveletskaya_city_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-06-17 12:54:28,79803286601,74950216267,3029638181,2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk_whisper_large.txt
1,2023-06-17 13:44:17,79066743768,74950216267,3029352265,2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk_whisper_large.txt
2,2023-06-17 14:08:51,74993205445,74955141111,3029390475,2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk_whisper_large.txt
3,2023-06-17 14:21:31,79259041087,74950216267,3029730813,2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk_whisper_large.txt
4,2023-06-17 16:16:05,79680303488,74950216267,3029596520,2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk_whisper_large.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити')))
print(Paveletskaya_city_transcriptions_df.shape[0])

1000
1000


In [None]:
print(Paveletskaya_city_transcriptions_df.count())

Дата и время                                1000
Номер абонента                              1000
Номер сотрудника                            1000
Идентификатор сессии звонка                 1000
Файл whisper-транскрибации записи звонка    1000
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_transcriptions_df['Дата и время'].head()

0    2023-06-17 12:54:28
1    2023-06-17 13:44:17
2    2023-06-17 14:08:51
3    2023-06-17 14:21:31
4    2023-06-17 16:16:05
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_transcriptions_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_transcriptions_df['Дата и время'])

In [None]:
Paveletskaya_city_transcriptions_df['Дата и время'].tail()

995   2023-07-20 11:33:48
996   2023-07-20 11:36:59
997   2023-07-20 11:37:11
998   2023-07-20 11:37:36
999   2023-07-20 11:43:09
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_transcriptions_df['Номер абонента'].head()

0    79803286601
1    79066743768
2    74993205445
3    79259041087
4    79680303488
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_transcriptions_df['Номер абонента'].tail()

995    79168455509
996    79169021186
997    79099624838
998    79112808417
999    79166458242
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_transcriptions_df['Номер сотрудника'].head()

0    74950216267
1    74950216267
2    74955141111
3    74950216267
4    74950216267
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_transcriptions_df['Номер сотрудника'].tail()

995    74955141111
996    74950216267
997    74950216267
998    74955141111
999    74950216267
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_transcriptions_df['Идентификатор сессии звонка'].head()

0    3029638181
1    3029352265
2    3029390475
3    3029730813
4    3029596520
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_transcriptions_df['Идентификатор сессии звонка'].tail()

995    3099626809
996    3100336231
997    3105745185
998    3100336696
999    3099686224
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0    2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk_whisper_large.txt
1    2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk_whisper_large.txt
2    2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk_whisper_large.txt
3    2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk_whisper_large.txt
4    2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/' + x)

In [None]:
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

995    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-07-20_11-33-48.269480_from_79168455509_to_74955141111_session_3099626809_talk_whisper_large.txt
996    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-07-20_11-36-59.633997_from_79169021186_to_74950216267_session_3100336231_talk_whisper_large.txt
997    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-07-20_11-37-11.094292_from_79099624838_to_74950216267_session_3105745185_talk_whisper_large.txt
998    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-07-20_11-37-36.619972_from_79112808417_to_74955141111_session_3100336696_talk_whisper_large.txt
999    Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-07-20_11-43-09.262964_from_79166458242_to_74950216267_session_3099686224_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: 

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Paveletskaya_city_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Paveletskaya_city_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-06-17 12:54:28,79803286601,74950216267,3029638181,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk_whisper_large.txt,нет текста транскрибации звонка
1,2023-06-17 13:44:17,79066743768,74950216267,3029352265,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk_whisper_large.txt,нет текста транскрибации звонка
2,2023-06-17 14:08:51,74993205445,74955141111,3029390475,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk_whisper_large.txt,нет текста транскрибации звонка
3,2023-06-17 14:21:31,79259041087,74950216267,3029730813,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk_whisper_large.txt,нет текста транскрибации звонка
4,2023-06-17 16:16:05,79680303488,74950216267,3029596520,Whisper-транскрибация записей звонков/Расшифровки_Записи звонков_павелецкая сити/2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk_whisper_large.txt,нет текста транскрибации звонка


In [None]:
for row in Paveletskaya_city_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Paveletskaya_city_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Paveletskaya_city_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Paveletskaya_city_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0    Здравствуйте! Вы позвонили в компанию Эмергрупп. Пожалуйста, дождитесь ответа нашего специалиста. Обращаем ваше внимание, что в целях улучшения качества обслуживания клиентов все разговоры записываются. Продолжая разговор, вы соглашаетесь на обработку ваших персональных данных. Компания Эмергрупп. Меня зовут Ольга. Здравствуйте. Добрый. Портал «Где этот дом?». Клиент Николай. ЖК «Павелецкая Сити». Смотрит двухкомнатные. Бюджет 30 миллионов. Возможно, больше. Алло. Добрый день. Николай, здравствуйте. Мне сказали, что у вас не присутствует проект «Павелецкая Сити». Все верно? Да. Хорошо. Я вас перейду на менеджера. Оставайтесь у нас на линии. По окончании разговора, пожалуйста, оцените качество обслуживания. Николай, добрый день. Меня зовут Дмитрий. Жилой комплекс «Павелецкая Сити». Чем могу быть полезен? Квартира квадратов порядка 60. 60 квадратных метров. О нашем комплексе уже что-то знаете, слышали? Пока нет. Пока не знаете. Локацию представляете нашу? Да, я знаю. Николай, кварти

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Paveletskaya_city_transcriptions_df.count())

Дата и время                                 1000
Номер абонента                               1000
Номер сотрудника                             1000
Идентификатор сессии звонка                  1000
Файл whisper-транскрибации записи звонка     1000
Текст whisper-транскрибации записи звонка    1000
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Paveletskaya_city_transcriptions_df в файл
with open(df_path + 'Paveletskaya_city_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_transcriptions_df, f)

## Файлы транскрибации новых записей звонков

In [None]:
os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков')

['Расшифровки_Записи Headliner',
 'Расшифровки_Записи Primavera',
 'Расшифровки_Записи Павелецкая сити']

In [None]:
print(f"        Headliner: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner')):4d} записей")
print(f"        Primavera: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera')):4d} записей")
print(f"Paveletskaya_city: {len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити')):4d} записей")

        Headliner: 1226 записей
        Primavera:  767 записей
Paveletskaya_city: 1413 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Headliner
Headliner_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner'))
Headliner_transcriptions_df.shape

(1226, 5)

In [None]:
Headliner_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-09-01 11:18:46,79133420036,188880,3188273510,2023-09-01_11-18-46.243226_from_79133420036_to_0188880_session_3188273510_talk.txt
1,2023-09-01 12:07:24,79687467064,74959339929,3188426705,2023-09-01_12-07-24.419439_from_79687467064_to_74959339929_session_3188426705_talk.txt
2,2023-09-01 12:10:00,79687467064,74959339929,3201544602,2023-09-01_12-10-00.806885_from_79687467064_to_74959339929_session_3201544602_talk.txt
3,2023-09-01 12:20:37,79851620909,74959339929,3188461175,2023-09-01_12-20-37.789876_from_79851620909_to_74959339929_session_3188461175_talk.txt
4,2023-09-01 12:53:13,74959891229,74959339929,3191589263,2023-09-01_12-53-13.411858_from_74959891229_to_74959339929_session_3191589263_talk.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner')))
print(Headliner_transcriptions_df.shape[0])

1226
1226


In [None]:
print(Headliner_transcriptions_df.count())

Дата и время                                1226
Номер абонента                              1226
Номер сотрудника                            1226
Идентификатор сессии звонка                 1226
Файл whisper-транскрибации записи звонка    1226
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_transcriptions_df['Дата и время'].head()

0    2023-09-01 11:18:46
1    2023-09-01 12:07:24
2    2023-09-01 12:10:00
3    2023-09-01 12:20:37
4    2023-09-01 12:53:13
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_transcriptions_df['Дата и время'] = pd.to_datetime(Headliner_transcriptions_df['Дата и время'])

In [None]:
Headliner_transcriptions_df['Дата и время'].tail()

1221   2023-08-31 16:55:42
1222   2023-08-31 17:01:20
1223   2023-08-31 17:08:06
1224   2023-09-01 09:30:00
1225   2023-09-01 10:09:28
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_transcriptions_df['Номер абонента'].head()

0    79133420036
1    79687467064
2    79687467064
3    79851620909
4    74959891229
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Headliner_transcriptions_df['Номер абонента'].tail()

1221    79851400618
1222    79851400618
1223    79647068969
1224    79503046153
1225    79687467064
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_transcriptions_df['Номер сотрудника'].head()

0        0188880
1    74959339929
2    74959339929
3    74959339929
4    74959339929
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_transcriptions_df['Номер сотрудника'].tail()

1221         188880
1222    74959339929
1223    74957898990
1224         188880
1225    74959339929
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_transcriptions_df['Идентификатор сессии звонка'].head()

0    3188273510
1    3188426705
2    3201544602
3    3188461175
4    3191589263
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_transcriptions_df = Headliner_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_transcriptions_df['Идентификатор сессии звонка'].tail()

1221    3190201298
1222    3194695301
1223    3187322885
1224    3201040552
1225    3191076973
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0        2023-09-01_11-18-46.243226_from_79133420036_to_0188880_session_3188273510_talk.txt
1    2023-09-01_12-07-24.419439_from_79687467064_to_74959339929_session_3188426705_talk.txt
2    2023-09-01_12-10-00.806885_from_79687467064_to_74959339929_session_3201544602_talk.txt
3    2023-09-01_12-20-37.789876_from_79851620909_to_74959339929_session_3188461175_talk.txt
4    2023-09-01_12-53-13.411858_from_74959891229_to_74959339929_session_3191589263_talk.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/' + x)

In [None]:
Headliner_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

1221        Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-08-31_16-55-42.330776_from_79851400618_to_0188880_session_3190201298_talk.txt
1222    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-08-31_17-01-20.800209_from_79851400618_to_74959339929_session_3194695301_talk.txt
1223    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-08-31_17-08-06.533474_from_79647068969_to_74957898990_session_3187322885_talk.txt
1224        Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_09-30-00.917489_from_79503046153_to_0188880_session_3201040552_talk.txt
1225    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_10-09-28.491302_from_79687467064_to_74959339929_session_3191076973_talk.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Headliner_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Headliner_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-09-01 11:18:46,79133420036,188880,3188273510,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_11-18-46.243226_from_79133420036_to_0188880_session_3188273510_talk.txt,нет текста транскрибации звонка
1,2023-09-01 12:07:24,79687467064,74959339929,3188426705,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_12-07-24.419439_from_79687467064_to_74959339929_session_3188426705_talk.txt,нет текста транскрибации звонка
2,2023-09-01 12:10:00,79687467064,74959339929,3201544602,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_12-10-00.806885_from_79687467064_to_74959339929_session_3201544602_talk.txt,нет текста транскрибации звонка
3,2023-09-01 12:20:37,79851620909,74959339929,3188461175,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_12-20-37.789876_from_79851620909_to_74959339929_session_3188461175_talk.txt,нет текста транскрибации звонка
4,2023-09-01 12:53:13,74959891229,74959339929,3191589263,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Headliner/2023-09-01_12-53-13.411858_from_74959891229_to_74959339929_session_3191589263_talk.txt,нет текста транскрибации звонка


In [None]:
for row in Headliner_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Headliner_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Headliner_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Headliner_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0    Здравствуйте, вы позвонили в группу компании «Картро». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Группа компании «Картро» Статьяна, здравствуйте. Статьяна, здравствуйте. Меня зовут Анжела. Хотела вас уточнить по ЖК «Хоббелайнер». Интересует третья очередь или еще какая-то четвертая, а, вторая очередь. Третья очередь. Квартиры 30 и 40 квадратов. Хорошо, я вас поденю с менеджером. Минуту оставайтесь на линии. Спасибо. Жилой комплекс «Хоббелайнер». Меня зовут Виталия. Здравствуйте. Виталия, здравствуйте. Меня зовут Анжела. По поводу квартиры «Хоббелайнер». Вторая, третья очередь. Интересует квартиры 30 и 40 квадратов. Во второй очереди 30 квадратных метров по проекту не было. Площадь от 40 квадратных метров начиналась. Сейчас минимальный бюджет в построенной второй очереди начинается от 22 миллионов за 43 квадратных метра. Есть варианты с площадью 30 квадратных метров со сроком выдачи в ключе 2024 год. По бюджету начинается от 17,5 миллионов. Это со всеми макс

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Headliner_transcriptions_df.count())

Дата и время                                 1226
Номер абонента                               1226
Номер сотрудника                             1226
Идентификатор сессии звонка                  1226
Файл whisper-транскрибации записи звонка     1226
Текст whisper-транскрибации записи звонка    1226
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Headliner_transcriptions_df в файл
with open(df_path + 'Headliner_new_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Headliner_transcriptions_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Primavera
Primavera_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera'))
Primavera_transcriptions_df.shape

(767, 5)

In [None]:
Primavera_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-09-01 09:00:40,74950210291,253211,3200997782,2023-09-01_09-00-40.052431_from_74950210291_to_0253211_session_3200997782_talk_whisper_large.txt
1,2023-09-01 09:25:57,79264683596,111639,3187995780,2023-09-01_09-25-57.450908_from_79264683596_to_0111639_session_3187995780_talk_whisper_large.txt
2,2023-09-01 11:16:28,79161163889,111652,3195799881,2023-09-01_11-16-28.505654_from_79161163889_to_0111652_session_3195799881_talk_whisper_large.txt
3,2023-09-01 11:42:21,79377999852,253201,3188347120,2023-09-01_11-42-21.432552_from_79377999852_to_0253201_session_3188347120_talk_whisper_large.txt
4,2023-09-01 12:05:26,79199944228,111652,3188422720,2023-09-01_12-05-26.624031_from_79199944228_to_0111652_session_3188422720_talk_whisper_large.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera')))
print(Primavera_transcriptions_df.shape[0])

767
767


In [None]:
print(Primavera_transcriptions_df.count())

Дата и время                                767
Номер абонента                              767
Номер сотрудника                            767
Идентификатор сессии звонка                 767
Файл whisper-транскрибации записи звонка    767
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_transcriptions_df['Дата и время'].head()

0    2023-09-01 09:00:40
1    2023-09-01 09:25:57
2    2023-09-01 11:16:28
3    2023-09-01 11:42:21
4    2023-09-01 12:05:26
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_transcriptions_df['Дата и время'] = pd.to_datetime(Primavera_transcriptions_df['Дата и время'])

In [None]:
Primavera_transcriptions_df['Дата и время'].tail()

762   2023-10-04 17:28:47
763   2023-10-04 17:34:08
764   2023-10-04 18:13:46
765   2023-10-04 19:40:25
766   2023-10-04 19:47:06
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_transcriptions_df['Номер абонента'].head()

0    74950210291
1    79264683596
2    79161163889
3    79377999852
4    79199944228
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Primavera_transcriptions_df['Номер абонента'].tail()

762    79263997574
763    74950851200
764    79263997574
765    74950210291
766    79624005760
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_transcriptions_df['Номер сотрудника'].head()

0    0253211
1    0111639
2    0111652
3    0253201
4    0111652
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_transcriptions_df['Номер сотрудника'].tail()

762    111652
763    173695
764    111642
765    253206
766    111652
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_transcriptions_df['Идентификатор сессии звонка'].head()

0    3200997782
1    3187995780
2    3195799881
3    3188347120
4    3188422720
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_transcriptions_df = Primavera_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_transcriptions_df['Идентификатор сессии звонка'].tail()

762    3272470671
763    3276535412
764    3269705084
765    3276780397
766    3264304568
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0    2023-09-01_09-00-40.052431_from_74950210291_to_0253211_session_3200997782_talk_whisper_large.txt
1    2023-09-01_09-25-57.450908_from_79264683596_to_0111639_session_3187995780_talk_whisper_large.txt
2    2023-09-01_11-16-28.505654_from_79161163889_to_0111652_session_3195799881_talk_whisper_large.txt
3    2023-09-01_11-42-21.432552_from_79377999852_to_0253201_session_3188347120_talk_whisper_large.txt
4    2023-09-01_12-05-26.624031_from_79199944228_to_0111652_session_3188422720_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/' + x)

In [None]:
Primavera_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

762    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-10-04_17-28-47.993474_from_79263997574_to_0111652_session_3272470671_talk_whisper_large.txt
763    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-10-04_17-34-08.412006_from_74950851200_to_0173695_session_3276535412_talk_whisper_large.txt
764    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-10-04_18-13-46.905203_from_79263997574_to_0111642_session_3269705084_talk_whisper_large.txt
765    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk_whisper_large.txt
766    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-10-04_19-47-06.171534_from_79624005760_to_0111652_session_3264304568_talk_whisper_large.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Primavera_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Primavera_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-09-01 09:00:40,74950210291,253211,3200997782,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-09-01_09-00-40.052431_from_74950210291_to_0253211_session_3200997782_talk_whisper_large.txt,нет текста транскрибации звонка
1,2023-09-01 09:25:57,79264683596,111639,3187995780,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-09-01_09-25-57.450908_from_79264683596_to_0111639_session_3187995780_talk_whisper_large.txt,нет текста транскрибации звонка
2,2023-09-01 11:16:28,79161163889,111652,3195799881,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-09-01_11-16-28.505654_from_79161163889_to_0111652_session_3195799881_talk_whisper_large.txt,нет текста транскрибации звонка
3,2023-09-01 11:42:21,79377999852,253201,3188347120,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-09-01_11-42-21.432552_from_79377999852_to_0253201_session_3188347120_talk_whisper_large.txt,нет текста транскрибации звонка
4,2023-09-01 12:05:26,79199944228,111652,3188422720,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Primavera/2023-09-01_12-05-26.624031_from_79199944228_to_0111652_session_3188422720_talk_whisper_large.txt,нет текста транскрибации звонка


In [None]:
for row in Primavera_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Primavera_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Primavera_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Primavera_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            Добрый день, оператор Яна, клубный город на реке Примавера. Как я могу к вам обращаться? Добрый день, Александр. Можете через 2 часа набрать? Да, покупка квартиры, да, интересует, Александр? Да, да, да. Все, хорошо, передам информацию. Ожидайте. Спаси

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Primavera_transcriptions_df.count())

Дата и время                                 767
Номер абонента                               767
Номер сотрудника                             767
Идентификатор сессии звонка                  767
Файл whisper-транскрибации записи звонка     767
Текст whisper-транскрибации записи звонка    767
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Primavera_transcriptions_df в файл
with open(df_path + 'Primavera_new_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Primavera_transcriptions_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка файлов транскрибации звонков Paveletskaya_city
Paveletskaya_city_transcriptions_df = transcriptions_list_to_df(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити'))
Paveletskaya_city_transcriptions_df.shape

(1413, 5)

In [None]:
Paveletskaya_city_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка
0,2023-08-31 20:02:47,79169468891,288,3195065861,2023-08-31_20-02-47.458103_from_79169468891_to_00288_session_3195065861_talk.txt
1,2023-09-01 08:51:34,79139426842,288,3195409751,2023-09-01_08-51-34.418574_from_79139426842_to_00288_session_3195409751_talk.txt
2,2023-09-01 10:53:19,79257720080,288,3188206290,2023-09-01_10-53-19.201214_from_79257720080_to_00288_session_3188206290_talk.txt
3,2023-09-01 11:24:52,37378077136,288,3188292205,2023-09-01_11-24-52.929663_from_37378077136_to_00288_session_3188292205_talk.txt
4,2023-09-01 11:33:04,79858891114,288,3195853356,2023-09-01_11-33-04.092834_from_79858891114_to_00288_session_3195853356_talk.txt


In [None]:
# Проверяем количество строк
print(len(os.listdir(my_drv_path + 'media108.ru/Датасет/Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити')))
print(Paveletskaya_city_transcriptions_df.shape[0])

1413
1413


In [None]:
print(Paveletskaya_city_transcriptions_df.count())

Дата и время                                1413
Номер абонента                              1413
Номер сотрудника                            1413
Идентификатор сессии звонка                 1413
Файл whisper-транскрибации записи звонка    1413
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_transcriptions_df['Дата и время'].head()

0    2023-08-31 20:02:47
1    2023-09-01 08:51:34
2    2023-09-01 10:53:19
3    2023-09-01 11:24:52
4    2023-09-01 11:33:04
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_transcriptions_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_transcriptions_df['Дата и время'])

In [None]:
Paveletskaya_city_transcriptions_df['Дата и время'].tail()

1408   2023-08-31 16:07:51
1409   2023-08-31 16:20:15
1410   2023-08-31 17:01:46
1411   2023-08-31 17:12:58
1412   2023-08-31 18:33:45
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_transcriptions_df['Номер абонента'].head()

0    79169468891
1    79139426842
2    79257720080
3    37378077136
4    79858891114
Name: Номер абонента, dtype: object

In [None]:
Paveletskaya_city_transcriptions_df['Номер абонента'][Paveletskaya_city_transcriptions_df['Номер абонента'] == ''].count()

1

In [None]:
# Меняем '' на '0' в столбце 'Номер абонента'
Paveletskaya_city_transcriptions_df['Номер абонента'] = Paveletskaya_city_transcriptions_df['Номер абонента'].apply(lambda x: '0' if x == '' else x)

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_transcriptions_df['Номер абонента'].tail()

1408    79271791618
1409    79331112978
1410    79153796174
1411    79061800540
1412    79271414018
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_transcriptions_df['Номер сотрудника'].head()

0    00288
1    00288
2    00288
3    00288
4    00288
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_transcriptions_df['Номер сотрудника'].tail()

1408    288
1409    288
1410    288
1411    288
1412    288
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_transcriptions_df['Идентификатор сессии звонка'].head()

0    3195065861
1    3195409751
2    3188206290
3    3188292205
4    3195853356
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_transcriptions_df = Paveletskaya_city_transcriptions_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_transcriptions_df['Идентификатор сессии звонка'].tail()

1408    3194514836
1409    3200112337
1410    3200245332
1411    3190248338
1412    3193454629
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл whisper-транскрибации записи звонка

In [None]:
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].head()

0    2023-08-31_20-02-47.458103_from_79169468891_to_00288_session_3195065861_talk.txt
1    2023-09-01_08-51-34.418574_from_79139426842_to_00288_session_3195409751_talk.txt
2    2023-09-01_10-53-19.201214_from_79257720080_to_00288_session_3188206290_talk.txt
3    2023-09-01_11-24-52.929663_from_37378077136_to_00288_session_3188292205_talk.txt
4    2023-09-01_11-33-04.092834_from_79858891114_to_00288_session_3195853356_talk.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'] = Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].apply(lambda x: 'Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/' + x)

In [None]:
Paveletskaya_city_transcriptions_df['Файл whisper-транскрибации записи звонка'].tail()

1408    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_16-07-51.657929_from_79271791618_to_00288_session_3194514836_talk.txt
1409    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_16-20-15.235129_from_79331112978_to_00288_session_3200112337_talk.txt
1410    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_17-01-46.633530_from_79153796174_to_00288_session_3200245332_talk.txt
1411    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_17-12-58.751450_from_79061800540_to_00288_session_3190248338_talk.txt
1412    Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_18-33-45.980557_from_79271414018_to_00288_session_3193454629_talk.txt
Name: Файл whisper-транскрибации записи звонка, dtype: object

##### 5. Текст whisper-транскрибации записи звонка

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка'
Paveletskaya_city_transcriptions_df['Текст whisper-транскрибации записи звонка'] = 'нет текста транскрибации звонка'
Paveletskaya_city_transcriptions_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл whisper-транскрибации записи звонка,Текст whisper-транскрибации записи звонка
0,2023-08-31 20:02:47,79169468891,288,3195065861,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-08-31_20-02-47.458103_from_79169468891_to_00288_session_3195065861_talk.txt,нет текста транскрибации звонка
1,2023-09-01 08:51:34,79139426842,288,3195409751,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-09-01_08-51-34.418574_from_79139426842_to_00288_session_3195409751_talk.txt,нет текста транскрибации звонка
2,2023-09-01 10:53:19,79257720080,288,3188206290,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-09-01_10-53-19.201214_from_79257720080_to_00288_session_3188206290_talk.txt,нет текста транскрибации звонка
3,2023-09-01 11:24:52,37378077136,288,3188292205,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-09-01_11-24-52.929663_from_37378077136_to_00288_session_3188292205_talk.txt,нет текста транскрибации звонка
4,2023-09-01 11:33:04,79858891114,288,3195853356,Whisper-транскрибация новых записей звонков/Расшифровки_Записи Павелецкая сити/2023-09-01_11-33-04.092834_from_79858891114_to_00288_session_3195853356_talk.txt,нет текста транскрибации звонка


In [None]:
for row in Paveletskaya_city_transcriptions_df.index:
  with open(my_drv_path + 'media108.ru/Датасет/' + Paveletskaya_city_transcriptions_df.loc[row, ['Файл whisper-транскрибации записи звонка']].values[0], 'rb') as f:
    contents = f.read()
  Paveletskaya_city_transcriptions_df.loc[row, ['Текст whisper-транскрибации записи звонка']] = contents.decode('utf-16').strip()

In [None]:
Paveletskaya_city_transcriptions_df['Текст whisper-транскрибации записи звонка'].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               Здравствуйте, вы позвонили в компанию Эмергрупп. Пожалуйста дождитесь ответа нашего специалиста. Обращаем ваше внимание, что в целях улучшения качества обслуживания клиентов все разговоры записываются. Продолжая разговор, вы соглашаетесь на обработку ваших персональных данных. Вам звонок с Яндекс.Недвижимости. Для соединения с покупателем нажмите... Начинаем звонок покупате

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_transcriptions_df.dtypes

Дата и время                                 datetime64[ns]
Номер абонента                                        int64
Номер сотрудника                                      int64
Идентификатор сессии звонка                           int64
Файл whisper-транскрибации записи звонка             object
Текст whisper-транскрибации записи звонка            object
dtype: object

In [None]:
print(Paveletskaya_city_transcriptions_df.count())

Дата и время                                 1413
Номер абонента                               1413
Номер сотрудника                             1413
Идентификатор сессии звонка                  1413
Файл whisper-транскрибации записи звонка     1413
Текст whisper-транскрибации записи звонка    1413
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Paveletskaya_city_transcriptions_df в файл
with open(df_path + 'Paveletskaya_city_new_transcriptions_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_transcriptions_df, f)

## Добавление текстов транскрибации в датафреймы с информацией о звонках

### Headliner

In [None]:
# Загружаем Headliner_df из pkl
with open(df_path + 'Headliner_df.pkl', 'rb') as f:
  Headliner_df = pkl.load(f)

# Загружаем Headliner_new_df из pkl
with open(df_path + 'Headliner_new_df.pkl', 'rb') as f:
  Headliner_new_df = pkl.load(f)

In [None]:
# Загружаем Headliner_transcriptions_df из pkl
with open(df_path + 'Headliner_transcriptions_df.pkl', 'rb') as f:
  Headliner_transcriptions_df = pkl.load(f)

# Загружаем Headliner_new_transcriptions_df из pkl
with open(df_path + 'Headliner_new_transcriptions_df.pkl', 'rb') as f:
  Headliner_new_transcriptions_df = pkl.load(f)

In [None]:
print(Headliner_df.shape)
print(Headliner_new_df.shape)

(4759, 77)
(1542, 77)


In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Headliner_df
Headliner_df = Headliner_df.merge(Headliner_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Headliner_df.shape

(4759, 78)

In [None]:
Headliner_df['Текст whisper-транскрибации записи звонка'][~Headliner_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

130                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           Ахрилань, Нержавой комплекс, здравствуйте, Светлана. Здравствуйте, скажите, пожалуйста, автопараты КМН А-603. Ой, это вы ошибаетесь, нет-нет, вы позвонили в другую компанию, перезвоните.

In [None]:
Headliner_df['Текст whisper-транскрибации записи звонка'].count()

2045

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Headliner_new_df
Headliner_new_df = Headliner_new_df.merge(Headliner_new_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Headliner_new_df.shape

(1542, 78)

In [None]:
Headliner_new_df['Текст whisper-транскрибации записи звонка'][~Headliner_new_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              Здравствуйте. К сожалению, наш офис не работает в это вре

In [None]:
Headliner_new_df['Текст whisper-транскрибации записи звонка'].count()

1226

In [None]:
print(Headliner_df.shape)
print(Headliner_new_df.shape)

(4759, 78)
(1542, 78)


In [None]:
# Сохраняем Headliner_df в pkl
with open(df_path + 'Headliner_df.pkl', 'wb') as f:
  pkl.dump(Headliner_df, f)

# Сохраняем Headliner_new_df в pkl
with open(df_path + 'Headliner_new_df.pkl', 'wb') as f:
  pkl.dump(Headliner_new_df, f)

### Primavera

In [None]:
# Загружаем Primavera_df из pkl
with open(df_path + 'Primavera_df.pkl', 'rb') as f:
  Primavera_df = pkl.load(f)

# Загружаем Primavera_new_df из pkl
with open(df_path + 'Primavera_new_df.pkl', 'rb') as f:
  Primavera_new_df = pkl.load(f)

In [None]:
# Загружаем Primavera_transcriptions_df из pkl
with open(df_path + 'Primavera_transcriptions_df.pkl', 'rb') as f:
  Primavera_transcriptions_df = pkl.load(f)

# Загружаем Primavera_new_transcriptions_df из pkl
with open(df_path + 'Primavera_new_transcriptions_df.pkl', 'rb') as f:
  Primavera_new_transcriptions_df = pkl.load(f)

In [None]:
print(Primavera_df.shape)
print(Primavera_new_df.shape)

(3972, 77)
(1523, 77)


In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Primavera_df
Primavera_df = Primavera_df.merge(Primavera_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Primavera_df.shape

(3972, 78)

In [None]:
Primavera_df['Текст whisper-транскрибации записи звонка'][~Primavera_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       Надежда, доброе утро. Доброе утро. Расскажите, пожалуйста, Сергея Васильевича можно услышать? Простите, вы позвонили в единый контакт-центр. Ой, извините, что-то не... извините. Всё, доброе ут

In [None]:
Primavera_df['Текст whisper-транскрибации записи звонка'].count()

1983

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Primavera_new_df
Primavera_new_df = Primavera_new_df.merge(Primavera_new_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Primavera_new_df.shape

(1523, 78)

In [None]:
Primavera_new_df['Текст whisper-транскрибации записи звонка'][~Primavera_new_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

0    Клубный город на реке Примавера. Здравствуйте, Светлана. Да, здрасте. Есть квартиры? Да, да. Как обращаться к вам? Вячеслав. Вячеслав, вас менеджер проконсультирует минуту. Обращаем ваше внимание, что в целях контроля качества услуг разговор может быть записан. Обращаем ваше внимание. Примавера. Клубный город на реке. Меня Владимир зовут. Здравствуйте, Вячеслав. Всем могу быть полезен? Да, здрасте. Предъявление на вас, что квартиры до 20 миллионов, ну, как хотелось бы, до 15. Ну, либо однушка, либо двушка. Просите на двушку, наверное. Вячеслав, скажите, до 13 миллионов, вы сказали? Нет, до 17-ти. А, так. У нас просто двухкомнатные, где отдельная спальня и кухня. Они начинаются от 27 миллионов. Есть форматы Евро, двухкомнатные, где отдельная спальня и кухня-гостиная. Они начинаются от 19 миллионов 300 тысяч. Вам такие форматы подходят? Это самые дальние по сдаче, корпус. Да, совершенно верно. У нас сейчас в продаже две очереди, Россиния и Вивальди. Россия, ключи до декабря 2024 год

In [None]:
Primavera_new_df['Текст whisper-транскрибации записи звонка'].count()

767

In [None]:
print(Primavera_df.shape)
print(Primavera_new_df.shape)

(3972, 78)
(1523, 78)


In [None]:
# Сохраняем Primavera_df в pkl
with open(df_path + 'Primavera_df.pkl', 'wb') as f:
  pkl.dump(Primavera_df, f)

# Сохраняем Primavera_new_df в pkl
with open(df_path + 'Primavera_new_df.pkl', 'wb') as f:
  pkl.dump(Primavera_new_df, f)

### Paveletskaya_city

In [None]:
# Загружаем Paveletskaya_df из pkl
with open(df_path + 'Paveletskaya_df.pkl', 'rb') as f:
  Paveletskaya_df = pkl.load(f)

# Загружаем Paveletskaya_city_df из pkl
with open(df_path + 'Paveletskaya_city_df.pkl', 'rb') as f:
  Paveletskaya_city_df = pkl.load(f)

# Загружаем Paveletskaya_city_new_df из pkl
with open(df_path + 'Paveletskaya_city_new_df.pkl', 'rb') as f:
  Paveletskaya_city_new_df = pkl.load(f)

In [None]:
# Загружаем Paveletskaya_city_transcriptions_df из pkl
with open(df_path + 'Paveletskaya_city_transcriptions_df.pkl', 'rb') as f:
  Paveletskaya_city_transcriptions_df = pkl.load(f)

# Загружаем Paveletskaya_city_new_transcriptions_df из pkl
with open(df_path + 'Paveletskaya_city_new_transcriptions_df.pkl', 'rb') as f:
  Paveletskaya_city_new_transcriptions_df = pkl.load(f)

In [None]:
print(Paveletskaya_df.shape)
print(Paveletskaya_city_df.shape)
print(Paveletskaya_city_new_df.shape)

(1211, 77)
(9327, 77)
(1518, 77)


In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Paveletskaya_df
Paveletskaya_df = Paveletskaya_df.merge(Paveletskaya_city_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Paveletskaya_df.shape

(2203, 78)

In [None]:
Paveletskaya_df['Текст whisper-транскрибации записи звонка'][~Paveletskaya_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

1199                                                                                                                                                                    Здравствуйте, вы позвонили в компанию Эмэргрупп. Пожалуйста, дождитесь ответа нашего специалиста. Обращаем ваше внимание, что в целях улучшения качества обслуживания клиентов все разговоры записываются. Продолжая разговор, вы соглашаетесь на обработку ваших персональных данных. Компания Эмэргрупп. Светлана, здравствуйте. Алло. Алло.
1200                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     Здравств

In [None]:
Paveletskaya_df['Текст whisper-транскрибации записи звонка'].count()

1000

In [None]:
# Оставляем исходное количество записей
Paveletskaya_df = Paveletskaya_df[Paveletskaya_df['Дата и время'].notna()]

In [None]:
Paveletskaya_df['Текст whisper-транскрибации записи звонка'].count()

8

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Paveletskaya_city_df
Paveletskaya_city_df = Paveletskaya_city_df.merge(Paveletskaya_city_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Paveletskaya_city_df.shape

(9335, 78)

In [None]:
Paveletskaya_city_df['Текст whisper-транскрибации записи звонка'][~Paveletskaya_city_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

7871    Здравствуйте! Вы позвонили в компанию ЭМР-Групп. Пожалуйста, дождитесь ответа нашего специалиста. Обращаем ваше внимание, что в целях улучшения качества обслуживания клиентов все разговоры записываются. Продолжая разговор, вы соглашаетесь на обработку ваших персональных данных. Компания ЭМР-Групп, меня зовут Ольга, здравствуйте. Здравствуйте, Ольга, звонок от Румбери на линии Дмитрий, интересует Павелецкая сеть, 2-й квартал 23, встреча с тобой 3 евро, интересует около 60 квадратов, наличный расчет в бюджете около 30 плюс-минус. Да. Спасибо. Дмитрий? Да-да. Здравствуйте, мне сказали, что вас не стоит поискать Павелецкая сеть, это все верно? Да. Единственное, что я хотел сказать, знаете, что мы сможем с вами переговорить на эту тему, просто я буквально сейчас через несколько минут должен буду положить трубку. Если во вторник с утра, с первого дня, вы меня наберете по этому вопросу, можно будет так сделать? Так, во вторник, да? Да, и мне предварительно, если можно, скинуть локацию

In [None]:
Paveletskaya_city_df['Текст whisper-транскрибации записи звонка'].count()

1000

In [None]:
# Оставляем исходное количество записей
Paveletskaya_city_df = Paveletskaya_city_df[Paveletskaya_city_df['Дата и время'].notna()]

In [None]:
Paveletskaya_city_df['Текст whisper-транскрибации записи звонка'].count()

992

In [None]:
# Добавляем столбец 'Текст whisper-транскрибации записи звонка' в Paveletskaya_city_new_df
Paveletskaya_city_new_df = Paveletskaya_city_new_df.merge(Paveletskaya_city_new_transcriptions_df[['Идентификатор сессии звонка','Текст whisper-транскрибации записи звонка']], how='outer', on=['Идентификатор сессии звонка'])
Paveletskaya_city_new_df.shape

(1518, 78)

In [None]:
Paveletskaya_city_new_df['Текст whisper-транскрибации записи звонка'][~Paveletskaya_city_new_df['Текст whisper-транскрибации записи звонка'].isnull()].head()

0                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 Субтитры делал DimaTor

In [None]:
Paveletskaya_city_new_df['Текст whisper-транскрибации записи звонка'].count()

1413

In [None]:
print(Paveletskaya_df.shape)
print(Paveletskaya_city_df.shape)
print(Paveletskaya_city_new_df.shape)

(1211, 78)
(9327, 78)
(1518, 78)


In [None]:
# Сохраняем Paveletskaya_df в pkl
with open(df_path + 'Paveletskaya_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_df, f)

# Сохраняем Paveletskaya_city_df в pkl
with open(df_path + 'Paveletskaya_city_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_df, f)

# Сохраняем Paveletskaya_city_new_df в pkl
with open(df_path + 'Paveletskaya_city_new_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_new_df, f)

### Соединение датафреймов проекта `Headliner`

In [None]:
print(Headliner_df.shape)
print(Headliner_new_df.shape)

(4759, 78)
(1542, 78)


In [None]:
# Соединяем датафреймы
Headliner_all_df = pd.concat([Headliner_df, Headliner_new_df])
Headliner_all_df.index = range(Headliner_all_df.shape[0])
Headliner_all_df.shape

(6301, 78)

In [None]:
# Сохраняем Headliner_all_df в pkl
with open(df_path + 'Headliner_all_df.pkl', 'wb') as f:
  pkl.dump(Headliner_all_df, f)

In [None]:
# Рабочий датафрейм
Headliner_work_df = Headliner_all_df[Headliner_all_df['Файл записи звонка'].notna()]
Headliner_work_df = Headliner_work_df[Headliner_work_df['Класс'] != 'Неопределено']
Headliner_work_df.index = range(Headliner_work_df.shape[0])
Headliner_work_df.shape

(3264, 78)

In [None]:
# Сохраняем Headliner_work_df в pkl
with open(df_path + 'Headliner_work_df.pkl', 'wb') as f:
  pkl.dump(Headliner_work_df, f)

In [None]:
# Целевые звонки
Headliner_targets_df = Headliner_work_df[Headliner_work_df['Класс'] == 'Целевой']
Headliner_targets_df.index = range(Headliner_targets_df.shape[0])
Headliner_targets_df.shape

(549, 78)

In [None]:
# Сохраняем Headliner_targets_df в pkl
with open(df_path + 'Headliner_targets_df.pkl', 'wb') as f:
  pkl.dump(Headliner_targets_df, f)

In [None]:
# Нецелевые звонки
Headliner_not_targets_df = Headliner_work_df[Headliner_work_df['Класс'] == 'Нецелевой']
Headliner_not_targets_df.index = range(Headliner_not_targets_df.shape[0])
Headliner_not_targets_df.shape

(1082, 78)

In [None]:
# Сохраняем Headliner_not_targets_df в pkl
with open(df_path + 'Headliner_not_targets_df.pkl', 'wb') as f:
  pkl.dump(Headliner_not_targets_df, f)

In [None]:
# Спорные звонки
Headliner_moot_df = Headliner_work_df[Headliner_work_df['Класс'] == 'Спорный']
Headliner_moot_df.index = range(Headliner_moot_df.shape[0])
Headliner_moot_df.shape

(1633, 78)

In [None]:
# Сохраняем Headliner_moot_df в pkl
with open(df_path + 'Headliner_moot_df.pkl', 'wb') as f:
  pkl.dump(Headliner_moot_df, f)

### Соединение датафреймов проекта `Primavera`

In [None]:
print(Primavera_df.shape)
print(Primavera_new_df.shape)

(3972, 78)
(1523, 78)


In [None]:
# Соединяем датафреймы
Primavera_all_df = pd.concat([Primavera_df, Primavera_new_df])
Primavera_all_df.index = range(Primavera_all_df.shape[0])
Primavera_all_df.shape

(5495, 78)

In [None]:
# Сохраняем Primavera_all_df в pkl
with open(df_path + 'Primavera_all_df.pkl', 'wb') as f:
  pkl.dump(Primavera_all_df, f)

In [None]:
# Рабочий датафрейм
Primavera_work_df = Primavera_all_df[Primavera_all_df['Файл записи звонка'].notna()]
Primavera_work_df = Primavera_work_df[Primavera_work_df['Класс'] != 'Неопределено']
Primavera_work_df.index = range(Primavera_work_df.shape[0])
Primavera_work_df.shape

(2272, 78)

In [None]:
# Сохраняем Primavera_work_df в pkl
with open(df_path + 'Primavera_work_df.pkl', 'wb') as f:
  pkl.dump(Primavera_work_df, f)

In [None]:
# Целевые звонки
Primavera_targets_df = Primavera_work_df[Primavera_work_df['Класс'] == 'Целевой']
Primavera_targets_df.index = range(Primavera_targets_df.shape[0])
Primavera_targets_df.shape

(969, 78)

In [None]:
# Сохраняем Primavera_targets_df в pkl
with open(df_path + 'Primavera_targets_df.pkl', 'wb') as f:
  pkl.dump(Primavera_targets_df, f)

In [None]:
# Нецелевые звонки
Primavera_not_targets_df = Primavera_work_df[Primavera_work_df['Класс'] == 'Нецелевой']
Primavera_not_targets_df.index = range(Primavera_not_targets_df.shape[0])
Primavera_not_targets_df.shape

(1303, 78)

In [None]:
# Сохраняем Primavera_not_targets_df в pkl
with open(df_path + 'Primavera_not_targets_df.pkl', 'wb') as f:
  pkl.dump(Primavera_not_targets_df, f)

### Соединение датафреймов проекта `Paveletskaya_city`

In [None]:
print(Paveletskaya_df.shape)
print(Paveletskaya_city_df.shape)
print(Paveletskaya_city_new_df.shape)

(1211, 78)
(9327, 78)
(1518, 78)


In [None]:
# Соединяем датафреймы
Paveletskaya_city_all_df = pd.concat([Paveletskaya_df, Paveletskaya_city_df, Paveletskaya_city_new_df])
Paveletskaya_city_all_df.index = range(Paveletskaya_city_all_df.shape[0])
Paveletskaya_city_all_df.shape

(12056, 78)

In [None]:
# Сохраняем Paveletskaya_city_all_df в pkl
with open(df_path + 'Paveletskaya_city_all_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_all_df, f)

In [None]:
# Рабочий датафрейм
Paveletskaya_city_work_df = Paveletskaya_city_all_df[Paveletskaya_city_all_df['Файл записи звонка'].notna()]
Paveletskaya_city_work_df = Paveletskaya_city_work_df[Paveletskaya_city_work_df['Класс'] != 'Неопределено']
Paveletskaya_city_work_df.index = range(Paveletskaya_city_work_df.shape[0])
Paveletskaya_city_work_df.shape

(1388, 78)

In [None]:
# Сохраняем Paveletskaya_city_work_df в pkl
with open(df_path + 'Paveletskaya_city_work_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_work_df, f)

In [None]:
# Целевые звонки
Paveletskaya_city_targets_df = Paveletskaya_city_work_df[Paveletskaya_city_work_df['Класс'] == 'Целевой']
Paveletskaya_city_targets_df.index = range(Paveletskaya_city_targets_df.shape[0])
Paveletskaya_city_targets_df.shape

(786, 78)

In [None]:
# Сохраняем Paveletskaya_city_targets_df в pkl
with open(df_path + 'Paveletskaya_city_targets_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_targets_df, f)

In [None]:
# Нецелевые звонки
Paveletskaya_city_not_targets_df = Paveletskaya_city_work_df[Paveletskaya_city_work_df['Класс'] == 'Нецелевой']
Paveletskaya_city_not_targets_df.index = range(Paveletskaya_city_not_targets_df.shape[0])
Paveletskaya_city_not_targets_df.shape

(602, 78)

In [None]:
# Сохраняем Paveletskaya_city_not_targets_df в pkl
with open(df_path + 'Paveletskaya_city_not_targets_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_not_targets_df, f)

### Сводные датафреймы

#### `total_df`

In [None]:
# Соединяем датафреймы
total_df = pd.concat([Headliner_all_df, Primavera_all_df, Paveletskaya_city_all_df])
total_df.index = range(total_df.shape[0])
total_df.shape

(23852, 78)

In [None]:
# Сохраняем total_df в pkl
with open(df_path + 'total_df.pkl', 'wb') as f:
  pkl.dump(total_df, f)

#### `total_work_df`

In [None]:
# Соединяем датафреймы
total_work_df = pd.concat([Headliner_work_df, Primavera_work_df, Paveletskaya_city_work_df])
total_work_df.index = range(total_work_df.shape[0])
total_work_df.shape

(6924, 78)

In [None]:
# Сохраняем total_work_df в pkl
with open(df_path + 'total_work_df.pkl', 'wb') as f:
  pkl.dump(total_work_df, f)