# [Техническое задание](https://docs.google.com/document/d/1ZIu6daXZRuDR796AHjKCku643hlM3xgYxW9E84DBJFc/edit?usp=sharing)

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# [Датафреймы](https://drive.google.com/drive/folders/111abiHt33Q-SV48pBPhEgDCZDI5KshnF?usp=sharing)

## Headliner

*   [`Headliner_df.pkl` Информация о звонках `Headliner`](https://drive.google.com/file/d/13mUHwvx79O4P-AucRdjBYkN5ha8LnCSp/view?usp=sharing)
*   [`Headliner_new_df.pkl` Информация о новых звонках `Headliner`](https://drive.google.com/file/d/1-Q1BxLbot7svY5hiqOquHRFvSOcwtpKS/view?usp=sharing)

*   [`Headliner_calls_df.pkl` Файлы записей звонков `Headliner`](https://drive.google.com/file/d/13pmGEYacsEHjYsIsYgf6fg4MUHAw509y/view?usp=sharing)
*   [`Headliner_new_calls_df.pkl` Файлы записей новых звонков `Headliner`](https://drive.google.com/file/d/1-Ke1q42th_NV0og0e01_-mvJ8HL8JzfS/view?usp=sharing)
*   [`Headliner_transcriptions_df` Файлы транскрибации записей звонков `Headliner`](https://drive.google.com/file/d/1ThU49xWSv3T-HK61jRykOR3UDvOVeO4i/view?usp=sharing)
*   [`Headliner_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Headliner`](https://drive.google.com/file/d/1-BSmmymyVo8VYyvDXsO1ybXldOJ5eUaH/view?usp=sharing)

*   [`Headliner_all_df.pkl` Информация о всех звонках `Headliner`](https://drive.google.com/file/d/1857LwaVtJ364yFMpXemILSuVu84YEPPw/view?usp=sharing)
*   [`Headliner_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Headliner`](https://drive.google.com/file/d/1-HOWuSAngv9dXYiMlyRXX0kmVVAAT4sV/view?usp=sharing)
*   [`Headliner_targets_df.pkl` Целевые звонки `Headliner`](https://drive.google.com/file/d/1-J1gcgb2mrNDx3R_3l12kq0htS8PTkSv/view?usp=sharing)
*   [`Headliner_not_targets_df.pkl` Нецелевые звонки `Headliner`](https://drive.google.com/file/d/1dGf3UrVeQg0VfFhBL_lZfm-gaczPYBnL/view?usp=sharing)
*   [`Headliner_moot_df.pkl` Спорные звонки `Headliner`](https://drive.google.com/file/d/1-7vtN8vJNWgWfY8JE8bqoRXkUpvRE_og/view?usp=sharing)

*   [`Headliner_targets_train_df.pkl` Целевые звонки `Headliner` для обучающей выборки](https://drive.google.com/file/d/1mXwujIDOQ_wbP68pl60mEkPVm6dYJf9Y/view?usp=sharing)
*   [`Headliner_not_targets_train_df.pkl` Нецелевые звонки `Headliner` для обучающей выборки](https://drive.google.com/file/d/1-CvhJxwCVooN5_OcXUJAl519m76JOvbN/view?usp=sharing)
*   [`Headliner_moot_train_df.pkl` Спорные звонки `Headliner` для обучающей выборки](https://drive.google.com/file/d/1-KwRSk9Jrf5Get1dwFvHECmb26QDdhRa/view?usp=sharing)

*   [`Headliner_targets_test_df.pkl` Целевые звонки `Headliner` для тестовой выборки](https://drive.google.com/file/d/1-3bxOkIwEoSAXNjzE7wjZ8AhM4Z1-xfN/view?usp=sharing)
*   [`Headliner_not_targets_test_df.pkl` Нецелевые звонки `Headliner`для тестовой выборки](https://drive.google.com/file/d/1-DAv-KEY8APguoXgIgaonsb1fQ4rrMag/view?usp=sharing)
*   [`Headliner_moot_test_df.pkl` Спорные звонки `Headliner`для тестовой выборки](https://drive.google.com/file/d/1-Q-VwKTqoPZohQxBCZRFL-BvZXB7SJhc/view?usp=sharing)

## Primavera

*   [`Primavera_df.pkl` Информация о звонках `Primavera`](https://drive.google.com/file/d/1-3csPnjIJXviKJzvbpCfOm29nBgl8L4Q/view?usp=sharing)
*   [`Primavera_new_df.pkl` Информация о новых звонках `Primavera`](https://drive.google.com/file/d/1-QmWkabU2_cyrXPeVaiHSt2e6sLuiCtp/view?usp=sharing)

*   [`Primavera_calls_df.pkl` Файлы записей звонков `Primavera`](https://drive.google.com/file/d/1-CLRfPyaGSc61OopNuFRlWTG-CBCaM1F/view?usp=sharing)
*   [`Primavera_new_calls_df.pkl` Файлы записей новых звонков `Primavera`](https://drive.google.com/file/d/1-Lxa0KifMiByareL94rdEzEpvvMj4D1T/view?usp=sharing)
*   [`Primavera_transcriptions_df` Файлы транскрибации записей звонков `Primavera`](https://drive.google.com/file/d/1-21AcHmdkRhKmL0uwWOJ0jHyY8sj1tME/view?usp=sharing)
*   [`Primavera_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Primavera`](https://drive.google.com/file/d/1-BtSBVH2JXol5JDA0GKV4NOIz5WUnUd5/view?usp=sharing)

*   [`Primavera_all_df.pkl` Информация о всех звонках `Primavera`](https://drive.google.com/file/d/1-2-RlxkKHj5e6RkvbrN7_vs1h5aVXJFk/view?usp=sharing)
*   [`Primavera_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Primavera`](https://drive.google.com/file/d/1-INI9JsU9jsOkPDiGMKhftt18KXgF6-K/view?usp=sharing)
*   [`Primavera_targets_df.pkl` Целевые звонки `Primavera`](https://drive.google.com/file/d/1-JVtM9fOr6XoM7MVxkoVsYfwdZ6GQ--i/view?usp=sharing)
*   [`Primavera_not_targets_df.pkl` Нецелевые звонки `Primavera`](https://drive.google.com/file/d/1-KwG8M-0wEn-5C4ta-B8_xYGCXDOhpnH/view?usp=sharing)

*   [`Primavera_targets_train_df.pkl` Целевые звонки `Primavera` для обучающей выборки](https://drive.google.com/file/d/1WY910LSwTDTf_m7vtFk3z9FqXao0FhZX/view?usp=sharing)
*   [`Primavera_not_targets_train_df.pkl` Нецелевые звонки `Primavera` для обучающей выборки](https://drive.google.com/file/d/1-5TvmSizrXJHNXnfdbBafq8CjG65AiMG/view?usp=sharing)

*   [`Primavera_targets_test_df.pkl` Целевые звонки `Primavera` для тестовой выборки](https://drive.google.com/file/d/1-4s9BrHxpT_fzyXe4E03_GqGIFPZf9Io/view?usp=sharing)
*   [`Primavera_not_targets_test_df.pkl` Нецелевые звонки `Primavera`для тестовой выборки](https://drive.google.com/file/d/1-EOHhmMQ7SFhS51_rIh7UCwm68W18twC/view?usp=sharing)

## Paveletskaya_city

*   [`Paveletskaya_city_df.pkl` Информация о звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-99dLkSvU3wdwjkGJpwpYUXQjxx8dwEu/view?usp=sharing)
*   [`Paveletskaya_df.pkl` Информация о звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-D6LlCFXQBMHceujvnq9H8rlx2jAnzmT/view?usp=sharing)
*   [`Paveletskaya_city_new_df.pkl` Информация о новых звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-Rtw9a1no3mKatUjc_FNv_bgUBdNrs_d/view?usp=sharing)

*   [`Paveletskaya_city_calls_df.pkl` Файлы записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-JevsfOpxzLNZmSs34qrswhGzhPwf69S/view?usp=sharing)
*   [`Paveletskaya_city_new_calls_df.pkl` Файлы записей новых звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-ODEeFLv15DN5bfLlwyrTx8D3yxydhP9/view?usp=sharing)
*   [`Paveletskaya_city_transcriptions_df` Файлы транскрибации записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-2kqmIGIraP70ekXB6LBqNjwaTnoxyk5/view?usp=sharing)
*   [`Paveletskaya_city_new_transcriptions_df.pkl` Файлы транскрибации новых записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-EfA8ZCpGNQk__puhiv1FuxoZC0rXxpj/view?usp=sharing)

*   [`Paveletskaya_city_all_df.pkl` Информация о всех звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-Cy78DqRZ3sbIHkg25wzVWPL-lST5oQa/view?usp=sharing)
*   [`Paveletskaya_city_work_df.pkl` Рабочий датафрейм с информацией о всех звонках `Paveletskaya_city`](https://drive.google.com/file/d/1-J1BoALFH4-HRdVXjnkyr-fExmtQpUc7/view?usp=sharing)
*   [`Paveletskaya_city_targets_df.pkl` Целевые звонки `Paveletskaya_city`](https://drive.google.com/file/d/1-MrjnBHDj65CEjJxLfPnp-hq07V_wtZK/view?usp=sharing)
*   [`Paveletskaya_city_not_targets_df.pkl` Нецелевые звонки `Paveletskaya_city`](https://drive.google.com/file/d/1-WCCyYaorHkBYoh5ugNsCkD7cb1PKH6D/view?usp=sharing)

*   [`Paveletskaya_city_targets_train_df.pkl` Целевые звонки `Paveletskaya_city` для обучающей выборки](https://drive.google.com/file/d/1-E_xfQcc9vaGxEJSiUeiEp5fbxn-1bxZ/view?usp=sharing)
*   [`Paveletskaya_city_not_targets_train_df.pkl` Нецелевые звонки `Paveletskaya_city` для обучающей выборки](https://drive.google.com/file/d/1-XqcAK06ppsTLagZGpeXX96e2yhDt-iz/view?usp=sharing)

*   [`Paveletskaya_city_targets_test_df.pkl` Целевые звонки `Paveletskaya_city` для тестовой выборки](https://drive.google.com/file/d/1-VUl5bcPpEoEsQfyEQZyYy_ESrbx-sR1/view?usp=sharing)
*   [`Paveletskaya_city_not_targets_test_df.pkl` Нецелевые звонки `Paveletskaya_city`для тестовой выборки](https://drive.google.com/file/d/1-dCaZZ2NtvODY2KWwsEgwUOhdqD0Szkv/view?usp=sharing)

## Сводные датафреймы

*   [`total_df.pkl` Сводный датафрейм с информацией о всех звонках](https://drive.google.com/file/d/15ijhw62sp2JNH6pryqZtM5akQHUnsTzi/view?usp=sharing)
*   [`total_work_df.pkl` Сводный рабочий датафрейм с информацией о всех звонках](https://drive.google.com/file/d/1-056tLrjP5yRQW8yRtwutvXs3zmPulW7/view?usp=sharing)

*   [`train_df.pkl` Обучающая выборка](https://drive.google.com/file/d/1-nipawwiXKNPeMIE2nxlAOZCVK_5N89B/view?usp=sharing)
*   [`test_df.pkl` Тестовая выборка](https://drive.google.com/file/d/1-sLBh5rMAhVI7ps68eiSMEVfwjB7PNdT/view?usp=sharing)

# 11 неделя

## Демонстрация интеграции в `prod`

### head-liner.ru

In [None]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1-cPqoIlY56nNjeCVFN-j3YO-aTf8NdkS/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'tokenizer.pkl'

In [None]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/1-czQCHQMtlxdtdQVTla9LTGCFdVcX3JM/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'model_BoW.keras'

In [None]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1A3iuMNcDI_J7BlNvERDlmj90WMvMcPcR/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(4752, 72)

In [None]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1ynAu-3i0f1tS6UGqapmPGDFcJZLoCrAQ?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_хедлайнер/2023-05-08_10-41-56.911054_from_79250817178_to_74959339929_session_2928050751_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_11-43-52.513973_from_79827693228_to_0188880_session_2937971588_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-34-46.730988_from_79622801999_to_0188880_session_2928807121_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-35-55.567230_from_79622801999_to_0188880_session_2938080128_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-51-38.868213_from_74997040921_to_0188880_session_2928283255_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_13-50-28.475837_from_79279152761_to_79191089861_session_2928935657_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_13-52-16.157543_from_79279152761_to_79191089861_session_2928938049_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_14-16-30.536713_from_79261116646_to_0188880_session_2928975097_talk.mp3',
 '/content/Записи зв

In [None]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_хедлайнер'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_хедлайнер/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'head-liner.ru'

In [None]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'head-liner.ru']
df.shape

(50, 4)

In [None]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
4296,2932192025,Записи звонков_хедлайнер/2023-05-10_16-05-49.0...,head-liner.ru,спорный - нет соединения
4297,2941752812,Записи звонков_хедлайнер/2023-05-10_15-58-20.7...,head-liner.ru,Спам
4298,2921167086,Записи звонков_хедлайнер/2023-05-10_15-41-10.9...,head-liner.ru,спорный - нет соединения
4301,2931384623,Записи звонков_хедлайнер/2023-05-10_15-02-35.1...,head-liner.ru,Лид - 3 очередь - 2-ком - Условно целевой
4302,2931957661,Записи звонков_хедлайнер/2023-05-10_15-00-57.3...,head-liner.ru,Нецелевой звонок - ошибка


In [None]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [None]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/51.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m47.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m84.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.4/798.6 kB[0m [31m1.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━[0m [32m624.6/798.6 kB[0m [31m8.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m99.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m43.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m87.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import tensorflow as tf
tf.__version__

'2.14.0'

In [None]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model_BoW.keras')

with open('tokenizer.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)

  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  y_predict = model.predict(x_textdata_01)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [3375] using StatReload


In [None]:
import requests
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"output.json"}


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [3375] using StatReload
2023-12-27 16:29:25.012214: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-27 16:29:25.012261: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-27 16:29:25.012290: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▏                                    | 7.53M/1.42G [00:00<00:19, 78.7MiB/s

In [None]:
df = pd.read_json('output.json')
df.shape

(50, 5)

In [None]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,head-liner.ru,2932192025,спорный - нет соединения,Нецелевой,здравствуйте выпуску внею группу компании карт...
1,head-liner.ru,2941752812,Спам,Нецелевой,здравствуйте вы позвонили в группу компании б...
2,head-liner.ru,2921167086,спорный - нет соединения,Нецелевой,здравствуйте вы туда не ел в грунт
3,head-liner.ru,2931384623,Лид - 3 очередь - 2-ком - Условно целевой,Нецелевой,здравствуйте вы позвонили в группу компании б...
4,head-liner.ru,2931957661,Нецелевой звонок - ошибка,Нецелевой,здравствуйте вы позвонили в группу компании ка...
5,head-liner.ru,2931953205,спорный - нет соединения,Нецелевой,здравствуйте вы позвонили в группу компании ка...
6,head-liner.ru,2931941177,постпродажное обслуживание - Вторичный целевой,Нецелевой,здравствуйте вы позвонили в группу компании ка...
7,head-liner.ru,2920990562,Лид - 2 очередь - 3 очередь - 2-ком - Условно ...,Нецелевой,взява комплекса меня зовут наталья здравствуй...
8,head-liner.ru,2941565172,постпродажное обслуживание - Вторичный целевой,Нецелевой,здравствуйте скажите пожалуйста я переоформила...
9,head-liner.ru,2920974222,спорный - нет соединения,Нецелевой,здравствуйте вы позвонили в


In [1]:
!mv output.json head-liner.ru_output.json

### pavcity.turbo.site

In [2]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1-cPqoIlY56nNjeCVFN-j3YO-aTf8NdkS/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'tokenizer.pkl'

In [3]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/1-czQCHQMtlxdtdQVTla9LTGCFdVcX3JM/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'model_BoW.keras'

In [4]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1c4jlkuw2zWdeqr5FgBfHt4KaKtoMWQi0/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(1211, 74)

In [5]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1XwaXRApFWaqBSe0PGEkaMGT-EHH7OMtj?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_павелецкая сити/2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_17-21-57.195548_from_79094690999_to_74955141111_session_3030126641_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_19-11-06.505605_from_74950326372_to_0155649_session_3030256809_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-18_09-01-03.303353_from_74950326372_t

In [6]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_павелецкая сити'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_павелецкая сити/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'pavcity.turbo.site'

In [7]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'pavcity.turbo.site']
df.shape

(1, 4)

In [8]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
11,3032161583,Записи звонков_павелецкая сити/2023-06-19_11-2...,pavcity.turbo.site,


In [9]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [10]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/51.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m24.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [11]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m122.9/798.6 kB[0m [31m3.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━[0m [32m460.8/798.6 kB[0m [31m6.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m788.5/798.6 kB[0m [31m8.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m7.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [12]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━

In [13]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m93.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m45.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m83.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [14]:
import tensorflow as tf
tf.__version__

'2.14.0'

In [15]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model_BoW.keras')

with open('tokenizer.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)

  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  y_predict = model.predict(x_textdata_01)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [16]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [17]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [3155] using StatReload


In [27]:
import requests
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"output.json"}


In [28]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [3155] using StatReload
2023-12-28 04:56:23.273242: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-28 04:56:23.273312: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-28 04:56:23.273349: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▏                                    | 8.72M/1.42G [00:00<00:17, 87.4MiB/s

In [29]:
df = pd.read_json('output.json')
df.shape

(1, 5)

In [30]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,pavcity.turbo.site,3032161583,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...


In [31]:
!mv output.json pavcity.turbo.site_output.json

### pavcity.ru

In [1]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1-cPqoIlY56nNjeCVFN-j3YO-aTf8NdkS/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'tokenizer.pkl'

In [2]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/1-czQCHQMtlxdtdQVTla9LTGCFdVcX3JM/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'model_BoW.keras'

In [3]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1wC6aUm3Cq3G5EsQWnuVjc_-11wgJEaVl/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(9318, 74)

In [4]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1XwaXRApFWaqBSe0PGEkaMGT-EHH7OMtj?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_павелецкая сити/2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_17-21-57.195548_from_79094690999_to_74955141111_session_3030126641_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_19-11-06.505605_from_74950326372_to_0155649_session_3030256809_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-18_09-01-03.303353_from_74950326372_t

In [5]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_павелецкая сити'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_павелецкая сити/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'pavcity.ru'

In [6]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'pavcity.ru']
df.shape

(49, 4)

In [7]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
1394,3032998743,Записи звонков_павелецкая сити/2023-06-19_16-2...,pavcity.ru,Целевой_М108
1395,3032485270,Записи звонков_павелецкая сити/2023-06-19_15-5...,pavcity.ru,Целевой_М108
1396,3034442627,Записи звонков_павелецкая сити/2023-06-19_15-3...,pavcity.ru,
1397,3032007610,Записи звонков_павелецкая сити/2023-06-19_15-2...,pavcity.ru,
1398,3034046623,Записи звонков_павелецкая сити/2023-06-19_15-1...,pavcity.ru,


In [8]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [9]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m52.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m46.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [10]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.0/798.6 kB[0m [31m1.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━[0m [32m727.0/798.6 kB[0m [31m10.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [11]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m14.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [12]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m96.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m50.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m89.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [13]:
import tensorflow as tf
tf.__version__

'2.14.0'

In [14]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model_BoW.keras')

with open('tokenizer.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)

  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  y_predict = model.predict(x_textdata_01)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [15]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [17]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2327] using StatReload
2023-12-28 05:23:58.556289: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-28 05:23:58.556346: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-28 05:23:58.556372: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▏                                    | 9.51M/1.42G [00:00<00:15, 99.7MiB/s

In [18]:
import requests
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"output.json"}


In [19]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2327] using StatReload
2023-12-28 05:23:58.556289: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-28 05:23:58.556346: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-28 05:23:58.556372: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▏                                    | 9.51M/1.42G [00:00<00:15, 99.7MiB/s

In [20]:
df = pd.read_json('output.json')
df.shape

(49, 5)

In [21]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,pavcity.ru,3032998743,Целевой_М108,Целевой,здравствуйте вы позвонили в компанию пожалуй...
1,pavcity.ru,3032485270,Целевой_М108,Целевой,здравствуйте вы позвонили в компанию пожалуй...
2,pavcity.ru,3034442627,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...
3,pavcity.ru,3032007610,,Целевой,здравствуйте вы позвонили в компанию пожалуй...
4,pavcity.ru,3034046623,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...
5,pavcity.ru,3031650945,Коммерция_целевой_М108,Целевой,здравствуйте вы позвонили в компанию энерго по...
6,pavcity.ru,3032237258,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...
7,pavcity.ru,3031875985,,Целевой,здравствуйте вы позвонили в компанию пожалуй...
8,pavcity.ru,3032775068,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...
9,pavcity.ru,3032179333,Целевой_М108,Целевой,здравствуйте вы позвонили в компанию пожалуй...


In [22]:
!mv output.json pavcity.ru_output.json

### primavera.moscow

In [1]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1-cPqoIlY56nNjeCVFN-j3YO-aTf8NdkS/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'tokenizer.pkl'

In [2]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/1-czQCHQMtlxdtdQVTla9LTGCFdVcX3JM/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'model_BoW.keras'

In [3]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1_z2v1tNzn2fJgrpOPjQvNaCuZwX_xaQx/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(3425, 74)

In [4]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/185a1TyrQqJn-awPRDhkSt84mrqbbh2YF?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_primavera/2023-04-07_08-37-12.159811_from_79169245539_to_0197872_session_2861446698_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-00-04.708382_from_79687460888_to_0111639_session_2865154265_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-28-27.928753_from_74950210291_to_0111639_session_2867801356_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-36-01.910854_from_79175728295_to_0197879_session_2864741695_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-43-00.262473_from_74950210291_to_0111631_session_2867843688_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_10-17-04.570643_from_79150421943_to_0150111_session_2867948972_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_11-11-00.578033_from_79168630327_to_0197872_session_2861874202_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_11-39-20.205581_from_79168630327_to_0197878_session_2861973030_talk.mp3',
 '/content/Записи звонков_primav

In [5]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект', а также добавление отсутствующей информации о звонках из имени файла
import os
from datetime import datetime
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_primavera'):
  if df['Идентификатор сессии звонка'][df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].count():
    df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_primavera/' + sample_file
    df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'primavera.moscow'
  else:
    df.loc[len(df.index), ['Дата и время',
                           'Номер абонента',
                           'Номер сотрудника',
                           'Идентификатор сессии звонка',
                           'Файл записи звонка',
                           'Проект']] = [datetime.strptime(sample_file.split('_')[-9] + ' ' + sample_file.split('_')[-8], '%Y-%m-%d %H-%M-%S.%f'),
                                         int(sample_file.split('_')[-6]),
                                         int(sample_file.split('_')[-4]),
                                         int(sample_file.split('_')[-2]),
                                         'Записи звонков_primavera/' + sample_file,
                                         'primavera.moscow']
df['Дата и время'] = pd.to_datetime(df['Дата и время'])
df['Номер абонента'] = df['Номер абонента'].astype('int')
df['Номер сотрудника'] = df['Номер сотрудника'].fillna(0)
df['Номер сотрудника'] = df['Номер сотрудника'].astype('int')
df['Идентификатор сессии звонка'] = df['Идентификатор сессии звонка'].astype('int')
df['Тип посетителя'] = df['Тип посетителя'].astype('str')

In [6]:
df.loc[df[df['Проект'] == 'primavera.moscow'].index, ['Дата и время',
                                                      'Номер абонента',
                                                      'Номер сотрудника',
                                                      'Идентификатор сессии звонка',
                                                      'Файл записи звонка',
                                                      'Проект']].head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка,Проект
3425,2023-04-07 13:16:04.805425,79017716131,197878,2862271810,Записи звонков_primavera/2023-04-07_13-16-04.8...,primavera.moscow
3426,2023-04-09 11:23:06.783222,79259294806,150113,2864677594,Записи звонков_primavera/2023-04-09_11-23-06.7...,primavera.moscow
3427,2023-04-09 15:19:28.128262,79268827002,197872,2869145377,Записи звонков_primavera/2023-04-09_15-19-28.1...,primavera.moscow
3428,2023-04-09 11:14:57.304723,74950210291,197877,2871634600,Записи звонков_primavera/2023-04-09_11-14-57.3...,primavera.moscow
3429,2023-04-08 12:38:20.816535,79771397095,111639,2867264995,Записи звонков_primavera/2023-04-08_12-38-20.8...,primavera.moscow


In [7]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'primavera.moscow']
df.shape

(50, 4)

In [8]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
3425,2862271810,Записи звонков_primavera/2023-04-07_13-16-04.8...,primavera.moscow,
3426,2864677594,Записи звонков_primavera/2023-04-09_11-23-06.7...,primavera.moscow,
3427,2869145377,Записи звонков_primavera/2023-04-09_15-19-28.1...,primavera.moscow,
3428,2871634600,Записи звонков_primavera/2023-04-09_11-14-57.3...,primavera.moscow,
3429,2867264995,Записи звонков_primavera/2023-04-08_12-38-20.8...,primavera.moscow,


In [9]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [10]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m959.0 kB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m62.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m87.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [11]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/798.6 kB[0m [31m1.3 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m225.3/798.6 kB[0m [31m3.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [12]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━[0m [32m81.9/92.0 kB[0m [31m2.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━

In [13]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m100.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m44.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m61.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [14]:
import tensorflow as tf
tf.__version__

'2.14.0'

In [15]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model_BoW.keras')

with open('tokenizer.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)

  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  y_predict = model.predict(x_textdata_01)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [16]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [17]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [5013] using StatReload


In [37]:
import requests
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"output.json"}


In [38]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [5013] using StatReload
2023-12-28 06:13:38.308259: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-28 06:13:38.308315: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-28 06:13:38.308344: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▏                                    | 8.58M/1.42G [00:00<00:16, 89.9MiB/s

In [39]:
df = pd.read_json('output.json')
df.shape

(50, 5)

In [40]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,primavera.moscow,2862271810,,Нецелевой,добрый день глубный город на рейсте примавера ...
1,primavera.moscow,2864677594,,Целевой,здравствуйте юлия нас интересует живой комплек...
2,primavera.moscow,2869145377,,Целевой,клубный город на реке примавеера татьяна добры...
3,primavera.moscow,2871634600,,Нецелевой,доброе утро клубный город на реке примавера св...
4,primavera.moscow,2867264995,,Целевой,клубный город на реке примавер меня зовут ната...
5,primavera.moscow,2866661097,,Целевой,добрый день на линии клиент михаил бюджет до 2...
6,primavera.moscow,2869222273,,Целевой,клубный город на реке примоверда татьяна добры...
7,primavera.moscow,2867030845,,Целевой,клубный город на реке примаверо меня зовут нат...
8,primavera.moscow,2862605738,,Целевой,глубный город на реке примавер меня зовут ната...
9,primavera.moscow,2871099180,,Нецелевой,добрый вечер клубный город на реке фрамовера л...


In [41]:
!mv output.json primavera.moscow_output.json