# Техническое задание

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# 12 неделя

## Тесты по интеграции в `prod`

### API (`whisper`-транскрибация `sample_file.mp3`)

In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.8/220.8 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m68.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.2/798.6 kB[0m [31m2.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━[0m [32m706.6/798.6 kB[0m [31m10.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
import whisper

def transcribe(file_path):
    whisper_model = whisper.load_model('medium')
    print(whisper_model.transcribe(file_path, language='ru')['text'])

transcribe('sample_file.mp3')

100%|██████████████████████████████████████| 1.42G/1.42G [00:13<00:00, 110MiB/s]


 Здравствуйте, вы позвонили в группу компании Cartros. Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Группа компании Cartros, Татьяна, здравствуйте. Алло, Татьяна, здравствуйте. Как мне с вами из вашего отдела продаж что-то поговорить? Что-то у вас квартиру купить, право надо еще заслужить, я так понял, да? Я вас соединю тогда с менеджером. Минута осталось 15 минут. Андрей, здравствуйте, мне тут Антон слушает вас. Всем могу помочь? Да, Антон, здравствуйте. А мне бы на самом деле посмотреть квартиру. И наверное, по крайней мере, она нам нравится. Пару вопросов по ней задать. Да, какая квартира, Андрей? Сейчас скажу. Вот смотрите, я в фильтрах выбираю двухкомнатную она. На 51 этаже. Сейчас скажу ее номер. Номер. Да, либо номер. 341, 67 метров которая. Так, сейчас секундочку, Андрей. Поправится 39,309, правильно? Да, да, да. Андрей, смотрите. Вы мне подскажите пожалуйста, можно я вам сразу вопросы, которые вот входит? Да, конечно. Чем отличается вид на реку от ВАУ? Сей

In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
from fastapi import FastAPI
from pydantic import BaseModel
import whisper

class Item(BaseModel):
  file: str

app = FastAPI()

@app.post('/predict')
async def predict(item: Item):
  whisper_model = whisper.load_model('medium')
  sample_file = whisper_model.transcribe(item.file, language='ru')
  return {'result': sample_file}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [10921] using StatReload


In [None]:
import requests
response = requests.post('http://127.0.0.1:8000/predict', json={'file': 'sample_file.mp3'})
print(response.text)

{"result":{"text":" Здравствуйте, вы позвонили в группу компании Cartros. Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Группа компании Cartros, Татьяна, здравствуйте. Алло, Татьяна, здравствуйте. Как мне с вами из вашего отдела продаж что-то поговорить? Что-то у вас квартиру купить, право надо еще заслужить, я так понял, да? Я вас соединю тогда с менеджером. Минута осталось 15 минут. Андрей, здравствуйте, мне тут Антон слушает вас. Всем могу помочь? Да, Антон, здравствуйте. А мне бы на самом деле посмотреть квартиру. И наверное, по крайней мере, она нам нравится. Пару вопросов по ней задать. Да, какая квартира, Андрей? Сейчас скажу. Вот смотрите, я в фильтрах выбираю двухкомнатную она. На 51 этаже. Сейчас скажу ее номер. Номер. Да, либо номер. 341, 67 метров которая. Так, сейчас секундочку, Андрей. Поправится 39,309, правильно? Да, да, да. Андрей, смотрите. Вы мне подскажите пожалуйста, можно я вам сразу вопросы, которые вот входит? Да, конечно. Чем отличается вид 

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [10921] using StatReload
INFO:     Started server process [10923]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     127.0.0.1:33864 - "POST /predict HTTP/1.1" 200 OK


In [None]:
def transcribe(file_path):
    whisper_model = whisper.load_model('medium')
    print(whisper_model.transcribe(file_path, language='ru', verbose=True)['text'])

transcribe('sample_file.mp3')



[00:00.000 --> 00:03.640]  Здравствуйте, вы позвонили в группу компании Cartros.
[00:03.640 --> 00:05.520]  Благодарим вас за звонок.
[00:05.520 --> 00:08.000]  Пожалуйста, дождитесь ответа оператора.
[00:16.720 --> 00:20.080]  Группа компании Cartros, Татьяна, здравствуйте.
[00:20.080 --> 00:21.880]  Алло, Татьяна, здравствуйте.
[00:21.880 --> 00:24.640]  Как мне с вами из вашего отдела продаж что-то поговорить?
[00:24.640 --> 00:28.320]  Что-то у вас квартиру купить, право надо еще заслужить, я так понял, да?
[00:30.480 --> 00:32.480]  Я вас соединю тогда с менеджером.
[00:32.480 --> 00:34.480]  Минута осталось 15 минут.
[00:56.080 --> 00:58.080]  Андрей, здравствуйте, мне тут Антон слушает вас.
[00:58.160 --> 01:00.160]  Всем могу помочь?
[01:00.160 --> 01:02.160]  Да, Антон, здравствуйте.
[01:02.160 --> 01:04.160]  А мне бы на самом деле посмотреть квартиру.
[01:04.160 --> 01:08.160]  И наверное, по крайней мере, она нам нравится.
[01:08.160 --> 01:10.160]  Пару вопросов по ней зад

### Семплированная выборка из датасета

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Загрузка сводного датафрейма
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/rookie_total_df.csv')
df.shape

(23386, 77)

In [None]:
# Выбор необходимых столбцов
df = df[['Статус',
         'Тип',
         'Сайт',
         'Тип посетителя',
         'Сценарий',
         'Операции',
         'Тип устройства',
         'Первая рекламная кампания',
         'Чистая длительность разговора',
         'Номер обращения',
         'ID посетителя',
         'Идентификатор сессии звонка',
         'Файл записи звонка',
         'Класс',
         'Проект']][df['Файл записи звонка'] != 'нет файла'].sample(5)
df.shape

(5, 15)

In [None]:
df

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Класс,Проект
3763,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:14:15,1,0,3083061142,Записи звонков/Записи звонков_хедлайнер/2023-0...,Целевой,Headliner
21030,Принятый,Аналитика,primavera.moscow,Не заполнен,Обработка вызова 2023,Интерактивная обработка вызова 1,Прочее,Посетители без рекламной кампании,00:00:34,1,0,3230957576,Новые записи звонков/Записи Primavera/2023-09-...,Целевой,Primavera
20109,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:01:05,1,0,3251357547,Новые записи звонков/Записи Headliner/2023-09-...,Нецелевой,Headliner
21952,Принятый,Звонки из VK Ads,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,Прочее,Media108 | Павелецкая Сити | social | VK Ads,00:00:17,2,7558036959,3160197614,Новые записи звонков/Записи Павелецкая сити/20...,Нецелевой,Paveletskaya_city
7322,Принятый,Звонок ВАТС,primavera.moscow,Не заполнен,Обработка вызова 2023,"Интерактивная обработка вызова 1, Интерактивна...",Прочее,Посетители без рекламной кампании,00:02:16,1,0,3075218173,Записи звонков/Записи звонков_primavera/2023-0...,Нецелевой,Primavera


In [None]:
# Добавление столбца 'ID проекта'
df['ID проекта'] = 0
df.loc[df[df['Проект'] == 'Headliner'].index, 'ID проекта'] = 1
df.loc[df[df['Проект'] == 'Primavera'].index, 'ID проекта'] = 2

In [None]:
# Очистка от '{}' значений столбца 'Тип посетителя'
df['Тип посетителя'] = df['Тип посетителя'].apply(lambda x: x.strip('{}'))

In [None]:
# Очистка от '{}' значений столбца 'Первая рекламная кампания'
df['Первая рекламная кампания'] = df['Первая рекламная кампания'].apply(lambda x: x.strip('{}'))

In [None]:
# Переводим значения столбца 'Чистая длительность разговора' в количество секунд
df['Чистая длительность разговора'] = pd.to_datetime(df['Чистая длительность разговора']).dt.time
df['Чистая длительность разговора'] = df['Чистая длительность разговора'].apply(lambda x: x.hour*60*60 + x.minute*60 + x.second)

In [None]:
# Типы данных
df.dtypes

Статус                           object
Тип                              object
Сайт                             object
Тип посетителя                   object
Сценарий                         object
Операции                         object
Тип устройства                   object
Первая рекламная кампания        object
Чистая длительность разговора     int64
Номер обращения                   int64
ID посетителя                     int64
Идентификатор сессии звонка       int64
Файл записи звонка               object
Класс                            object
Проект                           object
ID проекта                        int64
dtype: object

In [None]:
df

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Класс,Проект,ID проекта
3763,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,855,1,0,3083061142,Записи звонков/Записи звонков_хедлайнер/2023-0...,Целевой,Headliner,1
21030,Принятый,Аналитика,primavera.moscow,Не заполнен,Обработка вызова 2023,Интерактивная обработка вызова 1,Прочее,Посетители без рекламной кампании,34,1,0,3230957576,Новые записи звонков/Записи Primavera/2023-09-...,Целевой,Primavera,2
20109,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,65,1,0,3251357547,Новые записи звонков/Записи Headliner/2023-09-...,Нецелевой,Headliner,1
21952,Принятый,Звонки из VK Ads,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,Прочее,Media108 | Павелецкая Сити | social | VK Ads,17,2,7558036959,3160197614,Новые записи звонков/Записи Павелецкая сити/20...,Нецелевой,Paveletskaya_city,0
7322,Принятый,Звонок ВАТС,primavera.moscow,Не заполнен,Обработка вызова 2023,"Интерактивная обработка вызова 1, Интерактивна...",Прочее,Посетители без рекламной кампании,136,1,0,3075218173,Записи звонков/Записи звонков_primavera/2023-0...,Нецелевой,Primavera,2


In [None]:
# Сохранение датафрейма
df.to_csv('/content/drive/MyDrive/media108.ru/Датафреймы/test_data_df.csv', index=False)

In [None]:
# Сохранение в json
df.to_json('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json', orient='records', force_ascii=False)

In [None]:
!cat /content/drive/MyDrive/media108.ru/Датафреймы/test_data.json

[{"Статус":"Принятый","Тип":"Звонок ВАТС","Сайт":"head-liner.ru","Тип посетителя":"Не заполнен","Сценарий":"Кортрос","Операции":"Переадресация 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":855,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3083061142,"Файл записи звонка":"Записи звонков\/Записи звонков_хедлайнер\/2023-07-11_16-18-51.610373_from_79263731436_to_0188880_session_3083061142_talk.mp3","Класс":"Целевой","Проект":"Headliner","ID проекта":1},{"Статус":"Принятый","Тип":"Аналитика","Сайт":"primavera.moscow","Тип посетителя":"Не заполнен","Сценарий":"Обработка вызова 2023","Операции":"Интерактивная обработка вызова 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":34,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3230957576,"Файл записи звонка":"Новые записи звонков\/Записи Primavera\/202

### API (`upload` `json`)

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
import pandas as pd
from io import BytesIO
from fastapi import FastAPI, File

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):
  df = pd.read_json(BytesIO(json_file))
  return {'result': str(df.shape)}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2480] using StatReload
INFO:     Started server process [2482]
INFO:     Waiting for application startup.
INFO:     Application startup complete.


In [None]:
import requests
files = {'json_file': open('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"(5, 16)"}


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2480] using StatReload
INFO:     Started server process [2482]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     127.0.0.1:35698 - "POST /predict HTTP/1.1" 200 OK


### `Whisper`-транскрибация записей звонков из `json`-файла

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.8/220.8 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m61.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m103.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━[0m [32m491.5/798.6 kB[0m [31m14.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m16.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
import pandas as pd
df = pd.read_json('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json')
df.shape

(5, 16)

In [None]:
import whisper
whisper_model = whisper.load_model('medium')

100%|█████████████████████████████████████| 1.42G/1.42G [00:20<00:00, 75.6MiB/s]


In [None]:
'/content/drive/MyDrive/media108.ru/Датасет/' + df.loc[0,'Файл записи звонка']

'/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-07-11_16-18-51.610373_from_79263731436_to_0188880_session_3083061142_talk.mp3'

In [None]:
for i in range(df.shape[0]):
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe('/content/drive/MyDrive/media108.ru/Датасет/' + df.loc[i,'Файл записи звонка'], language='ru')['text']

In [None]:
df['Транскрибация файла записи звонка']

0     Здравствуйте, вы позвонили в группу компании ...
1     Я пришла к вам в МАР и меня зовут Люля. Добры...
2     Здравствуйте, вы позвонили в группу компании ...
3     – Здравствуйте, это компания «Мэргрупп». Меня...
4     Здравствуйте. Кловный город на реке Примаверо...
Name: Транскрибация файла записи звонка, dtype: object

In [None]:
df.to_json('/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json', orient='records', force_ascii=False)

In [None]:
!cat '/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json'

[{"Статус":"Принятый","Тип":"Звонок ВАТС","Сайт":"head-liner.ru","Тип посетителя":"Не заполнен","Сценарий":"Кортрос","Операции":"Переадресация 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":855,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3083061142,"Файл записи звонка":"Записи звонков\/Записи звонков_хедлайнер\/2023-07-11_16-18-51.610373_from_79263731436_to_0188880_session_3083061142_talk.mp3","Класс":"Целевой","Проект":"Headliner","ID проекта":1,"Транскрибация файла записи звонка":" Здравствуйте, вы позвонили в группу компании Cartros. Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Группа компании Cartros, Тащиану, здравствуйте. Тащиан, а добрый день. На линии клиент Анна, хедлайнер 4-комнатная, бюджет 47 максимум. Возьмите звоночек. Да, спасибо, сахиба, ты, Тащиан. Алло, Анна, здравствуйте, меня зовут Влада, менеджер отдела продаж, что я могу помочь вам? Меня интер

### API (`whisper`-транскрибация записей звонков из `json`-файла)

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.8/220.8 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m75.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m84.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/798.6 kB[0m [31m707.2 kB/s[0m eta [36m0:00:02[0m[2K     [91m━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m256.0/798.6 kB[0m [31m3.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m3.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
import whisper
import pandas as pd
from io import BytesIO
from fastapi import FastAPI, File

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):
  df = pd.read_json(BytesIO(json_file))
  whisper_model = whisper.load_model('medium')
  for i in range(df.shape[0]):
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe('/content/drive/MyDrive/media108.ru/Датасет/' + df.loc[i,'Файл записи звонка'], language='ru')['text']
  df.to_json('/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json', orient='records', force_ascii=False)
  return {'result': '/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1860] using StatReload


In [None]:
import requests
files = {'json_file': open('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)

{"result":"/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json"}


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1860] using StatReload
INFO:     Started server process [1862]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▎                                     | 11.5M/1.42G [00:00<00:12, 120MiB/s]  2%|▌                                     | 23.4M/1.42G [00:00<00:12, 122MiB/s]  3%|▉                                     | 36.5M/1.42G [00:00<00:11, 129MiB/s]  3%|█▎                                    | 49.3M/1.42G [00:00<00:11, 131MiB/s]  4%|█▌                                    | 61.8M/1.42G [00:00<00:11, 128MiB/s]  5%|█▉                                    | 74.0M/1.42G [00:00<00:11, 126MiB/s]  6%|██▏                                   | 86.0M/1.42G [00:00<00:13, 105MiB/s]  7%|██▌                   

In [None]:
!cat '/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json'

[{"Статус":"Принятый","Тип":"Звонок ВАТС","Сайт":"head-liner.ru","Тип посетителя":"Не заполнен","Сценарий":"Кортрос","Операции":"Переадресация 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":855,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3083061142,"Файл записи звонка":"Записи звонков\/Записи звонков_хедлайнер\/2023-07-11_16-18-51.610373_from_79263731436_to_0188880_session_3083061142_talk.mp3","Класс":"Целевой","Проект":"Headliner","ID проекта":1,"Транскрибация файла записи звонка":" Здравствуйте, вы позвонили в группу компании Cartros. Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Группа компании Cartros, Тащиану, здравствуйте. Тащиан, а добрый день. На линии клиент Анна, хедлайнер 4-комнатная, бюджет 47 максимум. Возьмите звоночек. Да, спасибо, сахиба, ты, Тащиан. Алло, Анна, здравствуйте, меня зовут Влада, менеджер отдела продаж, что я могу помочь вам? Меня интер

### Классификация звонков из семплированной выборки (`medium`)

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.9/220.9 kB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m42.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m104.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m143.4/798.6 kB[0m [31m4.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Загрузка информации о звонках
import pandas as pd
df = pd.read_json('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json')
df.shape

(5, 16)

In [None]:
# Загрузка транскрибатора
import whisper
whisper_model = whisper.load_model('medium')

100%|██████████████████████████████████████| 1.42G/1.42G [00:14<00:00, 103MiB/s]


In [None]:
# Транскрибация записей звонков
for i in range(df.shape[0]):
  df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe('/content/drive/MyDrive/media108.ru/Датасет/' + df.loc[i,'Файл записи звонка'], language='ru', beam_size=5, best_of=5)['text']

In [None]:
# Обработка транскрибации
import re
import numpy as np
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)
df['Транскрибация файла записи звонка']

0    здравствуйте вы позвонили в группу компании  б...
1    добрый день юлия я нахожусь рядом с вашим авиа...
2    здравствуйте вы позвонили в группу компании  б...
3    алло  здравствуйте я с компанией мэргрупп меня...
4    здравствуйте кловный город на реке примаверо м...
Name: Транскрибация файла записи звонка, dtype: object

In [None]:
# Загрузка токенайзера
import pickle as pkl
with open('/content/drive/MyDrive/media108.ru/Модели/model9_2_tokenizer_txt.pkl', 'rb') as f:
  tokenizer_txt = pkl.load(f)

In [None]:
# Получение матрицы BOW
txt_list = df['Транскрибация файла записи звонка'].tolist()
txt_bow = tokenizer_txt.texts_to_matrix(txt_list)
txt_bow.shape

(5, 35000)

In [None]:
# Загрузка энкодеров
with open('/content/drive/MyDrive/media108.ru/Модели/model9_2_encoders.pkl', 'rb') as f:
  encoders = pkl.load(f)

In [None]:
# Получение матрицы ОНЕ
from tensorflow.keras import utils
col_to_ohe = ['Статус', 'Тип', 'Сайт', 'Тип посетителя', 'Сценарий', 'Операции', 'Тип устройства', 'Первая рекламная кампания']
df[col_to_ohe] = df[col_to_ohe].fillna('Нет данных')
list_code = []
for i in range(len(col_to_ohe)):
  encoder = encoders[col_to_ohe[i]]
  list_code.append(utils.to_categorical(encoder.transform(df[col_to_ohe[i]].tolist()), len(encoder.classes_)))
OHE_data = np.hstack(list_code)
OHE_data = OHE_data.astype('float32')
OHE_data.shape

(5, 175)

In [None]:
# Получение массива числовых данных
digit_col = ['Чистая длительность разговора', 'Номер обращения', 'ID посетителя']
df[digit_col] = df[digit_col].fillna(0)
df['ID посетителя'] = df['ID посетителя']/100000000 # понижение разрядности для более плавной нормализации
x_data = np.array(df[digit_col].values)
x_data = x_data.astype('float32')
max_val = x_data.max()
x_data = x_data/max_val
x_data.shape

(5, 3)

In [None]:
# Загрузка модели нейронной сети
from tensorflow.keras.saving import load_model
model = load_model('/content/drive/MyDrive/media108.ru/Модели/model9_2.h5')

In [None]:
# Предсказание классификации звонков
y_pred = model.predict({'input_x1':txt_bow,'input_x2':OHE_data,'input_x3':x_data}, batch_size=txt_bow.shape[0])
y_pred



array([[0.88860464],
       [0.15365793],
       [0.3085338 ],
       [0.01800289],
       [0.56672794]], dtype=float32)

In [None]:
# Добавление в датафрейм столбца 'Предсказание класса'
for i in range(df.shape[0]):
  df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_pred[i][0]) else 'Нецелевой'
df[['ID проекта', 'Проект', 'Класс', 'Предсказание класса']]

Unnamed: 0,ID проекта,Проект,Класс,Предсказание класса
0,1,Headliner,Целевой,Целевой
1,2,Primavera,Целевой,Нецелевой
2,1,Headliner,Нецелевой,Нецелевой
3,0,Paveletskaya_city,Нецелевой,Нецелевой
4,2,Primavera,Нецелевой,Целевой


In [None]:
# Запись json-файла с предсказанием класса
df[['ID проекта', 'Проект', 'Класс', 'Предсказание класса']].to_json('/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json', orient='records', force_ascii=False)

In [None]:
!cat '/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json'

[{"ID проекта":1,"Проект":"Headliner","Класс":"Целевой","Предсказание класса":"Целевой"},{"ID проекта":2,"Проект":"Primavera","Класс":"Целевой","Предсказание класса":"Нецелевой"},{"ID проекта":1,"Проект":"Headliner","Класс":"Нецелевой","Предсказание класса":"Нецелевой"},{"ID проекта":0,"Проект":"Paveletskaya_city","Класс":"Нецелевой","Предсказание класса":"Нецелевой"},{"ID проекта":2,"Проект":"Primavera","Класс":"Нецелевой","Предсказание класса":"Целевой"}]

### Классификация звонков из семплированной выборки (`large`)

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.9/220.9 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m65.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m71.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━[0m [32m358.4/798.6 kB[0m [31m11.1 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Загрузка информации о звонках
import pandas as pd
df = pd.read_json('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json')
df.shape

(5, 16)

In [None]:
# Загрузка транскрибатора
import whisper
whisper_model = whisper.load_model('large')

100%|█████████████████████████████████████| 2.88G/2.88G [00:36<00:00, 84.2MiB/s]


In [None]:
# Транскрибация записей звонков
for i in range(df.shape[0]):
  df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe('/content/drive/MyDrive/media108.ru/Датасет/' + df.loc[i,'Файл записи звонка'], language='ru', beam_size=5, best_of=5)['text']

In [None]:
# Обработка транскрибации
import re
import numpy as np
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: s.strip())
df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)
df['Транскрибация файла записи звонка']

0    здравствуйте вы позвонили в группу компании ка...
1                     субтитры сделал  субтитры сделал
2    здравствуйте вы позвонили в группу компании ка...
3    алло здравствуйте это компания мэр групп меня ...
4    здравствуйте клубный город на реке примавера м...
Name: Транскрибация файла записи звонка, dtype: object

In [None]:
# Загрузка токенайзера
import pickle as pkl
with open('/content/drive/MyDrive/media108.ru/Модели/model9_2_tokenizer_txt.pkl', 'rb') as f:
  tokenizer_txt = pkl.load(f)

In [None]:
# Получение матрицы BOW
txt_list = df['Транскрибация файла записи звонка'].tolist()
txt_bow = tokenizer_txt.texts_to_matrix(txt_list)
txt_bow.shape

(5, 35000)

In [None]:
# Загрузка энкодеров
with open('/content/drive/MyDrive/media108.ru/Модели/model9_2_encoders.pkl', 'rb') as f:
  encoders = pkl.load(f)

In [None]:
# Получение матрицы ОНЕ
from tensorflow.keras import utils
col_to_ohe = ['Статус', 'Тип', 'Сайт', 'Тип посетителя', 'Сценарий', 'Операции', 'Тип устройства', 'Первая рекламная кампания']
df[col_to_ohe] = df[col_to_ohe].fillna('Нет данных')
list_code = []
for i in range(len(col_to_ohe)):
  encoder = encoders[col_to_ohe[i]]
  list_code.append(utils.to_categorical(encoder.transform(df[col_to_ohe[i]].tolist()), len(encoder.classes_)))
OHE_data = np.hstack(list_code)
OHE_data = OHE_data.astype('float32')
OHE_data.shape

(5, 175)

In [None]:
# Получение массива числовых данных
digit_col = ['Чистая длительность разговора', 'Номер обращения', 'ID посетителя']
df[digit_col] = df[digit_col].fillna(0)
df['ID посетителя'] = df['ID посетителя']/100000000 # понижение разрядности для более плавной нормализации
x_data = np.array(df[digit_col].values)
x_data = x_data.astype('float32')
max_val = x_data.max()
x_data = x_data/max_val
x_data.shape

(5, 3)

In [None]:
# Загрузка модели нейронной сети
from tensorflow.keras.saving import load_model
model = load_model('/content/drive/MyDrive/media108.ru/Модели/model9_2.h5')

In [None]:
# Предсказание классификации звонков
y_pred = model.predict({'input_x1':txt_bow,'input_x2':OHE_data,'input_x3':x_data}, batch_size=txt_bow.shape[0])
y_pred



array([[0.9190417 ],
       [0.06179652],
       [0.0580783 ],
       [0.05579747],
       [0.60567665]], dtype=float32)

In [None]:
# Добавление в датафрейм столбца 'Предсказание класса'
for i in range(df.shape[0]):
  df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_pred[i][0]) else 'Нецелевой'
df[['ID проекта', 'Проект', 'Класс', 'Предсказание класса']]

Unnamed: 0,ID проекта,Проект,Класс,Предсказание класса
0,1,Headliner,Целевой,Целевой
1,2,Primavera,Целевой,Нецелевой
2,1,Headliner,Нецелевой,Нецелевой
3,0,Paveletskaya_city,Нецелевой,Нецелевой
4,2,Primavera,Нецелевой,Целевой


In [None]:
# Запись json-файла с предсказанием класса
df[['ID проекта', 'Проект', 'Класс', 'Предсказание класса']].to_json('/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json', orient='records', force_ascii=False)

In [None]:
!cat '/content/drive/MyDrive/media108.ru/Датафреймы/predict_test_data.json'

[{"ID проекта":1,"Проект":"Headliner","Класс":"Целевой","Предсказание класса":"Целевой"},{"ID проекта":2,"Проект":"Primavera","Класс":"Целевой","Предсказание класса":"Нецелевой"},{"ID проекта":1,"Проект":"Headliner","Класс":"Нецелевой","Предсказание класса":"Нецелевой"},{"ID проекта":0,"Проект":"Paveletskaya_city","Класс":"Нецелевой","Предсказание класса":"Нецелевой"},{"ID проекта":2,"Проект":"Primavera","Класс":"Нецелевой","Предсказание класса":"Целевой"}]

## Демонстрация интеграции в `prod`

### head-liner.ru

In [None]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1Pjsm9ozkoouo_znt--4J4t_bJW9ZJoMe/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2_tokenizer_txt.pkl'

In [None]:
# Загрузка энкодеров
url = 'https://drive.google.com/file/d/1-3KOQpN1gtKmaNcwCvAHdK6NtMVxPOKu/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2_encoders.pkl'

In [None]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/10PbDY-XLNV7CM-xRu5fvN3ziD0s3Qs1p/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2.h5'

In [None]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1A3iuMNcDI_J7BlNvERDlmj90WMvMcPcR/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(4752, 72)

In [None]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1ynAu-3i0f1tS6UGqapmPGDFcJZLoCrAQ?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_хедлайнер/2023-05-08_10-41-56.911054_from_79250817178_to_74959339929_session_2928050751_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_11-43-52.513973_from_79827693228_to_0188880_session_2937971588_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-34-46.730988_from_79622801999_to_0188880_session_2928807121_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-35-55.567230_from_79622801999_to_0188880_session_2938080128_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_12-51-38.868213_from_74997040921_to_0188880_session_2928283255_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_13-50-28.475837_from_79279152761_to_79191089861_session_2928935657_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_13-52-16.157543_from_79279152761_to_79191089861_session_2928938049_talk.mp3',
 '/content/Записи звонков_хедлайнер/2023-05-08_14-16-30.536713_from_79261116646_to_0188880_session_2928975097_talk.mp3',
 '/content/Записи зв

In [None]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_хедлайнер'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_хедлайнер/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'head-liner.ru'

In [None]:
df.loc[df[df['Проект'] == 'head-liner.ru'].index, ['Идентификатор сессии звонка', 'Файл записи звонка', 'Проект']].head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект
4296,2932192025,Записи звонков_хедлайнер/2023-05-10_16-05-49.0...,head-liner.ru
4297,2941752812,Записи звонков_хедлайнер/2023-05-10_15-58-20.7...,head-liner.ru
4298,2921167086,Записи звонков_хедлайнер/2023-05-10_15-41-10.9...,head-liner.ru
4301,2931384623,Записи звонков_хедлайнер/2023-05-10_15-02-35.1...,head-liner.ru
4302,2931957661,Записи звонков_хедлайнер/2023-05-10_15-00-57.3...,head-liner.ru


In [None]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Статус',
         'Тип',
         'Сайт',
         'Тип посетителя',
         'Сценарий',
         'Операции',
         'Тип устройства',
         'Первая рекламная кампания',
         'Чистая длительность разговора',
         'Номер обращения',
         'ID посетителя',
         'Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'head-liner.ru']
df.shape

(50, 15)

In [None]:
df.head()

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
4296,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,.Последовательный обзвон,"Переадресация на последнего менеджера 1, Переа...",Прочее,Посетители без рекламной кампании,00:00:21,1,,2932192025,Записи звонков_хедлайнер/2023-05-10_16-05-49.0...,head-liner.ru,спорный - нет соединения
4297,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:00:10,1,,2941752812,Записи звонков_хедлайнер/2023-05-10_15-58-20.7...,head-liner.ru,Спам
4298,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:00:03,1,,2921167086,Записи звонков_хедлайнер/2023-05-10_15-41-10.9...,head-liner.ru,спорный - нет соединения
4301,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:02:07,9,,2931384623,Записи звонков_хедлайнер/2023-05-10_15-02-35.1...,head-liner.ru,Лид - 3 очередь - 2-ком - Условно целевой
4302,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,.Последовательный обзвон,Переадресация на последнего менеджера 1,Прочее,Посетители без рекламной кампании,00:00:53,2,,2931957661,Записи звонков_хедлайнер/2023-05-10_15-00-57.3...,head-liner.ru,Нецелевой звонок - ошибка


In [None]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [None]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m849.0 kB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m17.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m51.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/798.6 kB[0m [31m1.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.6/798.6 kB[0m [31m1.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.4/798.6 kB[0m [31m2.8 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━[0m [32m757.8/798.6 kB[0m [31m5.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai

In [None]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model9_2.h5')

with open('model9_2_tokenizer_txt.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

with open('model9_2_encoders.pkl', 'rb') as f:
  encoders = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.strip()
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)
  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  ohedata = []
  for column in ['Статус', 'Тип', 'Сайт', 'Тип посетителя', 'Сценарий', 'Операции', 'Тип устройства', 'Первая рекламная кампания']:
    df[column] = df[column].fillna('Нет данных')
    df[column] = df[column].apply(lambda s: 'Нет данных' if s == '' else str(s))
    df[column] = df[column].apply(lambda s: s.strip('{}'))
    encoder = encoders[column]
    ohedata.append(to_categorical(encoder.transform(df[column].tolist()), len((encoder.classes_))))
  x_ohedata = np.hstack(ohedata).astype('float32')

  df['Чистая длительность разговора'] = pd.to_datetime(df['Чистая длительность разговора']).dt.time
  df['Чистая длительность разговора'] = df['Чистая длительность разговора'].apply(lambda x: x.hour*60*60 + x.minute*60 + x.second)
  df['ID посетителя'] = df['ID посетителя'].fillna('0').astype('float')/1e8
  x_numericdata = df[['Чистая длительность разговора', 'Номер обращения', 'ID посетителя']].values.astype('float32')
  x_numericdata = x_numericdata/x_numericdata.max()

  y_predict = model.predict({'input_x1': x_textdata_01, 'input_x2': x_ohedata, 'input_x3': x_numericdata})
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1878] using StatReload
2023-12-29 04:38:11.503880: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 04:38:11.503939: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 04:38:11.505278: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 04:38:11.512453: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performanc

In [None]:
import time
import requests
start_time = time.time()
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)
processing_time = int(time.time() - start_time)
print(f'\nВремя обработки запроса: {int(processing_time//60)} мин {int(processing_time%60)} сек.')

{"result":"output.json"}

Время обработки запроса: 21 мин 36 сек.


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1878] using StatReload
2023-12-29 04:38:11.503880: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 04:38:11.503939: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 04:38:11.505278: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 04:38:11.512453: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performanc

In [None]:
df = pd.read_json('output.json')
df.shape

(50, 5)

In [None]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,head-liner.ru,2932192025,спорный - нет соединения,Нецелевой,здравствуйте выпуску внею группу компании карт...
1,head-liner.ru,2941752812,Спам,Нецелевой,здравствуйте вы позвонили в группу компании б...
2,head-liner.ru,2921167086,спорный - нет соединения,Нецелевой,здравствуйте вы туда не ел в грунт
3,head-liner.ru,2931384623,Лид - 3 очередь - 2-ком - Условно целевой,Нецелевой,здравствуйте вы позвонили в группу компании б...
4,head-liner.ru,2931957661,Нецелевой звонок - ошибка,Нецелевой,здравствуйте вы позвонили в группу компании ка...
5,head-liner.ru,2931953205,спорный - нет соединения,Нецелевой,здравствуйте вы позвонили в группу компании ка...
6,head-liner.ru,2931941177,постпродажное обслуживание - Вторичный целевой,Нецелевой,здравствуйте вы позвонили в группу компании ка...
7,head-liner.ru,2920990562,Лид - 2 очередь - 3 очередь - 2-ком - Условно ...,Целевой,взява комплекса меня зовут наталья здравствуй...
8,head-liner.ru,2941565172,постпродажное обслуживание - Вторичный целевой,Нецелевой,здравствуйте скажите пожалуйста я переоформила...
9,head-liner.ru,2920974222,спорный - нет соединения,Нецелевой,здравствуйте вы позвонили в


In [None]:
!mv output.json head-liner.ru_output.json

### pavcity.turbo.site

In [None]:
# Загрузка токенайзера
import gdown
url = 'https://drive.google.com/file/d/1Pjsm9ozkoouo_znt--4J4t_bJW9ZJoMe/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2_tokenizer_txt.pkl'

In [None]:
# Загрузка энкодеров
url = 'https://drive.google.com/file/d/1-3KOQpN1gtKmaNcwCvAHdK6NtMVxPOKu/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2_encoders.pkl'

In [None]:
# Загрузка модели нейронной сети
url = 'https://drive.google.com/file/d/10PbDY-XLNV7CM-xRu5fvN3ziD0s3Qs1p/view?usp=drive_link'
gdown.download(url, quiet=True, fuzzy=True)

'model9_2.h5'

In [None]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1c4jlkuw2zWdeqr5FgBfHt4KaKtoMWQi0/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(1211, 74)

In [None]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1XwaXRApFWaqBSe0PGEkaMGT-EHH7OMtj?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_павелецкая сити/2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_17-21-57.195548_from_79094690999_to_74955141111_session_3030126641_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_19-11-06.505605_from_74950326372_to_0155649_session_3030256809_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-18_09-01-03.303353_from_74950326372_t

In [None]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_павелецкая сити'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_павелецкая сити/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'pavcity.turbo.site'

In [None]:
df.loc[df[df['Проект'] == 'pavcity.turbo.site'].index, ['Идентификатор сессии звонка', 'Файл записи звонка', 'Проект']].head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект
11,3032161583,Записи звонков_павелецкая сити/2023-06-19_11-2...,pavcity.turbo.site


In [None]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Статус',
         'Тип',
         'Сайт',
         'Тип посетителя',
         'Сценарий',
         'Операции',
         'Тип устройства',
         'Первая рекламная кампания',
         'Чистая длительность разговора',
         'Номер обращения',
         'ID посетителя',
         'Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'pavcity.turbo.site']
df.shape

(1, 15)

In [None]:
df.head()

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
11,Принятый,Динамический коллтрекинг,pavcity.turbo.site,Вернувшийся,74955141111,Переадресация,Смартфон,Artics | Павелецкая Сити | direct | Яндекс.Дир...,00:00:33,1,7206037000.0,3032161583,Записи звонков_павелецкая сити/2023-06-19_11-2...,pavcity.turbo.site,


In [None]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [None]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/51.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m21.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m163.8/798.6 kB[0m [31m4.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━[0m [32m553.0/798.6 kB[0m [31m7.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m788.5/798.6 kB[0m [31m8.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('model9_2.h5')

with open('model9_2_tokenizer_txt.pkl', 'rb') as f:
  tokenizer = pkl.load(f)

with open('model9_2_encoders.pkl', 'rb') as f:
  encoders = pkl.load(f)

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].fillna('безответа')
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.strip()
  df['Транскрибация файла записи звонка'] = np.where(df['Транскрибация файла записи звонка'].str.len() < 5, 'безответа', df['Транскрибация файла записи звонка'])
  df['Транскрибация файла записи звонка'] = df['Транскрибация файла записи звонка'].str.replace('ё', 'е', regex=False)
  x_textdata_01 = tokenizer.texts_to_matrix(df['Транскрибация файла записи звонка'].tolist())

  ohedata = []
  for column in ['Статус', 'Тип', 'Сайт', 'Тип посетителя', 'Сценарий', 'Операции', 'Тип устройства', 'Первая рекламная кампания']:
    df[column] = df[column].fillna('Нет данных')
    df[column] = df[column].apply(lambda s: 'Нет данных' if s == '' else str(s))
    df[column] = df[column].apply(lambda s: s.strip('{}'))
    encoder = encoders[column]
    ohedata.append(to_categorical(encoder.transform(df[column].tolist()), len((encoder.classes_))))
  x_ohedata = np.hstack(ohedata).astype('float32')

  df['Чистая длительность разговора'] = pd.to_datetime(df['Чистая длительность разговора']).dt.time
  df['Чистая длительность разговора'] = df['Чистая длительность разговора'].apply(lambda x: x.hour*60*60 + x.minute*60 + x.second)
  df['ID посетителя'] = df['ID посетителя'].fillna('0').astype('float')/1e8
  x_numericdata = df[['Чистая длительность разговора', 'Номер обращения', 'ID посетителя']].values.astype('float32')
  x_numericdata = x_numericdata/x_numericdata.max()

  y_predict = model.predict({'input_x1': x_textdata_01, 'input_x2': x_ohedata, 'input_x3': x_numericdata})
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Целевой' if round(y_predict[i][0]) else 'Нецелевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1685] using StatReload
2023-12-29 04:25:52.866228: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 04:25:52.866311: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 04:25:52.868011: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 04:25:52.877857: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performanc

In [None]:
import time
import requests
start_time = time.time()
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)
processing_time = int(time.time() - start_time)
print(f'\nВремя обработки запроса: {int(processing_time//60)} мин {int(processing_time%60)} сек.')

{"result":"output.json"}

Время обработки запроса: 1 мин 42 сек.


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1685] using StatReload
2023-12-29 04:25:52.866228: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 04:25:52.866311: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 04:25:52.868011: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 04:25:52.877857: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performanc

In [None]:
df = pd.read_json('output.json')
df.shape

(1, 5)

In [None]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,pavcity.turbo.site,3032161583,,Нецелевой,здравствуйте вы позвонили в компанию пожалуй...


In [None]:
!mv output.json pavcity.turbo.site_output.json

### pavcity.ru

In [None]:
# Загрузка модели нейронной сети
import gdown
url = 'https://drive.google.com/file/d/1EaA53dXa4ZU2DZLB2su4bf8TOPTdM_CK/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'2023.10.15_text_model.keras'

In [None]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1wC6aUm3Cq3G5EsQWnuVjc_-11wgJEaVl/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(9318, 74)

In [None]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/1XwaXRApFWaqBSe0PGEkaMGT-EHH7OMtj?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_павелецкая сити/2023-06-17_12-54-28.210462_from_79803286601_to_74950216267_session_3029638181_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_13-44-17.539114_from_79066743768_to_74950216267_session_3029352265_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-08-51.827169_from_74993205445_to_74955141111_session_3029390475_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_14-21-31.493157_from_79259041087_to_74950216267_session_3029730813_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_16-16-05.571252_from_79680303488_to_74950216267_session_3029596520_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_17-21-57.195548_from_79094690999_to_74955141111_session_3030126641_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-17_19-11-06.505605_from_74950326372_to_0155649_session_3030256809_talk.mp3',
 '/content/Записи звонков_павелецкая сити/2023-06-18_09-01-03.303353_from_74950326372_t

In [None]:
# Добавление в датафрейм с информацией о звонках столбцов 'Файл записи звонка' и 'Проект'
import os
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_павелецкая сити'):
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_павелецкая сити/' + sample_file
  df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'pavcity.ru'

In [None]:
df.loc[df[df['Проект'] == 'pavcity.ru'].index, ['Идентификатор сессии звонка', 'Файл записи звонка', 'Проект']].head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект
1394,3032998743,Записи звонков_павелецкая сити/2023-06-19_16-2...,pavcity.ru
1395,3032485270,Записи звонков_павелецкая сити/2023-06-19_15-5...,pavcity.ru
1396,3034442627,Записи звонков_павелецкая сити/2023-06-19_15-3...,pavcity.ru
1397,3032007610,Записи звонков_павелецкая сити/2023-06-19_15-2...,pavcity.ru
1398,3034046623,Записи звонков_павелецкая сити/2023-06-19_15-1...,pavcity.ru


In [None]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'pavcity.ru']
df.shape

(49, 4)

In [None]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
1394,3032998743,Записи звонков_павелецкая сити/2023-06-19_16-2...,pavcity.ru,Целевой_М108
1395,3032485270,Записи звонков_павелецкая сити/2023-06-19_15-5...,pavcity.ru,Целевой_М108
1396,3034442627,Записи звонков_павелецкая сити/2023-06-19_15-3...,pavcity.ru,
1397,3032007610,Записи звонков_павелецкая сити/2023-06-19_15-2...,pavcity.ru,
1398,3034046623,Записи звонков_павелецкая сити/2023-06-19_15-1...,pavcity.ru,


In [None]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [None]:
# Установка autokeras
!pip -q install autokeras

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/148.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━[0m [32m122.9/148.6 kB[0m [31m3.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m148.6/148.6 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m128.9/128.9 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m584.8/584.8 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m950.8/950.8 kB[0m [31m14.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m29.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m79.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m48.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m82.5 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow-text 2.15.0 requires tensorflow<2.16,>=2.15.0; platform_machine != "arm64" or platform_system != "Darwin", but you have tensorflow 2.14.0 which is incompatible.[0m[31m
[0m

In [None]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/51.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m86.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m11.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip -q install openai-whisper

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/798.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.4/798.6 kB[0m [31m1.9 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━[0m [32m389.1/798.6 kB[0m [31m5.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m788.5/798.6 kB[0m [31m7.7 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [None]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.0/92.0 kB[0m [31m1.0 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━

In [None]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
import autokeras as ak
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('2023.10.15_text_model.keras')

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']

  y_predict = model.predict(df['Транскрибация файла записи звонка'].values)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Нецелевой' if round(y_predict[i][0]) else 'Целевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2482] using StatReload
2023-12-29 07:13:31.169166: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-12-29 07:13:31.217148: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 07:13:31.217216: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 07:13:31.217255: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 07:13:31.22693

In [None]:
import time
import requests
start_time = time.time()
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)
processing_time = int(time.time() - start_time)
print(f'\nВремя обработки запроса: {int(processing_time//60)} мин {int(processing_time%60)} сек.')

{"result":"output.json"}

Время обработки запроса: 30 мин 10 сек.


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2482] using StatReload
2023-12-29 07:13:31.169166: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-12-29 07:13:31.217148: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 07:13:31.217216: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 07:13:31.217255: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 07:13:31.22693

In [None]:
df = pd.read_json('output.json')
df.shape

(49, 5)

In [None]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,pavcity.ru,3032998743,Целевой_М108,Целевой,"Здравствуйте, вы позвонили в компанию MR Grou..."
1,pavcity.ru,3032485270,Целевой_М108,Целевой,Здравствуйте. Вы позвонили в компанию MR Grou...
2,pavcity.ru,3034442627,,Нецелевой,Здравствуйте. Вы позвонили в компанию MR Grou...
3,pavcity.ru,3032007610,,Нецелевой,"Здравствуйте, вы позвонили в компанию MR Grou..."
4,pavcity.ru,3034046623,,Нецелевой,Здравствуйте. Вы позвонили в компанию MR Grou...
5,pavcity.ru,3031650945,Коммерция_целевой_М108,Целевой,Здравствуйте. Вы позвонили в компанию Энерго....
6,pavcity.ru,3032237258,,Нецелевой,Здравствуйте. Вы позвонили в компанию MR Grou...
7,pavcity.ru,3031875985,,Нецелевой,Здравствуйте. Вы позвонили в компанию Emer Gr...
8,pavcity.ru,3032775068,,Нецелевой,"Здравствуйте, вы позвонили в компанию MR Grou..."
9,pavcity.ru,3032179333,Целевой_М108,Целевой,"Здравствуйте, вы позвонили в компанию MR Grou..."


In [None]:
!mv output.json pavcity.ru_output.json

### primavera.moscow

In [1]:
# Загрузка модели нейронной сети
import gdown
url = 'https://drive.google.com/file/d/1EaA53dXa4ZU2DZLB2su4bf8TOPTdM_CK/view?usp=sharing'
gdown.download(url, quiet=True, fuzzy=True)

'2023.10.15_text_model.keras'

In [2]:
# Загрузка информации о звонках
import pandas as pd
url = 'https://drive.google.com/file/d/1_z2v1tNzn2fJgrpOPjQvNaCuZwX_xaQx/view?usp=drive_link'
df = pd.read_csv('https://drive.google.com/uc?id=' + url.split('/')[-2],
                 skiprows=4,
                 sep=';',
                 on_bad_lines='skip')
df.shape

(3425, 74)

In [3]:
# Загрузка записей звонков
url = 'https://drive.google.com/drive/folders/185a1TyrQqJn-awPRDhkSt84mrqbbh2YF?usp=drive_link'
gdown.download_folder(url, quiet=True, remaining_ok=True)

['/content/Записи звонков_primavera/2023-04-07_08-37-12.159811_from_79169245539_to_0197872_session_2861446698_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-00-04.708382_from_79687460888_to_0111639_session_2865154265_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-28-27.928753_from_74950210291_to_0111639_session_2867801356_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-36-01.910854_from_79175728295_to_0197879_session_2864741695_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_09-43-00.262473_from_74950210291_to_0111631_session_2867843688_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_10-17-04.570643_from_79150421943_to_0150111_session_2867948972_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_11-11-00.578033_from_79168630327_to_0197872_session_2861874202_talk.mp3',
 '/content/Записи звонков_primavera/2023-04-07_11-39-20.205581_from_79168630327_to_0197878_session_2861973030_talk.mp3',
 '/content/Записи звонков_primav

In [4]:
# Добавление в датафрейм с информацией о звонках путей к файлам записей звонков
import os
from datetime import datetime
df = df.astype({'Идентификатор сессии звонка': int})
for sample_file in os.listdir('Записи звонков_primavera'):
  if df['Идентификатор сессии звонка'][df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].count():
    df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Файл записи звонка'] = 'Записи звонков_primavera/' + sample_file
    df.loc[df[df['Идентификатор сессии звонка'] == int(sample_file.split('_')[-2])].index, 'Проект'] = 'primavera.moscow'
  else:
    df.loc[len(df.index), ['Дата и время',
                           'Номер абонента',
                           'Номер сотрудника',
                           'Идентификатор сессии звонка',
                           'Файл записи звонка',
                           'Проект']] = [datetime.strptime(sample_file.split('_')[-9] + ' ' + sample_file.split('_')[-8], '%Y-%m-%d %H-%M-%S.%f'),
                                         int(sample_file.split('_')[-6]),
                                         int(sample_file.split('_')[-4]),
                                         int(sample_file.split('_')[-2]),
                                         'Записи звонков_primavera/' + sample_file,
                                         'primavera.moscow']
df['Дата и время'] = pd.to_datetime(df['Дата и время'])
df['Номер абонента'] = df['Номер абонента'].astype('int')
df['Номер сотрудника'] = df['Номер сотрудника'].fillna(0)
df['Номер сотрудника'] = df['Номер сотрудника'].astype('int')
df['Идентификатор сессии звонка'] = df['Идентификатор сессии звонка'].astype('int')
df['Тип посетителя'] = df['Тип посетителя'].astype('str')

In [5]:
df.loc[df[df['Проект'] == 'primavera.moscow'].index, ['Дата и время',
                                                      'Номер абонента',
                                                      'Номер сотрудника',
                                                      'Идентификатор сессии звонка',
                                                      'Файл записи звонка',
                                                      'Проект']].head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка,Проект
3425,2023-04-07 13:16:04.805425,79017716131,197878,2862271810,Записи звонков_primavera/2023-04-07_13-16-04.8...,primavera.moscow
3426,2023-04-09 11:23:06.783222,79259294806,150113,2864677594,Записи звонков_primavera/2023-04-09_11-23-06.7...,primavera.moscow
3427,2023-04-09 15:19:28.128262,79268827002,197872,2869145377,Записи звонков_primavera/2023-04-09_15-19-28.1...,primavera.moscow
3428,2023-04-09 11:14:57.304723,74950210291,197877,2871634600,Записи звонков_primavera/2023-04-09_11-14-57.3...,primavera.moscow
3429,2023-04-08 12:38:20.816535,79771397095,111639,2867264995,Записи звонков_primavera/2023-04-08_12-38-20.8...,primavera.moscow


In [6]:
# Выбор столбцов, необходимых для инференса модели нейронной сети и оценки
df = df[['Идентификатор сессии звонка',
         'Файл записи звонка',
         'Проект',
         'Теги']][df['Проект'] == 'primavera.moscow']
df.shape

(50, 4)

In [7]:
df.head()

Unnamed: 0,Идентификатор сессии звонка,Файл записи звонка,Проект,Теги
3425,2862271810,Записи звонков_primavera/2023-04-07_13-16-04.8...,primavera.moscow,
3426,2864677594,Записи звонков_primavera/2023-04-09_11-23-06.7...,primavera.moscow,
3427,2869145377,Записи звонков_primavera/2023-04-09_15-19-28.1...,primavera.moscow,
3428,2871634600,Записи звонков_primavera/2023-04-09_11-14-57.3...,primavera.moscow,
3429,2867264995,Записи звонков_primavera/2023-04-08_12-38-20.8...,primavera.moscow,


In [8]:
# Сохранение в json
df.to_json('input.json', orient='records', force_ascii=False)

In [9]:
# Установка autokeras
!pip -q install autokeras

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/148.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/148.6 kB[0m [31m1.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━[0m [32m92.2/148.6 kB[0m [31m1.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m148.6/148.6 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m128.9/128.9 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m584.8/584.8 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m950.8/950.8 kB[0m [31m20.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m

In [10]:
!pip -q install tensorflow==2.14.0

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m489.8/489.8 MB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.5/5.5 MB[0m [31m59.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m440.7/440.7 kB[0m [31m45.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m84.6 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow-text 2.15.0 requires tensorflow<2.16,>=2.15.0; platform_machine != "arm64" or platform_system != "Darwin", but you have tensorflow 2.14.0 which is incompatible.[0m[31m
[0m

In [11]:
# Установка cohere, openai и tiktoken
!pip -q install cohere openai==1.2.3 tiktoken==0.5.1

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.7/51.7 kB[0m [31m976.1 kB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m18.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m10.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.1/3.1 MB[0m [31m53.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [12]:
# Установка openai-whisper
!pip -q install openai-whisper

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.6/798.6 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone


In [13]:
# Установка fastapi и дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.3/60.3 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.0/70.0 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.9/68.9 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.1/92.1 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [14]:
# Эндпойнт
main_file = '''
import re
import whisper
import numpy as np
import pandas as pd
import pickle as pkl
import autokeras as ak
from io import BytesIO
from fastapi import FastAPI, File
from tensorflow.keras.saving import load_model

whisper_model = whisper.load_model('medium')
model = load_model('2023.10.15_text_model.keras')

app = FastAPI()

@app.post('/predict')
async def predict(json_file: bytes = File(...)):

  df = pd.read_json(BytesIO(json_file))

  for i in df.index:
    df.loc[i,'Транскрибация файла записи звонка'] = whisper_model.transcribe(df.loc[i,'Файл записи звонка'], language='ru')['text']

  y_predict = model.predict(df['Транскрибация файла записи звонка'].values)
  for i in range(df.shape[0]):
    df.loc[i,'Предсказание класса'] = 'Нецелевой' if round(y_predict[i][0]) else 'Целевой'

  df[['Проект', 'Идентификатор сессии звонка', 'Теги', 'Предсказание класса', 'Транскрибация файла записи звонка']].to_json('output.json', orient='records', force_ascii=False)

  return {'result': 'output.json'}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [15]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [16]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1915] using StatReload
2023-12-29 09:46:24.899708: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-12-29 09:46:24.974783: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 09:46:24.974846: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 09:46:24.978920: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 09:46:24.99190

In [17]:
import time
import requests
start_time = time.time()
files = {'json_file': open('input.json','rb')}
response = requests.post('http://127.0.0.1:8000/predict', files=files)
print(response.text)
processing_time = int(time.time() - start_time)
print(f'\nВремя обработки запроса: {int(processing_time//60)} мин {int(processing_time%60)} сек.')

{"result":"output.json"}

Время обработки запроса: 34 мин 1 сек.


In [18]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1915] using StatReload
2023-12-29 09:46:24.899708: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-12-29 09:46:24.974783: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-12-29 09:46:24.974846: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-12-29 09:46:24.978920: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-12-29 09:46:24.99190

In [19]:
df = pd.read_json('output.json')
df.shape

(50, 5)

In [20]:
df

Unnamed: 0,Проект,Идентификатор сессии звонка,Теги,Предсказание класса,Транскрибация файла записи звонка
0,primavera.moscow,2862271810,,Нецелевой,"Добрый день, Глубный город на рейсте Примавер..."
1,primavera.moscow,2864677594,,Целевой,"Здравствуйте, Юлия. Нас интересует живой комп..."
2,primavera.moscow,2869145377,,Целевой,"Клубный город на реке Примавеера. Татьяна, до..."
3,primavera.moscow,2871634600,,Нецелевой,"Доброе утро, Клубный город на реке Примавера...."
4,primavera.moscow,2867264995,,Целевой,Клубный город на реке Примавер. Меня зовут На...
5,primavera.moscow,2866661097,,Целевой,"Добрый день, на линии клиент Михаил. Бюджет д..."
6,primavera.moscow,2869222273,,Целевой,"Клубный город на реке Примоверда. Татьяна, до..."
7,primavera.moscow,2867030845,,Целевой,Клубный город на реке Примаверо. Меня зовут Н...
8,primavera.moscow,2862605738,,Целевой,Глубный город на реке Примавер. Меня зовут На...
9,primavera.moscow,2871099180,,Нецелевой,"Добрый вечер, клубный город на реке Фрамовера..."


In [21]:
!mv output.json primavera.moscow_output.json