# Техническое задание

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# 11 неделя

## Интеграция в `prod`

### API (`whisper`) CPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m12.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/2.7 MB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m11.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-pinp1ovv
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-pinp1ovv
  Resolved https://github.com/openai/whisper.git to commit 1cea4357687b676b293cb5473e1ade25f5b1cef7
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231106-py3-none-any.whl size=801359 sha256=e604fb0a4d520f978d374b61250ecd285099c4ef3d46846ab70de95090f4c425
  Stored in directory: /tmp/pip-ephem-wheel-cache-n2kf0pxe/wheels/8b/6c/d0/622666868c179f156cf595c8b6f06f88bc5d80c4b31dccaa03
Successfully built openai-whisper
Installing collec

In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
from fastapi import FastAPI
from pydantic import BaseModel
import whisper

class Item(BaseModel):
  file: str

app = FastAPI()

@app.post('/predict')
async def predict(item: Item):
  whisper_model = whisper.load_model('medium')
  test_sample = whisper_model.transcribe(item.file, language='ru')
  return {'result': test_sample}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2139] using StatReload
INFO:     Started server process [2145]
INFO:     Waiting for application startup.
INFO:     Application startup complete.


In [None]:
# Тестовые данные
import pickle as pkl
import pandas as pd
with open('/content/drive/MyDrive/media108.ru/Датафреймы/total_targets_test_df.pkl', 'rb') as f:
  total_targets_test_df = pkl.load(f)
with open('/content/drive/MyDrive/media108.ru/Датафреймы/total_not_targets_test_df.pkl', 'rb') as f:
  total_not_targets_test_df = pkl.load(f)
test_targets_sample_file = '/content/drive/MyDrive/media108.ru/Датасет/' + total_targets_test_df['Файл записи звонка'].head(1).values[0]
test_not_targets_sample_file = '/content/drive/MyDrive/media108.ru/Датасет/' + total_not_targets_test_df['Файл записи звонка'].head(1).values[0]

In [None]:
# Целевой звонок
import requests
response = requests.post('http://127.0.0.1:8000/predict', json={'file': test_targets_sample_file})
print(response.text)

{"result":{"text":" Вы позвонили в группу компании Cartros. Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый день. Группа компании Cartros. Лилия. Здравствуйте. Хедлайнер, да, Жика? Я бы хотела узнать. А у вас есть возможность показать готовые квартиры? Или у вас еще все на уровне только застройки? Нет, у нас есть уже в данной корпус. Давайте я вас соединю с менеджером отдела продаж. Там шоу-рум есть, где посмотреть. Отлично. Хорошо, давайте, подскажите. Подскажите, как вас зовут? Динара. Я вас соединяю с менеджером. Одну минуту. Динара, добрый день. Меня зовут Алена, менеджер проекта Headliner. Чем могу вам помочь? Здравствуйте. А я могу сейчас подъехать к вам и вы мне все покажете, что есть у вас? Да, вы можете приехать в офис подаж, шмидтерский проезд, 39, корпус водя. А вы можете мне геолокацию скинуть на вактаб? Я сейчас уже буду выезжать. И там где какая парковка? На улице? Я могу вам направить карту подъезда комплексу. Вы на автомобиле едете? Да, да. Вы м

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2139] using StatReload
INFO:     Started server process [2145]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▎                                     | 11.6M/1.42G [00:00<00:12, 121MiB/s]  2%|▌                                    | 23.1M/1.42G [00:00<00:16, 89.2MiB/s]  2%|▉                                     | 34.5M/1.42G [00:00<00:14, 101MiB/s]  3%|█▎                                    | 48.2M/1.42G [00:00<00:12, 116MiB/s]  4%|█▋                                    | 63.0M/1.42G [00:00<00:11, 129MiB/s]  5%|██                                    | 76.8M/1.42G [00:00<00:10, 134MiB/s]  6%|██▎                                   | 90.9M/1.42G [00:00<00:10, 138MiB/s]  7%|██▊                   

In [None]:
# Нецелевой звонок
import requests
response = requests.post('http://127.0.0.1:8000/predict', json={'file': test_not_targets_sample_file})
print(response.text)

{"result":{"text":" Здравствуйте, вы позвонили в группу компании «Картросс». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый день, группа компании «Картросс». Меня зовут Любовь. Здравствуйте, Любовь. Меня зовут Татьяна. У меня уникальный клиент. Я бы хотела пообщаться с менеджером, который у меня присоединился, но не могу дозвонить, у него абонент недоступен. А что за менеджер? Что за фамилия? Ванда Даев. Прикрепили этого. Хорошо, соединяю вас с Татьяна с отделом продаж. Сейчас любой свободный менеджер произнесть ситуацию. Оставайтесь на линии. Благодарю. Татьяна, добрый день. Меня зовут Антон. Слушаю вас. Чем могу помочь? Здравствуйте, Антон. Высказала клиента. Клиент уникальный. Хочу удачить им по квартире. У нас бюджет 20 миллионов. Плюс-минус 2 миллиона. Готовая квартира. Но можно пойти и потехать. Уже в готовом построенном доме? Да. Такое возможно? Нужно защитить отдела ипотеки. У вас по готовым домам можно пойти и потехать или нет? У нас осталась одна ква

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2139] using StatReload
INFO:     Started server process [2145]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/1.42G [00:00<?, ?iB/s]  1%|▎                                     | 11.6M/1.42G [00:00<00:12, 121MiB/s]  2%|▌                                    | 23.1M/1.42G [00:00<00:16, 89.2MiB/s]  2%|▉                                     | 34.5M/1.42G [00:00<00:14, 101MiB/s]  3%|█▎                                    | 48.2M/1.42G [00:00<00:12, 116MiB/s]  4%|█▋                                    | 63.0M/1.42G [00:00<00:11, 129MiB/s]  5%|██                                    | 76.8M/1.42G [00:00<00:10, 134MiB/s]  6%|██▎                                   | 90.9M/1.42G [00:00<00:10, 138MiB/s]  7%|██▊                   

### API (`whisper`) GPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m51.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/2.7 MB[0m [31m69.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-nd4oun4l
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-nd4oun4l
  Resolved https://github.com/openai/whisper.git to commit 1cea4357687b676b293cb5473e1ade25f5b1cef7
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231106-py3-none-any.whl size=801359 sha256=bcba21c7dbed4acfab94900440cb1660f66ad2c9dc63c5e66b2ee9e20c904d2a
  Stored in directory: /tmp/pip-ephem-wheel-cache-wsq1isfl/wheels/8b/6c/d0/622666868c179f156cf595c8b6f06f88bc5d80c4b31dccaa03
Successfully built openai-whisper
Installing collec

In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/59.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m12.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# Эндпойнт
main_file = '''
from fastapi import FastAPI
from pydantic import BaseModel
import whisper

class Item(BaseModel):
  file: str

app = FastAPI()

@app.post('/predict')
async def predict(item: Item):
  whisper_model = whisper.load_model('large')
  test_sample = whisper_model.transcribe(item.file, language='ru')
  return {'result': test_sample}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2691] using StatReload


In [None]:
# Тестовые данные
import pickle as pkl
import pandas as pd
with open('/content/drive/MyDrive/media108.ru/Датафреймы/total_targets_test_df.pkl', 'rb') as f:
  total_targets_test_df = pkl.load(f)
with open('/content/drive/MyDrive/media108.ru/Датафреймы/total_not_targets_test_df.pkl', 'rb') as f:
  total_not_targets_test_df = pkl.load(f)
test_targets_sample_file = '/content/drive/MyDrive/media108.ru/Датасет/' + total_targets_test_df['Файл записи звонка'].head(1).values[0]
test_not_targets_sample_file = '/content/drive/MyDrive/media108.ru/Датасет/' + total_not_targets_test_df['Файл записи звонка'].head(1).values[0]

In [None]:
# Целевой звонок
import requests
response = requests.post('http://127.0.0.1:8000/predict', json={'file': test_targets_sample_file})
print(response.text)

{"result":{"text":" Вы позвонили в группу компании «Картрос». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый день. Группа компании «Картрос» Лилия. Здравствуйте. Хедлайнер ЖК. Я бы хотела узнать, у вас есть возможность показать готовые квартиры? Или у вас еще вообще все на уровне только застройки? Нет, у нас есть уже сданные корпуса. Давайте я вас соединю с менеджером отдела продаж. Там шоу-рум есть, где посмотреть. Отлично. Хорошо, давайте. Подскажите, как вас зовут? Динара. Я вас соединяю с менеджером. Одну минуту. Динара, добрый день. Меня зовут Алена, менеджер проекта «Хедлайнер». Чем могу вам помочь? Здравствуйте. А я могу сейчас подъехать к вам, и вы мне все покажете, что есть у вас? Да, вы можете приехать в офис продаж «Шмитовский проезд», 30. А вы можете мне геолокацию скинуть на WhatsApp на этот номер? Я просто сейчас уже буду выезжать, и там где какая парковка, там на улице можно встать, правильно? Я могу вам направить карту подъезда к комплексу. Вы 

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2691] using StatReload
INFO:     Started server process [2697]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/2.88G [00:00<?, ?iB/s]  0%|▏                                     | 11.1M/2.88G [00:00<00:26, 115MiB/s]  1%|▎                                     | 22.9M/2.88G [00:00<00:25, 120MiB/s]  1%|▍                                     | 34.3M/2.88G [00:00<00:25, 119MiB/s]  2%|▌                                     | 45.9M/2.88G [00:00<00:25, 120MiB/s]  2%|▋                                     | 57.6M/2.88G [00:00<00:25, 121MiB/s]  2%|▉                                     | 69.2M/2.88G [00:00<00:24, 121MiB/s]  3%|█                                     | 80.7M/2.88G [00:00<00:25, 119MiB/s]  3%|█▏                    

In [None]:
# Нецелевой звонок
import requests
response = requests.post('http://127.0.0.1:8000/predict', json={'file': test_not_targets_sample_file})
print(response.text)

{"result":{"text":" Здравствуйте! Вы позвонили в группу компании «Картрос». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый день, группа компании «Картрос». Меня зовут Любовь. Здравствуйте, Любовь. Меня зовут Татьяна. У меня уникальный клиент. Я бы хотела пообщаться с менеджером, которого вы прикрепили, но не могу дозвониться, у него абонент недоступен. Какой менеджер? Что за фамилия? Иван Дадаев. Прикрепили этого. Так. Хорошо. Соединяю вас, Татьяна, с отделом продаж. Сейчас любой свободный менеджер пройти ситуацию. Оставайтесь на линии. Благодарю. Добрый день. Татьяна, добрый день. Меня зовут Антон. Слушаю вас. Чем могу помочь? Антон. Уникального клиента. Клиент уникальный. Хочу вам сказать, что я очень рада, что вы пришли к нам. Хочу уточнить по квартире. У нас бюджет 2 миллиона. Ну, плюс-минус 2 миллиона, да? Нужна готовая квартира, но пойти ипотеки. Уже в готовом построенном доме? Да. Такое возможно? Нужно уточнить у отдела ипотеки, по готовым домам возможн

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [2691] using StatReload
INFO:     Started server process [2697]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/2.88G [00:00<?, ?iB/s]  0%|▏                                     | 11.1M/2.88G [00:00<00:26, 115MiB/s]  1%|▎                                     | 22.9M/2.88G [00:00<00:25, 120MiB/s]  1%|▍                                     | 34.3M/2.88G [00:00<00:25, 119MiB/s]  2%|▌                                     | 45.9M/2.88G [00:00<00:25, 120MiB/s]  2%|▋                                     | 57.6M/2.88G [00:00<00:25, 121MiB/s]  2%|▉                                     | 69.2M/2.88G [00:00<00:24, 121MiB/s]  3%|█                                     | 80.7M/2.88G [00:00<00:25, 119MiB/s]  3%|█▏                    

### API (`item_list` `{'text': str}`) CPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m10.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m6.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m7.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
from fastapi import FastAPI
from pydantic import BaseModel
from typing import List

class Item(BaseModel):
  text: str

app = FastAPI()

@app.post('/predict')
async def predict(data: List[Item]):
  return data
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1401] using StatReload
INFO:     Started server process [1403]
INFO:     Waiting for application startup.
INFO:     Application startup complete.


In [None]:
# Загрузка датафрейма с данными
import pandas as pd
df_good_pred = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/df_good_pred.csv')
df_good_pred.shape

(6921, 35)

In [None]:
# Тестовые данные
item_list = [{'text': x} for x in df_good_pred['whisper'].head().astype('str').values]
item_list

[{'text': 'безответа'},
 {'text': 'здравствуйте'},
 {'text': 'здравствуйте вы позвонили в компанию эмргрупп пожалуйста дождитесь ответа нашего специалиста обращаем ваше внимание что в целях улучшения качества обслуживания клиентов все разговоры записываются продолжая разговор вы соглашаетесь на обработку ваших персональных данных'},
 {'text': 'здравствуйте'},
 {'text': 'здравствуйте вы позвонили в группу компании картрофт благодарим вас за звонок пожалуйста дождитесь ответа оператора группа компании картрофт меня зовут елена здравствуйте здравствуйте меня интересует спедлайнер я вас сейчас соединю с одним упрадашником он жестко консультирует как вас зовут ирина александровна благодарю оставайтесь на линии здравствуйте меня зовут дарья какие вопросы по проекту ходланд слушаю вас добрый день смотрите интересует одна квартира 41 квадрат за 20 пейсов у нас есть вариант какая там площадь 4099 помоему да есть такая квартира есть интересующийся покупатель на подобную квартиру но мы не укладыв

In [None]:
# Запрос
import requests
response = requests.post('http://127.0.0.1:8000/predict', json=item_list)
print(response.text)

[{"text":"безответа"},{"text":"здравствуйте"},{"text":"здравствуйте вы позвонили в компанию эмргрупп пожалуйста дождитесь ответа нашего специалиста обращаем ваше внимание что в целях улучшения качества обслуживания клиентов все разговоры записываются продолжая разговор вы соглашаетесь на обработку ваших персональных данных"},{"text":"здравствуйте"},{"text":"здравствуйте вы позвонили в группу компании картрофт благодарим вас за звонок пожалуйста дождитесь ответа оператора группа компании картрофт меня зовут елена здравствуйте здравствуйте меня интересует спедлайнер я вас сейчас соединю с одним упрадашником он жестко консультирует как вас зовут ирина александровна благодарю оставайтесь на линии здравствуйте меня зовут дарья какие вопросы по проекту ходланд слушаю вас добрый день смотрите интересует одна квартира 41 квадрат за 20 пейсов у нас есть вариант какая там площадь 4099 помоему да есть такая квартира есть интересующийся покупатель на подобную квартиру но мы не укладываемся под цен

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1401] using StatReload
INFO:     Started server process [1403]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     127.0.0.1:41956 - "POST /predict HTTP/1.1" 200 OK


### API (`bert`) GPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка transformers
!pip -q install transformers

In [None]:
# Установка fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m66.3/66.3 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Эндпойнт
main_file = '''
import torch
import numpy as np
import torch.nn as nn
from fastapi import FastAPI
from typing import List
from transformers import AutoModel, BertTokenizer

app = FastAPI()

@app.post('/predict')
async def predict(data: List[str]):
  bert      = AutoModel.from_pretrained('DeepPavlov/rubert-base-cased-sentence')
  tokenizer = BertTokenizer.from_pretrained('DeepPavlov/rubert-base-cased-sentence')
  class BERT_Arch(nn.Module):
    def __init__(self, bert):
      super(BERT_Arch, self).__init__()
      self.bert = bert
      self.dropout = nn.Dropout(0.1)
      self.relu = nn.ReLU()
      self.fc1 = nn.Linear(768,512)
      self.fc2 = nn.Linear(512,2)
      self.softmax = nn.LogSoftmax(dim = 1)
    def forward(self, sent_id, mask):
      _, cls_hs = self.bert(sent_id, attention_mask = mask, return_dict = False)
      x = self.fc1(cls_hs)
      x = self.relu(x)
      x = self.dropout(x)
      x = self.fc2(x)
      x = self.softmax(x)
      return x
  device = torch.device('cuda')
  model  = BERT_Arch(bert)
  model  = model.to(device)
  model.load_state_dict(torch.load('/content/drive/MyDrive/media108.ru/Модели/bert_saved_weights.pt'))
  option = lambda x: 1 if x > 0.95 else 0
  tokens_test = tokenizer.batch_encode_plus(data, max_length=512, padding='max_length', truncation=True)
  test_seq    = torch.tensor(tokens_test['input_ids'])
  test_mask   = torch.tensor(tokens_test['attention_mask'])
  preds = model(test_seq.to(device), test_mask.to(device))
  flat_preds = [item[1] for item in preds.detach().cpu().numpy()]
  flat_preds = (flat_preds - min(flat_preds)) / (max(flat_preds) - min(flat_preds))
  return {'result': str(list(np.vectorize(option)(flat_preds)))}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1100] using StatReload


In [None]:
# Загрузка датафрейма с данными
import pandas as pd
df_good_pred = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/df_good_pred.csv')
df_good_pred.shape

(6921, 35)

In [None]:
# Тестовые данные
item_list = df_good_pred['whisper'].head().astype('str').values.tolist()
item_list

['безответа',
 'здравствуйте',
 'здравствуйте вы позвонили в компанию эмргрупп пожалуйста дождитесь ответа нашего специалиста обращаем ваше внимание что в целях улучшения качества обслуживания клиентов все разговоры записываются продолжая разговор вы соглашаетесь на обработку ваших персональных данных',
 'здравствуйте',
 'здравствуйте вы позвонили в группу компании картрофт благодарим вас за звонок пожалуйста дождитесь ответа оператора группа компании картрофт меня зовут елена здравствуйте здравствуйте меня интересует спедлайнер я вас сейчас соединю с одним упрадашником он жестко консультирует как вас зовут ирина александровна благодарю оставайтесь на линии здравствуйте меня зовут дарья какие вопросы по проекту ходланд слушаю вас добрый день смотрите интересует одна квартира 41 квадрат за 20 пейсов у нас есть вариант какая там площадь 4099 помоему да есть такая квартира есть интересующийся покупатель на подобную квартиру но мы не укладываемся под цену совсем немного причем хотел у вас 

In [None]:
# Запрос на предсказание
import requests
response = requests.post('http://127.0.0.1:8000/predict', json=item_list)
print(response.text)

{"result":"[0, 0, 0, 0, 1]"}


In [None]:
# Верные данные
df_good_pred['target'].head().values

array([0, 0, 0, 0, 1])

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1100] using StatReload
INFO:     Started server process [1106]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
config.json:   0%|          | 0.00/642 [00:00<?, ?B/s]config.json: 100%|██████████| 642/642 [00:00<00:00, 3.03MB/s]
pytorch_model.bin:   0%|          | 0.00/711M [00:00<?, ?B/s]pytorch_model.bin:   1%|▏         | 10.5M/711M [00:00<00:08, 85.2MB/s]pytorch_model.bin:   4%|▍         | 31.5M/711M [00:00<00:04, 148MB/s] pytorch_model.bin:  10%|█         | 73.4M/711M [00:00<00:02, 242MB/s]pytorch_model.bin:  16%|█▌        | 115M/711M [00:00<00:02, 268MB/s] pytorch_model.bin:  21%|██        | 147M/711M [00:00<00:02, 276MB/s]pytorch_model.bin:  25%|██▌       | 178M/711M [00:00<00:01, 287MB/s]pytorch_model.bin:  29%|██▉       | 210M/711M [00:00<00:01, 295MB/s]pytorc

### API (`whisper` + `item_list`) GPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.7/48.7 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.3/220.3 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/2.7 MB[0m [31m26.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-otqq9gmx
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-otqq9gmx
  Resolved https://github.com/openai/whisper.git to commit e58f28804528831904c3b6f2c0e473f346223433
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231117-py3-none-any.whl size=801358 sha256=fccabd33ee67ecae65fa224c3d2e57d034c2fd55ca3efc3419073fcec8844d1e
  Stored in directory: /tmp/pip-ephem-wheel-cache-sds4hwku/wheels/8b/6c/d0/622666868c179f156cf595c8b6f06f88bc5d80c4b31dccaa03
Successfully built openai-whisper
Installing collec

In [None]:
# Установка дополнительных библиотек
!pip -q install fastapi uvicorn python-multipart typing-extensions==4.5.0 kaleido

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/92.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━[0m [32m61.4/92.9 kB[0m [31m1.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.7/59.7 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.7/45.7 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.9/79.9 MB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.9/92.9 kB[0m [31m11.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━

In [None]:
# Эндпойнт
main_file = '''
from fastapi import FastAPI
from typing import List
import whisper

app = FastAPI()

@app.post('/predict')
async def predict(data: List[str]):
  whisper_model = whisper.load_model('large')
  result = []
  for item in data:
    result.append(whisper_model.transcribe(item, language='ru')['text'])
  return {'result': str(result)}
'''
with open('main.py', 'w') as f:
  f.write(main_file)

In [None]:
# Запуск uvicorn
!nohup uvicorn main:app --reload &

nohup: appending output to 'nohup.out'


In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1104] using StatReload


In [None]:
# Загрузка датафрейма с данными
import pickle as pkl
import pandas as pd
with open('/content/drive/MyDrive/media108.ru/Датафреймы/total_work_df.pkl', 'rb') as f:
  total_work_df = pkl.load(f)
total_work_df.shape

(7968, 79)

In [None]:
# Файлы для транскрибации
item_list = total_work_df['Файл записи звонка'].head().apply(lambda x: '/content/drive/MyDrive/media108.ru/Датасет/' + x).values.tolist()
item_list

['/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-05-08_16-14-10.247769_from_74955199580_to_74997552563_session_2918538922_talk.mp3',
 '/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-05-09_11-53-48.291185_from_79910665524_to_74997552563_session_2919161802_talk.mp3',
 '/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-05-09_17-51-30.193682_from_79670165153_to_0188880_session_2919520238_talk.mp3',
 '/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-05-09_18-34-04.371381_from_79274431546_to_74997552563_session_2919550530_talk.mp3',
 '/content/drive/MyDrive/media108.ru/Датасет/Записи звонков/Записи звонков_хедлайнер/2023-05-09_20-19-21.050197_from_79274432048_to_74997552563_session_2919615074_talk.mp3']

In [None]:
# Запрос на транскрибацию
import requests
response = requests.post('http://127.0.0.1:8000/predict', json=item_list)
print(response.text)

{"result":"[' Светлана, здравствуйте. Здравствуйте. Скажите, пожалуйста, фотоаппарат КНН А-603. Ой, это расшипаетесь. Нет-нет, вы позвонили в другую компанию, перезвоните.', ' А, Вика, звонок по объявлению. Разговор может быть записан. Вам интересно? Позвольте, я продолжу, а потом, если что, зададите вопросы, хорошо?', ' Здравствуйте! Вы позвонили в группу компании «Картрос». Благодарим вас за звонок. Пожалуйста, дождитесь ответа оператора. Добрый вечер. Группа компании «Картрос». Меня зовут Любовь. Любовь, добрый день. Виктория рассматривает жилой комплекс «Хедлайнер». Рассматривает трехкомнатную квартиру. Бюджет 40 миллионов. Спасибо. Здравствуйте. Я хотела узнать по поводу вашего проекта. Есть ли квартиры готовые по планировкам, по ремонту, без ремонта, с ремонтом? Что есть вообще? Вы знакомы с нашим проектом? Нет, не совсем. А локацию хотя бы знаете, где мы находимся? Локацию, да. Локацию смотрела уже. Проект «Хедлайнер» находится в станции метро «Шелепиха». Школы рядом есть. Муниц

Транскрибация пяти файлов записей звонков на `GPU` осуществилась в течение трёх минут.

In [None]:
# Лог
!cat nohup.out

INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://127.0.0.1:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1104] using StatReload
INFO:     Started server process [1106]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
  0%|                                              | 0.00/2.88G [00:00<?, ?iB/s]  0%|                                     | 9.23M/2.88G [00:00<00:31, 96.7MiB/s]  1%|▏                                    | 18.5M/2.88G [00:00<00:32, 94.2MiB/s]  1%|▎                                    | 27.4M/2.88G [00:00<00:33, 90.2MiB/s]  1%|▍                                    | 37.5M/2.88G [00:00<00:31, 95.5MiB/s]  2%|▌                                    | 46.6M/2.88G [00:00<00:34, 89.0MiB/s]  2%|▋                                    | 55.2M/2.88G [00:00<00:36, 84.1MiB/s]  2%|▊                                    | 64.6M/2.88G [00:00<00:34, 88.5MiB/s]  2%|▉                     

### `model9_21` GPU

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#### Библиотеки и переменные

In [None]:
# Установка cohere openai tiktoken
!pip -q install cohere openai tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/48.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.9/48.9 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m220.5/220.5 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m18.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/2.7 MB[0m [31m36.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.0/75.0 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Установка openai-whisper
!pip install git+https://github.com/openai/whisper.git

Collecting git+https://github.com/openai/whisper.git
  Cloning https://github.com/openai/whisper.git to /tmp/pip-req-build-3wecq4xp
  Running command git clone --filter=blob:none --quiet https://github.com/openai/whisper.git /tmp/pip-req-build-3wecq4xp
  Resolved https://github.com/openai/whisper.git to commit e58f28804528831904c3b6f2c0e473f346223433
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: openai-whisper
  Building wheel for openai-whisper (pyproject.toml) ... [?25l[?25hdone
  Created wheel for openai-whisper: filename=openai_whisper-20231117-py3-none-any.whl size=801358 sha256=af3c41b0f5cf8b121ddc4860b7f0119b94197b169e7db4233aca0042cd36fd98
  Stored in directory: /tmp/pip-ephem-wheel-cache-rdemewwu/wheels/8b/6c/d0/622666868c179f156cf595c8b6f06f88bc5d80c4b31dccaa03
Successfully built openai-whisper
Installing collec

In [None]:
import os
import shutil
import pandas as pd
import re
import numpy as np
import pickle as pkl
import time
import tensorflow as tf
import random
import matplotlib.pyplot as plt
import whisper

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.saving             import load_model
from tensorflow.keras                    import utils
from sklearn.metrics                     import confusion_matrix, ConfusionMatrixDisplay, classification_report
from sklearn.preprocessing               import LabelEncoder, OneHotEncoder, MinMaxScaler
from tqdm                                import trange, tqdm

from google.colab                        import data_table
data_table.enable_dataframe_formatter()

#### Функции

In [None]:
def df_to_ohe(df, collist, lst_encoders = {}):

  '''
 Процедура поочерёдного преобразования колонок из списка через OneHotEncoder в ОНЕ
 с последующей сборкой в единый массив. Параметры:
 df - датафрейм,
 collist - список колонок.

 Возвращает собранный массив и список энкодеров.
  '''

  create_encode = True if len(lst_encoders) == 0 else False
  list_code = []
  for i in range(len(collist)):
    if create_encode:
      print(f'Формирование OneHotEncoder и кодировка колонки {collist[i]}', end='')
      encoder = OneHotEncoder(handle_unknown='infrequent_if_exist', sparse_output=False)
      encoder.fit(np.array(df[collist[i]].values).reshape(-1, 1))
      lst_encoders[collist[i]] = encoder
      list_code.append(encoder.transform(np.array(df[collist[i]].values).reshape(-1, 1)))
      print(' - Успешно')
    else:
      encoder = lst_encoders[collist[i]]
      list_code.append(encoder.transform(np.array(df[collist[i]].values).reshape(-1, 1)))

  x_data = np.hstack(list_code)

  return x_data, lst_encoders

In [None]:
def whisper_sr(df, model='medium', path_audio=''):

  sp_model = whisper.load_model(model)
  options = dict(language='Russian', beam_size=5, best_of=5)
  transcribe_options = dict(task="transcribe", **options)
  for i in trange(len(df), desc='Транскрибация аудиофайлов'):
    filename = df['audiofile'][i]
    if filename == 'Аудиофайл_не_найден':
      rezalt = 'безответа'
    else:
      rezalt = sp_model.transcribe(path_audio+filename,**transcribe_options)['text']
    df.loc[i,['whisper']] = rezalt

  return df

In [None]:
def file_to_df(df, path_audio='Non'):

  '''
 Функция добавляет к датафрейму поле "audiofile",
 в котором содержатся имена файлов записей звонков:
 df - датафрейм,
 path_audio - путь к записям звонков.

 Возвращает изменённый датафрейм.
  '''

  if path_audio == 'Non':
    raise KeyError('Не указан каталог с аудио данными.')

  dict_fls = {}
  for files in os.listdir(path_audio):
    session_in_file = re.findall(r'session_(\d*)_talk',files)
    dict_fls[session_in_file[0]] = files

  df.insert(1,'audiofile',value=np.NaN)
  for k in range(len(df)):
    session = str(df['Идентификатор сессии звонка'][k])
    df.loc[k,['audiofile']] = dict_fls[session]

  df.audiofile = df.audiofile.fillna('Аудиофайл_не_найден')

  return df

In [None]:
def model_pred(df_path, path_audio='', proces=True):

  '''
 Функция для получения предсказания модели по переданным данным:
 df_path    - путь к csv-файлу,
 path_audio - путь к записям звонков,
 proces     - флаг предобработки.

 Возвращает список с предсказаниями для всего csv-файла и сам датафрейм.
  '''

  # Загрузка предобученной модели
  model = load_model('/content/drive/MyDrive/media108.ru/Модели/model9_21.h5')

  # Загрузка датафрейма
  df = pd.read_csv(df_path)

  # Загрузка токенайзера и энкодеров, необходимых для подготовки данных
  with open('/content/drive/MyDrive/media108.ru/Модели/token_encoders.pkl', 'rb') as f:
    encoders,tokenizer_txt = pkl.load(f)

  # Вызов функции транскрибации аудиозаписей
  if path_audio != '':
    df = file_to_df(df,path_audio=path_audio)
    df.insert(2,'whisper',value='безответа')                 # добавление колонки для транскрибированного текста
    df = whisper_sr(df,model='medium',path_audio=path_audio) # типы моделей по усложнению: 'tiny','base','small','medium','large', под вопросом: 'large-v2','large-v3'

  # Очистка текстовой колонки
  df['whisper'] = df['whisper'].fillna('безответа')
  df['whisper'] = df['whisper'].apply(lambda s: re.sub('[^А-Яа-я0-9 ]', '', s.lower()))

  # Очистка тех строк, где после предыдущей операции остались одни пробелы
  df['whisper'] = df['whisper'].apply(lambda s: s.strip())

  # Заменим опустевшие ячейки текстом 'безответа'
  df['whisper'] = np.where(df['whisper'].str.len() < 5, 'безответа', df['whisper'])

  # Заменим буквы 'ё' на 'е'
  df['whisper'] = df['whisper'].str.replace('ё', 'е', regex=False)

  # Получение матрицы BOW для колонки с расшифровками
  txt_list = df['whisper'].tolist()
  txt_bow = tokenizer_txt.texts_to_matrix(txt_list)

  # Очистка колонок для ОНЕ
  if proces:
    tp_of_ab = df['Тип посетителя'].to_list()
    for i in range(len(tp_of_ab)):
      tp_of_ab[i] = tp_of_ab[i].replace('{','').replace('}','')
    df['Тип посетителя'] = tp_of_ab
  if proces:
    prk = df['Первая рекламная кампания'].to_list()
    for i in range(len(prk)):
      prk[i] = prk[i].replace('{','').replace('}','')
    df['Первая рекламная кампания'] = prk

  # Получение матрицы ОНЕ
  col_to_ohe = ['Статус', 'Тип', 'Сайт', 'Тип посетителя', 'Сценарий', 'Операции', 'Тип устройства', 'Первая рекламная кампания']
  df[col_to_ohe] = df[col_to_ohe].fillna('Нет данных')
  OHE_data, encoders = df_to_ohe(df, col_to_ohe, lst_encoders = encoders)
  OHE_data = OHE_data.astype('float32')

  # Подготовка числовых колонок
  if proces:
    df['Чистая длительность разговора'] = df['Чистая длительность разговора'].fillna('00-00-00')
    length_talk = df['Чистая длительность разговора'].to_list()
    len_sec = list()
    for lnt in length_talk:
      match_tlk = re.findall(r'(\d\d)', lnt)
      len_sec.append(int(match_tlk[0])*3600+int(match_tlk[1])*60+int(match_tlk[2]))
    df['Чистая длительность разговора'] = len_sec
    length_talk = df['Длительность звонка'].to_list()
    len_sec = list()
    for lnt in length_talk:
       match_tlk = re.findall(r'(\d\d)', lnt)
       len_sec.append(int(match_tlk[0])*3600+int(match_tlk[1])*60+int(match_tlk[2]))
    df['Длительность звонка'] = len_sec

  # Массив из числовых колонок
  digit_col = ['Чистая длительность разговора', 'Номер обращения', 'ID посетителя']
  df[digit_col] = df[digit_col].fillna(0)
  df['ID посетителя'] = df['ID посетителя']/100000000 # понижение разрядноси колонки для более плавной нормализации
  x_data = np.array(df[digit_col].values)
  x_data = x_data.astype('float32')

  # Нормализация массива
  max_val = x_data.max()
  x_data = x_data / max_val

  y_pred = model.predict({'input_x1':txt_bow,'input_x2':OHE_data,'input_x3':x_data}, batch_size=txt_bow.shape[0])

  df.insert(3,'y_pred',value = np.rint(y_pred))

  df['predict'] = np.where(df.y_pred==1.0, 'Целевой', 'Не целевой')

  return df

#### Подготовка тестовых данных

In [None]:
df_1 = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/df_no_teg.csv')
df_2 = df_1[:50].copy()
df_2.drop(columns=['Имя файла','whisper'], axis=1, inplace=True)
df_2.to_csv('df_to_test.csv', index=False)

#### Проверка работы модели на подготовленных данных

In [None]:
s_time = time.time()
df = model_pred('df_to_test.csv', path_audio='/content/drive/MyDrive/media108.ru/Датасет/Записи звонков без тегов/', proces=True)
time_all = int(time.time()-s_time)
print(f'Выполнение завершено. Длительность: {int(time_all//60)} мин и {int(time_all%60)} сек.')

Транскрибация аудиофайлов: 100%|██████████| 50/50 [41:24<00:00, 49.69s/it]


Выполнение завершено. Длительность: 41 мин и 46 сек.


In [None]:
df.predict.value_counts()

Целевой       30
Не целевой    20
Name: predict, dtype: int64

In [None]:
df[['y_pred','predict','whisper']]

Unnamed: 0,y_pred,predict,whisper
0,0.0,Не целевой,здравствуйте вы позвонили в компанию пожалуй...
1,1.0,Целевой,здравствуйте вы позвонили в компанию пожалуй...
2,0.0,Не целевой,здравствуйте вы позвонили в компанию пожалуй...
3,0.0,Не целевой,здравствуйте вы позвонили в компанию пожалуй...
4,1.0,Целевой,здравствуйте вы позвонили компании пожалуйст...
5,1.0,Целевой,здравствуйте вы позвонили компанию пожалуйст...
6,1.0,Целевой,здравствуйте вы позвонили в компанию пожалуй...
7,1.0,Целевой,здравствуйте вы позвонили в компанию пожалуй...
8,0.0,Не целевой,здравствуйте вы позвонили в компанию пожалуй...
9,0.0,Не целевой,алло здравствуйте компания мэргрупп меня зовут...


In [None]:
df[['predict','Статус','Тип','Сайт','Тип посетителя','Сценарий','Операции','Тип устройства','Первая рекламная кампания','Чистая длительность разговора','Длительность звонка']]

Unnamed: 0,predict,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Длительность звонка
0,Не целевой,Принятый,Динамический коллтрекинг,pavcity.turbo.site,Вернувшийся,74955141111,Переадресация,Смартфон,Artics | Павелецкая Сити | direct | Яндекс.Дир...,59,60
1,Целевой,Принятый,Аналитика,pavcity.turbo.site,Не заполнен,74955141111,Переадресация,Прочее,Посетители без рекламной кампании,67,69
2,Не целевой,Принятый,Динамический коллтрекинг,pavcity.turbo.site,Вернувшийся,74955141111,Переадресация,Смартфон,Artics | Павелецкая Сити | direct | Яндекс.Дир...,49,50
3,Не целевой,Принятый,Динамический коллтрекинг,pavcity.turbo.site,Вернувшийся,74955141111,Переадресация,Смартфон,Artics | Павелецкая Сити | direct | Яндекс.Дир...,33,34
4,Целевой,Принятый,Аналитика,pavcity.ru,Не заполнен,74955141111,Переадресация,Прочее,Посетители без рекламной кампании,128,130
5,Целевой,Принятый,Аналитика,pavcity.ru,Не заполнен,SIP URI,Переадресация на сотрудника 1,Прочее,Посетители без рекламной кампании,80,81
6,Целевой,Принятый,Аналитика,pavcity.ru,Не заполнен,SIP URI,Переадресация на сотрудника 1,Прочее,Посетители без рекламной кампании,37,38
7,Целевой,Принятый,Аналитика,pavcity.ru,Не заполнен,74955141111,Переадресация,Прочее,Посетители без рекламной кампании,230,231
8,Не целевой,Принятый,Сохранённая переадресация,pavcity.ru,Не заполнен,74955141111,Переадресация,Прочее,Посетители без рекламной кампании,41,42
9,Не целевой,Принятый,Автоперезвон по заявкам,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,ПК,Media108 | Павелецкая Сити | direct | Яндекс.Д...,8,65


In [None]:
x_time = np.array(df['Чистая длительность разговора'].values)

In [None]:
print(f'Общая длительность: {int(x_time.sum()//60)} мин и {int(x_time.sum()%60)} сек.')

Общая длительность: 129 мин и 35 сек.


### Создание датафрейма с тестовыми данными

In [None]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Загрузка сводного датафрейма
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/rookie_total_df.csv')
df.shape

(23386, 77)

In [None]:
# Выбор необходимых столбцов
df = df[['Статус',
         'Тип',
         'Сайт',
         'Тип посетителя',
         'Сценарий',
         'Операции',
         'Тип устройства',
         'Первая рекламная кампания',
         'Чистая длительность разговора',
         'Номер обращения',
         'ID посетителя',
         'Идентификатор сессии звонка',
         'Файл записи звонка',
         'Класс',
         'Проект']][df['Файл записи звонка'] != 'нет файла'].sample(5)
df.shape

(5, 15)

In [None]:
df

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Класс,Проект
3763,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:14:15,1,0,3083061142,Записи звонков/Записи звонков_хедлайнер/2023-0...,Целевой,Headliner
21030,Принятый,Аналитика,primavera.moscow,Не заполнен,Обработка вызова 2023,Интерактивная обработка вызова 1,Прочее,Посетители без рекламной кампании,00:00:34,1,0,3230957576,Новые записи звонков/Записи Primavera/2023-09-...,Целевой,Primavera
20109,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,00:01:05,1,0,3251357547,Новые записи звонков/Записи Headliner/2023-09-...,Нецелевой,Headliner
21952,Принятый,Звонки из VK Ads,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,Прочее,Media108 | Павелецкая Сити | social | VK Ads,00:00:17,2,7558036959,3160197614,Новые записи звонков/Записи Павелецкая сити/20...,Нецелевой,Paveletskaya_city
7322,Принятый,Звонок ВАТС,primavera.moscow,Не заполнен,Обработка вызова 2023,"Интерактивная обработка вызова 1, Интерактивна...",Прочее,Посетители без рекламной кампании,00:02:16,1,0,3075218173,Записи звонков/Записи звонков_primavera/2023-0...,Нецелевой,Primavera


In [None]:
# Добавление столбца 'ID проекта'
df['ID проекта'] = 0
df.loc[df[df['Проект'] == 'Headliner'].index, 'ID проекта'] = 1
df.loc[df[df['Проект'] == 'Primavera'].index, 'ID проекта'] = 2

In [None]:
# Очистка от '{}' значений столбца 'Тип посетителя'
df['Тип посетителя'] = df['Тип посетителя'].apply(lambda x: x.strip('{}'))

In [None]:
# Очистка от '{}' значений столбца 'Первая рекламная кампания'
df['Первая рекламная кампания'] = df['Первая рекламная кампания'].apply(lambda x: x.strip('{}'))

In [None]:
# Переводим значения столбца 'Чистая длительность разговора' в количество секунд
df['Чистая длительность разговора'] = pd.to_datetime(df['Чистая длительность разговора']).dt.time
df['Чистая длительность разговора'] = df['Чистая длительность разговора'].apply(lambda x: x.hour*60*60 + x.minute*60 + x.second)

In [None]:
# Типы данных
df.dtypes

Статус                           object
Тип                              object
Сайт                             object
Тип посетителя                   object
Сценарий                         object
Операции                         object
Тип устройства                   object
Первая рекламная кампания        object
Чистая длительность разговора     int64
Номер обращения                   int64
ID посетителя                     int64
Идентификатор сессии звонка       int64
Файл записи звонка               object
Класс                            object
Проект                           object
ID проекта                        int64
dtype: object

In [None]:
df

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Класс,Проект,ID проекта
3763,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,855,1,0,3083061142,Записи звонков/Записи звонков_хедлайнер/2023-0...,Целевой,Headliner,1
21030,Принятый,Аналитика,primavera.moscow,Не заполнен,Обработка вызова 2023,Интерактивная обработка вызова 1,Прочее,Посетители без рекламной кампании,34,1,0,3230957576,Новые записи звонков/Записи Primavera/2023-09-...,Целевой,Primavera,2
20109,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,65,1,0,3251357547,Новые записи звонков/Записи Headliner/2023-09-...,Нецелевой,Headliner,1
21952,Принятый,Звонки из VK Ads,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,Прочее,Media108 | Павелецкая Сити | social | VK Ads,17,2,7558036959,3160197614,Новые записи звонков/Записи Павелецкая сити/20...,Нецелевой,Paveletskaya_city,0
7322,Принятый,Звонок ВАТС,primavera.moscow,Не заполнен,Обработка вызова 2023,"Интерактивная обработка вызова 1, Интерактивна...",Прочее,Посетители без рекламной кампании,136,1,0,3075218173,Записи звонков/Записи звонков_primavera/2023-0...,Нецелевой,Primavera,2


In [None]:
# Сохранение датафрейма с тестовыми данными
df.to_csv('/content/drive/MyDrive/media108.ru/Датафреймы/test_data_df.csv', index=False)

### Создание тестового входного `json-файла`

In [1]:
# Подключение google-диска
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Загрузка датафрейма с тестовыми данными
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/media108.ru/Датафреймы/test_data_df.csv')
df.shape

(5, 16)

In [3]:
df

Unnamed: 0,Статус,Тип,Сайт,Тип посетителя,Сценарий,Операции,Тип устройства,Первая рекламная кампания,Чистая длительность разговора,Номер обращения,ID посетителя,Идентификатор сессии звонка,Файл записи звонка,Класс,Проект,ID проекта
0,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,855,1,0,3083061142,Записи звонков/Записи звонков_хедлайнер/2023-0...,Целевой,Headliner,1
1,Принятый,Аналитика,primavera.moscow,Не заполнен,Обработка вызова 2023,Интерактивная обработка вызова 1,Прочее,Посетители без рекламной кампании,34,1,0,3230957576,Новые записи звонков/Записи Primavera/2023-09-...,Целевой,Primavera,2
2,Принятый,Звонок ВАТС,head-liner.ru,Не заполнен,Кортрос,Переадресация 1,Прочее,Посетители без рекламной кампании,65,1,0,3251357547,Новые записи звонков/Записи Headliner/2023-09-...,Нецелевой,Headliner,1
3,Принятый,Звонки из VK Ads,pavcity.ru,Новый,ОЗ (SIP<1),Переадресация на сотрудника 1,Прочее,Media108 | Павелецкая Сити | social | VK Ads,17,2,7558036959,3160197614,Новые записи звонков/Записи Павелецкая сити/20...,Нецелевой,Paveletskaya_city,0
4,Принятый,Звонок ВАТС,primavera.moscow,Не заполнен,Обработка вызова 2023,"Интерактивная обработка вызова 1, Интерактивна...",Прочее,Посетители без рекламной кампании,136,1,0,3075218173,Записи звонков/Записи звонков_primavera/2023-0...,Нецелевой,Primavera,2


In [4]:
# Сохранение тестовых данных в json
df.to_json('/content/drive/MyDrive/media108.ru/Датафреймы/test_data.json', orient='records', force_ascii=False)

In [5]:
!cat /content/drive/MyDrive/media108.ru/Датафреймы/test_data.json

[{"Статус":"Принятый","Тип":"Звонок ВАТС","Сайт":"head-liner.ru","Тип посетителя":"Не заполнен","Сценарий":"Кортрос","Операции":"Переадресация 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":855,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3083061142,"Файл записи звонка":"Записи звонков\/Записи звонков_хедлайнер\/2023-07-11_16-18-51.610373_from_79263731436_to_0188880_session_3083061142_talk.mp3","Класс":"Целевой","Проект":"Headliner","ID проекта":1},{"Статус":"Принятый","Тип":"Аналитика","Сайт":"primavera.moscow","Тип посетителя":"Не заполнен","Сценарий":"Обработка вызова 2023","Операции":"Интерактивная обработка вызова 1","Тип устройства":"Прочее","Первая рекламная кампания":"Посетители без рекламной кампании","Чистая длительность разговора":34,"Номер обращения":1,"ID посетителя":0,"Идентификатор сессии звонка":3230957576,"Файл записи звонка":"Новые записи звонков\/Записи Primavera\/202