# [Техническое задание](https://docs.google.com/document/d/1ZIu6daXZRuDR796AHjKCku643hlM3xgYxW9E84DBJFc/edit?usp=sharing)

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# [Датафреймы](https://drive.google.com/drive/folders/111abiHt33Q-SV48pBPhEgDCZDI5KshnF?usp=sharing)

## Headliner

*   [`Headliner_calls_df.pkl` Файлы записей звонков `Headliner`](https://drive.google.com/file/d/13pmGEYacsEHjYsIsYgf6fg4MUHAw509y/view?usp=sharing)
*   [`Headliner_new_calls_df.pkl` Файлы записей новых звонков `Headliner`](https://drive.google.com/file/d/1-Ke1q42th_NV0og0e01_-mvJ8HL8JzfS/view?usp=sharing)

## Primavera

*   [`Primavera_calls_df.pkl` Файлы записей звонков `Primavera`](https://drive.google.com/file/d/1-CLRfPyaGSc61OopNuFRlWTG-CBCaM1F/view?usp=sharing)
*   [`Primavera_new_calls_df.pkl` Файлы записей новых звонков `Primavera`](https://drive.google.com/file/d/1-Lxa0KifMiByareL94rdEzEpvvMj4D1T/view?usp=sharing)

## Paveletskaya_city

*   [`Paveletskaya_city_calls_df.pkl` Файлы записей звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-JevsfOpxzLNZmSs34qrswhGzhPwf69S/view?usp=sharing)
*   [`Paveletskaya_city_new_calls_df.pkl` Файлы записей новых звонков `Paveletskaya_city`](https://drive.google.com/file/d/1-ODEeFLv15DN5bfLlwyrTx8D3yxydhP9/view?usp=sharing)

# 2 неделя

In [None]:
!rm -r sample_data

In [None]:
# Подключаем google-диск
from google.colab import drive
drive.mount('/content/drive')
my_drv_path = '/content/drive/MyDrive/'

Mounted at /content/drive


## Библиотеки и переменные

In [None]:
import os            # для работы с операционной системой
import pickle as pkl # для сохранения и загрузки переменных
import pandas as pd  # для работы с таблицами
import numpy  as np  # для работы с массивами
import re            # для работы с регулярными выражениями

# Параметры отображения датафреймов
pd.options.display.max_rows     = 99
pd.options.display.max_columns  = 99
pd.options.display.max_colwidth = 999

work_dir_path              = my_drv_path           + 'media108.ru/Новички/'                # путь к рабочей папке
df_path                    = work_dir_path         + 'Датафреймы/'                         # путь к папке для датафреймов
table_path                 = work_dir_path         + 'Таблицы/'                            # путь к папке для таблиц
model_path                 = work_dir_path         + 'Модели/'                             # путь к папке для моделей нейронных сетей
all_dataset_path           = work_dir_path         + 'Датасет/'                            # путь к папке всего датасета в целом
dataset_path               = all_dataset_path      + 'Записи звонков/'                     # путь к записям звонков
dataset_info_path          = dataset_path          + 'Информация о звонках/'               # путь к информации о звонках
dataset_new_path           = all_dataset_path      + 'Новые записи звонков/'               # путь к новым записям звонков
dataset_new_info_path      = dataset_new_path      + 'Информация о звонках/'               # путь к информации о новых звонках
Headliner_path             = dataset_path          + 'Записи звонков_хедлайнер'            # путь к записям звонков проекта Headliner
Headliner_info             = dataset_info_path     + 'Headliner.csv'                       # путь к информации о звонках проекта Headliner
Headliner_new_path         = dataset_new_path      + 'Записи Headliner'                    # путь к записям новых звонков проекта Headliner
Headliner_new_info         = dataset_new_info_path + 'Headliner.xlsx'                      # путь к информации о новых звонках проекта Headliner
Primavera_path             = dataset_path          + 'Записи звонков_primavera'            # путь к записям звонков проекта Primavera
Primavera_info             = dataset_info_path     + 'Primavera .csv'                      # путь к информации о звонках проекта Primavera
Primavera_new_path         = dataset_new_path      + 'Записи Primavera'                    # путь к записям новых звонков проекта Primavera
Primavera_new_info         = dataset_new_info_path + 'Примавера.xlsx'                      # путь к информации о новых звонках проекта Primavera
Paveletskaya_city_path     = dataset_path          + 'Записи звонков_павелецкая сити'      # путь к записям звонков проекта Paveletskaya_city
Paveletskaya_city_info     = dataset_info_path     + 'Павелецкая_ЖК_«Павелецкая_сити».csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_info          = dataset_info_path     + 'Павелецкая (pavcity.turbo.site).csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_city_new_path = dataset_new_path      + 'Записи Павелецкая сити'              # путь к записям новых звонков проекта Paveletskaya_city
Paveletskaya_city_new_info = dataset_new_info_path + 'Павелецкая сити.xlsx'                # путь к информации о новых звонках проекта Paveletskaya_city

## Функции

In [None]:
# Функция для создания датафрейма из списка записей звонков
def calls_list_to_df(calls_list):

  datetime_list    = [] # список для 'Дата и время'
  from_number_list = [] # список для 'Номер абонента'
  to_number_list   = [] # список для 'Номер сотрудника'
  session_list     = [] # список для 'Идентификатор сессии звонка'

  # Проходим по списку записей звонков
  for call in calls_list:

    call_item_list = call.split('_')
    time_item_list = call_item_list[1].split('-')

    # Заполняем списки для столбцов
    datetime_list.append(call_item_list[0] + ' ' + time_item_list[0] + ':' + time_item_list[1] + ':' + time_item_list[2])
    from_number_list.append(call_item_list[3])
    to_number_list.append(call_item_list[5])
    session_list.append(call_item_list[7])

  # Собираем созданные списки в словарь
  calls_dict = dict.fromkeys(['Дата и время', 'Номер абонента', 'Номер сотрудника', 'Идентификатор сессии звонка', 'Файл записи звонка'], [])
  calls_dict['Дата и время']                = datetime_list
  calls_dict['Номер абонента']              = from_number_list
  calls_dict['Номер сотрудника']            = to_number_list
  calls_dict['Идентификатор сессии звонка'] = session_list
  calls_dict['Файл записи звонка']          = calls_list

  # Возвращаем датафрейм
  return pd.DataFrame(calls_dict)

## [Записи звонков](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing)

In [None]:
# Записи звонков
os.listdir(dataset_path)

['Записи звонков_primavera',
 'Записи звонков_хедлайнер',
 'Информация о звонках',
 'Записи звонков_павелецкая сити']

### Файлы записей звонков

In [None]:
# Записи Headliner
os.listdir(Headliner_path)[:10]

['2023-06-14_15-07-40.938632_from_79050768875_to_0188880_session_3003489531_talk.mp3',
 '2023-06-14_13-30-42.804946_from_74957457444_to_74959339929_session_3022411736_talk.mp3',
 '2023-06-14_15-58-58.400913_from_79269312016_to_74957898990_session_3003674963_talk.mp3',
 '2023-06-14_14-57-40.708736_from_79774768303_to_74959339929_session_3004166049_talk.mp3',
 '2023-06-14_13-45-55.847701_from_79062755811_to_74957898990_session_2985577658_talk.mp3',
 '2023-06-14_14-56-36.113671_from_79032889731_to_74959339929_session_2985803162_talk.mp3',
 '2023-06-14_15-30-55.184317_from_79667390327_to_74957898990_session_3004302373_talk.mp3',
 '2023-06-14_15-18-46.621317_from_79774768303_to_74959339929_session_3004252065_talk.mp3',
 '2023-06-14_15-08-36.282681_from_79031403616_to_74959339902_session_3003490011_talk.mp3',
 '2023-06-14_13-09-46.405193_from_74957457444_to_74959339929_session_2985464550_talk.mp3']

In [None]:
# Записи Primavera
os.listdir(Primavera_path)[:10]

['2023-05-22_14-31-25.831818_from_79005731071_to_0197875_session_2955870551_talk.mp3',
 '2023-05-22_16-25-39.290501_from_79634709412_to_0111642_session_2969621584_talk.mp3',
 '2023-05-21_17-39-50.256947_from_79210517035_to_0111651_session_2967199164_talk.mp3',
 '2023-05-22_11-39-36.568332_from_79265589095_to_0111639_session_2955163371_talk.mp3',
 '2023-05-22_14-45-50.919004_from_74959906134_to_0111642_session_2955923735_talk.mp3',
 '2023-05-21_17-17-38.369907_from_74950210291_to_0197879_session_2967187840_talk.mp3',
 '2023-05-21_10-21-22.058033_from_79091690998_to_0111639_session_2953966361_talk.mp3',
 '2023-05-22_12-16-10.253584_from_79854636456_to_0111639_session_2955827081_talk.mp3',
 '2023-05-20_20-44-08.680958_from_79218635931_to_0197872_session_2966077916_talk.mp3',
 '2023-05-22_11-38-44.274801_from_79265589095_to_0111639_session_2955694793_talk.mp3']

In [None]:
# Записи Paveletskaya_city
os.listdir(Paveletskaya_city_path)[:10]

['2023-07-18_20-21-20.571562_from_79169541011_to_74955141111_session_3096295994_talk.mp3',
 '2023-07-15_12-59-48.136717_from_74958266788_to_74950216267_session_3089988186_talk.mp3',
 '2023-07-14_12-25-51.010774_from_79023252958_to_74955141111_session_3089855767_talk.mp3',
 '2023-07-18_12-16-33.916259_from_79151079235_to_74955141111_session_3095485421_talk.mp3',
 '2023-07-13_18-43-05.740474_from_79172743421_to_74955141111_session_3088607912_talk.mp3',
 '2023-07-17_16-36-51.623658_from_79023252958_to_74955141111_session_3093331369_talk.mp3',
 '2023-07-18_12-26-00.501196_from_79153200606_to_74955141111_session_3094691113_talk.mp3',
 '2023-07-14_14-45-58.067755_from_79282737573_to_74950216267_session_3088442076_talk.mp3',
 '2023-07-19_13-33-47.219580_from_79056804383_to_74950216267_session_3097633704_talk.mp3',
 '2023-07-16_09-21-01.204283_from_79257972733_to_74955141111_session_3097619245_talk.mp3']

In [None]:
# Количество записей звонков по проектам
print(f"        Headliner: {len(os.listdir(Headliner_path)):4d} записей")
print(f"        Primavera: {len(os.listdir(Primavera_path)):4d} записей")
print(f"Paveletskaya_city: {len(os.listdir(Paveletskaya_city_path)):4d} записей")

        Headliner: 2055 записей
        Primavera: 1983 записей
Paveletskaya_city: 1000 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Headliner_calls_df = calls_list_to_df(os.listdir(Headliner_path))
Headliner_calls_df.shape

(2055, 5)

In [None]:
Headliner_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-06-14 15:07:40.938632,79050768875,188880,3003489531,2023-06-14_15-07-40.938632_from_79050768875_to_0188880_session_3003489531_talk.mp3
1,2023-06-14 13:30:42.804946,74957457444,74959339929,3022411736,2023-06-14_13-30-42.804946_from_74957457444_to_74959339929_session_3022411736_talk.mp3
2,2023-06-14 15:58:58.400913,79269312016,74957898990,3003674963,2023-06-14_15-58-58.400913_from_79269312016_to_74957898990_session_3003674963_talk.mp3
3,2023-06-14 14:57:40.708736,79774768303,74959339929,3004166049,2023-06-14_14-57-40.708736_from_79774768303_to_74959339929_session_3004166049_talk.mp3
4,2023-06-14 13:45:55.847701,79062755811,74957898990,2985577658,2023-06-14_13-45-55.847701_from_79062755811_to_74957898990_session_2985577658_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Headliner_path)))
print(Headliner_calls_df.shape[0])

2055
2055


In [None]:
print(Headliner_calls_df.count())

Дата и время                   2055
Номер абонента                 2055
Номер сотрудника               2055
Идентификатор сессии звонка    2055
Файл записи звонка             2055
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Headliner_calls_df['Идентификатор сессии звонка'].nunique()

2045

In [None]:
# Количество дубликатов в столбце 'Идентификатор сессии звонка'
print(Headliner_calls_df[Headliner_calls_df['Идентификатор сессии звонка'].duplicated(keep='last')].shape[0])
print(Headliner_calls_df[Headliner_calls_df['Идентификатор сессии звонка'].duplicated()].shape[0])

10
10


In [None]:
# Смотрим дубликаты в столбце 'Идентификатор сессии звонка'
pd.concat([Headliner_calls_df[Headliner_calls_df['Идентификатор сессии звонка'].duplicated(keep='last')],
           Headliner_calls_df[Headliner_calls_df['Идентификатор сессии звонка'].duplicated()]])

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
25,2023-06-09 20:36:38.855885,74951626925,74997552563,3014157308,2023-06-09_20-36-38.855885_from_74951626925_to_74997552563_session_3014157308_talk (1).mp3
33,2023-06-09 16:51:36.409159,79999835117,74959339929,3013731244,2023-06-09_16-51-36.409159_from_79999835117_to_74959339929_session_3013731244_talk (1).mp3
1857,2023-06-10 12:51:20.873488,74957457444,74959339929,2996988633,2023-06-10_12-51-20.873488_from_74957457444_to_74959339929_session_2996988633_talk (1).mp3
1859,2023-06-10 12:41:39.438371,79932311337,74997552563,3014808800,2023-06-10_12-41-39.438371_from_79932311337_to_74997552563_session_3014808800_talk (1).mp3
1860,2023-06-10 12:19:27.677250,79855320219,74959339902,2996201671,2023-06-10_12-19-27.677250_from_79855320219_to_74959339902_session_2996201671_talk (1).mp3
1861,2023-06-10 12:50:13.808032,79057912134,74997552563,2996260363,2023-06-10_12-50-13.808032_from_79057912134_to_74997552563_session_2996260363_talk (1).mp3
1866,2023-06-10 12:20:01.703751,79855320219,74959339902,2996196943,2023-06-10_12-20-01.703751_from_79855320219_to_74959339902_session_2996196943_talk (1).mp3
1872,2023-06-10 17:21:35.269125,79015530030,74959339929,2996704435,2023-06-10_17-21-35.269125_from_79015530030_to_74959339929_session_2996704435_talk (1).mp3
1874,2023-06-10 17:09:27.282329,79636310102,74997552563,2979780790,2023-06-10_17-09-27.282329_from_79636310102_to_74997552563_session_2979780790_talk (1).mp3
1879,2023-06-10 14:03:42.287232,74957457444,74959339929,2979520234,2023-06-10_14-03-42.287232_from_74957457444_to_74959339929_session_2979520234_talk (1).mp3


In [None]:
# Удаляем дубликаты
Headliner_calls_df = Headliner_calls_df.drop_duplicates(subset=['Идентификатор сессии звонка'])
Headliner_calls_df.shape

(2045, 5)

In [None]:
print(Headliner_calls_df.count())

Дата и время                   2045
Номер абонента                 2045
Номер сотрудника               2045
Идентификатор сессии звонка    2045
Файл записи звонка             2045
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_calls_df['Дата и время'].head()

0    2023-06-14 15:07:40.938632
1    2023-06-14 13:30:42.804946
2    2023-06-14 15:58:58.400913
3    2023-06-14 14:57:40.708736
4    2023-06-14 13:45:55.847701
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_calls_df['Дата и время'] = pd.to_datetime(Headliner_calls_df['Дата и время'])

In [None]:
Headliner_calls_df['Дата и время'].tail()

2050   2023-07-19 10:23:33.505397
2051   2023-07-19 14:14:01.541579
2052   2023-07-19 10:28:35.079523
2053   2023-07-19 11:57:07.584861
2054   2023-07-19 14:49:35.818543
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_calls_df['Номер абонента'].head()

0    79050768875
1    74957457444
2    79269312016
3    79774768303
4    79062755811
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_calls_df = Headliner_calls_df.astype({'Номер абонента': int})

In [None]:
Headliner_calls_df['Номер абонента'].tail()

2050    79268876842
2051    79851322547
2052    79250364306
2053    79151406411
2054    74951626925
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_calls_df['Номер сотрудника'].head()

0        0188880
1    74959339929
2    74957898990
3    74959339929
4    74957898990
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_calls_df = Headliner_calls_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_calls_df['Номер сотрудника'].tail()

2050    74959339929
2051    74959339929
2052    74959339929
2053         188880
2054         188880
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].head()

0    3003489531
1    3022411736
2    3003674963
3    3004166049
4    2985577658
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_calls_df = Headliner_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].tail()

2050    3096900794
2051    3097535013
2052    3096681333
2053    3097273754
2054    3100904407
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Headliner_calls_df['Файл записи звонка'].head()

0        2023-06-14_15-07-40.938632_from_79050768875_to_0188880_session_3003489531_talk.mp3
1    2023-06-14_13-30-42.804946_from_74957457444_to_74959339929_session_3022411736_talk.mp3
2    2023-06-14_15-58-58.400913_from_79269312016_to_74957898990_session_3003674963_talk.mp3
3    2023-06-14_14-57-40.708736_from_79774768303_to_74959339929_session_3004166049_talk.mp3
4    2023-06-14_13-45-55.847701_from_79062755811_to_74957898990_session_2985577658_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_calls_df['Файл записи звонка'] = Headliner_calls_df['Файл записи звонка'].apply(lambda x: 'Записи звонков/Записи звонков_хедлайнер/' + x)

In [None]:
Headliner_calls_df['Файл записи звонка'].tail()

2050    Записи звонков/Записи звонков_хедлайнер/2023-07-19_10-23-33.505397_from_79268876842_to_74959339929_session_3096900794_talk.mp3
2051    Записи звонков/Записи звонков_хедлайнер/2023-07-19_14-14-01.541579_from_79851322547_to_74959339929_session_3097535013_talk.mp3
2052    Записи звонков/Записи звонков_хедлайнер/2023-07-19_10-28-35.079523_from_79250364306_to_74959339929_session_3096681333_talk.mp3
2053        Записи звонков/Записи звонков_хедлайнер/2023-07-19_11-57-07.584861_from_79151406411_to_0188880_session_3097273754_talk.mp3
2054        Записи звонков/Записи звонков_хедлайнер/2023-07-19_14-49-35.818543_from_74951626925_to_0188880_session_3100904407_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Headliner_calls_df.count())

Дата и время                   2045
Номер абонента                 2045
Номер сотрудника               2045
Идентификатор сессии звонка    2045
Файл записи звонка             2045
dtype: int64


#### Сохранение датафрейма

In [None]:
Headliner_calls_df.index = range(Headliner_calls_df.shape[0])

In [None]:
# Сохраняем Headliner_calls_df в pkl
with open(df_path + 'Headliner_calls_df.pkl', 'wb') as f:
  pkl.dump(Headliner_calls_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Primavera_calls_df = calls_list_to_df(os.listdir(Primavera_path))
Primavera_calls_df.shape

(1983, 5)

In [None]:
Primavera_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-05-22 14:31:25.831818,79005731071,197875,2955870551,2023-05-22_14-31-25.831818_from_79005731071_to_0197875_session_2955870551_talk.mp3
1,2023-05-22 16:25:39.290501,79634709412,111642,2969621584,2023-05-22_16-25-39.290501_from_79634709412_to_0111642_session_2969621584_talk.mp3
2,2023-05-21 17:39:50.256947,79210517035,111651,2967199164,2023-05-21_17-39-50.256947_from_79210517035_to_0111651_session_2967199164_talk.mp3
3,2023-05-22 11:39:36.568332,79265589095,111639,2955163371,2023-05-22_11-39-36.568332_from_79265589095_to_0111639_session_2955163371_talk.mp3
4,2023-05-22 14:45:50.919004,74959906134,111642,2955923735,2023-05-22_14-45-50.919004_from_74959906134_to_0111642_session_2955923735_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Primavera_path)))
print(Primavera_calls_df.shape[0])

1983
1983


In [None]:
print(Primavera_calls_df.count())

Дата и время                   1983
Номер абонента                 1983
Номер сотрудника               1983
Идентификатор сессии звонка    1983
Файл записи звонка             1983
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Primavera_calls_df['Идентификатор сессии звонка'].nunique()

1983

#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_calls_df['Дата и время'].head()

0    2023-05-22 14:31:25.831818
1    2023-05-22 16:25:39.290501
2    2023-05-21 17:39:50.256947
3    2023-05-22 11:39:36.568332
4    2023-05-22 14:45:50.919004
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_calls_df['Дата и время'] = pd.to_datetime(Primavera_calls_df['Дата и время'])

In [None]:
Primavera_calls_df['Дата и время'].tail()

1978   2023-05-22 12:44:13.465397
1979   2023-05-22 15:09:36.245926
1980   2023-05-22 14:57:04.953223
1981   2023-05-21 11:47:32.443859
1982   2023-05-22 11:32:49.969374
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_calls_df['Номер абонента'].head()

0    79005731071
1    79634709412
2    79210517035
3    79265589095
4    74959906134
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_calls_df = Primavera_calls_df.astype({'Номер абонента': int})

In [None]:
Primavera_calls_df['Номер абонента'].tail()

1978    79165220654
1979    79162064759
1980    79037334944
1981    79835255067
1982    79152031109
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_calls_df['Номер сотрудника'].head()

0    0197875
1    0111642
2    0111651
3    0111639
4    0111642
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_calls_df = Primavera_calls_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_calls_df['Номер сотрудника'].tail()

1978    111639
1979    197872
1980    150113
1981    197872
1982    197878
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].head()

0    2955870551
1    2969621584
2    2967199164
3    2955163371
4    2955923735
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_calls_df = Primavera_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].tail()

1978    2955174659
1979    2943106794
1980    2943071546
1981    2953611467
1982    2955159919
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Primavera_calls_df['Файл записи звонка'].head()

0    2023-05-22_14-31-25.831818_from_79005731071_to_0197875_session_2955870551_talk.mp3
1    2023-05-22_16-25-39.290501_from_79634709412_to_0111642_session_2969621584_talk.mp3
2    2023-05-21_17-39-50.256947_from_79210517035_to_0111651_session_2967199164_talk.mp3
3    2023-05-22_11-39-36.568332_from_79265589095_to_0111639_session_2955163371_talk.mp3
4    2023-05-22_14-45-50.919004_from_74959906134_to_0111642_session_2955923735_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_calls_df['Файл записи звонка'] = Primavera_calls_df['Файл записи звонка'].apply(lambda x: 'Записи звонков/Записи звонков_primavera/' + x)

In [None]:
Primavera_calls_df['Файл записи звонка'].tail()

1978    Записи звонков/Записи звонков_primavera/2023-05-22_12-44-13.465397_from_79165220654_to_0111639_session_2955174659_talk.mp3
1979    Записи звонков/Записи звонков_primavera/2023-05-22_15-09-36.245926_from_79162064759_to_0197872_session_2943106794_talk.mp3
1980    Записи звонков/Записи звонков_primavera/2023-05-22_14-57-04.953223_from_79037334944_to_0150113_session_2943071546_talk.mp3
1981    Записи звонков/Записи звонков_primavera/2023-05-21_11-47-32.443859_from_79835255067_to_0197872_session_2953611467_talk.mp3
1982    Записи звонков/Записи звонков_primavera/2023-05-22_11-32-49.969374_from_79152031109_to_0197878_session_2955159919_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Primavera_calls_df.count())

Дата и время                   1983
Номер абонента                 1983
Номер сотрудника               1983
Идентификатор сессии звонка    1983
Файл записи звонка             1983
dtype: int64


#### Сохранение датафрейма

In [None]:
Primavera_calls_df.index = range(Primavera_calls_df.shape[0])

In [None]:
# Сохраняем Primavera_calls_df в pkl
with open(df_path + 'Primavera_calls_df.pkl', 'wb') as f:
  pkl.dump(Primavera_calls_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Paveletskaya_city_calls_df = calls_list_to_df(os.listdir(Paveletskaya_city_path))
Paveletskaya_city_calls_df.shape

(1000, 5)

In [None]:
Paveletskaya_city_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-07-18 20:21:20.571562,79169541011,74955141111,3096295994,2023-07-18_20-21-20.571562_from_79169541011_to_74955141111_session_3096295994_talk.mp3
1,2023-07-15 12:59:48.136717,74958266788,74950216267,3089988186,2023-07-15_12-59-48.136717_from_74958266788_to_74950216267_session_3089988186_talk.mp3
2,2023-07-14 12:25:51.010774,79023252958,74955141111,3089855767,2023-07-14_12-25-51.010774_from_79023252958_to_74955141111_session_3089855767_talk.mp3
3,2023-07-18 12:16:33.916259,79151079235,74955141111,3095485421,2023-07-18_12-16-33.916259_from_79151079235_to_74955141111_session_3095485421_talk.mp3
4,2023-07-13 18:43:05.740474,79172743421,74955141111,3088607912,2023-07-13_18-43-05.740474_from_79172743421_to_74955141111_session_3088607912_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Paveletskaya_city_path)))
print(Paveletskaya_city_calls_df.shape[0])

1000
1000


In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1000
Номер абонента                 1000
Номер сотрудника               1000
Идентификатор сессии звонка    1000
Файл записи звонка             1000
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].nunique()

1000

#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_calls_df['Дата и время'].head()

0    2023-07-18 20:21:20.571562
1    2023-07-15 12:59:48.136717
2    2023-07-14 12:25:51.010774
3    2023-07-18 12:16:33.916259
4    2023-07-13 18:43:05.740474
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_calls_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_calls_df['Дата и время'])

In [None]:
Paveletskaya_city_calls_df['Дата и время'].tail()

995   2023-06-21 12:52:28.101896
996   2023-06-22 13:18:56.431860
997   2023-06-23 08:36:46.032632
998   2023-06-18 17:41:38.718386
999   2023-06-19 12:12:40.350431
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].head()

0    79169541011
1    74958266788
2    79023252958
3    79151079235
4    79172743421
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].tail()

995    79035224370
996    79169209180
997    79165835574
998    79051570440
999    79104429469
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].head()

0    74955141111
1    74950216267
2    74955141111
3    74955141111
4    74955141111
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].tail()

995    74955141111
996    74955141111
997    74955141111
998    74950216267
999    74955141111
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].head()

0    3096295994
1    3089988186
2    3089855767
3    3095485421
4    3088607912
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].tail()

995    3037654279
996    3040348411
997    3042395962
998    3031456882
999    3032677423
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].head()

0    2023-07-18_20-21-20.571562_from_79169541011_to_74955141111_session_3096295994_talk.mp3
1    2023-07-15_12-59-48.136717_from_74958266788_to_74950216267_session_3089988186_talk.mp3
2    2023-07-14_12-25-51.010774_from_79023252958_to_74955141111_session_3089855767_talk.mp3
3    2023-07-18_12-16-33.916259_from_79151079235_to_74955141111_session_3095485421_talk.mp3
4    2023-07-13_18-43-05.740474_from_79172743421_to_74955141111_session_3088607912_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_calls_df['Файл записи звонка'] = Paveletskaya_city_calls_df['Файл записи звонка'].apply(lambda x: 'Записи звонков/Записи звонков_павелецкая сити/' + x)

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].tail()

995    Записи звонков/Записи звонков_павелецкая сити/2023-06-21_12-52-28.101896_from_79035224370_to_74955141111_session_3037654279_talk.mp3
996    Записи звонков/Записи звонков_павелецкая сити/2023-06-22_13-18-56.431860_from_79169209180_to_74955141111_session_3040348411_talk.mp3
997    Записи звонков/Записи звонков_павелецкая сити/2023-06-23_08-36-46.032632_from_79165835574_to_74955141111_session_3042395962_talk.mp3
998    Записи звонков/Записи звонков_павелецкая сити/2023-06-18_17-41-38.718386_from_79051570440_to_74950216267_session_3031456882_talk.mp3
999    Записи звонков/Записи звонков_павелецкая сити/2023-06-19_12-12-40.350431_from_79104429469_to_74955141111_session_3032677423_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1000
Номер абонента                 1000
Номер сотрудника               1000
Идентификатор сессии звонка    1000
Файл записи звонка             1000
dtype: int64


#### Сохранение датафрейма

In [None]:
Paveletskaya_city_calls_df.index = range(Paveletskaya_city_calls_df.shape[0])

In [None]:
# Сохраняем Paveletskaya_city_calls_df в pkl
with open(df_path + 'Paveletskaya_city_calls_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_calls_df, f)

## [Новые записи звонков](https://drive.google.com/drive/folders/11aY9qpv301UnBuYvG8Iap1-Od28sQdMH?usp=sharing)

In [None]:
# Новые записи звонков
os.listdir(dataset_new_path)

['Записи Headliner',
 'Записи Primavera',
 'Записи Павелецкая сити',
 'Информация о звонках']

### Файлы новых записей звонков

In [None]:
# Записи Headliner
os.listdir(Headliner_new_path)[:10]

['2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3',
 '2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3',
 '2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3',
 '2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3',
 '2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3',
 '2023-09-26_14-03-03.889896_from_79164117555_to_74959339902_session_3237804050_talk.mp3',
 '2023-09-22_15-05-38.848815_from_79608617626_to_0188880_session_3243154724_talk.mp3',
 '2023-09-22_15-47-29.153917_from_79169869883_to_74959339902_session_3231248615_talk.mp3',
 '2023-09-25_15-33-38.734417_from_79025578055_to_74959339902_session_3251147526_talk.mp3',
 '2023-09-27_16-24-56.511269_from_79166279057_to_74959339902_session_3253891649_talk.mp3']

In [None]:
# Записи Primavera
os.listdir(Primavera_new_path)[:10]

['2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3',
 '2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3',
 '2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3',
 '2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3',
 '2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3',
 '2023-09-30_15-31-41.654688_from_79939041290_to_0253192_session_3263409766_talk.mp3',
 '2023-10-04_14-14-24.774719_from_74951201251_to_0253206_session_3268896004_talk.mp3',
 '2023-10-04_10-51-34.713659_from_79154098258_to_0111631_session_3262644468_talk.mp3',
 '2023-10-03_16-27-25.589891_from_79269050076_to_0253200_session_3251740160_talk.mp3',
 '2023-10-04_13-48-28.199593_from_79250269006_to_0111651_session_3271685686_talk.mp3']

In [None]:
# Записи Paveletskaya_city
os.listdir(Paveletskaya_city_new_path)[:10]

['2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3',
 '2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3',
 '2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3',
 '2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3',
 '2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3',
 '2023-09-17_17-31-02.604192_from_79165656567_to_00288_session_3225012783_talk.mp3',
 '2023-09-18_17-14-07.670764_from_79264028168_to_00288_session_3231837499_talk.mp3',
 '2023-09-17_15-30-32.547936_from_79033154042_to_00288_session_3218794065_talk.mp3',
 '2023-09-18_10-27-52.597249_from_79035129646_to_00288_session_3232383306_talk.mp3',
 '2023-09-16_17-35-42.402838_from_79607558395_to_00288_session_3230248941_talk.mp3']

In [None]:
# Количество новых записей звонков по проектам
print(f"        Headliner: {len(os.listdir(Headliner_new_path)):4d} записей")
print(f"        Primavera: {len(os.listdir(Primavera_new_path)):4d} записей")
print(f"Paveletskaya_city: {len(os.listdir(Paveletskaya_city_new_path)):4d} записей")

        Headliner: 1226 записей
        Primavera:  767 записей
Paveletskaya_city: 1413 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Headliner_calls_df = calls_list_to_df(os.listdir(Headliner_new_path))
Headliner_calls_df.shape

(1226, 5)

In [None]:
Headliner_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-26 10:06:23.403699,79584153294,74959339902,3252459256,2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1,2023-09-21 18:54:50.120569,79951538090,188880,3235156678,2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2,2023-09-27 16:10:52.316459,79853697070,188880,3253840089,2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3,2023-09-25 09:12:02.428401,79858141531,74959339902,3249639806,2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4,2023-09-28 11:08:32.052586,79851881681,74959339902,3262172387,2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Headliner_new_path)))
print(Headliner_calls_df.shape[0])

1226
1226


In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Headliner_calls_df['Идентификатор сессии звонка'].nunique()

1226

#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_calls_df['Дата и время'].head()

0    2023-09-26 10:06:23.403699
1    2023-09-21 18:54:50.120569
2    2023-09-27 16:10:52.316459
3    2023-09-25 09:12:02.428401
4    2023-09-28 11:08:32.052586
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_calls_df['Дата и время'] = pd.to_datetime(Headliner_calls_df['Дата и время'])

In [None]:
Headliner_calls_df['Дата и время'].tail()

1221   2023-09-25 20:22:45.880054
1222   2023-09-27 15:04:39.742280
1223   2023-09-26 15:17:11.305534
1224   2023-09-26 11:33:50.933882
1225   2023-09-23 11:18:02.353443
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_calls_df['Номер абонента'].head()

0    79584153294
1    79951538090
2    79853697070
3    79858141531
4    79851881681
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_calls_df = Headliner_calls_df.astype({'Номер абонента': int})

In [None]:
Headliner_calls_df['Номер абонента'].tail()

1221    79039077310
1222    79964425592
1223    79199453103
1224    79264649878
1225    79224128180
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_calls_df['Номер сотрудника'].head()

0    74959339902
1        0188880
2        0188880
3    74959339902
4    74959339902
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_calls_df = Headliner_calls_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_calls_df['Номер сотрудника'].tail()

1221    74959339902
1222    74959339902
1223         188880
1224    74959339902
1225         188880
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].head()

0    3252459256
1    3235156678
2    3253840089
3    3249639806
4    3262172387
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_calls_df = Headliner_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].tail()

1221    3244316548
1222    3240209630
1223    3246045878
1224    3245199518
1225    3251344342
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Headliner_calls_df['Файл записи звонка'].head()

0    2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1        2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2        2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3    2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4    2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_calls_df['Файл записи звонка'] = Headliner_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Headliner/' + x)

In [None]:
Headliner_calls_df['Файл записи звонка'].tail()

1221    Новые записи звонков/Записи Headliner/2023-09-25_20-22-45.880054_from_79039077310_to_74959339902_session_3244316548_talk.mp3
1222    Новые записи звонков/Записи Headliner/2023-09-27_15-04-39.742280_from_79964425592_to_74959339902_session_3240209630_talk.mp3
1223        Новые записи звонков/Записи Headliner/2023-09-26_15-17-11.305534_from_79199453103_to_0188880_session_3246045878_talk.mp3
1224    Новые записи звонков/Записи Headliner/2023-09-26_11-33-50.933882_from_79264649878_to_74959339902_session_3245199518_talk.mp3
1225        Новые записи звонков/Записи Headliner/2023-09-23_11-18-02.353443_from_79224128180_to_0188880_session_3251344342_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


#### Сохранение датафрейма

In [None]:
Headliner_calls_df.index = range(Headliner_calls_df.shape[0])

In [None]:
# Сохраняем Headliner_calls_df в pkl
with open(df_path + 'Headliner_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Headliner_calls_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Primavera_calls_df = calls_list_to_df(os.listdir(Primavera_new_path))
Primavera_calls_df.shape

(767, 5)

In [None]:
Primavera_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-30 12:19:55.312627,79854305902,253192,3263012391,2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1,2023-10-04 19:40:25.037187,74950210291,253206,3276780397,2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2,2023-10-04 15:52:11.200324,79203810871,253201,3276172302,2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3,2023-10-02 20:00:47.312686,74950210291,150113,3271743567,2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4,2023-10-04 16:50:31.267655,79295237177,111652,3269469074,2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Primavera_new_path)))
print(Primavera_calls_df.shape[0])

767
767


In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Primavera_calls_df['Идентификатор сессии звонка'].nunique()

767

#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_calls_df['Дата и время'].head()

0    2023-09-30 12:19:55.312627
1    2023-10-04 19:40:25.037187
2    2023-10-04 15:52:11.200324
3    2023-10-02 20:00:47.312686
4    2023-10-04 16:50:31.267655
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_calls_df['Дата и время'] = pd.to_datetime(Primavera_calls_df['Дата и время'])

In [None]:
Primavera_calls_df['Дата и время'].tail()

762   2023-09-03 16:24:54.121808
763   2023-09-02 17:12:27.813266
764   2023-09-03 15:19:38.712929
765   2023-09-02 17:49:06.100800
766   2023-09-01 12:35:50.915379
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_calls_df['Номер абонента'].head()

0    79854305902
1    74950210291
2    79203810871
3    74950210291
4    79295237177
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_calls_df = Primavera_calls_df.astype({'Номер абонента': int})

In [None]:
Primavera_calls_df['Номер абонента'].tail()

762    74991918588
763    79296548451
764    79167387714
765    74950210291
766    79776807507
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_calls_df['Номер сотрудника'].head()

0    0253192
1    0253206
2    0253201
3    0150113
4    0111652
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_calls_df = Primavera_calls_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_calls_df['Номер сотрудника'].tail()

762    150108
763    253208
764    111642
765    111639
766    253211
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].head()

0    3263012391
1    3276780397
2    3276172302
3    3271743567
4    3269469074
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_calls_df = Primavera_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].tail()

762    3195081143
763    3197045974
764    3198170594
765    3204178922
766    3188505725
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Primavera_calls_df['Файл записи звонка'].head()

0    2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1    2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2    2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3    2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4    2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_calls_df['Файл записи звонка'] = Primavera_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Primavera/' + x)

In [None]:
Primavera_calls_df['Файл записи звонка'].tail()

762    Новые записи звонков/Записи Primavera/2023-09-03_16-24-54.121808_from_74991918588_to_0150108_session_3195081143_talk.mp3
763    Новые записи звонков/Записи Primavera/2023-09-02_17-12-27.813266_from_79296548451_to_0253208_session_3197045974_talk.mp3
764    Новые записи звонков/Записи Primavera/2023-09-03_15-19-38.712929_from_79167387714_to_0111642_session_3198170594_talk.mp3
765    Новые записи звонков/Записи Primavera/2023-09-02_17-49-06.100800_from_74950210291_to_0111639_session_3204178922_talk.mp3
766    Новые записи звонков/Записи Primavera/2023-09-01_12-35-50.915379_from_79776807507_to_0253211_session_3188505725_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


#### Сохранение датафрейма

In [None]:
Primavera_calls_df.index = range(Primavera_calls_df.shape[0])

In [None]:
# Сохраняем Primavera_calls_df в pkl
with open(df_path + 'Primavera_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Primavera_calls_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Paveletskaya_city_calls_df = calls_list_to_df(os.listdir(Paveletskaya_city_new_path))
Paveletskaya_city_calls_df.shape

(1413, 5)

In [None]:
Paveletskaya_city_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-18 11:48:26.391636,74932482450,288,3219964480,2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1,2023-09-18 12:54:18.603506,79160620083,288,3220199190,2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2,2023-09-20 09:56:40.872148,905424768475,288,3237457931,2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3,2023-09-19 13:53:47.892984,79037861965,288,3222616640,2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4,2023-09-18 12:31:27.901544,79099465930,288,3230778649,2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(Paveletskaya_city_new_path)))
print(Paveletskaya_city_calls_df.shape[0])

1413
1413


In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


In [None]:
# Количество уникальных значений столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].nunique()

1413

#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_calls_df['Дата и время'].head()

0    2023-09-18 11:48:26.391636
1    2023-09-18 12:54:18.603506
2    2023-09-20 09:56:40.872148
3    2023-09-19 13:53:47.892984
4    2023-09-18 12:31:27.901544
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_calls_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_calls_df['Дата и время'])

In [None]:
Paveletskaya_city_calls_df['Дата и время'].tail()

1408   2023-09-18 14:28:39.076451
1409   2023-09-18 11:08:55.388293
1410   2023-09-21 10:36:24.096708
1411   2023-09-21 11:59:49.268642
1412   2023-09-18 12:14:11.254019
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].head()

0     74932482450
1     79160620083
2    905424768475
3     79037861965
4     79099465930
Name: Номер абонента, dtype: object

In [None]:
Paveletskaya_city_calls_df['Номер абонента'][Paveletskaya_city_calls_df['Номер абонента'] == ''].count()

1

In [None]:
# Меняем '' на '0' в столбце 'Номер абонента'
Paveletskaya_city_calls_df['Номер абонента'] = Paveletskaya_city_calls_df['Номер абонента'].apply(lambda x: '0' if x == '' else x)

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].tail()

1408    79646445150
1409    79037846520
1410    79160206095
1411    74954871149
1412    79067410826
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].head()

0    00288
1    00288
2    00288
3    00288
4    00288
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].tail()

1408    288
1409    288
1410    288
1411    288
1412    288
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].head()

0    3219964480
1    3220199190
2    3237457931
3    3222616640
4    3230778649
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].tail()

1408    3233375546
1409    3230415104
1410    3240292806
1411    3238346979
1412    3230568859
Name: Идентификатор сессии звонка, dtype: int64

##### 4. Файл записи звонка

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].head()

0     2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1     2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2    2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3     2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4     2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_calls_df['Файл записи звонка'] = Paveletskaya_city_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Павелецкая сити/' + x)

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].tail()

1408    Новые записи звонков/Записи Павелецкая сити/2023-09-18_14-28-39.076451_from_79646445150_to_00288_session_3233375546_talk.mp3
1409    Новые записи звонков/Записи Павелецкая сити/2023-09-18_11-08-55.388293_from_79037846520_to_00288_session_3230415104_talk.mp3
1410    Новые записи звонков/Записи Павелецкая сити/2023-09-21_10-36-24.096708_from_79160206095_to_00288_session_3240292806_talk.mp3
1411    Новые записи звонков/Записи Павелецкая сити/2023-09-21_11-59-49.268642_from_74954871149_to_00288_session_3238346979_talk.mp3
1412    Новые записи звонков/Записи Павелецкая сити/2023-09-18_12-14-11.254019_from_79067410826_to_00288_session_3230568859_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


#### Сохранение датафрейма

In [None]:
Paveletskaya_city_calls_df.index = range(Paveletskaya_city_calls_df.shape[0])

In [None]:
# Сохраняем Paveletskaya_city_calls_df в pkl
with open(df_path + 'Paveletskaya_city_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_calls_df, f)