# Техническое задание

**Проект:** Классификация аудиозвонков на целевые и нецелевые.

**Цель проекта:** Разработать нейронную сеть, способную классифицировать аудиозвонки на целевые и нецелевые на основе предоставленной базы данных и csv-таблицы с описаниями и метками классов.

**Введение:**

Входной набор данных представляет из себя два набора файлов:

> a)	[Первый набор файлов](https://drive.google.com/drive/folders/1cQWMpQkscZJbbOTxiJNy0o3nuaeIiB1P?usp=sharing) - это выгрузки в формате `CSV` с информацией по звонкам, а так же с проставленным статусом `“целевой/нецелевой”` в отдельном столбце (обратите внимание, что по проекту `“Павелецкая сити”` две выгрузки - эти наборы данных отличаются и относятся к разным наборам клиентов внутри одного и того же проекта).

> b)	[Второй набор файлов](https://drive.google.com/drive/folders/1K3jGCH60uzFcsI3aj89VIXOOFEXvZxD6?usp=sharing) - аудиозаписи звонков. Они хранятся в корневом каталоге в одноимённых папках. К примеру, в папке `“Записи звонков_павелецкая сити”` лежат записи звонков по проекту `“Павелецкая Сити”`.

**Требования:**

1.   Нейронная сеть должна быть спроектирована и обучена для точной классификации аудиозвонков на два класса: целевые и нецелевые (с точностью `90+%`).
2.   Необходимо обеспечить интеграцию модели через `API`.
3.   Модель должна быть оптимизирована для обработки большого объёма данных.
4.   Код должен быть написан с соблюдением стандартов кодирования, и должна быть составлена подробная техническая документация.
5.   Код должен включать в себя систему журналирования для фиксации ошибок.
6.   Код должен принимать на вход регулярное выражение, по которому будет осуществляться проверка столбца `“теги”` в выгрузках `CSV` для определения статуса звонка `“целевой/нецелевой”`:

>> a)	по проектам `“Примавера”` и `“Павелецкая сити”` наличие в столбце с тегами подстроки `“Целевой_М108“` будет равняться тому, что данный звонок целевой (пример регулярного выражения: `.*Целевой_М108.*`);

>> b)	по проекту `“Хедлайнер”` - наличие в столбце с тегами подстроки `“первичный целевой“` будет равняться тому, что данный звонок целевой.

7.   После реализации необходимо иметь возможность получения поддержки по предоставленному решению в течение `2 месяцев`.

Список рекомендуемых параметров для звуковой записи (данный список носит информационный характер и не является обязательным):

*   Эмоция (базовые 11: радость; печаль; гнев; отвращение; удивление; страдание (горе); волнение (интерес); презрение; смущение; стыд; вина).
*   Пол.
*   Возраст.
*   Семантический анализ диалога (по конкретным ключевым словам и/или по тематикам диалогов).
*   Характеристики, присутствующие в `CSV`/`XLSX` таблицах.

# Критерии классификации

Критерии `уникально-целевого` обращения:
1. Длительность звонка должна быть не менее `75 секунд`;
2. Телефонный номер абонента должен быть `уникальным`, т. е. его не должно быть в `CRM` заказчика. Либо, по нему не должно быть активности за последние `90 дней`. Исключение составляют `топовые площадки`, работающие по своим критериям (`ЦИАН`, `Яндекс.Недвижимость`, `Авито`, и т. д.);
3. Клиент должен знать минимальную информацию об объекте (понимать, куда он звонит): название `ЖК`, расположение, ценовую политику;
4. Номер абонента должен быть доступен в течение `15 дней` после совершённого звонка (при этом со стороны заказчика должно быть обеспечено `2 попытки` исходящего звонка в течение указанного срока);
5. Клиент должен быть `«адекватным»`. Не общаться на повышенных тонах, не употреблять ненормативную лексику и т. д.;
6. Клиент не должен быть повторным. Например, клиент `уже` купил квартиру и через `90 дней` решил купить машиноместо;
7. Заявка. В заявке должен быть указан номер телефона, а абонент при контакте с менеджером должен соответствовать всем критериям `уникально-целевого` обращения, перечисленным выше;
8. Озвученный общий бюджет покупки не должен быть `ниже 90%` от стоимости квартиры или коммерческого помещения, соответствующих площади/комнатности на момент обращения;
9. В случае, если клиент является уникальным, интересуется покупкой недвижимости, не является представителем партнёров или исполнителей и изъявил желание посетить офис продаж. При этом не обязательна фиксация уровня знания клиента об объекте в диалоге. При этом источник не должен относиться к каналам `«лидогенерация»` или `«тематические площадки»`;
10. Основной целью звонка клиента не должна являться покупка/аренда исключительно нежилого помещения, если это не являлось целью проводимой рекламной кампании.

Критерии НЕ `уникально-целевого` (вторичного) обращения:
1. Клиент позвонил повторно менее чем через `3 месяца` (`90 дней`) с момента последнего обращения;
2. Клиент, либо члены его семьи, уже купил (купили) `квартиру`/`машиноместо`/`кладовое помещение`, и хочет (хотят) совершить ещё одну покупку. В данном случае клиент относится к показателю `LTV` (показатель прибыли, которую компания получает от одного клиента за всё время работы с ним).

# 2 неделя

In [None]:
!rm -r sample_data

In [None]:
# Подключаем google-диск
from google.colab import drive
drive.mount('/content/drive')
my_drv_path = '/content/drive/MyDrive/'

## Библиотеки и переменные

In [None]:
import os            # для работы с операционной системой
import pickle as pkl # для сохранения и загрузки переменных
import pandas as pd  # для работы с таблицами
import numpy  as np  # для работы с массивами
import re            # для работы с регулярными выражениями

# Параметры отображения датафреймов
pd.options.display.max_rows     = 99
pd.options.display.max_columns  = 99
pd.options.display.max_colwidth = 999

work_dir_path              = my_drv_path           + 'media108.ru/Новички/'                # путь к рабочей папке
df_path                    = work_dir_path         + 'Датафреймы/'                         # путь к папке для датафреймов
table_path                 = work_dir_path         + 'Таблицы/'                            # путь к папке для таблиц
model_path                 = work_dir_path         + 'Модели/'                             # путь к папке для моделей нейронных сетей
all_dataset_path           = work_dir_path         + 'Датасет/'                            # путь к папке всего датасета в целом
dataset_path               = all_dataset_path      + 'Записи звонков/'                     # путь к записям звонков
dataset_info_path          = dataset_path          + 'Информация о звонках/'               # путь к информации о звонках
dataset_new_path           = all_dataset_path      + 'Новые записи звонков/'               # путь к новым записям звонков
dataset_new_info_path      = dataset_new_path      + 'Информация о звонках/'               # путь к информации о новых звонках
Headliner_path             = dataset_path          + 'Записи звонков_хедлайнер'            # путь к записям звонков проекта Headliner
Headliner_new_path         = dataset_new_path      + 'Записи Headliner'                    # путь к записям новых звонков проекта Headliner
Headliner_new_info         = dataset_new_info_path + 'Headliner.xlsx'                      # путь к информации о новых звонках проекта Headliner
Primavera_path             = dataset_path          + 'Записи звонков_primavera'            # путь к записям звонков проекта Primavera
Primavera_info             = dataset_info_path     + 'Primavera .csv'                      # путь к информации о звонках проекта Primavera
Primavera_new_path         = dataset_new_path      + 'Записи Primavera'                    # путь к записям новых звонков проекта Primavera
Primavera_new_info         = dataset_new_info_path + 'Примавера.xlsx'                      # путь к информации о новых звонках проекта Primavera
Paveletskaya_city_path     = dataset_path          + 'Записи звонков_павелецкая сити'      # путь к записям звонков проекта Paveletskaya_city
Paveletskaya_city_info     = dataset_info_path     + 'Павелецкая_ЖК_«Павелецкая_сити».csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_info          = dataset_info_path     + 'Павелецкая (pavcity.turbo.site).csv' # путь к информации о звонках проекта Paveletskaya_city
Paveletskaya_city_new_path = dataset_new_path      + 'Записи Павелецкая сити'              # путь к записям новых звонков проекта Paveletskaya_city
Paveletskaya_city_new_info = dataset_new_info_path + 'Павелецкая сити.xlsx'                # путь к информации о новых звонках проекта Paveletskaya_city

## Функции

In [None]:
# Функция для создания датафрейма из списка записей звонков
def calls_list_to_df(calls_list):

  datetime_list    = [] # список для 'Дата и время'
  from_number_list = [] # список для 'Номер абонента'
  to_number_list   = [] # список для 'Номер сотрудника'
  session_list     = [] # список для 'Идентификатор сессии звонка'

  # Проходим по списку записей звонков
  for call in calls_list:

    call_item_list = call.split('_')
    time_item_list = call_item_list[1].split('.')
    time_item_list = time_item_list[0].split('-')

    # Заполняем списки для столбцов
    datetime_list.append(call_item_list[0] + ' ' + time_item_list[0] + ':' + time_item_list[1] + ':' + time_item_list[2])
    from_number_list.append(call_item_list[3])
    to_number_list.append(call_item_list[5])
    session_list.append(call_item_list[7])

  # Собираем созданные списки в словарь
  calls_dict = dict.fromkeys(['Дата и время', 'Номер абонента', 'Номер сотрудника', 'Идентификатор сессии звонка', 'Файл записи звонка'], [])
  calls_dict['Дата и время']                = datetime_list
  calls_dict['Номер абонента']              = from_number_list
  calls_dict['Номер сотрудника']            = to_number_list
  calls_dict['Идентификатор сессии звонка'] = session_list
  calls_dict['Файл записи звонка']          = calls_list

  # Возвращаем датафрейм
  return pd.DataFrame(calls_dict)

## [Записи звонков](https://drive.google.com/drive/folders/11aY9qpv301UnBuYvG8Iap1-Od28sQdMH?usp=sharing)

In [None]:
# Новые записи звонков
os.listdir(new_dataset_path)

['Записи Headliner',
 'Записи Primavera',
 'Записи Павелецкая сити',
 'Информация о звонках']

### Распаковка архивов и первичный анализ

In [None]:
# Установка unrar
!pip install unrar

Collecting unrar
  Downloading unrar-0.4-py3-none-any.whl (25 kB)
Installing collected packages: unrar
Successfully installed unrar-0.4


In [None]:
# Архивы новых записей звонков
os.listdir(new_dataset_rar_path)

['Записи Headliner.rar', 'Записи Primavera.rar', 'Записи Павелецкая сити.rar']

In [None]:
# Распаковка 'Записи Headliner.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Headliner.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Распаковка 'Записи Primavera.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Primavera.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Распаковка 'Записи Павелецкая сити.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Павелецкая сити.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Новые записи звонков
os.listdir(new_dataset_path)

['Записи Headliner',
 'Записи Primavera',
 'Записи Павелецкая сити',
 'Информация о звонках']

In [None]:
# Записи Headliner
os.listdir(new_dataset_path + 'Записи Headliner')[:10]

['2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3',
 '2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3',
 '2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3',
 '2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3',
 '2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3',
 '2023-09-26_14-03-03.889896_from_79164117555_to_74959339902_session_3237804050_talk.mp3',
 '2023-09-22_15-05-38.848815_from_79608617626_to_0188880_session_3243154724_talk.mp3',
 '2023-09-22_15-47-29.153917_from_79169869883_to_74959339902_session_3231248615_talk.mp3',
 '2023-09-25_15-33-38.734417_from_79025578055_to_74959339902_session_3251147526_talk.mp3',
 '2023-09-27_16-24-56.511269_from_79166279057_to_74959339902_session_3253891649_talk.mp3']

In [None]:
# Записи Primavera
os.listdir(new_dataset_path + 'Записи Primavera')[:10]

['2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3',
 '2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3',
 '2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3',
 '2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3',
 '2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3',
 '2023-09-30_15-31-41.654688_from_79939041290_to_0253192_session_3263409766_talk.mp3',
 '2023-10-04_14-14-24.774719_from_74951201251_to_0253206_session_3268896004_talk.mp3',
 '2023-10-04_10-51-34.713659_from_79154098258_to_0111631_session_3262644468_talk.mp3',
 '2023-10-03_16-27-25.589891_from_79269050076_to_0253200_session_3251740160_talk.mp3',
 '2023-10-04_13-48-28.199593_from_79250269006_to_0111651_session_3271685686_talk.mp3']

In [None]:
# Записи Павелецкая сити
os.listdir(new_dataset_path + 'Записи Павелецкая сити')[:10]

['2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3',
 '2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3',
 '2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3',
 '2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3',
 '2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3',
 '2023-09-17_17-31-02.604192_from_79165656567_to_00288_session_3225012783_talk.mp3',
 '2023-09-18_17-14-07.670764_from_79264028168_to_00288_session_3231837499_talk.mp3',
 '2023-09-17_15-30-32.547936_from_79033154042_to_00288_session_3218794065_talk.mp3',
 '2023-09-18_10-27-52.597249_from_79035129646_to_00288_session_3232383306_talk.mp3',
 '2023-09-16_17-35-42.402838_from_79607558395_to_00288_session_3230248941_talk.mp3']

In [None]:
# Новые записи звонков
print(f"      Headliner: {len(os.listdir(new_dataset_path + 'Записи Headliner')):4d} записей")
print(f"      Primavera: {len(os.listdir(new_dataset_path + 'Записи Primavera')):4d} записей")
print(f"Павелецкая сити: {len(os.listdir(new_dataset_path + 'Записи Павелецкая сити')):4d} записей")

      Headliner: 1226 записей
      Primavera:  767 записей
Павелецкая сити: 1413 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Headliner_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Headliner'))
Headliner_calls_df.shape

(1226, 5)

In [None]:
Headliner_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-26 10:06:23,79584153294,74959339902,3252459256,2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1,2023-09-21 18:54:50,79951538090,188880,3235156678,2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2,2023-09-27 16:10:52,79853697070,188880,3253840089,2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3,2023-09-25 09:12:02,79858141531,74959339902,3249639806,2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4,2023-09-28 11:08:32,79851881681,74959339902,3262172387,2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Headliner')))
print(Headliner_calls_df.shape[0])

1226
1226


In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_calls_df['Дата и время'].head()

0    2023-09-26 10:06:23
1    2023-09-21 18:54:50
2    2023-09-27 16:10:52
3    2023-09-25 09:12:02
4    2023-09-28 11:08:32
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_calls_df['Дата и время'] = pd.to_datetime(Headliner_calls_df['Дата и время'])

In [None]:
Headliner_calls_df['Дата и время'].tail()

1221   2023-09-25 20:22:45
1222   2023-09-27 15:04:39
1223   2023-09-26 15:17:11
1224   2023-09-26 11:33:50
1225   2023-09-23 11:18:02
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_calls_df['Номер абонента'].head()

0    79584153294
1    79951538090
2    79853697070
3    79858141531
4    79851881681
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_calls_df = Headliner_calls_df.astype({'Номер абонента': int})

In [None]:
Headliner_calls_df['Номер абонента'].tail()

1221    79039077310
1222    79964425592
1223    79199453103
1224    79264649878
1225    79224128180
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_calls_df['Номер сотрудника'].head()

0    74959339902
1        0188880
2        0188880
3    74959339902
4    74959339902
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_calls_df = Headliner_calls_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_calls_df['Номер сотрудника'].tail()

1221    74959339902
1222    74959339902
1223         188880
1224    74959339902
1225         188880
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].head()

0    3252459256
1    3235156678
2    3253840089
3    3249639806
4    3262172387
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_calls_df = Headliner_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].tail()

1221    3244316548
1222    3240209630
1223    3246045878
1224    3245199518
1225    3251344342
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Headliner_calls_df['Идентификатор сессии звонка'].nunique()

1226

##### 4. Файл записи звонка

In [None]:
Headliner_calls_df['Файл записи звонка'].head()

0    2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1        2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2        2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3    2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4    2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_calls_df['Файл записи звонка'] = Headliner_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Headliner/' + x)

In [None]:
Headliner_calls_df['Файл записи звонка'].tail()

1221    Новые записи звонков/Записи Headliner/2023-09-25_20-22-45.880054_from_79039077310_to_74959339902_session_3244316548_talk.mp3
1222    Новые записи звонков/Записи Headliner/2023-09-27_15-04-39.742280_from_79964425592_to_74959339902_session_3240209630_talk.mp3
1223        Новые записи звонков/Записи Headliner/2023-09-26_15-17-11.305534_from_79199453103_to_0188880_session_3246045878_talk.mp3
1224    Новые записи звонков/Записи Headliner/2023-09-26_11-33-50.933882_from_79264649878_to_74959339902_session_3245199518_talk.mp3
1225        Новые записи звонков/Записи Headliner/2023-09-23_11-18-02.353443_from_79224128180_to_0188880_session_3251344342_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Headliner_calls_df в файл
with open(df_path + 'Headliner_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Headliner_calls_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Primavera_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Primavera'))
Primavera_calls_df.shape

(767, 5)

In [None]:
Primavera_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-30 12:19:55,79854305902,253192,3263012391,2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1,2023-10-04 19:40:25,74950210291,253206,3276780397,2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2,2023-10-04 15:52:11,79203810871,253201,3276172302,2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3,2023-10-02 20:00:47,74950210291,150113,3271743567,2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4,2023-10-04 16:50:31,79295237177,111652,3269469074,2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Primavera')))
print(Primavera_calls_df.shape[0])

767
767


In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_calls_df['Дата и время'].head()

0    2023-09-30 12:19:55
1    2023-10-04 19:40:25
2    2023-10-04 15:52:11
3    2023-10-02 20:00:47
4    2023-10-04 16:50:31
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_calls_df['Дата и время'] = pd.to_datetime(Primavera_calls_df['Дата и время'])

In [None]:
Primavera_calls_df['Дата и время'].tail()

762   2023-09-03 16:24:54
763   2023-09-02 17:12:27
764   2023-09-03 15:19:38
765   2023-09-02 17:49:06
766   2023-09-01 12:35:50
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_calls_df['Номер абонента'].head()

0    79854305902
1    74950210291
2    79203810871
3    74950210291
4    79295237177
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_calls_df = Primavera_calls_df.astype({'Номер абонента': int})

In [None]:
Primavera_calls_df['Номер абонента'].tail()

762    74991918588
763    79296548451
764    79167387714
765    74950210291
766    79776807507
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_calls_df['Номер сотрудника'].head()

0    0253192
1    0253206
2    0253201
3    0150113
4    0111652
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_calls_df = Primavera_calls_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_calls_df['Номер сотрудника'].tail()

762    150108
763    253208
764    111642
765    111639
766    253211
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].head()

0    3263012391
1    3276780397
2    3276172302
3    3271743567
4    3269469074
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_calls_df = Primavera_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].tail()

762    3195081143
763    3197045974
764    3198170594
765    3204178922
766    3188505725
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Primavera_calls_df['Идентификатор сессии звонка'].nunique()

767

##### 4. Файл записи звонка

In [None]:
Primavera_calls_df['Файл записи звонка'].head()

0    2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1    2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2    2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3    2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4    2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_calls_df['Файл записи звонка'] = Primavera_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Primavera/' + x)

In [None]:
Primavera_calls_df['Файл записи звонка'].tail()

762    Новые записи звонков/Записи Primavera/2023-09-03_16-24-54.121808_from_74991918588_to_0150108_session_3195081143_talk.mp3
763    Новые записи звонков/Записи Primavera/2023-09-02_17-12-27.813266_from_79296548451_to_0253208_session_3197045974_talk.mp3
764    Новые записи звонков/Записи Primavera/2023-09-03_15-19-38.712929_from_79167387714_to_0111642_session_3198170594_talk.mp3
765    Новые записи звонков/Записи Primavera/2023-09-02_17-49-06.100800_from_74950210291_to_0111639_session_3204178922_talk.mp3
766    Новые записи звонков/Записи Primavera/2023-09-01_12-35-50.915379_from_79776807507_to_0253211_session_3188505725_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Primavera_calls_df в файл
with open(df_path + 'Primavera_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Primavera_calls_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Paveletskaya_city_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Павелецкая сити'))
Paveletskaya_city_calls_df.shape

(1413, 5)

In [None]:
Paveletskaya_city_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-18 11:48:26,74932482450,288,3219964480,2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1,2023-09-18 12:54:18,79160620083,288,3220199190,2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2,2023-09-20 09:56:40,905424768475,288,3237457931,2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3,2023-09-19 13:53:47,79037861965,288,3222616640,2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4,2023-09-18 12:31:27,79099465930,288,3230778649,2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Павелецкая сити')))
print(Paveletskaya_city_calls_df.shape[0])

1413
1413


In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_calls_df['Дата и время'].head()

0    2023-09-18 11:48:26
1    2023-09-18 12:54:18
2    2023-09-20 09:56:40
3    2023-09-19 13:53:47
4    2023-09-18 12:31:27
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_calls_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_calls_df['Дата и время'])

In [None]:
Paveletskaya_city_calls_df['Дата и время'].tail()

1408   2023-09-18 14:28:39
1409   2023-09-18 11:08:55
1410   2023-09-21 10:36:24
1411   2023-09-21 11:59:49
1412   2023-09-18 12:14:11
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].head()

0     74932482450
1     79160620083
2    905424768475
3     79037861965
4     79099465930
Name: Номер абонента, dtype: object

In [None]:
Paveletskaya_city_calls_df['Номер абонента'][Paveletskaya_city_calls_df['Номер абонента'] == ''].count()

1

In [None]:
# Меняем '' на '0' в столбце 'Номер абонента'
Paveletskaya_city_calls_df['Номер абонента'] = Paveletskaya_city_calls_df['Номер абонента'].apply(lambda x: '0' if x == '' else x)

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].tail()

1408    79646445150
1409    79037846520
1410    79160206095
1411    74954871149
1412    79067410826
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].head()

0    00288
1    00288
2    00288
3    00288
4    00288
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].tail()

1408    288
1409    288
1410    288
1411    288
1412    288
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].head()

0    3219964480
1    3220199190
2    3237457931
3    3222616640
4    3230778649
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].tail()

1408    3233375546
1409    3230415104
1410    3240292806
1411    3238346979
1412    3230568859
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].nunique()

1413

##### 4. Файл записи звонка

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].head()

0     2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1     2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2    2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3     2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4     2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_calls_df['Файл записи звонка'] = Paveletskaya_city_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Павелецкая сити/' + x)

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].tail()

1408    Новые записи звонков/Записи Павелецкая сити/2023-09-18_14-28-39.076451_from_79646445150_to_00288_session_3233375546_talk.mp3
1409    Новые записи звонков/Записи Павелецкая сити/2023-09-18_11-08-55.388293_from_79037846520_to_00288_session_3230415104_talk.mp3
1410    Новые записи звонков/Записи Павелецкая сити/2023-09-21_10-36-24.096708_from_79160206095_to_00288_session_3240292806_talk.mp3
1411    Новые записи звонков/Записи Павелецкая сити/2023-09-21_11-59-49.268642_from_74954871149_to_00288_session_3238346979_talk.mp3
1412    Новые записи звонков/Записи Павелецкая сити/2023-09-18_12-14-11.254019_from_79067410826_to_00288_session_3230568859_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Paveletskaya_city_calls_df в файл
with open(df_path + 'Paveletskaya_city_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_calls_df, f)

## [Новые записи звонков](https://drive.google.com/drive/folders/11aY9qpv301UnBuYvG8Iap1-Od28sQdMH?usp=sharing)

In [None]:
# Новые записи звонков
os.listdir(new_dataset_path)

['Записи Headliner',
 'Записи Primavera',
 'Записи Павелецкая сити',
 'Информация о звонках']

### Распаковка архивов и первичный анализ

In [None]:
# Установка unrar
!pip install unrar

Collecting unrar
  Downloading unrar-0.4-py3-none-any.whl (25 kB)
Installing collected packages: unrar
Successfully installed unrar-0.4


In [None]:
# Архивы новых записей звонков
os.listdir(new_dataset_rar_path)

['Записи Headliner.rar', 'Записи Primavera.rar', 'Записи Павелецкая сити.rar']

In [None]:
# Распаковка 'Записи Headliner.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Headliner.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Распаковка 'Записи Primavera.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Primavera.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Распаковка 'Записи Павелецкая сити.rar'
!unrar x '/content/drive/MyDrive/media108.ru/Новые записи звонков (rar)/Записи Павелецкая сити.rar' '/content/drive/MyDrive/media108.ru/Новые записи звонков/' > /dev/null

In [None]:
# Новые записи звонков
os.listdir(new_dataset_path)

['Записи Headliner',
 'Записи Primavera',
 'Записи Павелецкая сити',
 'Информация о звонках']

In [None]:
# Записи Headliner
os.listdir(new_dataset_path + 'Записи Headliner')[:10]

['2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3',
 '2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3',
 '2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3',
 '2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3',
 '2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3',
 '2023-09-26_14-03-03.889896_from_79164117555_to_74959339902_session_3237804050_talk.mp3',
 '2023-09-22_15-05-38.848815_from_79608617626_to_0188880_session_3243154724_talk.mp3',
 '2023-09-22_15-47-29.153917_from_79169869883_to_74959339902_session_3231248615_talk.mp3',
 '2023-09-25_15-33-38.734417_from_79025578055_to_74959339902_session_3251147526_talk.mp3',
 '2023-09-27_16-24-56.511269_from_79166279057_to_74959339902_session_3253891649_talk.mp3']

In [None]:
# Записи Primavera
os.listdir(new_dataset_path + 'Записи Primavera')[:10]

['2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3',
 '2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3',
 '2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3',
 '2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3',
 '2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3',
 '2023-09-30_15-31-41.654688_from_79939041290_to_0253192_session_3263409766_talk.mp3',
 '2023-10-04_14-14-24.774719_from_74951201251_to_0253206_session_3268896004_talk.mp3',
 '2023-10-04_10-51-34.713659_from_79154098258_to_0111631_session_3262644468_talk.mp3',
 '2023-10-03_16-27-25.589891_from_79269050076_to_0253200_session_3251740160_talk.mp3',
 '2023-10-04_13-48-28.199593_from_79250269006_to_0111651_session_3271685686_talk.mp3']

In [None]:
# Записи Павелецкая сити
os.listdir(new_dataset_path + 'Записи Павелецкая сити')[:10]

['2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3',
 '2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3',
 '2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3',
 '2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3',
 '2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3',
 '2023-09-17_17-31-02.604192_from_79165656567_to_00288_session_3225012783_talk.mp3',
 '2023-09-18_17-14-07.670764_from_79264028168_to_00288_session_3231837499_talk.mp3',
 '2023-09-17_15-30-32.547936_from_79033154042_to_00288_session_3218794065_talk.mp3',
 '2023-09-18_10-27-52.597249_from_79035129646_to_00288_session_3232383306_talk.mp3',
 '2023-09-16_17-35-42.402838_from_79607558395_to_00288_session_3230248941_talk.mp3']

In [None]:
# Новые записи звонков
print(f"      Headliner: {len(os.listdir(new_dataset_path + 'Записи Headliner')):4d} записей")
print(f"      Primavera: {len(os.listdir(new_dataset_path + 'Записи Primavera')):4d} записей")
print(f"Павелецкая сити: {len(os.listdir(new_dataset_path + 'Записи Павелецкая сити')):4d} записей")

      Headliner: 1226 записей
      Primavera:  767 записей
Павелецкая сити: 1413 записей


### Headliner

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Headliner_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Headliner'))
Headliner_calls_df.shape

(1226, 5)

In [None]:
Headliner_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-26 10:06:23,79584153294,74959339902,3252459256,2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1,2023-09-21 18:54:50,79951538090,188880,3235156678,2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2,2023-09-27 16:10:52,79853697070,188880,3253840089,2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3,2023-09-25 09:12:02,79858141531,74959339902,3249639806,2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4,2023-09-28 11:08:32,79851881681,74959339902,3262172387,2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Headliner')))
print(Headliner_calls_df.shape[0])

1226
1226


In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Headliner_calls_df['Дата и время'].head()

0    2023-09-26 10:06:23
1    2023-09-21 18:54:50
2    2023-09-27 16:10:52
3    2023-09-25 09:12:02
4    2023-09-28 11:08:32
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Headliner_calls_df['Дата и время'] = pd.to_datetime(Headliner_calls_df['Дата и время'])

In [None]:
Headliner_calls_df['Дата и время'].tail()

1221   2023-09-25 20:22:45
1222   2023-09-27 15:04:39
1223   2023-09-26 15:17:11
1224   2023-09-26 11:33:50
1225   2023-09-23 11:18:02
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Headliner_calls_df['Номер абонента'].head()

0    79584153294
1    79951538090
2    79853697070
3    79858141531
4    79851881681
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Headliner_calls_df = Headliner_calls_df.astype({'Номер абонента': int})

In [None]:
Headliner_calls_df['Номер абонента'].tail()

1221    79039077310
1222    79964425592
1223    79199453103
1224    79264649878
1225    79224128180
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Headliner_calls_df['Номер сотрудника'].head()

0    74959339902
1        0188880
2        0188880
3    74959339902
4    74959339902
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Headliner_calls_df = Headliner_calls_df.astype({'Номер сотрудника': int})

In [None]:
Headliner_calls_df['Номер сотрудника'].tail()

1221    74959339902
1222    74959339902
1223         188880
1224    74959339902
1225         188880
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].head()

0    3252459256
1    3235156678
2    3253840089
3    3249639806
4    3262172387
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Headliner_calls_df = Headliner_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Headliner_calls_df['Идентификатор сессии звонка'].tail()

1221    3244316548
1222    3240209630
1223    3246045878
1224    3245199518
1225    3251344342
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Headliner_calls_df['Идентификатор сессии звонка'].nunique()

1226

##### 4. Файл записи звонка

In [None]:
Headliner_calls_df['Файл записи звонка'].head()

0    2023-09-26_10-06-23.403699_from_79584153294_to_74959339902_session_3252459256_talk.mp3
1        2023-09-21_18-54-50.120569_from_79951538090_to_0188880_session_3235156678_talk.mp3
2        2023-09-27_16-10-52.316459_from_79853697070_to_0188880_session_3253840089_talk.mp3
3    2023-09-25_09-12-02.428401_from_79858141531_to_74959339902_session_3249639806_talk.mp3
4    2023-09-28_11-08-32.052586_from_79851881681_to_74959339902_session_3262172387_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Headliner_calls_df['Файл записи звонка'] = Headliner_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Headliner/' + x)

In [None]:
Headliner_calls_df['Файл записи звонка'].tail()

1221    Новые записи звонков/Записи Headliner/2023-09-25_20-22-45.880054_from_79039077310_to_74959339902_session_3244316548_talk.mp3
1222    Новые записи звонков/Записи Headliner/2023-09-27_15-04-39.742280_from_79964425592_to_74959339902_session_3240209630_talk.mp3
1223        Новые записи звонков/Записи Headliner/2023-09-26_15-17-11.305534_from_79199453103_to_0188880_session_3246045878_talk.mp3
1224    Новые записи звонков/Записи Headliner/2023-09-26_11-33-50.933882_from_79264649878_to_74959339902_session_3245199518_talk.mp3
1225        Новые записи звонков/Записи Headliner/2023-09-23_11-18-02.353443_from_79224128180_to_0188880_session_3251344342_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Headliner_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Headliner_calls_df.count())

Дата и время                   1226
Номер абонента                 1226
Номер сотрудника               1226
Идентификатор сессии звонка    1226
Файл записи звонка             1226
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Headliner_calls_df в файл
with open(df_path + 'Headliner_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Headliner_calls_df, f)

### Primavera

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Primavera_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Primavera'))
Primavera_calls_df.shape

(767, 5)

In [None]:
Primavera_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-30 12:19:55,79854305902,253192,3263012391,2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1,2023-10-04 19:40:25,74950210291,253206,3276780397,2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2,2023-10-04 15:52:11,79203810871,253201,3276172302,2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3,2023-10-02 20:00:47,74950210291,150113,3271743567,2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4,2023-10-04 16:50:31,79295237177,111652,3269469074,2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Primavera')))
print(Primavera_calls_df.shape[0])

767
767


In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Primavera_calls_df['Дата и время'].head()

0    2023-09-30 12:19:55
1    2023-10-04 19:40:25
2    2023-10-04 15:52:11
3    2023-10-02 20:00:47
4    2023-10-04 16:50:31
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Primavera_calls_df['Дата и время'] = pd.to_datetime(Primavera_calls_df['Дата и время'])

In [None]:
Primavera_calls_df['Дата и время'].tail()

762   2023-09-03 16:24:54
763   2023-09-02 17:12:27
764   2023-09-03 15:19:38
765   2023-09-02 17:49:06
766   2023-09-01 12:35:50
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Primavera_calls_df['Номер абонента'].head()

0    79854305902
1    74950210291
2    79203810871
3    74950210291
4    79295237177
Name: Номер абонента, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Primavera_calls_df = Primavera_calls_df.astype({'Номер абонента': int})

In [None]:
Primavera_calls_df['Номер абонента'].tail()

762    74991918588
763    79296548451
764    79167387714
765    74950210291
766    79776807507
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Primavera_calls_df['Номер сотрудника'].head()

0    0253192
1    0253206
2    0253201
3    0150113
4    0111652
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Primavera_calls_df = Primavera_calls_df.astype({'Номер сотрудника': int})

In [None]:
Primavera_calls_df['Номер сотрудника'].tail()

762    150108
763    253208
764    111642
765    111639
766    253211
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].head()

0    3263012391
1    3276780397
2    3276172302
3    3271743567
4    3269469074
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Primavera_calls_df = Primavera_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Primavera_calls_df['Идентификатор сессии звонка'].tail()

762    3195081143
763    3197045974
764    3198170594
765    3204178922
766    3188505725
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Primavera_calls_df['Идентификатор сессии звонка'].nunique()

767

##### 4. Файл записи звонка

In [None]:
Primavera_calls_df['Файл записи звонка'].head()

0    2023-09-30_12-19-55.312627_from_79854305902_to_0253192_session_3263012391_talk.mp3
1    2023-10-04_19-40-25.037187_from_74950210291_to_0253206_session_3276780397_talk.mp3
2    2023-10-04_15-52-11.200324_from_79203810871_to_0253201_session_3276172302_talk.mp3
3    2023-10-02_20-00-47.312686_from_74950210291_to_0150113_session_3271743567_talk.mp3
4    2023-10-04_16-50-31.267655_from_79295237177_to_0111652_session_3269469074_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Primavera_calls_df['Файл записи звонка'] = Primavera_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Primavera/' + x)

In [None]:
Primavera_calls_df['Файл записи звонка'].tail()

762    Новые записи звонков/Записи Primavera/2023-09-03_16-24-54.121808_from_74991918588_to_0150108_session_3195081143_talk.mp3
763    Новые записи звонков/Записи Primavera/2023-09-02_17-12-27.813266_from_79296548451_to_0253208_session_3197045974_talk.mp3
764    Новые записи звонков/Записи Primavera/2023-09-03_15-19-38.712929_from_79167387714_to_0111642_session_3198170594_talk.mp3
765    Новые записи звонков/Записи Primavera/2023-09-02_17-49-06.100800_from_74950210291_to_0111639_session_3204178922_talk.mp3
766    Новые записи звонков/Записи Primavera/2023-09-01_12-35-50.915379_from_79776807507_to_0253211_session_3188505725_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Primavera_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Primavera_calls_df.count())

Дата и время                   767
Номер абонента                 767
Номер сотрудника               767
Идентификатор сессии звонка    767
Файл записи звонка             767
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Primavera_calls_df в файл
with open(df_path + 'Primavera_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Primavera_calls_df, f)

### Paveletskaya_city

#### Создание датафрейма

In [None]:
# Создаём датафрейм из списка записей звонков
Paveletskaya_city_calls_df = calls_list_to_df(os.listdir(new_dataset_path + 'Записи Павелецкая сити'))
Paveletskaya_city_calls_df.shape

(1413, 5)

In [None]:
Paveletskaya_city_calls_df.head()

Unnamed: 0,Дата и время,Номер абонента,Номер сотрудника,Идентификатор сессии звонка,Файл записи звонка
0,2023-09-18 11:48:26,74932482450,288,3219964480,2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1,2023-09-18 12:54:18,79160620083,288,3220199190,2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2,2023-09-20 09:56:40,905424768475,288,3237457931,2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3,2023-09-19 13:53:47,79037861965,288,3222616640,2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4,2023-09-18 12:31:27,79099465930,288,3230778649,2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3


In [None]:
# Проверяем количество строк
print(len(os.listdir(new_dataset_path + 'Записи Павелецкая сити')))
print(Paveletskaya_city_calls_df.shape[0])

1413
1413


In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


#### Предобработка

##### 0. Дата и время

In [None]:
Paveletskaya_city_calls_df['Дата и время'].head()

0    2023-09-18 11:48:26
1    2023-09-18 12:54:18
2    2023-09-20 09:56:40
3    2023-09-19 13:53:47
4    2023-09-18 12:31:27
Name: Дата и время, dtype: object

In [None]:
# Приводим тип данных столбца 'Дата и время'
Paveletskaya_city_calls_df['Дата и время'] = pd.to_datetime(Paveletskaya_city_calls_df['Дата и время'])

In [None]:
Paveletskaya_city_calls_df['Дата и время'].tail()

1408   2023-09-18 14:28:39
1409   2023-09-18 11:08:55
1410   2023-09-21 10:36:24
1411   2023-09-21 11:59:49
1412   2023-09-18 12:14:11
Name: Дата и время, dtype: datetime64[ns]

##### 1. Номер абонента

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].head()

0     74932482450
1     79160620083
2    905424768475
3     79037861965
4     79099465930
Name: Номер абонента, dtype: object

In [None]:
Paveletskaya_city_calls_df['Номер абонента'][Paveletskaya_city_calls_df['Номер абонента'] == ''].count()

1

In [None]:
# Меняем '' на '0' в столбце 'Номер абонента'
Paveletskaya_city_calls_df['Номер абонента'] = Paveletskaya_city_calls_df['Номер абонента'].apply(lambda x: '0' if x == '' else x)

In [None]:
# Приводим тип данных столбца 'Номер абонента'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер абонента': int})

In [None]:
Paveletskaya_city_calls_df['Номер абонента'].tail()

1408    79646445150
1409    79037846520
1410    79160206095
1411    74954871149
1412    79067410826
Name: Номер абонента, dtype: int64

##### 2. Номер сотрудника

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].head()

0    00288
1    00288
2    00288
3    00288
4    00288
Name: Номер сотрудника, dtype: object

In [None]:
# Приводим тип данных столбца 'Номер сотрудника'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Номер сотрудника': int})

In [None]:
Paveletskaya_city_calls_df['Номер сотрудника'].tail()

1408    288
1409    288
1410    288
1411    288
1412    288
Name: Номер сотрудника, dtype: int64

##### 3. Идентификатор сессии звонка

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].head()

0    3219964480
1    3220199190
2    3237457931
3    3222616640
4    3230778649
Name: Идентификатор сессии звонка, dtype: object

In [None]:
# Приводим тип данных столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df = Paveletskaya_city_calls_df.astype({'Идентификатор сессии звонка': int})

In [None]:
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].tail()

1408    3233375546
1409    3230415104
1410    3240292806
1411    3238346979
1412    3230568859
Name: Идентификатор сессии звонка, dtype: int64

In [None]:
# Смотрим количество уникальных значений столбца 'Идентификатор сессии звонка'
Paveletskaya_city_calls_df['Идентификатор сессии звонка'].nunique()

1413

##### 4. Файл записи звонка

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].head()

0     2023-09-18_11-48-26.391636_from_74932482450_to_00288_session_3219964480_talk.mp3
1     2023-09-18_12-54-18.603506_from_79160620083_to_00288_session_3220199190_talk.mp3
2    2023-09-20_09-56-40.872148_from_905424768475_to_00288_session_3237457931_talk.mp3
3     2023-09-19_13-53-47.892984_from_79037861965_to_00288_session_3222616640_talk.mp3
4     2023-09-18_12-31-27.901544_from_79099465930_to_00288_session_3230778649_talk.mp3
Name: Файл записи звонка, dtype: object

In [None]:
# Добавляем к файлам относительные пути
Paveletskaya_city_calls_df['Файл записи звонка'] = Paveletskaya_city_calls_df['Файл записи звонка'].apply(lambda x: 'Новые записи звонков/Записи Павелецкая сити/' + x)

In [None]:
Paveletskaya_city_calls_df['Файл записи звонка'].tail()

1408    Новые записи звонков/Записи Павелецкая сити/2023-09-18_14-28-39.076451_from_79646445150_to_00288_session_3233375546_talk.mp3
1409    Новые записи звонков/Записи Павелецкая сити/2023-09-18_11-08-55.388293_from_79037846520_to_00288_session_3230415104_talk.mp3
1410    Новые записи звонков/Записи Павелецкая сити/2023-09-21_10-36-24.096708_from_79160206095_to_00288_session_3240292806_talk.mp3
1411    Новые записи звонков/Записи Павелецкая сити/2023-09-21_11-59-49.268642_from_74954871149_to_00288_session_3238346979_talk.mp3
1412    Новые записи звонков/Записи Павелецкая сити/2023-09-18_12-14-11.254019_from_79067410826_to_00288_session_3230568859_talk.mp3
Name: Файл записи звонка, dtype: object

#### Типы данных

In [None]:
# Смотрим типы данных
Paveletskaya_city_calls_df.dtypes

Дата и время                   datetime64[ns]
Номер абонента                          int64
Номер сотрудника                        int64
Идентификатор сессии звонка             int64
Файл записи звонка                     object
dtype: object

In [None]:
print(Paveletskaya_city_calls_df.count())

Дата и время                   1413
Номер абонента                 1413
Номер сотрудника               1413
Идентификатор сессии звонка    1413
Файл записи звонка             1413
dtype: int64


#### Сохранение датафрейма

In [None]:
# Сохраняем Paveletskaya_city_calls_df в файл
with open(df_path + 'Paveletskaya_city_new_calls_df.pkl', 'wb') as f:
  pkl.dump(Paveletskaya_city_calls_df, f)