У нас есть доступ к базе данных Отдела продаж, куда загружаются данные об ответах менеджеров в сделках в amoCRM. Диалог с каждым клиентом ведётся внутри своей сделки.

Необходимо написать SQL-запрос, который будет рассчитывать среднее время ответа для каждого менеджера/пары менеджеров. Расчёт должен учитывать следующее:
- если в диалоге идут несколько сообщений подряд от клиента или менеджера, то при расчёте времени ответа надо учитывать только первое сообщение из каждого блока;
- менеджеры работают с 09:30 до 00:00, поэтому нерабочее время не должно учитываться в расчёте среднего времени ответа, т.е. если клиент написал в 23:59, а менеджер ответил в 09:30 – время ответа равно одной минуте;
- ответы на сообщения, пришедшие ночью также нужно учитывать.

### Описание таблиц

##### **test.chat_messages**

Здесь хранятся данные о входящих и исходящих сообщениях внутри сделок
> | Поле | Тип поля | Описание поля |
|----------------------------------------|------------|--------------------------------|
| message_id  | varchar | Уникальный идентификатор сообщения |
| type | varchar   | Тип сообщения: <br> outgoing_chat_message – исходящее сообщение от менеджера клиенту<br> incoming_chat_message – входящее сообщение от клиента менеджеру |
| entity_id | int | Идентификатор сделки в amoCRM. На каждого клиента открывается отдельная сделка |
| created_by | int | Идентификатор того, кто написал сообщение. У клиентов всегда 0. <br> Список соответствия идентификаторов менеджеров и их имён находится в таблице test.managers |
| created_at | int | Время создания сообщения в формате Unix Timestamp |


##### **test.managers**

Здесь хранятся данные о менеджерах
> | Поле | Тип поля | Описание поля |
|----------------------------------------|------------|--------------------------------|
| mop_id  | int | Уникальный идентификатор менеджера |
| name_mop | varchar   | Имя менеджера/пары менеджеров |
| rop_id | varchar | Уникальный идентификатор руководителя отдела продаж, в чём отделе работает менеджер |


##### **test.rops**

Здесь хранятся данные о руководителях Отдела продаж
> | Поле | Тип поля | Описание поля |
|----------------------------------------|------------|--------------------------------|
| rop_id  | int | Уникальный идентификатор руководителя отдела продаж |
| rop_name | varchar   | Имя руководителя отдела продаж |

## Подготавливаем среду

Импорт библиотек, подключение к базе данных, подготовка функции для быстрого запроса и краткое изучение таблиц.

In [None]:
# импортируем библиотеки для работы
from sqlalchemy import create_engine, text
from urllib.parse import quote
import pandas as pd

In [None]:
# кодируем пароль, чтобы устранить конфликт собак
password = quote('C0123456789@')

# создаём подключение
engine = create_engine(f'postgresql+psycopg2://t_user:{password}@rc1a.yandexcloud.net:5432/tbd')

In [None]:
# создаём функцию для запросов
def select(sql):
  with engine.begin() as con:
    query = text(sql)
    return pd.read_sql_query(query, con)

Посмотрим, как выглядит информация в таблицах.

In [None]:
sql = '''
SELECT *
FROM test.chat_messages
LIMIT 5
'''
select(sql)

Unnamed: 0,message_id,type,entity_id,created_by,created_at
0,"""01jb7da570sf4f65xdf0ptvv9q""",incoming_chat_message,37556493,0,1730046924
1,"""01jb3t6bc8gvyfnd063nd91ng4""",incoming_chat_message,37549491,0,1729926213
2,"""01jb6gj9ngwk0ybbmg9w90pbqg""",incoming_chat_message,37531455,0,1730016782
3,"""01jb75bkprk0d7hht1g5vy1pm4""",incoming_chat_message,37553371,0,1730038583
4,"""01jb3t5xprbph1c6pym8ervxpm""",incoming_chat_message,37548675,0,1729926199


In [None]:
sql = '''
SELECT count(*)
FROM test.chat_messages
'''
select(sql)

Unnamed: 0,count
0,18929


В нашем распоряжении информация о 18929 сообщениях. Чтобы избежать перегрузки в промежуточных запросах, будем использовать LIMIT.

Нам также необходимо преобразовать столбец created_at в понятный формат времени. Поскольку вакансия была опубликована компанией из Москвы, мы можем предположить, что рабочее время соответствует Московскому времени, потому переведём время в формат +3 по Гринвичу.

In [None]:
sql = '''
SELECT *
FROM test.managers
LIMIT 5
'''
select(sql)

Unnamed: 0,mop_id,name_mop,rop_id
0,6645315,Гюнель и Илина,1
1,6744792,Юля и Наташа,1
2,10262505,Вика и Марго,1
3,10262513,Ира и Варя,1
4,10465254,Настя и Даша,1


In [None]:
sql = '''
SELECT count(*)
FROM test.managers
'''
select(sql)

Unnamed: 0,count
0,26


Сделки ведут 26 менеджеров или пар менеджеров.

In [None]:
sql = '''
SELECT *
FROM test.rops
LIMIT 5
'''
select(sql)

Unnamed: 0,rop_id,rop_name
0,1,Катя РОП
1,2,Полина РОП
2,3,Эля РОП


И у нас есть 3 руководителя отдела продаж.

## Собираем запрос по шагам

Чтобы контролировать процесс формирования запроса, мы разложим его по шагам, чтобы учесть все необходимые условия.

---

На первом этапе мы упорядочим сообщения, относящиеся к каждой сделке, по времени и определим их порядок в рамках переписки.

In [None]:
# добавляем ранжирование сообщений в диалоге
sql = '''
SELECT entity_id,
       type,
       created_by,
       to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
       ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order
FROM test.chat_messages

LIMIT 15
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order
0,35810509,incoming_chat_message,0,2024-10-26 18:19:26,1
1,35810509,outgoing_chat_message,10262493,2024-10-26 18:21:05,2
2,35810509,incoming_chat_message,0,2024-10-26 18:34:46,3
3,35810509,outgoing_chat_message,10262493,2024-10-26 18:36:46,4
4,35945535,incoming_chat_message,0,2024-10-27 20:38:36,1
5,35945535,outgoing_chat_message,10262493,2024-10-27 20:42:07,2
6,36099337,incoming_chat_message,0,2024-10-27 16:21:56,1
7,36099337,outgoing_chat_message,11241942,2024-10-27 16:25:47,2
8,36099337,incoming_chat_message,0,2024-10-27 16:27:14,3
9,36099337,outgoing_chat_message,11241942,2024-10-27 16:29:37,4


В первых пятнадцати строках можно увидеть, что есть сделки без ответов.

Согласно условиям задачи, мы предполагаем, что сообщения от клиента или менеджера могут следовать одно за другим.

Поскольку наша цель — рассчитать время первого ответа менеджера на первое письмо клиента, мы добавим столбец со смещением. Это позволит нам проверить, является ли сообщение ответом на предыдущее.

In [None]:
# добавляем автора предыдущего сообщения
sql = '''
SELECT entity_id,
       type,
       created_by,
       to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
       ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
       LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id
FROM test.chat_messages

LIMIT 15
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order,previous_message_id
0,35810509,incoming_chat_message,0,2024-10-26 18:19:26,1,
1,35810509,outgoing_chat_message,10262493,2024-10-26 18:21:05,2,0.0
2,35810509,incoming_chat_message,0,2024-10-26 18:34:46,3,10262493.0
3,35810509,outgoing_chat_message,10262493,2024-10-26 18:36:46,4,0.0
4,35945535,incoming_chat_message,0,2024-10-27 20:38:36,1,
5,35945535,outgoing_chat_message,10262493,2024-10-27 20:42:07,2,0.0
6,36099337,incoming_chat_message,0,2024-10-27 16:21:56,1,
7,36099337,outgoing_chat_message,11241942,2024-10-27 16:25:47,2,0.0
8,36099337,incoming_chat_message,0,2024-10-27 16:27:14,3,11241942.0
9,36099337,outgoing_chat_message,11241942,2024-10-27 16:29:37,4,0.0


Теперь у нас есть столбец, содержащий информацию о предыдущем авторе сообщения.

Проведём небольшую проверку по этим результатам. Для этого отобразим сообщения, ранг которых превышает 20.

In [None]:
sql = '''
SELECT *
FROM (SELECT entity_id,
             type,
             created_by,
             to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
             ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
             LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id
       FROM test.chat_messages) tab1
WHERE message_order > 20

LIMIT 25
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order,previous_message_id
0,36333761,incoming_chat_message,0,2024-10-26 23:35:18,21,10262485
1,36333761,outgoing_chat_message,10262485,2024-10-26 23:36:08,22,0
2,36541651,outgoing_chat_message,0,2024-10-27 23:15:13,21,0
3,36541651,incoming_chat_message,0,2024-10-27 23:15:17,22,0
4,36541651,outgoing_chat_message,0,2024-10-27 23:15:19,23,0
5,36541651,incoming_chat_message,0,2024-10-27 23:15:22,24,0
6,36541651,outgoing_chat_message,0,2024-10-27 23:15:23,25,0
7,36541651,incoming_chat_message,0,2024-10-27 23:15:24,26,0
8,36541651,outgoing_chat_message,0,2024-10-27 23:15:26,27,0
9,36541651,incoming_chat_message,0,2024-10-27 23:15:27,28,0


В диалоге с номером 36541651 возникла проблема: согласно полю created_by, все сообщения были созданы клиентом, но тип сообщений указывает на то, что они были как входящими, так и исходящими. Возможно, это какая-то аномалия или ошибка в процессе сохранения данных в базу.

Также вызывает беспокойство интервал между сообщениями, который кажется слишком коротким, как будто это может быть результатом работы антиспама. В рамках нашего тестового задания мы учтем и эту возможность и добавим новый столбец, в котором будет указан тип предыдущего сообщения. Это позволит нам проводить сравнения не только по идентификатору автора.

In [None]:
# добавляем тип предыдущего сообщения
sql = '''
SELECT *
FROM (SELECT entity_id,
             type,
             created_by,
             to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
             ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
             LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
             LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
       FROM test.chat_messages) tab1
WHERE message_order > 20

LIMIT 25
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order,previous_message_id,previous_type
0,36333761,incoming_chat_message,0,2024-10-26 23:35:18,21,10262485,outgoing_chat_message
1,36333761,outgoing_chat_message,10262485,2024-10-26 23:36:08,22,0,incoming_chat_message
2,36541651,outgoing_chat_message,0,2024-10-27 23:15:13,21,0,incoming_chat_message
3,36541651,incoming_chat_message,0,2024-10-27 23:15:17,22,0,outgoing_chat_message
4,36541651,outgoing_chat_message,0,2024-10-27 23:15:19,23,0,incoming_chat_message
5,36541651,incoming_chat_message,0,2024-10-27 23:15:22,24,0,outgoing_chat_message
6,36541651,outgoing_chat_message,0,2024-10-27 23:15:23,25,0,incoming_chat_message
7,36541651,incoming_chat_message,0,2024-10-27 23:15:24,26,0,outgoing_chat_message
8,36541651,outgoing_chat_message,0,2024-10-27 23:15:26,27,0,incoming_chat_message
9,36541651,incoming_chat_message,0,2024-10-27 23:15:27,28,0,outgoing_chat_message


Введён ещё один столбец. Аномальные диалоги сохранены.

Также нам необходимы только первые сообщения в блоке сообщений, если они идут подряд от одного и того же автора. Для этого мы преобразуем полученную таблицу в подзапрос и выберем первые сообщения от каждого автора в диалоге, учитывая тип сообщения.

In [None]:
# отсекаем сообщения от одного автора подряд в диалоге
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                FROM test.chat_messages)

SELECT *
FROM all_messages
WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)

LIMIT 15
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order,previous_message_id,previous_type
0,35810509,incoming_chat_message,0,2024-10-26 18:19:26,1,,
1,35810509,outgoing_chat_message,10262493,2024-10-26 18:21:05,2,0.0,incoming_chat_message
2,35810509,incoming_chat_message,0,2024-10-26 18:34:46,3,10262493.0,outgoing_chat_message
3,35810509,outgoing_chat_message,10262493,2024-10-26 18:36:46,4,0.0,incoming_chat_message
4,35945535,incoming_chat_message,0,2024-10-27 20:38:36,1,,
5,35945535,outgoing_chat_message,10262493,2024-10-27 20:42:07,2,0.0,incoming_chat_message
6,36099337,incoming_chat_message,0,2024-10-27 16:21:56,1,,
7,36099337,outgoing_chat_message,11241942,2024-10-27 16:25:47,2,0.0,incoming_chat_message
8,36099337,incoming_chat_message,0,2024-10-27 16:27:14,3,11241942.0,outgoing_chat_message
9,36099337,outgoing_chat_message,11241942,2024-10-27 16:29:37,4,0.0,incoming_chat_message


Убедимся, что не теряем сообщения из нестандартных диалогов.

In [None]:
sql = '''
WITH all_messages AS
                    (SELECT entity_id,
                            type,
                            created_by,
                            to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                            ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                            LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                            LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                    FROM test.chat_messages)

SELECT *
FROM (SELECT *
      FROM all_messages
      WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)) tab1
WHERE entity_id = 36541651

'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_dt,message_order,previous_message_id,previous_type
0,36541651,outgoing_chat_message,0,2024-10-27 23:10:24,1,,
1,36541651,incoming_chat_message,0,2024-10-27 23:10:40,2,0.0,outgoing_chat_message
2,36541651,outgoing_chat_message,0,2024-10-27 23:10:43,3,0.0,incoming_chat_message
3,36541651,incoming_chat_message,0,2024-10-27 23:10:57,4,0.0,outgoing_chat_message
4,36541651,outgoing_chat_message,0,2024-10-27 23:10:58,5,0.0,incoming_chat_message
5,36541651,incoming_chat_message,0,2024-10-27 23:11:00,6,0.0,outgoing_chat_message
6,36541651,outgoing_chat_message,0,2024-10-27 23:11:02,7,0.0,incoming_chat_message
7,36541651,incoming_chat_message,0,2024-10-27 23:11:03,8,0.0,outgoing_chat_message
8,36541651,outgoing_chat_message,0,2024-10-27 23:11:04,9,0.0,incoming_chat_message
9,36541651,incoming_chat_message,0,2024-10-27 23:11:06,10,0.0,outgoing_chat_message


Диалоги сохранены, и теперь можно переходить к следующему этапу. Наша цель — определить временной промежуток между ответами менеджеров на письма клиентов. Для этого мы воспользуемся смещением и добавим время предыдущего сообщения в диалоге. Поскольку у нас уже есть первые сообщения от каждого автора в переписке, мы не будем сохранять последние два столбца.

In [None]:
# добавляем время предыдущего сообщения
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
            (SELECT *
            FROM all_messages
            WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type))

SELECT entity_id,
       type,
       created_by,
       message_order,
       message_dt,
       LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
FROM dialogues

LIMIT 15
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_order,message_dt,previous_message_dt
0,35810509,incoming_chat_message,0,1,2024-10-26 18:19:26,NaT
1,35810509,outgoing_chat_message,10262493,2,2024-10-26 18:21:05,2024-10-26 18:19:26
2,35810509,incoming_chat_message,0,3,2024-10-26 18:34:46,2024-10-26 18:21:05
3,35810509,outgoing_chat_message,10262493,4,2024-10-26 18:36:46,2024-10-26 18:34:46
4,35945535,incoming_chat_message,0,1,2024-10-27 20:38:36,NaT
5,35945535,outgoing_chat_message,10262493,2,2024-10-27 20:42:07,2024-10-27 20:38:36
6,36099337,incoming_chat_message,0,1,2024-10-27 16:21:56,NaT
7,36099337,outgoing_chat_message,11241942,2,2024-10-27 16:25:47,2024-10-27 16:21:56
8,36099337,incoming_chat_message,0,3,2024-10-27 16:27:14,2024-10-27 16:25:47
9,36099337,outgoing_chat_message,11241942,4,2024-10-27 16:29:37,2024-10-27 16:27:14


Добавили время предыдущего сообщения.

Теперь в таблице останутся только исходящие сообщения от менеджеров, так как время сообщений от клиентов уже внесено в новый столбец. Если же сообщение менеджера было первым в диалоге, мы не сможем рассчитать время ответа от первого запроса, его учитывать не будем.

In [None]:
# отделяем сообщения менеджеров
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
            (SELECT *
            FROM all_messages
            WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),
dt_messages AS
              (SELECT entity_id,
                      type,
                      created_by,
                      message_order,
                      message_dt,
                      LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
              FROM dialogues)

SELECT *
FROM dt_messages
WHERE type = 'outgoing_chat_message' AND message_order !=1

LIMIT 15
'''
select(sql)

Unnamed: 0,entity_id,type,created_by,message_order,message_dt,previous_message_dt
0,35810509,outgoing_chat_message,10262493,2,2024-10-26 18:21:05,2024-10-26 18:19:26
1,35810509,outgoing_chat_message,10262493,4,2024-10-26 18:36:46,2024-10-26 18:34:46
2,35945535,outgoing_chat_message,10262493,2,2024-10-27 20:42:07,2024-10-27 20:38:36
3,36099337,outgoing_chat_message,11241942,2,2024-10-27 16:25:47,2024-10-27 16:21:56
4,36099337,outgoing_chat_message,11241942,4,2024-10-27 16:29:37,2024-10-27 16:27:14
5,36333761,outgoing_chat_message,10262485,2,2024-10-26 19:33:28,2024-10-26 19:28:45
6,36333761,outgoing_chat_message,10262485,4,2024-10-26 19:43:04,2024-10-26 19:37:02
7,36333761,outgoing_chat_message,10262485,6,2024-10-26 19:44:28,2024-10-26 19:43:27
8,36333761,outgoing_chat_message,10262485,8,2024-10-26 19:46:26,2024-10-26 19:45:15
9,36333761,outgoing_chat_message,10262485,10,2024-10-26 19:47:24,2024-10-26 19:46:57


Теперь нам необходимо рассчитать время ответа, учитывая, что рабочий день длится с 9:30 до 24:00.

Чтобы дополнительно всё перепроверить, добавим условие для ночных сообщений.

In [None]:
# рассчитываем время ответа
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
            (SELECT *
            FROM all_messages
            WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),
dt_messages AS
              (SELECT entity_id,
                      type,
                      created_by,
                      message_order,
                      message_dt,
                      LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
              FROM dialogues),
mop_messages AS
              (SELECT *
              FROM dt_messages
              WHERE type = 'outgoing_chat_message' AND message_order !=1)

SELECT entity_id,
       created_by,
       message_dt,
       previous_message_dt,
       CASE
           WHEN EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30
              THEN EXTRACT(EPOCH FROM (message_dt - (date_trunc('day', message_dt) + interval '9 hours 30 minutes')))
           ELSE
              EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
       END reply_time
FROM mop_messages

WHERE EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30

LIMIT 30
'''
select(sql)

Unnamed: 0,entity_id,created_by,message_dt,previous_message_dt,reply_time
0,36698385,10262485,2024-10-26 10:58:33,2024-10-26 08:19:55,5313.0
1,36764023,6744792,2024-10-26 09:49:36,2024-10-26 08:12:16,1176.0
2,36764345,11490270,2024-10-26 09:43:18,2024-10-26 04:21:39,798.0
3,36778259,10262493,2024-10-26 09:39:17,2024-10-26 07:09:23,557.0
4,36835673,8558094,2024-10-26 09:42:36,2024-10-26 09:01:14,756.0
5,36955515,6645315,2024-10-27 09:35:34,2024-10-27 01:02:23,334.0
6,36986723,6744792,2024-10-26 09:35:56,2024-10-26 03:13:13,356.0
7,37054671,6645315,2024-10-26 10:10:45,2024-10-26 07:28:19,2445.0
8,37084205,11241942,2024-10-27 09:48:51,2024-10-27 05:20:14,1131.0
9,37143119,8558094,2024-10-26 09:38:25,2024-10-26 04:08:38,505.0


Мы рассчитали время ответа на письмо клиента. Однако, как показали результаты, некоторые менеджеры проявляют исключительную трудоспособность и работают даже за пределами рабочего времени, что привело к отрицательным значениям. Введём дополнительное условие в логическую конструкцию.

In [None]:
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
            (SELECT *
            FROM all_messages
            WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),
dt_messages AS
              (SELECT entity_id,
                      type,
                      created_by,
                      message_order,
                      message_dt,
                      LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
              FROM dialogues),
mop_messages AS
              (SELECT *
              FROM dt_messages
              WHERE type = 'outgoing_chat_message' AND message_order !=1)

SELECT entity_id,
       created_by,
       message_dt,
       previous_message_dt,
       CASE
           WHEN (EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30)
            AND (EXTRACT(HOUR FROM message_dt) <= 9 AND EXTRACT(MINUTE FROM message_dt) <= 30)
                THEN EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
           WHEN EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30
                THEN EXTRACT(EPOCH FROM (message_dt - (date_trunc('day', message_dt) + interval '9 hours 30 minutes')))
           ELSE
              EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
       END reply_time
FROM mop_messages

WHERE EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30

LIMIT 30
'''
select(sql)

Unnamed: 0,entity_id,created_by,message_dt,previous_message_dt,reply_time
0,36698385,10262485,2024-10-26 10:58:33,2024-10-26 08:19:55,5313.0
1,36764023,6744792,2024-10-26 09:49:36,2024-10-26 08:12:16,1176.0
2,36764345,11490270,2024-10-26 09:43:18,2024-10-26 04:21:39,798.0
3,36778259,10262493,2024-10-26 09:39:17,2024-10-26 07:09:23,557.0
4,36835673,8558094,2024-10-26 09:42:36,2024-10-26 09:01:14,756.0
5,36955515,6645315,2024-10-27 09:35:34,2024-10-27 01:02:23,334.0
6,36986723,6744792,2024-10-26 09:35:56,2024-10-26 03:13:13,356.0
7,37054671,6645315,2024-10-26 10:10:45,2024-10-26 07:28:19,2445.0
8,37084205,11241942,2024-10-27 09:48:51,2024-10-27 05:20:14,1131.0
9,37143119,8558094,2024-10-26 09:38:25,2024-10-26 04:08:38,505.0


Теперь время ответа рассчитано верно, и можно приступать к обработке результатов по каждому менеджеру.

In [None]:
# считаем среднее время ответа по каждому менеджеру
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
              (SELECT *
              FROM all_messages
              WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),
dt_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        message_order,
                        message_dt,
                        LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
                FROM dialogues),
mop_messages AS
                (SELECT *
                FROM dt_messages
                WHERE type = 'outgoing_chat_message' AND message_order !=1),
all_reply_time AS
                  (SELECT entity_id,
                        created_by,
                        message_dt,
                        previous_message_dt,
                        CASE
                            WHEN (EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30)
                              AND (EXTRACT(HOUR FROM message_dt) <= 9 AND EXTRACT(MINUTE FROM message_dt) <= 30)
                                  THEN EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                            WHEN EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30
                                  THEN EXTRACT(EPOCH FROM (message_dt - (date_trunc('day', message_dt) + interval '9 hours 30 minutes')))
                            ELSE
                                EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                        END reply_time
                  FROM mop_messages)

SELECT created_by,
       AVG(reply_time) / 60 avg_reply_time
FROM all_reply_time
GROUP BY created_by

'''
select(sql)

Unnamed: 0,created_by,avg_reply_time
0,10262485,16.116233
1,7408305,4.713768
2,11188802,18.00006
3,8558094,4.706014
4,7417617,8.370238
5,10465690,7.744356
6,6645315,12.225698
7,6744792,15.276176
8,10262513,26.230042
9,11490270,19.666409


Не все менеджеры участвовали в сделках, а также есть один неопознанный менеджер с нулевым идентификатором. В его сделках входящие и исходящие сообщения помечены нулём, что вызывает подозрение. Посмотрим, сколько таких сделок хранится в системе.

In [None]:
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),
dialogues AS
              (SELECT *
              FROM all_messages
              WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),
dt_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        message_order,
                        message_dt,
                        LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
                FROM dialogues),
mop_messages AS
                (SELECT *
                FROM dt_messages
                WHERE type = 'outgoing_chat_message' AND message_order !=1),
all_reply_time AS
                  (SELECT entity_id,
                        created_by,
                        message_dt,
                        previous_message_dt,
                        CASE
                            WHEN (EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30)
                              AND (EXTRACT(HOUR FROM message_dt) <= 9 AND EXTRACT(MINUTE FROM message_dt) <= 30)
                                  THEN EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                            WHEN EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30
                                  THEN EXTRACT(EPOCH FROM (message_dt - (date_trunc('day', message_dt) + interval '9 hours 30 minutes')))
                            ELSE
                                EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                        END reply_time
                  FROM mop_messages)

SELECT COUNT(DISTINCT entity_id)
FROM all_reply_time
WHERE created_by = 0
'''
select(sql)

Unnamed: 0,count
0,47


В базе данных обнаружено 47 подозрительных сделок, которые не имеют идентификатора менеджера. При этом сообщения, поступающие от менеджера клиенту, имеют тип «outgoing_chat_message». Это вызывает интерес, но пока неясно, как лучше действовать в этой ситуации. Можно было бы проигнорировать эту информацию, но дотошность не позволяет.


# Запрос SQL, рассчитывающий среднее время ответа для каждого менеджера/пары менеджеров

In [None]:
# финальный запрос
sql = '''
WITH
all_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        to_timestamp(created_at) AT TIME ZONE 'Europe/Moscow' message_dt,
                        ROW_NUMBER() OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) message_order,
                        LAG(created_by) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_message_id,
                        LAG(type) OVER (PARTITION BY entity_id ORDER BY to_timestamp(created_at)) AS previous_type
                 FROM test.chat_messages),

dialogues AS
              (SELECT *
              FROM all_messages
              WHERE message_order = 1 OR (created_by != previous_message_id OR type != previous_type)),

dt_messages AS
                (SELECT entity_id,
                        type,
                        created_by,
                        message_order,
                        message_dt,
                        LAG(message_dt) OVER (PARTITION BY entity_id ORDER BY message_dt) AS previous_message_dt
                FROM dialogues),

mop_messages AS
                (SELECT *
                FROM dt_messages
                WHERE type = 'outgoing_chat_message' AND message_order !=1),

all_reply_time AS
                  (SELECT entity_id,
                        created_by,
                        message_dt,
                        previous_message_dt,
                        CASE
                            WHEN (EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30)
                              AND (EXTRACT(HOUR FROM message_dt) <= 9 AND EXTRACT(MINUTE FROM message_dt) <= 30)
                                  THEN EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                            WHEN EXTRACT(HOUR FROM previous_message_dt) <= 9 AND EXTRACT(MINUTE FROM previous_message_dt) < 30
                                  THEN EXTRACT(EPOCH FROM (message_dt - (date_trunc('day', message_dt) + interval '9 hours 30 minutes')))
                            ELSE
                                EXTRACT(EPOCH FROM (message_dt - previous_message_dt))
                        END reply_time
                  FROM mop_messages),

avg_reply_time AS
                  (SELECT created_by,
                          AVG(reply_time) / 60 avg_reply_time
                  FROM all_reply_time
                  GROUP BY created_by)

SELECT art.created_by mop_id,
       mops.name_mop,
       art.avg_reply_time
FROM avg_reply_time AS art
LEFT JOIN test.managers AS mops ON art.created_by = mops.mop_id

ORDER BY avg_reply_time
'''
select(sql)

Unnamed: 0,mop_id,name_mop,avg_reply_time
0,6780177,Даша и Даша,3.957
1,10465254,Настя и Даша,4.254733
2,8558094,Алина и Юля,4.706014
3,7408305,Влада и Настя,4.713768
4,10262497,Мария и Соня,5.753976
5,11550890,Ангелина Милованова,6.095628
6,10465690,Настя и Малика,7.744356
7,11241942,Даша и Карина,7.839195
8,7417617,Порхачева Полина,8.370238
9,11394130,Настя и Саша,8.530637


Мы успешно рассчитали среднее время ответа для каждого менеджера и пары менеджеров, в соответствии с условиями поставленной задачи.

Также была добавлена сортировка, чтобы выделить самые быстрые руки на диком amoCRM 😊

- В среднем быстрее всех отвечают две Даши — менее чем за четыре минуты клиент получает ответ.
- А дольше всех работают Ира и Варя — в среднем на ответ уходит около 26 минут.