# Разработка SQL запроса

В базе данных PG (Postgre) cуществуют 2 таблицы:

1. Таблица "opers", с операциями по обработке нарушений. В ней хранится информация по всем операциям обработки нарушений.

Column|Type|Description
:---|:---|:---
viol_oper_id|bigint (PK)| Идентификатор операции обработки нарушения ПДД
tr_viol_id|bigint | Идентификатор нарушения ПДД
oper_code|integer| Тип операции обработки нарушения ПДД
refuse_code|integer| Результирующий код операции обработки нарушения ПДД
isp_id|bigint | Идентификатор того, кто произвел обработку нарушения ПДД
date_oper|timestamp(0) without time zone | Дата и время операции обработки нарушения ПДД
viol_datetime|timestamp(0) without time zone | Дата и время нарушения ПДД

2. Таблица "viols", с нарушениями правил дорожного движения транспортными средствами.

Column|Type|Description
:---|:---|:---
tr_viol_id|bigint (PK)|Идентификатор нарушения
viol_code|integer|Код нарушения ПДД
time_check|timestamp(0) without time zone|Дата и время нарушения ПДД
stage_code|integer|Этап обработки нарушения ПДД
refuse_code|integer|Результирующий код обработки нарушения ПДД
camera_id|integer|Идентификатор камеры зафиксировавший нарушение ПДД


Есть задача:
Подготовить выгрузку, содержащую информацию, за период нарушения ПДД с 2018-04-01 по 2018-04-20 с детализацией до даты нарушения. Выгрузка должна содержать атрибуты:
- Дата нарушения ПДД;
- Число нарушений ПДД всего;
- Число нарушений ПДД у которых результирующий код обработки нарушения ПДД равен 0;
- Число нарушений ПДД по которым была операция обработки тип 29;
- Число нарушений ПДД по которым не было операции обработки тип 29, а результирующий код обработки нарушения ПДД равен 0;


Вам необходимо:
1. Описать последовательность действий для выполнения задачи, постарайтесь развернуто ответить почему так и в такой последовательности.
2. Для этой задачи подготовьте все варианты запросов, которые позволят произвести соответствующую выгрузку.
3. Укажите лучший вариант запроса для данной задачи, дайте комментарий почему именно такой запрос.

# Решение

1. Описать последовательность действий для выполнения задачи, постарайтесь развернуто ответить почему так и в такой последовательности.
- см. ПРИЛОЖЕНИЕ
2. Для этой задачи подготовьте все варианты запросов, которые позволят произвести соответствующую выгрузку.
- **baseline** - по каждому требованию к выгрузке - отдельный запрос, которые объединяются по дате
- **оптимизация 1** - уменьшить количество операций объединения/группировки
- **оптимизация 2** - не использовать `join`, фильтровать по одному запросу, минимизировав обращения к вспомогательной таблице

Сравнение времени выполнения запросов

Value|Baseline|Оптимизация 1|Оптимизация 2|Оптимизация 2+
:---|:---:|:---:|:---:|:---:
Planning Time|0.526|0.209|0.167|0.192
Execution Time|1.326|1.324|1.287|1.230
Total|1.852|1.533|1.454|1.422


3. Укажите лучший вариант запроса для данной задачи, дайте комментарий почему именно такой запрос.

Вариант `Оптимизация 2+` с фильтрацией и однократным запросом к вспомогательной таблице показал лучший результат из рассмотренных:

```
SELECT DATE(time_check) AS date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE refuse_code = 0) AS rc0
       ,COUNT(*) FILTER(WHERE tr_viol_id IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29
                   AND DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20'))) AS op29
       ,COUNT(*) FILTER(WHERE refuse_code = 0 
                              AND tr_viol_id NOT IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29 
                   AND DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20'))) AS no29rc0
  FROM viols
 WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
 GROUP BY date
 ORDER BY date;
```

<!-- vscode-jupyter-toc --><a id='toc0_'></a>    
- [Создание тестового окружения](#toc1_)    
- [Синтетический пример для тестирования](#toc2_)    
- [Решение в первом приближении (baseline)](#toc3_)    
- [Оптимизация 1](#toc4_)    
- [Оптимизация 2](#toc5_)    
- [Генерация тестовых данных](#toc6_)    
- [Проверим](#toc7_)    
  - [Baseline](#toc7_1_)    
  - [Оптимизация 1](#toc7_2_)    
  - [Оптимизация 2](#toc7_3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=2
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

## <a id='toc1_'></a>[Создание тестового окружения](#toc0_)

- убедились, что ключевые зависимости установлены
- запустили в `docker` стандартный образ `postgres`, пароль админа `dummypassword`, пробросили порт на хост

In [16]:
# !pip install ipython-sql
# !pip install psycopg2
# !pip install pgspecial

# !docker run --rm --name PG -p 5432:5432 -e POSTGRES_PASSWORD=dummypassword -d postgres
# !docker stop PG

- подключили питоновские расширения для работы с SQL в `Jupyter`

In [17]:
%reload_ext sql
%sql postgresql://postgres:dummypassword@localhost/postgres

- все работает как надо

In [18]:
%%sql

SELECT version();

 * postgresql://postgres:***@localhost/postgres
1 rows affected.


version
"PostgreSQL 15.1 (Debian 15.1-1.pgdg110+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 10.2.1-6) 10.2.1 20210110, 64-bit"


## <a id='toc2_'></a>[Синтетический пример для тестирования](#toc0_)

In [19]:
%%sql

DROP SCHEMA IF EXISTS public CASCADE;
CREATE SCHEMA public;

CREATE TABLE IF NOT EXISTS opers (
    viol_oper_id      bigint PRIMARY KEY,    
    tr_viol_id        bigint,
    oper_code         integer,
    refuse_code       integer,
    isp_id            bigint,
    date_oper         timestamp(0),
    viol_datetime     timestamp(0)
);

CREATE TABLE IF NOT EXISTS viols (
    tr_viol_id   bigint PRIMARY KEY,
    viol_code    integer,
    time_check   timestamp(0),
    stage_code   integer,
    refuse_code  integer,
    camera_id    integer
);

SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';

 * postgresql://postgres:***@localhost/postgres
Done.
Done.
Done.
Done.
2 rows affected.


table_name
opers
viols


In [20]:
%%sql
-- viol_oper_id  tr_viol_id  oper_code  refuse_code  isp_id  date_oper  viol_datetime 
INSERT INTO opers VALUES
    ( 1, 10,  1, 1, 1, '2018-03-12 05:05:06', '2018-03-12 04:05:06'),

    ( 2, 11,  1, 1, 1, '2018-04-01 05:05:06', '2018-04-01 04:05:06'),
    ( 3, 12,  1, 1, 1, '2018-04-02 13:05:06', '2018-04-02 12:05:06'),

    ( 4, 13,  1, 0, 1, '2018-04-06 15:05:06', '2018-04-06 14:05:06'),
    ( 5, 14,  1, 1, 1, '2018-04-06 05:05:06', '2018-04-06 04:05:06'),
    ( 6, 14,  9, 1, 1, '2018-04-06 05:05:06', '2018-04-06 04:05:06'),
    ( 7, 14,  9, 1, 1, '2018-04-06 05:05:06', '2018-04-06 04:05:06'),
    ( 8, 14, 29, 1, 1, '2018-04-06 05:05:06', '2018-04-06 04:05:06'),

    ( 9, 15,  1, 1, 1, '2018-04-07 05:05:06', '2018-04-07 04:05:06'),
    (10, 20,  1, 1, 1, '2018-04-07 05:05:07', '2018-04-07 04:05:07'),

    (11, 31,  1, 0, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (12, 31,  2, 0, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (13, 31,  3, 0, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (14, 32,  1, 0, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (15, 33,  1, 1, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (16, 34,  1, 1, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),
    (17, 34, 29, 1, 1, '2018-04-12 05:05:08', '2018-04-12 04:05:08'),

    (19, 36,  1, 1, 1, '2018-04-20 05:05:08', '2018-04-20 04:05:08'),
    (20, 37,  1, 0, 1, '2018-04-20 05:05:08', '2018-04-20 04:05:08'),
    
    (21, 40,  1, 1, 1, '2018-06-01 05:05:09', '2018-06-01 04:05:09');

-- tr_viol_id viol_code time_check stage_code refuse_code camera_id
INSERT INTO viols VALUES
    (10, 1024, '2018-03-12 04:05:06', 1024, 1, 1024),
    
    (11, 1024, '2018-04-01 04:05:06', 1024, 1, 1024),
    (12, 1024, '2018-04-02 12:05:06', 1024, 1, 1024),
    (13, 1024, '2018-04-06 14:05:06', 1024, 0, 1024),
    (14, 1024, '2018-04-06 04:05:06', 1024, 0, 1024),   --29
    (15, 1024, '2018-04-07 04:05:06', 1024, 1, 1024),
    (20, 1024, '2018-04-07 04:05:07', 1024, 1, 1024),
    (31, 1024, '2018-04-12 04:05:08', 1024, 0, 1024),
    (32, 1024, '2018-04-12 04:05:08', 1024, 0, 1024),
    (33, 1024, '2018-04-12 04:05:08', 1024, 1, 1024),
    (34, 1024, '2018-04-12 04:05:08', 1024, 1, 1024),   --29
    (36, 1024, '2018-04-20 04:05:08', 1024, 1, 1024),
    (37, 1024, '2018-04-20 04:05:08', 1024, 0, 1024),

    (40, 1024, '2018-06-01 04:05:09', 1024, 1, 1024);

 * postgresql://postgres:***@localhost/postgres
20 rows affected.
14 rows affected.


[]

Должно получаться в сумме:
- 12 нарушений, в т.ч.
    - 5 с кодом `refuse_code` = 0
    - 2 с событием `oper_code` = 29
    - 4 с кодом `refuse_code` = 0, где не было события `oper_code` = 29

## <a id='toc3_'></a>[Решение в первом приближении (baseline)](#toc0_)

Подготовить выгрузку, содержащую информацию, за период нарушения ПДД с `2018-04-01` по `2018-04-20` с детализацией до даты нарушения. Выгрузка должна содержать атрибуты:
- Дата нарушения ПДД;
- Число нарушений ПДД всего;
- Число нарушений ПДД у которых результирующий код обработки нарушения ПДД равен 0;
- Число нарушений ПДД по которым была операция обработки тип 29;
- Число нарушений ПДД по которым не было операции обработки тип 29, а результирующий код обработки нарушения ПДД равен 0;

**Напишем 4 различных запроса к БД и объединим их LEFT JOIN к самому общему, заменив отсутствующие значения на 0.**

По таблице `opers` проверяется только наличие/отсутствие на данном нарушении операций обработки, остальные признаки нарушения все должны браться из `viols`.

Поэтому первые три запроса тривиальные. С последним сложнее:
- присоединяем к `viols` `opers` слева по ключу `viols`
- отбираем нарушения, у которых результирующий код обработки равен 0
- группируем по нарушениям и оставляем те, у которых в группе не встечались `opers.oper_code` = 29
    - учитываем случай нарушений, не имеющих никаких операций обработки
- еще раз группируем, теперь по дате

In [21]:
%%sql

--EXPLAIN (BUFFERS, ANALYZE)
WITH 
-- Число нарушений ПДД всего;
total AS ( 
  SELECT DATE(time_check) AS date,
         COUNT(tr_viol_id) AS tot
    FROM viols
   WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
GROUP BY date),

-- Число нарушений ПДД у которых результирующий код обработки нарушения ПДД равен 0;
total_rc0 AS ( 
  SELECT DATE(time_check) AS date,
         COUNT(tr_viol_id) AS rc0
    FROM viols
   WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         AND
         refuse_code = 0
GROUP BY date),

-- Число нарушений ПДД по которым была операция обработки тип 29;
total_op29 AS (
  SELECT DATE(viol_datetime) AS date,
         COUNT(DISTINCT tr_viol_id) AS op29
    FROM opers
   WHERE DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         AND
         oper_code = 29
GROUP BY date),

-- Число нарушений ПДД по которым не было операции обработки тип 29, а результирующий код обработки нарушения ПДД равен 0;
total_no29rc0 AS (
  SELECT DATE(query.time_check) AS date,
         COUNT(query.tr_viol_id) AS no29rc0
    FROM (     -- группировка обработки по нарушениями, отбор не имеющих обработки 29
         SELECT viols.tr_viol_id, 
                viols.time_check
           FROM viols
                LEFT JOIN opers ON opers.tr_viol_id = viols.tr_viol_id
          WHERE DATE(viols.time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
                AND viols.refuse_code = 0
          GROUP BY viols.tr_viol_id
         HAVING COALESCE(29 != ALL(ARRAY_AGG( opers.oper_code )), TRUE)) AS query    -- на случай нарушений, не имеющих никаких операций обработки
   GROUP BY date)

SELECT total.date AS date, 
       tot AS total,                                             -- тут Null невозможен по смыслу
       COALESCE(rc0, 0) AS rc0,                                  -- ISNULL в postgres нету...
       COALESCE(op29, 0) AS op29,
       COALESCE(no29rc0, 0) AS no29rc0
  FROM total
       LEFT JOIN total_rc0 ON total.date = total_rc0.date
       LEFT JOIN total_op29 ON total.date = total_op29.date
       LEFT JOIN total_no29rc0 ON total.date = total_no29rc0.date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
6 rows affected.


date,total,rc0,op29,no29rc0
2018-04-01,1,0,0,0
2018-04-02,1,0,0,0
2018-04-06,2,2,1,1
2018-04-07,2,0,0,0
2018-04-12,4,2,1,2
2018-04-20,2,1,0,1


Считает корректно.

## <a id='toc4_'></a>[Оптимизация 1](#toc0_)

Попробуем избавиться от лишних джойнов/группировок/сортировок.

In [22]:
%%sql

--EXPLAIN (BUFFERS, ANALYZE)
SELECT date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE rc = 0) AS rc0
       ,COUNT(*) FILTER(WHERE op29 = TRUE) AS op29
       ,COUNT(*) FILTER(WHERE rc = 0 AND op29 = FALSE) AS no29rc0
  FROM
       (SELECT viols.tr_viol_id AS tr_viol_id, 
               viols.refuse_code AS rc,
               DATE(viols.time_check) AS date, 
               COALESCE(29 = ANY(ARRAY_AGG( opers.oper_code )), FALSE) AS op29  -- на случай нарушений, не имеющих никаких операций обработки
          FROM viols
               LEFT JOIN opers ON opers.tr_viol_id = viols.tr_viol_id
         WHERE DATE(viols.time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         GROUP BY viols.tr_viol_id) AS query
 GROUP BY query.date
 ORDER BY query.date;

 * postgresql://postgres:***@localhost/postgres
6 rows affected.


date,total,rc0,op29,no29rc0
2018-04-01,1,0,0,0
2018-04-02,1,0,0,0
2018-04-06,2,2,1,1
2018-04-07,2,0,0,0
2018-04-12,4,2,1,2
2018-04-20,2,1,0,1


Считает корректно.

Преимущества:

- более наглядный код запроса

Недостатки:

- в основе запроса лежит `join` почти полных таблиц, что скажется на производительности

## <a id='toc5_'></a>[Оптимизация 2](#toc0_)

Проверка отсутствия признака означает, что нужно просмотреть все данные. Сделаем такой просмотр отдельно.

In [23]:
%%sql

--EXPLAIN (BUFFERS, ANALYZE)
SELECT DATE(time_check) AS date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE refuse_code = 0) AS rc0
       ,COUNT(*) FILTER(WHERE tr_viol_id IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29)) AS op29
       ,COUNT(*) FILTER(WHERE refuse_code = 0 
                              AND tr_viol_id NOT IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29)) AS no29rc0
  FROM viols
 WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
 GROUP BY date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
6 rows affected.


date,total,rc0,op29,no29rc0
2018-04-01,1,0,0,0
2018-04-02,1,0,0,0
2018-04-06,2,2,1,1
2018-04-07,2,0,0,0
2018-04-12,4,2,1,2
2018-04-20,2,1,0,1


Считает корректно.

## <a id='toc6_'></a>[Генерация тестовых данных](#toc0_)

- 10000 нарушений
- 50000 операций обработки

In [24]:
%%sql
DROP TABLE IF EXISTS viols;
CREATE TABLE viols (
    tr_viol_id   serial PRIMARY KEY,
    viol_code    integer,
    time_check   timestamp (0),
    stage_code   integer,
    refuse_code  integer,
    camera_id    integer
);

SET SESSION my.vars.n = '10000';            -- количество нарушений в БД
SET SESSION my.vars.op_per_n = '5';         -- в среднем операций на 1 нарушение

INSERT INTO viols (tr_viol_id, viol_code, time_check, stage_code, refuse_code, camera_id)
SELECT tr_viol_id, 
       (RANDOM() * 100)::int, 
       timestamp '2018-01-30 20:00:00' + RANDOM()*(timestamp '2018-04-25 18:00:00' - timestamp '2018-03-30 20:00:00'), 
       (RANDOM() * 10)::int, 
       (RANDOM() * 5)::int, 
       (RANDOM() * 10^8)::int
FROM generate_series(1, current_setting('my.vars.n')::int) tr_viol_id;

SELECT * FROM viols LIMIT 10;

 * postgresql://postgres:***@localhost/postgres
Done.
Done.
Done.
Done.
10000 rows affected.
10 rows affected.


tr_viol_id,viol_code,time_check,stage_code,refuse_code,camera_id
1,7,2018-02-02 20:12:38,1,1,48888037
2,31,2018-02-24 02:03:59,10,0,54114089
3,77,2018-02-08 07:04:28,5,1,10181359
4,56,2018-02-10 08:52:07,0,4,97084165
5,32,2018-02-20 19:03:10,4,1,75159672
6,4,2018-01-31 21:40:48,9,2,38853397
7,72,2018-02-05 00:43:37,9,1,97293538
8,67,2018-01-31 17:32:57,7,1,12471610
9,47,2018-02-13 20:02:18,8,5,69911777
10,76,2018-02-22 13:38:57,6,1,48574563


In [25]:
%%sql
-- некэшируемый рандом, но ДОЛГО
DROP FUNCTION IF EXISTS my_random;  
CREATE OR REPLACE FUNCTION my_random(n integer)
  RETURNS integer AS 
$func$ BEGIN RETURN FLOOR(RANDOM() * n)::integer; END; $func$ LANGUAGE plpgsql VOLATILE;

DROP FUNCTION IF EXISTS random_sample;
CREATE OR REPLACE FUNCTION random_sample(n integer)
  RETURNS TABLE(
    tr_viol_id        integer,
    oper_code         integer,
    refuse_code       integer,
    isp_id            integer,
    date_oper         timestamp (0),
    viol_datetime     timestamp(0)
) AS $func$
BEGIN
    FOR i IN 1..n LOOP
        RETURN QUERY SELECT 
                viols.tr_viol_id AS tr_viol_id,
                20 + my_random(10) AS oper_code, 
                viols.refuse_code AS refuse_code,
                my_random(1000) AS isp_id, 
                viols.time_check + INTERVAL '1 second' * my_random(86400) AS date_oper,
                viols.time_check AS viol_datetime
            FROM viols ORDER BY RANDOM() LIMIT 1;
    END LOOP;
END; $func$ LANGUAGE plpgsql VOLATILE;

DROP TABLE IF EXISTS opers;
CREATE TABLE IF NOT EXISTS opers (
    viol_oper_id      serial PRIMARY KEY,    
    tr_viol_id        bigint,
    oper_code         integer,
    refuse_code       integer,
    isp_id            bigint,
    date_oper         timestamp (0),
    viol_datetime     timestamp(0)
);

INSERT INTO opers (tr_viol_id, oper_code, refuse_code, isp_id, date_oper, viol_datetime)
SELECT *
FROM random_sample(current_setting('my.vars.n')::int * current_setting('my.vars.op_per_n')::int);

SELECT * FROM opers LIMIT 10;

 * postgresql://postgres:***@localhost/postgres
Done.
Done.
Done.
Done.
Done.
Done.
50000 rows affected.
10 rows affected.


viol_oper_id,tr_viol_id,oper_code,refuse_code,isp_id,date_oper,viol_datetime
1,3289,29,4,774,2018-02-13 04:23:44,2018-02-12 09:25:15
2,7589,28,3,146,2018-02-12 22:38:30,2018-02-12 07:08:40
3,1717,22,2,572,2018-02-22 17:54:02,2018-02-22 01:42:31
4,3271,25,2,554,2018-02-14 22:05:00,2018-02-14 15:09:29
5,5663,23,0,631,2018-02-05 13:52:30,2018-02-04 16:16:00
6,676,21,3,502,2018-02-22 19:17:21,2018-02-22 02:05:58
7,971,24,3,266,2018-02-22 22:36:31,2018-02-22 10:03:27
8,6797,29,4,436,2018-02-16 07:04:28,2018-02-16 03:23:36
9,3634,24,4,125,2018-02-12 19:39:57,2018-02-12 13:43:09
10,1565,22,1,36,2018-02-17 15:47:11,2018-02-17 08:53:58


## <a id='toc7_'></a>[Проверим](#toc0_)

### <a id='toc7_1_'></a>[Baseline](#toc0_)

In [26]:
%%sql

EXPLAIN (BUFFERS, ANALYZE)
WITH 
-- Число нарушений ПДД всего;
total AS ( 
  SELECT DATE(time_check) AS date,
         COUNT(tr_viol_id) AS tot
    FROM viols
   WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
GROUP BY date),

-- Число нарушений ПДД у которых результирующий код обработки нарушения ПДД равен 0;
total_rc0 AS ( 
  SELECT DATE(time_check) AS date,
         COUNT(tr_viol_id) AS rc0
    FROM viols
   WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         AND
         refuse_code = 0
GROUP BY date),

-- Число нарушений ПДД по которым была операция обработки тип 29;
total_op29 AS (
  SELECT DATE(viol_datetime) AS date,
         COUNT(DISTINCT tr_viol_id) AS op29
    FROM opers
   WHERE DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         AND
         oper_code = 29
GROUP BY date),

-- Число нарушений ПДД по которым не было операции обработки тип 29, а результирующий код обработки нарушения ПДД равен 0;
total_no29rc0 AS (
  SELECT DATE(query.time_check) AS date,
         COUNT(query.tr_viol_id) AS no29rc0
    FROM (     -- группировка обработки по нарушениями, отбор не имеющих обработки 29
         SELECT viols.tr_viol_id, 
                viols.time_check
           FROM viols
                LEFT JOIN opers ON opers.tr_viol_id = viols.tr_viol_id
          WHERE DATE(viols.time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
                AND viols.refuse_code = 0
          GROUP BY viols.tr_viol_id
         HAVING COALESCE(29 != ALL(ARRAY_AGG( opers.oper_code )), TRUE)) AS query    -- на случай нарушений, не имеющих никаких операций обработки
   GROUP BY date)

SELECT total.date AS date, 
       tot AS total,                                             -- тут Null невозможен по смыслу
       COALESCE(rc0, 0) AS rc0,                                  -- ISNULL в postgres нету...
       COALESCE(op29, 0) AS op29,
       COALESCE(no29rc0, 0) AS no29rc0
  FROM total
       LEFT JOIN total_rc0 ON total.date = total_rc0.date
       LEFT JOIN total_op29 ON total.date = total_op29.date
       LEFT JOIN total_no29rc0 ON total.date = total_no29rc0.date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
52 rows affected.


QUERY PLAN
Merge Left Join (cost=3714.93..3716.88 rows=47 width=36) (actual time=1.206..1.210 rows=0 loops=1)
Merge Cond: ((date(viols.time_check)) = (date(query.time_check)))
Buffers: shared hit=74
-> Merge Left Join (cost=2263.63..2265.42 rows=47 width=28) (actual time=1.205..1.207 rows=0 loops=1)
Merge Cond: ((date(viols.time_check)) = (date(opers.viol_datetime)))
Buffers: shared hit=74
-> Merge Left Join (cost=605.73..607.35 rows=47 width=20) (actual time=1.205..1.206 rows=0 loops=1)
Merge Cond: ((date(viols.time_check)) = (date(viols_1.time_check)))
Buffers: shared hit=74
-> GroupAggregate (cost=290.29..291.28 rows=47 width=12) (actual time=1.204..1.205 rows=0 loops=1)


### <a id='toc7_2_'></a>[Оптимизация 1](#toc0_)

In [27]:
%%sql

EXPLAIN (BUFFERS, ANALYZE)
SELECT date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE rc = 0) AS rc0
       ,COUNT(*) FILTER(WHERE op29 = TRUE) AS op29
       ,COUNT(*) FILTER(WHERE rc = 0 AND op29 = FALSE) AS no29rc0
  FROM
       (SELECT viols.tr_viol_id AS tr_viol_id, 
               viols.refuse_code AS rc,
               DATE(viols.time_check) AS date, 
               COALESCE(29 = ANY(ARRAY_AGG( opers.oper_code )), FALSE) AS op29  -- на случай нарушений, не имеющих никаких операций обработки
          FROM viols
               LEFT JOIN opers ON opers.tr_viol_id = viols.tr_viol_id
         WHERE DATE(viols.time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
         GROUP BY viols.tr_viol_id) AS query
 GROUP BY query.date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
29 rows affected.


QUERY PLAN
GroupAggregate (cost=1441.28..1442.90 rows=54 width=36) (actual time=1.262..1.266 rows=0 loops=1)
Group Key: query.date
Buffers: shared hit=74
-> Sort (cost=1441.28..1441.41 rows=54 width=9) (actual time=1.261..1.264 rows=0 loops=1)
Sort Key: query.date
Sort Method: quicksort Memory: 25kB
Buffers: shared hit=74
-> Subquery Scan on query (cost=1435.70..1439.72 rows=54 width=9) (actual time=1.256..1.258 rows=0 loops=1)
Buffers: shared hit=74
-> GroupAggregate (cost=1435.70..1439.18 rows=54 width=13) (actual time=1.255..1.257 rows=0 loops=1)


### <a id='toc7_3_'></a>[Оптимизация 2](#toc0_)

In [28]:
%%sql

EXPLAIN (BUFFERS, ANALYZE)
SELECT DATE(time_check) AS date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE refuse_code = 0) AS rc0
       ,COUNT(*) FILTER(WHERE tr_viol_id IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29)) AS op29
       ,COUNT(*) FILTER(WHERE refuse_code = 0 
                              AND tr_viol_id NOT IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29)) AS no29rc0
  FROM viols
 WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
 GROUP BY date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
19 rows affected.


QUERY PLAN
GroupAggregate (cost=290.29..2551.65 rows=47 width=36) (actual time=1.165..1.166 rows=0 loops=1)
Group Key: (date(viols.time_check))
Buffers: shared hit=74
-> Sort (cost=290.29..290.42 rows=54 width=12) (actual time=1.163..1.164 rows=0 loops=1)
Sort Key: (date(viols.time_check))
Sort Method: quicksort Memory: 25kB
Buffers: shared hit=74
-> Seq Scan on viols (cost=0.00..288.74 rows=54 width=12) (actual time=1.158..1.158 rows=0 loops=1)
Filter: ((date(time_check) >= '2018-04-01'::date) AND (date(time_check) <= '2018-04-20'::date))
Rows Removed by Filter: 10000


# PS

Во внутренних селектах имеет смысл также добавить ограничение по дате, чтобы фильтровать не всю вспомогательную таблицу `opers`, а только целевой период:
- "точка безубыточности" для данной оптимизации сильно зависит от соотношения целевого периода к общему интервалу времени нарушений в БД
- в среднем, на больших таблицах и при разумных интервалах для запроса данная оптимизация должна давать ЗНАЧИТЕЛЬНЫЙ прирост производительности

In [29]:
%%sql

EXPLAIN (BUFFERS, ANALYZE)
SELECT DATE(time_check) AS date
       ,COUNT(*) AS total
       ,COUNT(*) FILTER(WHERE refuse_code = 0) AS rc0
       ,COUNT(*) FILTER(WHERE tr_viol_id IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29
                   AND DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20'))) AS op29
       ,COUNT(*) FILTER(WHERE refuse_code = 0 
                              AND tr_viol_id NOT IN (
            SELECT tr_viol_id
              FROM opers 
             WHERE oper_code = 29 
                   AND DATE(viol_datetime) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20'))) AS no29rc0
  FROM viols
 WHERE DATE(time_check) BETWEEN DATE('2018-04-01') AND DATE('2018-04-20')
 GROUP BY date
 ORDER BY date;

 * postgresql://postgres:***@localhost/postgres
19 rows affected.


QUERY PLAN
GroupAggregate (cost=290.29..3608.01 rows=47 width=36) (actual time=1.173..1.175 rows=0 loops=1)
Group Key: (date(viols.time_check))
Buffers: shared hit=74
-> Sort (cost=290.29..290.42 rows=54 width=12) (actual time=1.171..1.172 rows=0 loops=1)
Sort Key: (date(viols.time_check))
Sort Method: quicksort Memory: 25kB
Buffers: shared hit=74
-> Seq Scan on viols (cost=0.00..288.74 rows=54 width=12) (actual time=1.166..1.166 rows=0 loops=1)
Filter: ((date(time_check) >= '2018-04-01'::date) AND (date(time_check) <= '2018-04-20'::date))
Rows Removed by Filter: 10000
