# Урок 3. АГРЕГАЦИЯ ДАННЫХ

### Задача 1

Для начала решим простую задачу: выведите `id всех уникальных пользователей` из таблицы `user_actions`. Результат отсортируйте по возрастанию id.

Поле в результирующей таблице: user_id

In [None]:
SELECT DISTINCT user_id
  FROM user_actions
 ORDER BY user_id 

### Задача 2

Ключевое слово DISTINCT можно применять не только к одной колонке, но и сразу к нескольким. В таком случае в качестве результата запрос вернёт уникальные комбинации значений, встречающихся в колонках. Давайте это проверим.

Примените DISTINCT сразу к двум колонкам таблицы `courier_actions` и отберите уникальные пары значений courier_id и order_id. Результат отсортируйте по двум колонкам по возрастанию сначала id курьера, затем id заказа.

Поля в результирующей таблице: courier_id, order_id

In [None]:
SELECT DISTINCT courier_id, order_id
  FROM courier_actions
 ORDER BY courier_id,
          order_id

### Задача 3

Посчитайте максимальную и минимальную цены товаров в таблице `products`. Поля назовите соответственно max_price, min_price.

Поля в результирующей таблице: max_price, min_price

In [None]:
SELECT MAX(price) AS max_price,
       MIN(price) AS min_price
  FROM products

### Задача 4

Также при подсчёте количества записей иногда вместо наименования колонки в качестве атрибута функции `COUNT` используют звёздочку «*».  
Однако важно учитывать один нюанс: запрос со звёздочкой возвращает количество вообще всех записей в таблице, а запрос с указанием столбца — количество тех записей, где в заданном столбце значения не являются `NULL`.

Как вы помните, в таблице `users` у некоторых пользователей не были указаны их даты рождения.

Посчитайте в одном запросе количество всех записей в таблице и количество только тех записей, для которых в колонке `birth_date` указана дата рождения.

Колонку с общим числом записей назовите `dates`, а колонку с записями без пропусков — `dates_not_null`.

Поля в результирующей таблице: dates, dates_not_null

In [None]:
SELECT COUNT(*) AS dates,
       COUNT(birth_date) AS dates_not_null 
  FROM users 

### Задача 5

Посчитайте количество всех значений в колонке `user_id` в таблице `user_actions`, а также количество уникальных значений в этой колонке (т.е. количество уникальных пользователей сервиса).

Колонку с первым полученным значением назовите `users`, а колонку со вторым — `unique_users`.

Поля в результирующей таблице: users, unique_users

In [None]:
SELECT COUNT(user_id) AS users,
       COUNT(DISTINCT user_id) AS unique_users 
  FROM user_actions 

### Задача 6

Посчитайте количество курьеров `женского пола` в таблице `couriers`. Полученный столбец назовите `couriers_count`.

Поле в результирующей таблице: couriers_count

In [None]:
SELECT COUNT(courier_id) AS couriers_count
  FROM couriers
 WHERE sex = 'female'

### Задача 7

Рассчитайте время, когда были совершены первая и последняя доставки заказов в таблице `courier_actions`.

Колонку с временем первой доставки назовите `first_delivery`, а колонку с временем последней — `last_delivery`.

Поля в результирующей таблице: first_delivery, last_delivery

In [None]:
SELECT MIN(time) AS first_delivery,
       MAX(time) AS last_delivery
  FROM courier_actions 
 WHERE action = 'deliver_order'

### Задача 8

Представьте, что один из пользователей сервиса сделал заказ, в который вошли одна пачка сухариков, одна пачка чипсов и один энергетический напиток. Посчитайте стоимость такого заказа.

Колонку с рассчитанной стоимостью заказа назовите `order_price`.

Для расчётов используйте таблицу `products`.

Поле в результирующей таблице: order_price

In [None]:
SELECT SUM(price) AS order_price
  FROM products
 WHERE name in ('сухарики', 'чипсы', 'энергетический напиток')

### Задача 9

Теперь решим ещё одну задачу на агрегацию с фильтрацией и заодно познакомимся с новой функцией `array_length`, которая вычисляет количество элементов в массиве (длину массива). 

Как вы помните, в таблице `orders` содержимое заказов представлено в виде списков товаров. Чтобы посчитать количество товаров в заказе, можно как раз воспользоваться функцией `array_length`. Записывается она так:

In [None]:
SELECT array_length(ARRAY[1,2,3], 1)

Результат:
3

Синтаксис может показаться вам немного сложным, но это только на первый взгляд! Давайте разберёмся. 

`ARRAY[1,2,3]` — это некоторый список из трёх значений. Единица в качестве второго аргумента — это размерность массива, по которой считается его длина. Так как список у нас одноразмерный (просто список значений), то выбор у нас невелик — можем указать только первую размерность.

Если бы у нас была таблица `N x N`, в которой были бы и строки, и столбцы, то размерности было бы две и тогда мы могли бы указать либо первую, либо вторую размерность. Обратите внимание на разный результат вычислений:

In [None]:
SELECT array_length(ARRAY[[1,2], [3,4], [5,6]], 1)

Результат:
3

SELECT array_length(ARRAY[[1,2], [3,4], [5,6]], 2)

Результат:
2

В примере выше количество списков внутри основного списка — это количество строк в таблице, а количество элементов внутри каждого внутреннего списка — это количество столбцов.

Разумеется, на месте массива можно указывать имя колонки, которая содержит массивы (как в нашем случае):

In [None]:
SELECT array_length(column, 1)
  FROM table

Посчитайте количество заказов в таблице `orders` с `девятью и более товарами`. Для этого воспользуйтесь функцией `array_length`, отфильтруйте данные по количеству товаров в заказе и проведите агрегацию. Полученный столбец назовите `orders`.

Поле в результирующей таблице: orders

In [None]:
SELECT COUNT(order_id) AS orders
  FROM orders
 WHERE ARRAY_LENGTH(product_ids, 1) >= 9

### Задача 10

Функция `AGE` возвращает разницу между двумя значениями в формате `TIMESTAMP`. При этом из первого значения вычитается второе, а сама разница получается в формате `INTERVAL`:

In [None]:
SELECT AGE('2022-12-12', '2021-11-10')

Результат:
397 days, 0:00:00

И ещё один нюанс: чтобы результат отображался не в виде количества дней, а в более удобном формате, можно переводить результат вычислений в тип `VARCHAR`.

С помощью функции `AGE` и агрегирующей функции рассчитайте возраст самого молодого курьера мужского пола в таблице `couriers`. Возраст измерьте количеством лет, месяцев и дней (как в примере) и переведите его в тип VARCHAR.  В качестве даты, относительно которой считать возраст, используйте свою текущую дату (либо не указывайте её вовсе, как показано в примерах). Полученную колонку со значением возраста назовите min_age.

Поле в результирующей таблице: min_age

In [None]:
SELECT AGE(CURRENT_DATE, MAX(birth_date))::VARCHAR AS min_age
  FROM couriers
 WHERE sex = 'male'

### Задача 11

Посчитайте стоимость заказа, в котором будут три пачки сухариков, две пачки чипсов и один энергетический напиток. Колонку с рассчитанной стоимостью заказа назовите `order_price`.

Для расчётов используйте таблицу `products`.

Поле в результирующей таблице: order_price

In [None]:
SELECT SUM(CASE WHEN name = 'сухарики' THEN 3 * price
                WHEN name = 'чипсы' THEN 2 * price
                WHEN name = 'энергетический напиток' THEN price
                ELSE 0 END) AS order_price
  FROM products

### Задача 12

Давайте ненадолго вернёмся к нашим напиткам и оператору `LIKE`.

Рассчитайте `среднюю цену товаров` в таблице `products`, в названиях которых присутствуют слова `«чай»` или `«кофе»`. Любым известным способом исключите из расчёта `«иван-чай»` и `«чайный гриб»`. Среднюю цену округлите `до двух знаков после запятой`. Столбец с полученным значением назовите `avg_price`.

Поле в результирующей таблице: avg_price

In [None]:
SELECT ROUND(avg(price), 2) AS avg_price
  FROM products
 WHERE name NOT LIKE '%иван%' AND 
       (name LIKE '%чай %' OR 
       name LIKE '%кофе%')

### Задача 13

Воспользуйтесь функцией `AGE` и рассчитайте разницу в возрасте между самым старым и самым молодым пользователями мужского пола в таблице `users`. 

Разницу в возрасте выразите количеством лет, месяцев и дней, переведя её в тип `VARCHAR`. 

Колонку с посчитанным значением назовите `age_diff`.

Поле в результирующей таблице: age_diff

In [None]:
SELECT AGE(MAX(birth_date), MIN(birth_date))::VARCHAR AS age_diff
  FROM users
 WHERE sex = 'male'

### Задача 14

Рассчитайте среднее количество товаров в заказах из таблицы `orders`, которые пользователи оформляли по выходным дням (суббота и воскресенье) в течение всего времени работы сервиса.

Полученное значение округлите до двух знаков после запятой. Колонку с ним назовите `avg_order_size`.

Поле в результирующей таблице: avg_order_size

In [None]:
SELECT ROUND(AVG(ARRAY_LENGTH(product_ids, 1)), 2) AS avg_order_size
  FROM orders
 WHERE DATE_PART('dow', creation_time) = 0 OR 
       DATE_PART('dow', creation_time) = 6

### Задача 15

На основе данных в таблице `user_actions` посчитайте количество уникальных пользователей сервиса, количество уникальных заказов, поделите одно на другое и выясните, сколько заказов приходится на одного пользователя.

В результирующей таблице отразите все три значения — поля назовите соответственно `unique_users`, `unique_orders`, `orders_per_user`.

Показатель числа заказов на пользователя округлите до двух знаков после запятой.

Поля в результирующей таблице: unique_users, unique_orders, orders_per_user


Пояснение:

Важно: чтобы получить корректный результат деления, необходимо хотя бы одно из значений предварительно привести к типу `DECIMAL`. Иначе результатом деления целого числа на другое целое число будет тоже целое число.

In [None]:
SELECT COUNT(DISTINCT user_id) AS unique_users,
       COUNT(DISTINCT order_id) AS unique_orders,
       ROUND(COUNT(DISTINCT order_id)::DECIMAL / COUNT(DISTINCT user_id)::DECIMAL, 2) AS orders_per_user
  FROM user_actions

### * Задача 16

И напоследок познакомимся с более продвинутым функционалом — агрегатными выражениями с фильтрацией.

Если после агрегирующей функции указать ключевое слово `FILTER` и поместить в скобках некоторое условие condition после `WHERE`, то агрегирующей функции на вход будут поданы только те строки, для которых условие фильтра окажется истинным.

В общем виде эта конструкция выглядит так:

In [None]:
SELECT agg_function(column) FILTER (WHERE condition)
  FROM table

Например, если бы мы захотели посчитать среднюю цену только для товаров категории 'рыба', то запрос выглядел бы так:

In [None]:
SELECT AVG(price) FILTER (WHERE category = 'рыба') AS avg_fish_price
  FROM table

Обратите внимание: это очень похоже на обычную фильтрацию с агрегацией, которую мы рассматривали в предыдущих задачах, только в данном случае условие на отбор записей указывается сразу в блоке `SELECT`.
Преимущество такой записи в том, что она позволяет проводить расчёты без промежуточных запросов с условиями в блоке `WHERE`.

In [None]:
SELECT COUNT(DISTINCT user_id) - COUNT(DISTINCT user_id) FILTER(WHERE action = 'cancel_order') AS users_count
  FROM user_actions

### * Задача 17

Посчитайте общее количество заказов в таблице orders, количество заказов с пятью и более товарами и найдите долю заказов с пятью и более товарами в общем количестве товаров.

В результирующей таблице отразите все три значения — поля назовите соответственно orders, large_orders, large_orders_share.

Долю заказов с пятью и более товарами в общем количестве товаров округлите до двух знаков после запятой.

Поля в результирующей таблице: orders, large_orders, large_orders_share

In [None]:
SELECT COUNT(ARRAY_LENGTH(product_ids, 1)) AS orders, 
       COUNT(product_ids) FILTER(WHERE ARRAY_LENGTH(product_ids, 1) >= 5) AS large_orders, 
       ROUND(COUNT(product_ids) FILTER(WHERE ARRAY_LENGTH(product_ids, 1) >= 5)::DECIMAL /
       COUNT(ARRAY_LENGTH(product_ids, 1)), 2) AS large_orders_share
  FROM orders