# 5 УРОК АГРЕГАЦИЯ ДАННЫХ

## Задача 1.
На лекции мы познакомились с ключевым словом DISTINCT, которое позволяет отбирать уникальные значения в колонке, т.е. избавляться от всех дубликатов. Указывается DISTINCT сразу после SELECT:

SELECT DISTINCT column
FROM table


На заметку:

Подробнее про DISTINCT можно почитать здесь.

Задание:

Для начала решим простую задачу: выведите id всех уникальных пользователей из таблицы user_actions. Результат отсортируйте по возрастанию id.

Поле в результирующей таблице: user_id

После того как решите задачу, попробуйте убрать DISTINCT из запроса и сравните полученные результаты.



##### ОТВЕТ:

In [None]:
SELECT DISTINCT user_id 
FROM user_actions
ORDER BY user_id 

## Задача 2.
Ключевое слово DISTINCT можно применять не только к одной колонке, но и сразу к нескольким:

SELECT DISTINCT column_1, column_2
FROM table


В таком случае в качестве результата запрос вернёт уникальные комбинации значений, встречающихся в колонках. Давайте это проверим.

Задание:

Примените DISTINCT сразу к двум колонкам таблицы courier_actions и отберите уникальные пары значений courier_id и order_id. Результат отсортируйте по двум колонкам по возрастанию сначала id курьера, затем id заказа.

Поля в результирующей таблице: courier_id, order_id

##### ОТВЕТ:

In [None]:
SELECT DISTINCT courier_id, order_id
FROM courier_actions
ORDER BY courier_id, order_id

## Задача 3.
Ну что же, с DISTINCT мы разобрались, теперь перейдём к агрегирующим функциям. 

Агрегирующими функциями называют функции, которые обрабатывают определённый набор строк и возвращают одно обобщающее значение. Если вы когда-нибудь работали в Excel, то наверняка сталкивались с подсчётом суммы или максимального/минимального значения по столбцу — речь идёт именно об этом.

Вот несколько примеров таких функций в SQL:

COUNT() — считает количество значений в колонке.
SUM() — вычисляет сумму значений.
AVG() — вычисляет среднее значение.
MAX() — вычисляет максимальное значение.
MIN() — вычисляет минимальное значение.
Пример:

SELECT AVG(column)
FROM table


Обратите внимание, что некоторые из вышеуказанных функций нельзя применять к колонкам с текстом, датами и временем, так как не вполне понятно, что, например, означает найти среднее значение или сумму наименований товаров. В то же время «максимальное» наименование товара вычислить можно — функция MAX() будет искать наибольшее значение в упорядоченной последовательности символов (в данном случае — упорядоченной по алфавиту).

Впрочем, заучивать границы применимости этих функций не нужно — просто руководствуйтесь здравым смыслом.

Также при работе с функцией COUNT важно учитывать один нюанс: при подсчёте количества записей вместо наименования колонки иногда используют звёздочку «*»:

SELECT COUNT(*)
FROM table


Однако важно иметь в виду, что запрос со звёздочкой возвращает количество вообще всех записей, а запрос с указанием столбца — количество тех записей, где в заданном столбце значения не являются NULL.

Как вы помните, в таблице users у некоторых пользователей не были указаны их даты рождения. Попробуйте самостоятельно запустить в Redash следующие запросы и сравните результаты:

SELECT COUNT(*)
FROM users


SELECT COUNT(birth_date)
FROM users


На заметку:

Подробнее с агрегирующим функциями можно ознакомиться здесь.

В документации PostgreSQL есть и более специфические функции, но списка выше на первое время нам точно хватит.

Задание:

Посчитайте максимальную и минимальную цены товаров в таблице products. Поля назовите соответственно max_price, min_price.

Поля в результирующей таблице: max_price, min_price

Пояснение:

В одном запросе можно использовать сразу несколько агрегирующих функций — если необходимо, то даже по нескольким разным колонкам.



##### ОТВЕТ:

In [None]:
SELECT MAX(price) AS max_price, 
       MIN(price) AS min_price
FROM products

## Задача 4.
И ещё один важный момент: агрегирующие функции можно применять в сочетании с ключевым словом DISTINCT. В таком случае расчёты будут производиться только по уникальным значениям. Если в случае с MIN() и MAX() это не имеет особого смысла, то при расчёте AVG() и SUM() иногда это бывает полезно.

Пример:

SELECT SUM(DISTINCT column) 
FROM table


При этом довольно часто DISTINCT используется в сочетании с COUNT() — для подсчёта числа уникальных пользователей, уникальных заказов и т.д. Этим мы с вами и займёмся!

Задание:

С помощью COUNT(DISTINCT) посчитайте количество уникальных пользователей сервиса, количество уникальных заказов, поделите одно на другое и рассчитайте, сколько заказов приходится на одного пользователя.  Показатель числа заказов на пользователя округлите до двух знаков после запятой. В результирующей таблице отобразите все три значения — поля назовите соответственно unique_users, unique_orders, orders_per_user. Все расчёты проведите на основе таблицы user_actions.

Поля в результирующей таблице: unique_users, unique_orders, orders_per_user

Пояснение:

Над результатами агрегирующих функций можно сразу проводить арифметические операции. 

В нашем случае, чтобы получить корректный результат деления, необходимо хотя бы одно из значений предварительно привести к типу DECIMAL. Иначе результатом деления целого числа на целое число будет тоже целое число.

Кстати, с подобной проблемой можно ознакомиться на stackoverflow. Это крайне полезный ресурс для поиска ответов на свои вопросы. Даже опытные программисты часто им пользуются. Можете уже сейчас начать вырабатывать привычку обращаться к нему в случае возникновения проблем.

##### ОТВЕТ:

In [None]:
SELECT COUNT(DISTINCT(user_id)) AS  unique_users, 
     COUNT(DISTINCT(order_id)) AS unique_orders, 
     ROUND((CAST(COUNT(DISTINCT(order_id)) AS DECIMAL)/ COUNT(DISTINCT(user_id))),2) AS orders_per_user


FROM user_actions

## Задача 5.
А что если для расчётов нам нужны не все данные в столбце, а только какая-то часть? Тогда в запрос с агрегирующими функциями можно включить оператор WHERE и указать условие для отбора записей. Примерно так:

SELECT MAX(column)
FROM table
WHERE [condition]


В таком случае сначала будет выполнена фильтрация таблицы и только потом будет произведена агрегация по оставшимся записям.

Давайте совместим фильтрацию и агрегацию в одном запросе и решим несложную задачу.

Задание:

Посчитайте количество курьеров женского пола в таблице couriers. Полученный столбец назовите couriers_count.

Поле в результирующей таблице: couriers_count

##### ОТВЕТ:

In [None]:
SELECT
  COUNT(DISTINCT(courier_id)) AS couriers_count
FROM
  couriers
WHERE
  sex = 'female'

## Задача 6.
Теперь решим ещё одну задачу на агрегацию с фильтрацией и заодно познакомимся с новой функцией array_length, которая вычисляет количество элементов в массиве (длину массива). 

Как вы помните, в таблице orders содержимое заказов представлено в виде списков товаров. Чтобы посчитать количество товаров в заказе, можно как раз воспользоваться функцией array_length. Записывается она так:

SELECT array_length(ARRAY[1,2,3], 1)

Результат:
3


Синтаксис может показаться вам немного сложным, но это только на первый взгляд! Давайте разберёмся. ARRAY[1,2,3] — это некоторый список из трёх значений. Единица в качестве второго аргумента — это размерность массива, по которой считается его длина. Так как список у нас одноразмерный (просто список значений), то выбор у нас невелик — можем указать только первую размерность.

Если бы у нас была таблица N x N, в которой были бы и строки, и столбцы, то размерности было бы две и тогда мы могли бы указать либо первую, либо вторую размерность. Обратите внимание на разный результат вычислений:

SELECT array_length(ARRAY[[1,2], [3,4], [5,6]], 1)

Результат:
3

SELECT array_length(ARRAY[[1,2], [3,4], [5,6]], 2)

Результат:
2


В примере выше количество списков внутри основного списка — это количество строк в таблице, а количество элементов внутри каждого внутреннего списка — это количество столбцов.

Разумеется, на месте массива можно указывать имя колонки, которая содержит массивы (как в нашем случае):

SELECT array_length(column, 1)
FROM table


На заметку:

Узнать больше о функциях для работы с массивами можно в документации. С некоторыми из них мы познакомимся в следующих уроках.

Задание:

Посчитайте количество заказов в таблице orders с девятью и более товарами. Для этого воспользуйтесь функцией array_length, отфильтруйте данные по количеству товаров в заказе и проведите агрегацию. Полученный столбец назовите orders_count.

Поле в результирующей таблице: orders_count

##### ОТВЕТ:

In [None]:
SELECT
  COUNT(order_id) AS orders_count


FROM
  orders
WHERE
  array_length((product_ids),1) > 8


## Задача 7.
Давайте ненадолго вернёмся к нашим напиткам и оператору LIKE.

Задание:

Рассчитайте среднюю цену товаров в таблице products, в названиях которых присутствуют слова «чай» и «кофе». Любым известным способом исключите из расчёта «иван-чай» и «чайный гриб». Среднюю цену округлите до двух знаков после запятой. Столбец с полученным значением назовите avg_price.

Поле в результирующей таблице: avg_price

Пояснение:

Помните, что порядком выполнения логических выражений можно управлять с помощью скобок. Это может пригодиться.

##### ОТВЕТ:

In [None]:
SELECT 
  ROUND(AVG(price),2) AS avg_price


FROM
  products
WHERE (name LIKE '%чай%' OR name LIKE '%кофе%' ) AND  (name <> 'чайный гриб' AND name NOT LIKE '%иван-чай%')
  

## Задача 8.
В качестве аргумента агрегирующих функций могут выступать не только столбцы, но и любое арифметическое выражение или результат другой функции:

SELECT AVG(some_function(column))
FROM table


SELECT AVG(column_1 * column_2)
FROM table


Давайте попробуем рассчитать средний возраст пользователей мужского пола. Для этого воспользуемся новой для нас функцией AGE().

Функция AGE() возвращает разницу между двумя значениями в формате TIMESTAMP. При этом из первого значения вычитается второе, а сама разница получается в формате INTERVAL:

SELECT AGE('2022-12-12', '2021-11-10')

Результат:
397 days, 0:00:00


Если в качестве первого аргумента не указать ничего, то на место первой даты автоматически подставится текущая дата (полночь текущего дня, т.е. его начало). Если сегодня 2022-12-12, то с 2021-11-10 прошло ровно столько дней:

SELECT AGE(timestamp '2021-11-10')

Результат:
397 days, 0:00:00


На самом деле текущей дате соответствует значение current_date: 

SELECT AGE(current_date, '2021-11-10')

Результат:
397 days, 0:00:00


Можете самостоятельно запустить два запроса — с current_date и без — и сравнить полученные результаты. В вашем случае это будут новые результаты, но они должны совпасть.

А само значение current_date можно вызвать так:

SELECT current_date

Результат:
12/12/22	


И ещё один нюанс: чтобы результат отображался не в виде количества дней, а в более удобном формате, можно переводить результат вычислений в тип VARCHAR:

SELECT AGE(current_date, '2021-11-10')::VARCHAR

Результат:
1 year 1 mon 2 days


Задание:

С помощью функции AGE() и агрегирующей функции рассчитайте возраст самого молодого курьера мужского пола в таблице couriers. Переведите результат вычислений в тип VARCHAR. В качестве даты, относительно которой считать возраст, используйте свою текущую дату (либо не указывайте её вовсе, как показано в примерах). Полученную колонку со значением возраста назовите min_age.

Поле в результирующей таблице: min_age

##### ОТВЕТ:

In [None]:
SELECT 
  
    AGE(current_date, MAX(birth_date))::VARCHAR AS min_age

FROM
  couriers
WHERE
  sex = 'male'


## Задача 9.
Результат выполнения агрегирующих функций также может использоваться в качестве аргумента других функций:

SELECT some_function(AVG(column))
FROM table


Задание:

Снова воспользуйтесь функцией AGE() и рассчитайте разницу в возрасте между самым старым и самым молодым пользователями мужского пола в таблице users. Изменять тип данных колонки с результатом не нужно. Колонку с посчитанным значением назовите age_diff.

Полученная разница должна выглядеть следующим образом:

8350 days, 0:00:00


Поле в результирующей таблице: age_diff

Пояснение:

Эту задачу можно решить разными способами: можно просто найти разницу между датами рождения самого молодого и самого старого пользователей, а можно посчитать разницу между их возрастами. Можете пойти любым способом.

Если будете считать возраст, то в качестве текущей даты используйте свою текущую дату.

##### ОТВЕТ:

In [None]:
SELECT 
  
    AGE(MAX(birth_date), MIN(birth_date)) AS age_diff

FROM
  users
WHERE
  sex = 'male'

## Задача 10.
Задание:

Давайте представим, что один из молодых пользователей сервиса сделал заказ, в который вошли сухарики, чипсы и энергетический напиток. Посчитайте стоимость такого заказа. Колонку с рассчитанной стоимостью заказа назовите order_price.

Поле в результирующей таблице: order_price

Пояснение:

Решить эту задачу можно как с помощью WHERE, так и с помощью конструкции CASE, которую мы рассматривали на прошлых уроках. К её результату тоже можно применять агрегирующие функции.



##### ОТВЕТ:

In [None]:
SELECT   
    SUM(price) AS order_price
FROM
  products
WHERE name LIKE '%сухар%' OR name LIKE '%нерге%' OR name LIKE '%чип%'

## Задача 11.
А теперь немного усложним задачу.

Задание:

Посчитайте стоимость заказа, в котором будут три пачки сухариков, две пачки чипсов и один энергетический напиток. Колонку с рассчитанной стоимостью заказа назовите order_price.

Поле в результирующей таблице: order_price

Пояснение:

Для решения задачи вам снова может пригодиться конструкция CASE.



##### ОТВЕТ:

In [None]:
SELECT
    SUM(CASE
        WHEN name = 'сухарики' THEN price * 3
        WHEN name = 'чипсы' THEN price * 2
        WHEN name = 'энергетический напиток' THEN price
    END) order_price
FROM products


## * Задача 12.
И напоследок кратко познакомимся с чуть более продвинутым функционалом — агрегатными выражениями с фильтрацией.

Если после агрегирующей функции указать ключевое слово FILTER и поместить в скобках некоторое условие [condition] после WHERE, то агрегирующей функции на вход будут поданы только те строки, для которых условие фильтра окажется истинным. В общем виде эта конструкция выглядит так:

SELECT agg_function(column) FILTER (WHERE [condition])
FROM table


Пример:

SELECT AVG(column_1) FILTER (WHERE column_2 > 100)
FROM table


Это очень похоже на обычную фильтрацию с агрегацией, которую мы рассматривали в предыдущих задачах, только в данном случае условие на отбор записей указывается сразу в блоке SELECT. Преимущество такой записи в том, что она позволяет проводить некоторые расчёты без необходимости писать отдельные запросы с блоком WHERE для получения промежуточных результатов. 

Рассмотрим следующий пример.

В нашем случае довольно понятно, как посчитать общее количество пользователей, также вроде бы понятно, как посчитать количество пользователей, которые хотя бы раз отменяли заказ — достаточно просто указать нужное условие в операторе WHERE. Но как в рамках одного запроса посчитать тех, кто никогда не отменял свой заказ? Поскольку объединять несколько запросов вместе мы пока не умеем, на помощь нам может прийти агрегатное выражение.

Задание:

Посчитайте, сколько пользователей никогда не отменяли свой заказ. Для этого из общего числа всех уникальных пользователей отнимите число уникальных пользователей, которые хотя бы раз отменяли заказ. Подумайте, какое условие необходимо указать в FILTER, чтобы получить корректный результат. Полученный столбец назовите users_count.

Поле в результирующе таблице: users_count

Когда решите задачу, подумайте, смогли бы мы сейчас с ней справиться без агрегатных выражений.

##### ОТВЕТ:

In [None]:
SELECT COUNT(DISTINCT user_id) - COUNT(DISTINCT user_id) FILTER (WHERE action  = 'cancel_order') AS users_count
FROM user_actions

### Подведём итоги
В этом уроке мы:

Познакомились с ключевым словом DISTINCT.

Разобрались, как работают агрегирующие функции.

Узнали разницу между COUNT(*) и COUNT(column).

Научились совмещать фильтрацию и агрегацию в одном запросе.

Поработали с массивами и узнали, что делает функция array_length.

Узнали ещё больше про даты и время и познакомились с функцией AGE.

Затронули более продвинутую тему — агрегатные выражения с фильтрацией.

Впереди ещё много интересного!