# Курс «Симулятор SQL»

### Примеры задач и их решения
#### *Группировка данных*

Порядок записи ключевых слов выглядит так:

**SELECT**

**FROM**

**WHERE**

**GROUP BY**

**ORDER BY**

**LIMIT**
    
В то же время порядок выполнения операторов в запросе следующий:

- Сначала выполняется оператор ```FROM``` — происходит выбор нужной таблицы.
- Далее ```WHERE``` — отфильтровываются строки, соответствующие условию.
- Потом ```GROUP BY``` — строки объединяются в группы и производится агрегация.
- Затем ```SELECT``` — отбираются указанные столбцы.
- Потом ```ORDER BY``` — производится сортировка результирующей таблицы.
- И в самом конце ```LIMIT``` — ограничивается количество выводимых записей.

**Задание:**

С помощью оператора GROUP BY посчитайте количество курьеров мужского и женского пола в таблице couriers.

Новую колонку с числом курьеров назовите couriers_count.

Результат отсортируйте по этой колонке по возрас

```SQL
SELECT 
       sex, COUNT(courier_id) AS couriers_count
  FROM couriers
 GROUP BY 
       sex
 ORDER BY
       2
```

**Задание:**

Посчитайте количество созданных и отменённых заказов в таблице user_actions.

Новую колонку с числом заказов назовите orders_count.

Результат отсортируйте по числу заказов по возрастанию.

```SQL
SELECT
      action, COUNT(action) AS orders_count
  FROM user_actions
 GROUP BY
      action
 ORDER BY
      orders_count
```

**Задание:**

Используя группировку и функцию DATE_TRUNC, приведите все даты к началу месяца и посчитайте, сколько заказов было сделано в каждом из них.

Расчёты проведите по таблице orders. Колонку с усечённой датой назовите month, колонку с количеством заказов — orders_count.

Результат отсортируйте по месяцам — по возрастанию.

```SQL
SELECT
       DATE_TRUNC('month', creation_time) AS month,
       COUNT(order_id) AS orders_count
  FROM orders
 GROUP BY
      DATE_TRUNC('month', creation_time)
 ORDER BY
      month
```

**Задание:**

Используя группировку и функцию DATE_TRUNC, приведите все даты к началу месяца и посчитайте, сколько заказов было сделано и сколько было отменено в каждом из них.

В этот раз расчёты проведите по таблице user_actions. Колонку с усечённой датой назовите month, колонку с количеством заказов — orders_count.

Результат отсортируйте сначала по месяцам — по возрастанию, затем по типу действия — тоже по возрастанию.

```SQL
SELECT
       DATE_TRUNC('month', time) AS month,
       action,
       COUNT(order_id)           AS orders_count
  FROM user_actions
 GROUP BY
      action, month
 ORDER BY
      month, action
```

**Задание:**

По данным в таблице users посчитайте максимальный порядковый номер месяца среди всех порядковых номеров месяцев рождения пользователей сервиса. С помощью группировки проведите расчёты отдельно в двух группах — для пользователей мужского и женского пола.

Новую колонку с максимальным порядковым номером месяца рождения в группах назовите max_month. Преобразуйте значения в новой колонке в формат INTEGER, чтобы порядковый номер был выражен целым числом.

Результат отсортируйте по колонке с полом пользователей.

```SQL
SELECT
       sex,
       MAX(DATE_PART('month', DATE_TRUNC('month', birth_date)))::INTEGER AS max_month  
 ---   MAX(DATE_PART('month', birth_date))::INTEGER AS max_month
  FROM users
 GROUP BY
      sex
 ORDER BY
      sex
```

**Задание:**

По данным в таблице users посчитайте порядковый номер месяца рождения самого молодого пользователя сервиса. С помощью группировки проведите расчёты отдельно в двух группах — для пользователей мужского и женского пола.

Новую колонку c порядковым номером месяца рождения самого молодого пользователя в группах назовите max_month. Преобразуйте значения в новой колонке в формат INTEGER, чтобы порядковый номер был выражен целым числом.

Результат отсортируйте по колонке с полом пользователей.

```SQL
SELECT
       sex,
       DATE_PART('month', MAX(birth_date))::INTEGER AS max_month
  FROM users
 GROUP BY
      sex
 ORDER BY
      sex
```

**Задание:**

Посчитайте максимальный возраст пользователей мужского и женского пола в таблице users. Возраст измерьте числом полных лет.

Новую колонку с возрастом назовите max_age. Преобразуйте значения в новой колонке в формат INTEGER, чтобы возраст был выражен целым числом.

Результат отсортируйте по новой колонке по возрастанию возраста.

```SQL
SELECT
       sex,
        DATE_PART('year', MAX(AGE(birth_date)))::INTEGER as max_age
  FROM users
 GROUP BY
      sex
 ORDER BY
      max_age
```

**Задание:**

Разбейте пользователей из таблицы users на группы по возрасту (возраст по-прежнему измеряем числом полных лет) и посчитайте количество пользователей каждого возраста.

Колонку с возрастом назовите age, а колонку с числом пользователей — users_count. Преобразуйте значения в колонке с возрастом в формат INTEGER, чтобы возраст был выражен целым числом.

Результат отсортируйте по колонке с возрастом по возрастанию.

```SQL
SELECT
       DATE_PART('year', AGE(birth_date))::INTEGER AS age,
           CASE 
           WHEN DATE_PART('year', AGE(birth_date))::INTEGER IS null THEN COUNT(sex) 
           ELSE COUNT(DATE_PART('year', AGE(birth_date))::INTEGER)
           END AS users_count
  FROM users
 GROUP BY
      age
 ORDER BY
      age
```

**Вариант 2**
```sql
SELECT DATE_PART('year', AGE(birth_date))::INTEGER AS age,
       COUNT(user_id) AS users_count
FROM   users
GROUP BY age
ORDER BY age
```

**Задание:**

Вновь разбейте пользователей из таблицы users на группы по возрасту (возраст по-прежнему измеряем количеством полных лет), только теперь добавьте в группировку ещё и пол пользователя. Затем посчитайте количество пользователей в каждой половозрастной группе.

Все NULL значения в колонке birth_date заранее отфильтруйте с помощью WHERE.

Колонку с возрастом назовите age, а колонку с числом пользователей — users_count, имя колонки с полом оставьте без изменений. Преобразуйте значения в колонке с возрастом в формат INTEGER, чтобы возраст был выражен целым числом.

Отсортируйте полученную таблицу сначала по колонке с возрастом по возрастанию, затем по колонке с полом — тоже по возрастанию.

```SQL
SELECT
       DATE_PART('year', AGE(birth_date))::INTEGER AS age,
       sex,
       COUNT(user_id) AS users_count   
  FROM users
 WHERE birth_date IS NOT NULL
 GROUP BY
      age, sex
 ORDER BY
      age, sex
```

**Задание:**

Посчитайте количество товаров в каждом заказе, примените к этим значениям группировку и рассчитайте количество заказов в каждой группе за неделю с 29 августа по 4 сентября 2022 года включительно. Для расчётов используйте данные из таблицы orders.

Выведите две колонки: размер заказа и число заказов такого размера за указанный период. Колонки назовите соответственно order_size и orders_count.

Результат отсортируйте по возрастанию размера заказа.

```SQL
SELECT
       array_length(product_ids, 1) AS order_size,
       COUNT(order_id) AS orders_count
  FROM orders
 WHERE creation_time BETWEEN '2022-08-29' AND '2022-09-05'
 GROUP BY
       order_size
 ORDER BY
       order_size
```

## HAVING

**В HAVING фильтрация может производиться по результату одной агрегации, а в результирующую таблицу при этом включаться совсем другая агрегация (в том числе по другой колонке).**

Впрочем, в SELECT можно вообще ничего не указывать кроме колонки, по которой производится группировка:

```SQL
SELECT column_1
FROM table
GROUP BY column_1
HAVING SUM(column_2) = 100 AND AVG(column_3) < 50 
```

**Здесь важно понять, что группировка, агрегация и фильтрация групп со всеми расчётами происходят всегда до выполнения инструкций в блоке SELECT, где вы просто определяете, что попадёт в результирующую таблицу.**

Таким образом, мы снова можем дополнить список ключевых слов в запросе:

    SELECT
    FROM
    WHERE
    GROUP BY
    HAVING
    ORDER BY
    LIMIT
    
Порядок их выполнения в запросе следующий:

- Сначала выполняется оператор ```FROM``` — происходит выбор нужной таблицы.

- Далее ```WHERE``` — отфильтровываются строки, соответствующие условию.

- Потом ```GROUP BY``` — строки объединяются в группы и производится агрегация.

- Затем ```HAVING``` — отфильтровываются группы, соответствующие условию.

- После этого ```SELECT``` — отбираются указанные столбцы.

- Потом ```ORDER BY``` — производится сортировка результирующей таблицы.

- И в самом конце ```LIMIT``` — ограничивается количество выводимых записей.

*Для получения наименования дня недели из колонки с датой или отметкой времени можно использовать, например, функцию ```DATE_PART``` с параметром ```'isodow'``` либо функцию ```TO_CHAR``` с параметром ```'Dy'```:*

```SQL
SELECT TO_CHAR(TIMESTAMP '2022-08-29', 'Dy')
```

Результат:
```Mon```

**Задание:**

Посчитайте количество товаров в каждом заказе, примените к этим значениям группировку и рассчитайте количество заказов в каждой группе. Учитывайте только заказы, оформленные по будням. В результат включите только те размеры заказов, общее число которых превышает 2000. Для расчётов используйте данные из таблицы orders.

Выведите две колонки: размер заказа и число заказов такого размера. Колонки назовите соответственно order_size и orders_count.

Результат отсортируйте по возрастанию размера заказа.

```SQL
SELECT 
       array_length(product_ids, 1) AS order_size,
       COUNT(order_id)              AS orders_count
FROM   orders
WHERE  TO_CHAR(creation_time, 'Dy') MOT IN ('Sun', 'Sat')
GROUP BY order_size 
HAVING 
       COUNT(order_id) > 2000
ORDER BY 
       order_size
```

**Задание:**

По данным из таблицы user_actions определите пять пользователей, сделавших **в августе 2022 года** наибольшее количество заказов.

Выведите две колонки — id пользователей и число оформленных ими заказов. Колонку с числом оформленных заказов назовите created_orders.

Результат отсортируйте сначала по убыванию числа заказов, сделанных пятью пользователями, затем по возрастанию id этих пользователей.

```SQL
SELECT 
       user_id,
       COUNT(order_id) AS created_orders
  FROM user_actions
 WHERE   
           DATE_PART('month', time) = '08'
       AND DATE_PART('year', time)  = '2022'
       AND action = 'create_order'
 GROUP BY
       user_id
 ORDER BY
       created_orders DESC,
       user_id
 LIMIT
       5
```

**Задание:**

А теперь по данным таблицы courier_actions определите курьеров, которые в сентябре 2022 года доставили только по одному заказу.

В этот раз выведите всего одну колонку с id курьеров. Колонку с числом заказов в результат включать не нужно.

Результат отсортируйте по возрастанию id курьера.

```SQL
SELECT 
       courier_id
  FROM courier_actions
 WHERE 
           action                   = 'deliver_order'
       AND DATE_PART('month', time) = '9'
       AND DATE_PART('year', time)  = '2022'   
 GROUP BY
       courier_id
HAVING
       COUNT(order_id) = 1
 ORDER BY
       courier_id
```

**Задание:**

*Mаркетологи:*

**Xотят разослать пуш-уведомление со специальным предложением. 
Аудитория — пользователи, которые давно не делали у нас заказ.**

Из таблицы user_actions отберите пользователей, 
у которых последний заказ был создан до 8 сентября 2022 года.

Выведите только их id, дату создания заказа выводить не нужно.

Результат отсортируйте по возрастанию id пользователя.


```SQL
SELECT 
       user_id
  FROM user_actions
 WHERE 
       action = 'create_order'
 GROUP BY
       user_id
HAVING
       MAX(time) < '2022-09-08'
 ORDER BY
       user_id
```

**В качестве поля для группировки может выступать и более сложная расчётная колонка — например, результат выполнения условной конструкции CASE:**

```SQL
SELECT 
       CASE 
       WHEN name='свинина' OR name='баранина' OR name='курица' THEN 'мясо'
       WHEN name='треска'  OR name='форель'   OR name='окунь'  THEN 'рыба'
       ELSE 'другое'
       END AS сategory,
       AVG(price) AS avg_price
FROM table
GROUP BY сategory
```

Запрос выше сначала поделит все товары на группы, затем сгруппирует их и для каждой группы посчитает среднюю цену всех попавших в неё продуктов.

Получается, что таким образом мы можем дополнительно управлять группировкой наших данных — сначала мы сами задаём правила, по которым определяем принадлежность записей к некоторым категориям, а затем группируем по ним данные и проводим необходимые расчёты.

**Задание:**

Разбейте заказы из таблицы orders на 3 группы в зависимости от количества товаров, попавших в заказ:

    Малый (от 1 до 3 товаров);
    Средний (от 4 до 6 товаров);
    Большой (7 и более товаров).

Посчитайте число заказов, попавших в каждую группу. Группы назовите соответственно «Малый», «Средний», «Большой» (без кавычек).

Выведите наименования групп и число товаров в них. Колонку с наименованием групп назовите order_size, а колонку с числом заказов — orders_count.

Отсортируйте полученную таблицу по колонке с числом заказов по возрастанию.

```SQL
SELECT 
       CASE 
       WHEN array_length( product_ids, 1) BETWEEN 1 AND 3  THEN 'Малый'
       WHEN array_length( product_ids, 1) BETWEEN 4 AND 6  THEN 'Средний'
       ELSE 'Большой'
       END AS order_size,
       COUNT(order_id) AS orders_count
  FROM orders
 GROUP BY
       order_size
 ORDER BY
       orders_count
```

**Вариант 2**

```SQL
SELECT case when array_length(product_ids, 1) >= 7 then 'Большой'
            when array_length(product_ids, 1) >= 4 then 'Средний'
            else 'Малый' end as order_size,
       count(order_id) as orders_count
       ...
```

**Задание:**

Разбейте пользователей из таблицы users на 4 возрастные группы:

    от 18 до 24 лет;
    от 25 до 29 лет;
    от 30 до 35 лет;
    старше 36.

Посчитайте число пользователей, попавших в каждую возрастную группу. Группы назовите соответственно «18-24», «25-29», «30-35», «36+» (без кавычек).

В расчётах не учитывайте пользователей, у которых не указана дата рождения. Как и в прошлых задачах, в качестве возраста учитывайте число полных лет.

Выведите наименования групп и число пользователей в них. Колонку с наименованием групп назовите group_age, а колонку с числом пользователей — users_count.

Отсортируйте полученную таблицу по колонке с наименованием групп по возрастанию.

```sql
SELECT 
       CASE 
       WHEN DATE_PART('YEAR', AGE(birth_date)) BETWEEN 18 AND 24  THEN '18-24'
       WHEN DATE_PART('YEAR', AGE(birth_date)) BETWEEN 25 AND 29 THEN '25-29'
       WHEN DATE_PART('YEAR', AGE(birth_date)) BETWEEN 30 AND 35 THEN '30-35'
       WHEN DATE_PART('YEAR', AGE(birth_date)) >= 36 THEN '36+'
       END            AS group_age,
       COUNT(user_id) AS users_count
  FROM users
 WHERE 
       birth_date IS NOT NULL
 GROUP BY
       group_age
 ORDER BY
       group_age
```

**Задание:**

Отличается ли средний размер заказа в будние дни и выходные?

По данным из таблицы orders рассчитайте средний размер заказа по выходным и будням.

Группу с выходными днями (суббота и воскресенье) назовите «weekend», а группу с будними днями (с понедельника по пятницу) — «weekdays» (без кавычек).

В результат включите две колонки: колонку с группами назовите week_part, а колонку со средним размером заказа — avg_order_size. 

Средний размер заказа округлите до двух знаков после запятой.

Результат отсортируйте по колонке со средним размером заказа — по возрастанию.

```sql
SELECT 
      CASE 
      WHEN TO_CHAR(creation_time, 'Dy') IN ('Sat', 'Sun') THEN 'weekend'
      ELSE 'weekdays'
      END AS week_part,
      ROUND( AVG(array_length(product_ids, 1)), 2) AS avg_order_size
  FROM orders
GROUP BY
      week_part
 ORDER BY 
      avg_order_size
```

**Задание:**

С помощью группировки и агрегатного выражения с фильтрацией определим пользователей, которые чаще остальных отменяли заказы.

Для каждого пользователя в таблице user_actions посчитайте общее количество оформленных заказов и долю отменённых заказов.

Новые колонки назовите соответственно orders_count и cancel_rate. Колонку с долей отменённых заказов округлите до двух знаков после запятой.

В результат включите только тех пользователей, которые оформили больше трёх заказов и у которых показатель cancel_rate составляет не менее 0.5.

Результат отсортируйте по возрастанию id пользователя.
```sql
SELECT user_id,
       ROUND(COUNT(DISTINCT order_id) FILTER (WHERE action = 'cancel_order')::DECIMAL 
           / COUNT(DISTINCT order_id), 2) AS cancel_rate,
       COUNT(DISTINCT order_id) AS orders_count
  FROM user_actions
 GROUP BY 
       user_id 
HAVING
           ROUND(COUNT(DISTINCT order_id) FILTER (WHERE action = 'cancel_order')::DECIMAL 
               / COUNT(DISTINCT order_id), 2) >= 0.5
       AND COUNT(DISTINCT order_id) > 3
 ORDER BY 
       user_id
```

**Задание:**

Давайте попробуем выяснить, отличается ли **success rate** (доля неотменённых заказов) в разные дни недели. Для этого посчитаем, сколько всего было оформлено заказов в каждый из дней, сколько из этих заказов было отменено и сколько фактически было успешно доставлено до пользователей.

Для каждого дня недели в таблице user_actions посчитайте:

    Общее количество оформленных заказов.
    Общее количество отменённых заказов.
    Общее количество неотменённых заказов (т.е. доставленных).
    Долю неотменённых заказов в общем числе заказов (success rate).
    
Новые колонки назовите соответственно created_orders, canceled_orders, actual_orders и success_rate. Колонку с долей неотменённых заказов округлите до трёх знаков после запятой.

Все расчёты проводите за период с 24 августа по 6 сентября 2022 года включительно, чтобы во временной интервал попало равное количество разных дней недели.

Группы сформируйте следующим образом: выделите день недели из даты с помощью функции to_char с параметром 'Dy', также выделите порядковый номер дня недели с помощью функции DATE_PART с параметром 'isodow'. Далее сгруппируйте данные по двум полям и проведите все необходимые расчёты.

В результате должна получиться группировка по двум колонкам: с порядковым номером дней недели и их сокращёнными наименованиями.

Результат отсортируйте по возрастанию порядкового номера дня недели.

```SQL
SELECT 
      DATE_PART('isodow', time)::VARCHAR                       AS weekday_number,
      TO_CHAR(time, 'Dy')                                      AS weekday,
      COUNT(order_id) FILTER (WHERE action = 'create_order')   AS created_orders,    --- Общее количество оформленных заказов
      COUNT(order_id) FILTER(WHERE action = 'cancel_order')    AS canceled_orders,   --- Общее количество отменённых заказов
       COUNT(order_id) FILTER (WHERE action = 'create_order')
     - COUNT(order_id) FILTER(WHERE action = 'cancel_order')   AS actual_orders,     --- Общее количество неотменённых заказов (т.е. доставленных)
      ROUND( 
            (COUNT(order_id) FILTER (WHERE action = 'create_order')
           - COUNT(order_id) FILTER(WHERE action = 'cancel_order'))
           / COUNT(order_id) FILTER (WHERE action = 'create_order')::DECIMAL
          ,3)                                                  AS success_rate       --- Доля неотменённых заказов в общем числе заказов
  FROM user_actions
 WHERE 
      time BETWEEN '2022-08-24' AND '2022-09-07'
 GROUP BY
      DATE_PART('isodow', time),
      TO_CHAR(time, 'Dy')
 ORDER BY 
      DATE_PART('isodow', time)
```