# Курс «Симулятор SQL»

### Примеры задач и их решения
#### *JOIN*

#### Основные типы объединений JOIN

Вот мы и подобрались к одной из важнейших тем в SQL — объединению таблиц. 

SQL-запросы позволяют выбирать и обрабатывать данные не только из одной таблицы — в этом мы уже убедились, когда работали с подзапросами. Но таблицы можно также объединять в один результирующий набор записей, связывая их по определённым условиям. Это позволяет делать операция соединения JOIN.

В этом уроке мы рассмотрим следующие типы соединений таблиц:

    INNER
    INNER JOIN
    LEFT/RIGHT JOIN
    FULL JOIOIN

Как правило (но далеко не всегда), в качестве условия [condition], по которому происходит объединение, выступает равенство значений в определённых столбцах. В качестве таких столбцов обычно используются ключи с указанием id (товара, пользователя и т.д.), то есть значений, по которым можно однозначно идентифицировать определённую сущность:

```SQL
SELECT table_1.column_1, table_2.column_2
FROM table_1 
     JOIN table_2
     ON table_1.id = table_2.id
...
```

При этом у каждой колонки рекомендуется через точку указывать имя таблицы, которая содержит эту колонку. Более того, это становится уже не рекомендацией, а необходимостью, когда имена столбцов в таблицах совпадают — без явного указания источников база данных не сможет сама определить, какие столбцы и в каких таблицах вы имеете в виду, и в результате вернёт ошибку.

Если имена таблиц слишком длинные, таблицам можно присвоить алиасы. По этим же алиасам можно сразу удобно обращаться к колонкам:
```SQL
SELECT a.column_1, b.column_2
FROM table_1 a 
     JOIN table_2 b
     ON a.id = b.id
```

**Если имя поля, по которому происходит объединение, совпадает в обеих таблицах** (как в примерах выше), то можно использовать сокращенную запись c оператором **USING**:
```SQL
SELECT a.column_1, b.column_2
FROM table_1 a 
     JOIN table_2 b
     USING (id)
...


При объединении таблиц можно также использовать подзапросы. Их можно объединять с другими таблицами или друг с другом:

SELECT ...
FROM table_1
     JOIN (
          SELECT ...
          FROM table_2
     ) AS subquery
    ON table_1.id = subquery.id
...


SELECT ...
FROM (
     SELECT ...
     FROM table_1
) AS subquery_1
     JOIN (
          SELECT ...
          FROM table_2
     ) AS subquery_2
    ON subquery_1.id = subquery_2.id
...
```

#### **INNER JOIN**

Первый тип объединения, который мы рассмотрим, называется **INNER JOIN**. Это оператор внутреннего соединения, для которого совершенно неважен порядок указания таблиц, т.е. в следующих случаях результат объединения будет одинаковым:
```SQL
SELECT ...
FROM table_1 INNER JOIN table_2
     ON [condition]
...


SELECT ...
FROM table_2 INNER JOIN table_1 
     ON [condition]
...


При этом в запросе вместо INNER JOIN можно писать просто JOIN — это одно и то же.

Результат объединения INNER JOIN формируется следующим образом:

Сначала каждая строка первой таблицы сопоставляется с каждой строкой второй таблицы (происходит декартово произведение).
Затем для каждой объединённой строки проверяется условие соединения, указанное после оператора ON.
После этого все объединённые строки, для которых условие оказалось истинным, добавляются в результирующую таблицу.
Таким образом, в результате объединения INNER JOIN из двух таблиц отбрасываются все строки, которые не прошли проверку на соответствие указанному условию. Вот и всё!

**Задание:**

Объедините таблицы user_actions и users по ключу user_id. В результат включите две колонки с user_id из обеих таблиц. Эти две колонки назовите соответственно user_id_left и user_id_right. Также в результат включите колонки order_id, time, action, sex, birth_date. Отсортируйте получившуюся таблицу по возрастанию id пользователя (в любой из двух колонок с id).

```SQL
SELECT 
      user_actions.user_id AS user_id_left,
      users.user_id        AS user_id_right,
      order_id, 
      time, 
      action, 
      sex, birth_date
FROM  user_actions
JOIN  users USING(user_id)
ORDER BY 
      user_actions.user_id


**Задание:**

А теперь попробуйте немного переписать запрос из прошлого задания и посчитать количество уникальных id в объединённой таблице. То есть снова объедините таблицы, но в этот раз просто посчитайте уникальные user_id в одной из колонок с id. Выведите это количество в качестве результата. Колонку с посчитанным значением назовите users_count.

Поле в результирующей таблице: users_count

После того как решите задачу, сравните полученное значение с количеством уникальных пользователей в таблицах users и user_actions, которое мы посчитали на прошлом 

шаге. С каким значением оно совп

```SQL
SELECT 
      COUNT(DISTINCT user_id) AS users_count
FROM  user_actions
JOIN  users USING(user_

-- COUNT DISTINCT user_id FROM users        = 20331	
-- COUNT DISTINCT user_id FROM user_actions = 2140

Output =  20331 == COUNTs FROM users1id)адает?

#### **LEFT JOIN**

Следующий тип соединения, который мы рассмотрим, — это **LEFT OUTER JOIN (или просто LEFT JOIN)**. 

**LEFT JOIN** — это оператор внешнего соединения, для которого важен порядок таблиц в запросе, т.е. в отличие от INNER JOIN он не является симметричным.

Поэтому следующие две записи уже не являются эквивалентными:
```sql
SELECT ...
FROM table_1 LEFT JOIN table_2
     ON [condition]
...


SELECT ...
FROM table_2 LEFT JOIN table_1 
     ON [condition]
...


Результат объединения LEFT JOIN формируется следующим образом:

Сначала каждая строка левой таблицы сопоставляется с каждой строкой правой таблицы (происходит декартово произведение).
Затем для каждой объединённой строки проверяется условие соединения, указанное после оператора ON.
После этого все объединённые строки, для которых условие оказалось истинным, добавляются в результирующую таблицу.
Далее в результат добавляются те записи из левой таблицы (внимание: только из левой), для которых условие оказалось ложным и которые не вошли в соединение на предыдущем шаге. При этом для таких записей соответствующие поля из правой таблицы заполняются значениями NULL.
Если внимательно посмотреть на описанный алгоритм, то можно понять, что он легко сводится к следующей последовательности действий:

Сначала в соответствии с указанным условием выполняется INNER JOIN первой и второй таблиц.
Затем в результат добавляются те записи из левой таблицы (внимание: только из левой), для которых условие оказалось ложным и которые не вошли в соединение на предыдущем шаге. При этом для таких записей соответствующие поля из правой таблицы заполняются значениями NULL.

Соединение RIGHT JOIN работает аналогичным образом, только на втором этапе в результат INNER JOIN добавляются записи не из левой, а из правой таблицы.


**Задание:**

С помощью LEFT JOIN объедините таблицы user_actions и users по ключу user_id. Обратите внимание на порядок таблиц — слева users_actions, справа users. В результат включите две колонки с user_id из обеих таблиц. Эти две колонки назовите соответственно user_id_left и user_id_right. Также в результат включите колонки order_id, time, action, sex, birth_date. Отсортируйте получившуюся таблицу по возрастанию id пользователя (в колонке из левой таблицы).

Поля в результирующей таблице: user_id_left, user_id_right,  order_id, time, action, sex, birth_date

После того как решите задачу, обратите внимание на колонки с user_id. Нет ли в какой-то из них пропущенных значений?

```sql
SELECT 
       ua.user_id AS user_id_left,
       u.user_id AS user_id_right,
       order_id, time, action, sex, birth_date
  FROM user_actions AS ua LEFT JOIN users AS u USING(user_id)
 ORDER BY 
       ua.user_id
 

**Задание:**

Теперь снова попробуйте немного переписать запрос из прошлого задания и посчитайте количество уникальных id в колонке user_id, пришедшей из левой таблицы user_actions. Выведите это количество в качестве результата. Колонку с посчитанным значением назовите users_count.

Поле в результирующей таблице: users_count

После того как решите задачу, сравните полученное значение с количеством уникальных пользователей в таблицах users и user_actions. С каким значением оно совпало в этот раз?

```SQL
SELECT 
      COUNT (DISTINCT ua.user_id) AS users_count
  FROM user_actions AS ua LEFT JOIN users AS u USING(user_id)

Output =  21401 == COUNTs FROM user_actions

**Задание:**

Возьмите запрос из задания 3, где вы объединяли таблицы user_actions и users с помощью LEFT JOIN, добавьте к запросу оператор WHERE и исключите NULL значения в колонке user_id из правой таблицы. Включите в результат все те же колонки и отсортируйте получившуюся таблицу по возрастанию id пользователя в колонке из левой таблицы.

Поля в результирующей таблице: user_id_left, user_id_right,  order_id, time, action, sex, birth_date

После того как решите задачу, попробуйте сдать это же решение в первом задании — сработает или нет? Подумайте, какой JOIN мы сейчас получили после всех манипуляций с результатом. Заодно можете посчитать число уникальных user_id в запросе из этого задания, чтобы расставить все точки над «i».

```SQL
SELECT 
       ua.user_id AS user_id_left,
       u.user_id AS user_id_right,
       order_id, time, action, sex, birth_date
  FROM user_actions AS ua 
  LEFT JOIN users AS u USING(user_id)
 WHERE u.user_id IS NOT NULL
 ORDER BY 
       ua.user_id

При условии "WHERE u.user_id IS NOT NULL" LEFT JOIN превращается в INNER JOIN

#### **FULL JOIN**
```SQL
А чтобы лучше разобраться с джойнами, рассмотрим ещё один тип объединения таблиц — FULL OUTER JOIN или просто FULL JOIN. Это оператор полного внешнего соединения, для которого, как и для INNER JOIN, неважен порядок указания таблиц. Однако работает он совсем по-другому.

Запрос с FULL OUTER JOIN выглядит примерно так:

SELECT ...
FROM table_1 FULL JOIN table_2
     ON [condition]
...


SELECT ...
FROM table_2 FULL JOIN table_1 
     ON [condition]
...


Результат объединения FULL JOIN формируется следующим образом:

Сначала каждая строка левой таблицы сопоставляется с каждой строкой правой таблицы (происходит декартово произведение).
Затем для каждой объединённой строки проверяется условие соединения, указанное после оператора ON.
После этого все объединённые строки, для которых условие оказалось истинным, добавляются в результирующую таблицу.
Далее в результат добавляются те записи из левой и правой таблиц (внимание: из обеих таблиц), для которых условие оказалось ложным и которые не вошли в соединение на предыдущем шаге. При этом для таких записей соответствующие поля из другой таблицы (для левой — это поля из правой, для правой — это поля из левой) заполняются значениями NULL.
Этот алгоритм можно свести к следующей последовательности действий:

Сначала в соответствии с указанным условием выполняется INNER JOIN левой и правой таблиц.
Далее в результат добавляются те записи из левой и правой таблиц (внимание: из обеих таблиц), для которых условие оказалось ложным и которые не вошли в соединение на предыдущем шаге. При этом для таких записей соответствующие поля из другой таблицы (для левой — это поля из правой, для правой — это поля из левой) заполняются значениями NULL.

**Задание:**

С помощью FULL JOIN объедините по ключу birth_date таблицы, полученные в результате вышеуказанных запросов (то есть объедините друг с другом два подзапроса). Не нужно изменять их, просто добавьте нужный JOIN.

В результат включите две колонки с birth_date из обеих таблиц. Эти две колонки назовите соответственно users_birth_date и couriers_birth_date. Также включите в результат колонки с числом пользователей и курьеров — users_count и couriers_count.

Отсортируйте получившуюся таблицу сначала по колонке users_birth_date по возрастанию, затем по колонке couriers_birth_date — тоже по возрастанию.

Поля в результирующей таблице: users_birth_date, users_count,  couriers_birth_date, couriers_count

После того как решите задачу, изучите полученную таблицу в Redash. Обратите внимание на пропущенные значения в колонках с датами рождения курьеров и пользователей. Подтвердилось ли наше предположение?

```SQL
WITH users_counts AS (
    SELECT 
        birth_date,
        COUNT(user_id) AS users_count
    FROM 
        users
    WHERE 
        birth_date IS NOT NULL
    GROUP BY 
        birth_date
),
couriers_counts AS (
    SELECT 
        birth_date,
        COUNT(courier_id) AS couriers_count
    FROM 
        couriers
    WHERE 
        birth_date IS NOT NULL
    GROUP BY 
        birth_date
)

SELECT 
    u.birth_date AS users_birth_date,
    u.users_count,
    c.birth_date AS couriers_birth_date,
    c.couriers_count
FROM 
    users_counts u
FULL JOIN 
    couriers_counts c ON u.birth_date = c.birth_date
ORDER BY 
    users_birth_date,
    couriers_birth_date 

#### Операции с множествами

Отлично. Запрос с FULL JOIN мы вроде бы составили, но как нам теперь определить, что количество записей в полученной таблице совпадает с общим числом уникальных дат в двух таблицах — users и couriers? Ведь именно столько строк мы и ожидали получить, верно? 

Проверить себя нам помогут операции с множествами. В языке SQL их три:
```sql
UNION
EXCEPT
INTERSECT
```
Они позволяют комбинировать результаты нескольких запросов друг с другом и получать один общий результат. Причём именно комбинировать, а не объединять, как это делают джойны.

Эту разницу важно понимать: в операциях с множествами не происходит совмещения столбцов из двух таблиц — база данных просто отбирает строки из таблиц, удовлетворяющие типу операции, и добавляет их в общий результат.

Операции с множествами имеют следующий синтаксис:
```sql
SELECT column_1, column_2
FROM table_1
UNION
SELECT column_1, column_2
FROM table_2


SELECT column_1, column_2
FROM table_1
EXCEPT
SELECT column_1, column_2
FROM table_2


SELECT column_1, column_2
FROM table_1
INTERSECT
SELECT column_1, column_2
FROM table_2


Операция UNION объединяет записи из двух запросов в один общий результат (объединение множеств).

Операция EXCEPT возвращает все записи, которые есть в первом запросе, но отсутствуют во втором (разница множеств).

Операция INTERSECT возвращает все записи, которые есть и в первом, и во втором запросе (пересечение множеств).

При этом по умолчанию эти операции исключают из результата строки-дубликаты. Чтобы дубликаты не исключались из результата, необходимо после имени операции указать ключевое слово ALL. Например, так:

SELECT column_1, column_2
FROM table_1
UNION ALL
SELECT column_1, column_2
FROM table_2

**Задание:**
Объедините два следующих запроса друг с другом так, 
чтобы на выходе получился набор уникальных дат из таблиц users и couriers:
```sql
SELECT birth_date
FROM users
WHERE birth_date IS NOT NULL


SELECT birth_date
FROM couriers
WHERE birth_date IS NOT NULL
```

Поместите в подзапрос полученный после объединения набор дат и посчитайте их количество. 
Колонку с числом дат назовите dates_count.

Поле в результирующей таблице: dates_count

После того как решите задачу, сравните полученное число дат с количеством строк в таблице, 
которую мы получили в прошлом задании. Совпали ли эти значения?

```sql
SELECT 
      COUNT(birth_date) AS dates_count
  FROM (
        SELECT birth_date
        FROM users
        WHERE birth_date IS NOT NULL
        UNION
        SELECT birth_date
        FROM couriers
        WHERE birth_date IS NOT NULL
       ) AS union_value

dates_count = 4,846, как и в прошлом задании

#### CROSS JOIN```sql

В начале урока мы обещали рассмотреть ещё один тип объединения таблиц — CROSS JOIN. Держим слово!

На самом деле CROSS JOIN — это просто декартово произведение двух таблиц, то есть именно то, что происходит на первом этапе остальных джойнов. Важное отличие в синтаксисе CROSS JOIN состоит в том, что для него не нужно указывать условие для соединения:

SELECT column_1, column_2, ...
FROM table_1
     CROSS JOIN table_2


Тот же результат можно получить с помощью следующей записи:

SELECT column_1, column_2, ...
FROM table_1, table_2


Рассмотрим простой пример:

SELECT
    A.city as city,
    B.country as country
FROM table_A as A
     CROSS JOIN table_B as B

**Задание:**

Из таблицы users отберите id первых 100 пользователей (просто выберите первые 100 записей, используя простой LIMIT) и с помощью CROSS JOIN объедините их со всеми наименованиями товаров из таблицы products. Выведите две колонки — id пользователя и наименование товара. Результат отсортируйте сначала по возрастанию id пользователя, затем по имени товара — тоже по возрастанию.

Поля в результирующей таблице: user_id, name

После того как решите задачу, посмотрите сколько было изначально строк в каждой таблице и сравните с тем, сколько их получилось после объединения.

```sql
SELECT user_id, name
  FROM (
       SELECT user_id
         FROM users
        LIMIT 100 
       ) AS head_100_users_id
 CROSS JOIN products
 ORDER BY 
       user_id, name 

-- FROM users count(*) = 100
-- FROM products  count(*) =  87
-- FROM CROSS JOIN count(*) = 8,700	

**Задание: Сколько в среднем товаров заказывает каждый пользователь.**

Для начала объедините таблицы user_actions и orders — это вы уже умеете делать. В качестве ключа используйте поле order_id. Выведите id пользователей и заказов, а также список товаров в заказе. Отсортируйте таблицу по id пользователя по возрастанию, затем по id заказа — тоже по возрастанию.

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

Поля в результирующей таблице: user_id, order_id, product_ids

```sql
SELECT  
       user_id, order_id, product_ids
  FROM user_actions
  LEFT JOIN orders USING(order_id)
 ORDER BY
       user_id, order_id
 LIMIT 1000

**Теперь немного уточним наш запрос, поскольку нас интересуют не все заказы из таблицы user_actions, а только те, которые не были отменены пользователями, причём уникальные.**

**Задание:**

Снова объедините таблицы user_actions и orders, но теперь оставьте только уникальные неотменённые заказы (мы делали похожий запрос на прошлом уроке). Остальные условия задачи те же: вывести id пользователей и заказов, а также список товаров в заказе. Отсортируйте таблицу по id пользователя по возрастанию, затем по id заказа — тоже по возрастанию.

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

```SQL
WITH
cancel_orders AS (SELECT DISTINCT order_id
                    FROM user_actions
                   WHERE action = 'cancel_order')
SELECT  
        user_id, order_id, product_ids
  FROM (
         SELECT user_id, order_id
         FROM  user_actions
         WHERE order_id NOT IN (
                               SELECT * FROM cancel_orders
                              )
       ) AS query   
  LEFT JOIN orders USING(order_id)
 ORDER BY
       user_id, order_id
 LIMIT 1000

**Задание:**

Всё готово к тому, чтобы для каждого пользователя посчитать среднее количество товаров в заказе.

Используя запрос из предыдущего задания, посчитайте, сколько в среднем товаров заказывает каждый пользователь. Выведите id пользователя и среднее количество товаров в заказе. Среднее значение округлите до двух знаков после запятой. Колонку посчитанными значениями назовите avg_order_size. Результат выполнения запроса отсортируйте по возрастанию id пользователя. 

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

Поля в результирующей таблице: user_id, avg_order_size

**Вариант 1**
```SQL
WITH
cancel_orders AS (SELECT DISTINCT order_id
                    FROM user_actions
                   WHERE action = 'cancel_order')
SELECT                    
       user_id,
       ROUND(AVG(array_length(product_ids, 1)), 2)  AS avg_order_size
  FROM        
        (
         SELECT  
            user_id, order_id, product_ids
         FROM (
             SELECT user_id, order_id
             FROM  user_actions
             WHERE order_id NOT IN (
                                   SELECT * FROM cancel_orders
                                  )
           ) AS not_cancels_orders 
         LEFT JOIN orders USING(order_id)
         ORDER BY
           user_id, order_id
        ) AS users_order_info
 GROUP BY
       user_id
 ORDER BY
       user_id
 LIMIT 1000  
```
**Вариант 2**
```SQL
SELECT user_id,
       round(avg(array_length(product_ids, 1)), 2) as avg_order_size
FROM   (SELECT user_id,
               order_id
        FROM   user_actions
        WHERE  order_id not in (SELECT order_id
                                FROM   user_actions
                                WHERE  action = 'cancel_order')) t1
    LEFT JOIN orders using(order_id)
GROUP BY user_id
ORDER BY user_id limit 1000

**Задание:**

Для начала к таблице с заказами (orders) примените функцию unnest, как мы делали в прошлом уроке. Колонку с id товаров назовите product_id. Затем к образовавшейся расширенной таблице по ключу product_id добавьте информацию о ценах на товары (из таблицы products). Должна получиться таблица с заказами, товарами внутри каждого заказа и ценами на эти товары. Выведите колонки с id заказа, id товара и ценой товара. Результат отсортируйте сначала по возрастанию id заказа, затем по возрастанию id товара.

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

```sql
SELECT order_id, product_id, price
  FROM
      (SELECT
             order_id, UNNEST(product_ids) AS product_id
        FROM orders
      ) AS orders_with_product_id
  LEFT JOIN products USING(product_id)
 ORDER BY 
       order_id, product_id
 LIMIT 1000

**Имея таблицу с заказами, входящими в них товарами и ценами на эти товары, можно теперь легко посчитать стоимость каждого заказа.**

**Задание:**

Используя запрос из предыдущего задания, рассчитайте суммарную стоимость каждого заказа. Выведите колонки с id заказов и их стоимостью. Колонку со стоимостью заказа назовите order_price. Результат отсортируйте по возрастанию id заказа.

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

Поля в результирующей таблице: order_id, order_price

```SQL
SELECT 
       order_id, 
       SUM(price) AS order_price
FROM (
      SELECT order_id, product_id, price
        FROM
          (SELECT
                 order_id, UNNEST(product_ids) AS product_id
            FROM orders
          ) AS orders_with_product_id
       LEFT JOIN products USING(product_id)
      ORDER BY 
           order_id, product_id
     ) AS orders_with_price
GROUP BY
      order_id 
ORDER BY 
      order_id     
LIMIT 1000    

**Вот теперь у нас есть всё необходимое, чтобы сделать наш первый серьёзный аналитический запрос и посчитать разные пользовательские метрики!**

**Давайте объединим в один запрос данные о количестве товаров в заказах наших пользователей с информацией о стоимости каждого заказа, а затем рассчитаем несколько полезных показателей.**

**Задача:**

Объедините запрос из предыдущего задания с частью запроса, который вы составили в задаче 11, то есть объедините запрос со стоимостью заказов с запросом, в котором вы считали размер каждого заказа из таблицы user_actions.

На основе объединённой таблицы для каждого пользователя рассчитайте следующие показатели:

    общее число заказов                 — orders_count
    среднее количество товаров в заказе — avg_order_size
    суммарную стоимость всех покупок    — sum_order_value
    среднюю стоимость заказа            — avg_order_value
    минимальную стоимость заказа        — min_order_value
    максимальную стоимость заказа       — max_order_value
    
Полученный результат отсортируйте по возрастанию id пользователя.

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

Помните, что в расчётах мы по-прежнему учитываем только неотменённые заказы. При расчёте средних значений, округляйте их до двух знаков после запятой.

Поля в результирующей таблице: 

```user_id, orders_count, avg_order_size, sum_order_value, avg_order_value, min_order_value, max_order_value```

**Вариант 1**
```sql
WITH
user_per_orders_count AS (-- юзер и количество его заказов 
                            SELECT 
                                   user_id,
                                   COUNT(order_id) AS orders_count
                            FROM   user_actions
                            WHERE  order_id NOT IN (SELECT order_id
                                                    FROM   user_actions
                                                    WHERE  action = 'cancel_order')
                            GROUP BY
                                   user_id
                            ORDER BY user_id
                         ),
                         
user_per_avg_order_size AS ( -- среднее количество товаров в заказе
                            SELECT user_id,
                                   round(avg(array_length(product_ids, 1)), 2) as avg_order_size
                            FROM   (SELECT user_id,
                                           order_id
                                    FROM   user_actions
                                    WHERE  order_id not in (SELECT order_id
                                                            FROM   user_actions
                                                            WHERE  action = 'cancel_order')
                                   ) AS ancancel_orders
                                LEFT JOIN orders using(order_id)
                            GROUP BY user_id
                            ORDER BY user_id 
                            ),
                            
order_per_order_price AS  ( -- стоимость каждого заказа
                           SELECT
                                   user_id,
                                   order_id,
                                   order_price
                             FROM  (SELECT   
                                           order_id,
                                           sum(price) as order_price
                                     FROM  (SELECT order_id,
                                                   product_id,
                                                   price
                                            FROM   (SELECT order_id,
                                                           unnest(product_ids) as product_id
                                                    FROM   orders
                                                    ) AS orders_with_product_id
                                            LEFT JOIN products using(product_id)
                                            ORDER BY order_id, product_id
                                            ) AS orders_with_price
                                    GROUP BY order_id
                                    ORDER BY order_id
                                    ) AS order_per_order_price
                                LEFT JOIN user_actions using(order_id) 
                                WHERE  order_id NOT IN (SELECT order_id
                                                          FROM   user_actions
                                                         WHERE  action = 'cancel_order')
                                ORDER BY user_id, order_id    
                          ),
                          
sum_orders_value AS (-- суммарная стоимость всех покупок
                    SELECT
                           user_id,
                           SUM(order_price) AS sum_order_value
                    FROM   order_per_order_price
                    GROUP BY user_id
                    ),
avg_orders_value AS (-- средняя стоимость заказа
                    SELECT
                           user_id,
                           ROUND(avg(order_price),2) AS avg_order_value
                    FROM   order_per_order_price
                    GROUP BY user_id
                    ),
min_orders_value AS (-- минимальная стоимость заказа
                    SELECT
                           user_id,
                           MIN(order_price) AS min_order_value
                    FROM   order_per_order_price
                    GROUP BY user_id
                    ),
max_orders_value AS (-- максимальная стоимость заказа
                    SELECT
                           user_id,
                           MAX(order_price) AS max_order_value
                    FROM   order_per_order_price
                    GROUP BY user_id
                    )                    
SELECT 
       user_id,
       orders_count,      -- общее число заказов
       avg_order_size,    -- среднее количество товаров в заказе
       sum_order_value,   -- суммарная стоимость всех покупок
       avg_order_value,   -- средняя стоимость заказа
       min_order_value,   -- минимальная стоимость заказа
       max_order_value    -- максимальная стоимость заказа
 FROM  
       user_per_orders_count
       LEFT JOIN user_per_avg_order_size USING(user_id)
       LEFT JOIN sum_orders_value USING(user_id)
       LEFT JOIN avg_orders_value USING(user_id)
       LEFT JOIN min_orders_value USING(user_id)
       LEFT JOIN max_orders_value USING(user_id)
ORDER BY user_id 
LIMIT    1000

**Вариант 2**
```sql

SELECT user_id,
       COUNT(order_price)         AS orders_count,
       ROUND(avg(order_size), 2)  AS avg_order_size,
       SUM(order_price)           AS sum_order_value,
       ROUND(avg(order_price), 2) AS avg_order_value,
       MIN(order_price)           AS min_order_value,
       MAX(order_price)           AS max_order_value
  FROM (SELECT user_id,
               order_id,
               array_length(product_ids, 1) AS order_size
        FROM   (SELECT user_id,
                       order_id
                  FROM user_actions
                 WHERE order_id NOT IN (SELECT order_id
                                          FROM user_actions
                                         WHERE action = 'cancel_order')
                ) t1
            LEFT JOIN orders using(order_id)
       ) t2
  LEFT JOIN (SELECT order_id,
                      SUM(price) AS order_price
                 FROM   (SELECT order_id,
                                product_ids,
                                unnest(product_ids) AS product_id
                           FROM orders
                          WHERE order_id NOT IN (SELECT order_id
                                                   FROM user_actions
                                                  WHERE action = 'cancel_order')
                       ) t3
                 LEFT JOIN products USING(product_id)
                GROUP BY   order_id
             ) t4 USING (order_id)
 GROUP BY user_id
 ORDER BY user_id 
 LIMIT    1000

**Задание:**

По данным таблиц orders, products и user_actions посчитайте ежедневную выручку сервиса. Под выручкой будем понимать стоимость всех реализованных товаров, содержащихся в заказах.

Колонку с датой назовите date, а колонку со значением выручки — revenue.

В расчётах учитывайте только неотменённые заказы.

Результат отсортируйте по возрастанию даты.

**Вариант 1**
```SQL
WITH
uncancel_orders AS ( -- неотменённые заказы
                    SELECT order_id
                      FROM user_actions
                     WHERE
                          order_id NOT IN (SELECT order_id
                                             FROM user_actions
                                            WHERE action = 'cancel_order'
                                          )
                    ), 
id_products AS ( -- id продуктов из неотменённых заказов для дальнейшей работы  
                SELECT 
                       order_id,
                       UNNEST(product_ids) AS product_id
                  FROM orders
                 WHERE order_id IN (SELECT*FROM uncancel_orders)
                )
SELECT 
        date,
        SUM(price)::DECIMAL AS revenue
  FROM
         (SELECT
               time::DATE AS date, 
               product_id,
               price
          FROM id_products
               LEFT JOIN user_actions USING(order_id)
               LEFT JOIN products USING(product_id)
         ) AS subquery1
 GROUP BY
        date
 ORDER BY 
        date
```
**Вариант 2**
```SQL
SELECT 
       DATE(creation_time) AS date,
       SUM(price)          AS revenue
FROM   (SELECT order_id,
               creation_time,
               product_ids,
               unnest(product_ids) AS product_id
        FROM   orders
        WHERE  order_id NOT IN (SELECT order_id
                                FROM   user_actions
                                WHERE  action = 'cancel_order')) AS query1
    LEFT JOIN products using(product_id)
GROUP BY date

**Задание:**

По таблицам courier_actions , orders и products определите 10 самых популярных товаров, доставленных в сентябре 2022 года.

Самыми популярными товарами будем считать те, которые встречались в заказах чаще всего. Если товар встречается в одном заказе несколько раз (было куплено несколько единиц товара), то при подсчёте учитываем только одну единицу товара.

Выведите наименования товаров и сколько раз они встречались в заказах. Новую колонку с количеством покупок товара назовите times_purchased. 

**Вариант 1**
```SQL
WITH
top10_products AS (
                    SELECT 
                            product_id , COUNT(product_id) AS times_purchased
                      FROM       
                            (SELECT
                                   order_id, UNNEST(product_ids) AS product_id
                              FROM courier_actions
                              LEFT JOIN orders USING(order_id)
                              WHERE     action = 'deliver_order'
                                    AND DATE_PART('month', time) = 9
                                    AND DATE_PART('year', time)  = 2022
                               GROUP BY
                                     order_id,UNNEST(product_ids)        
                            ) AS  products_id_in_09_2022
                      LEFT JOIN products USING(product_id)
                     GROUP BY
                           product_id
                     ORDER BY 
                           COUNT(product_id) DESC
                     LIMIT 10
                  ) 
SELECT
      name, times_purchased
  FROM top10_products
  LEFT JOIN products USING(product_id) 
 ORDER BY times_purchased DESC
 ```
**Вариант 2**
```SQL
SELECT name,
       count(product_id) as times_purchased
FROM   (SELECT order_id,
               product_id,
               name
        FROM   (SELECT DISTINCT order_id,
                                unnest(product_ids) as product_id
                FROM   orders
                    LEFT JOIN courier_actions using (order_id)
                WHERE  action = 'deliver_order'
                   and date_part('month', time) = 9
                   and date_part('year', time) = 2022) t1
            LEFT JOIN products using (product_id)) t2
GROUP BY name
ORDER BY times_purchased desc limit 10

**Задание:**

По таблицам orders и courier_actions определите id десяти заказов, которые доставляли дольше всего.

**Вариант 1**
```SQL
WITH
uncancel_orders AS (SELECT order_id
                    FROM user_actions
                    WHERE order_id NOT IN (SELECT order_id
                                           FROM user_actions
                                           WHERE action = 'cancel_order'
                                          )
                   ),    
done_times      AS (SELECT
                          order_id,
                          time AS done_time
                     FROM courier_actions
                    WHERE order_id IN (SELECT*FROM uncancel_orders)
                          AND action = 'deliver_order'
                   ),
accept_times    AS (SELECT
                          order_id,
                          time AS accept_time
                     FROM courier_actions
                    WHERE order_id IN (SELECT*FROM uncancel_orders)
                          AND action = 'accept_order'
                   )  
SELECT
    order_id
FROM accept_times
LEFT JOIN done_times using(order_id)
ORDER BY AGE(done_time, accept_time) DESC
limit 10
```
**Вариант 2**
```SQL
SELECT order_id
FROM   (SELECT order_id,
               time as delivery_time
        FROM   courier_actions
        WHERE  action = 'deliver_order') as t
    LEFT JOIN orders using (order_id)
ORDER BY delivery_time - creation_time desc limit 10

**Задача:**

Произведите замену списков с id товаров из таблицы orders на списки с наименованиями товаров. Наименования возьмите из таблицы products. Колонку с новыми списками наименований назовите product_names. 

Добавьте в запрос оператор LIMIT и выведите только первые 1000 строк результирующей таблицы.

```SQL
SELECT 
      order_id, array_agg(name) AS product_names
  FROM
      (SELECT 
           order_id, 
           UNNEST(product_ids) AS product_id
       FROM orders
      ) AS  order_per_products_id
  LEFT JOIN products USING(product_id)
 GROUP BY
       order_id
 LIMIT 1000  

**Задание:**

Выясните, кто заказывал и доставлял самые большие заказы. Самыми большими считайте заказы с наибольшим числом товаров.

Выведите id заказа, id пользователя и id курьера. Также в отдельных колонках укажите возраст пользователя и возраст курьера. Возраст измерьте числом полных лет, как мы делали в прошлых уроках. Считайте его относительно последней даты в таблице user_actions — как для пользователей, так и для курьеров. Колонки с возрастом назовите user_age и courier_age. Результат отсортируйте по возрастанию id заказа.

**Вариант 1**
```SQL
WITH
uncancel_orders AS (SELECT --- неотмененные заказы
                           order_id   
                      FROM user_actions
                      WHERE order_id NOT IN (SELECT order_id
                                               FROM user_actions
                                              WHERE action = 'cancel_order'
                                            )
                   ),
last_date_in_user_actions AS (SELECT --- последняя дата в таблице user_actions
                                    MAX(time)
                              FROM user_actions
                              )
SELECT 
      order_id,
      user_id,
      user_age,
      courier_id,
      courier_age
FROM
(SELECT
      DISTINCT order_id,
      order_size,
      user_id,
      DATE_PART('YEAR', AGE( (SELECT*FROM last_date_in_user_actions), subquery1.birth_date))::varchar AS user_age,
      courier_id,
      DATE_PART('YEAR', AGE( (SELECT*FROM last_date_in_user_actions), couriers.birth_date))::varchar AS courier_age
FROM     
    (SELECT  
           order_id, order_size,
           user_id,
           birth_date
    FROM 
        (SELECT --- список заказов начиная от самых больших
               order_id, array_length(product_ids,1) AS order_size
        FROM   orders
        WHERE  order_id IN (SELECT*FROM uncancel_orders)
        ORDER BY order_size DESC
        ) AS big_size_orders
    LEFT JOIN user_actions USING(order_id)
    LEFT JOIN users USING(user_id)
    ) AS subquery1 --- список юзеров и их самых больших заказов
LEFT JOIN courier_actions USING(order_id)
LEFT JOIN couriers USING(courier_id)
 ORDER BY 
      order_size DESC
) AS query
 LIMIT 5  
```
**Вариант 2**
```SQL
with order_id_large_size as (SELECT order_id
                             FROM   orders
                             WHERE  array_length(product_ids, 1) = (SELECT max(array_length(product_ids, 1))
                                                                    FROM   orders))
SELECT DISTINCT order_id,
                user_id,
                date_part('year', age((SELECT max(time)
                       FROM   user_actions), users.birth_date))::integer as user_age, courier_id, date_part('year', age((SELECT max(time)
                                                                                                  FROM   user_actions), couriers.birth_date))::integer as courier_age
FROM   (SELECT order_id,
               user_id
        FROM   user_actions
        WHERE  order_id in (SELECT *
                            FROM   order_id_large_size)) t1
    LEFT JOIN (SELECT order_id,
                      courier_id
               FROM   courier_actions
               WHERE  order_id in (SELECT *
                                   FROM   order_id_large_size)) t2 using(order_id)
    LEFT JOIN users using(user_id)
    LEFT JOIN couriers using(courier_id)
ORDER BY order_id

**SELF JOIN — не что иное, как объединение таблицы с самой собой. Да, такая операция тоже возможна и, более того, часто бывает полезна.**

Присоединить таблицу к самой себе можно с помощью любого рассмотренного ранее типа джойна. Чтобы запрос отработал корректно, таблице нужно присвоить два разных алиаса:
```sql
SELECT ...
FROM table_name t1 JOIN table_name t2
     ON [condition]


SELECT ...
FROM table_name t1 LEFT JOIN table_name t2
     ON [condition]


SELECT ...
FROM table_name t1 FULL JOIN table_name t2
     ON [condition]


SELECT ...
FROM table_name t1 CROSS JOIN table_name t2

**Задание:**

Возьмите запрос, составленный на одном из прошлых уроков, и подтяните в него из таблицы users данные о поле пользователей таким образом, чтобы все пользователи из таблицы user_actions остались в результате. Затем посчитайте среднее значение cancel_rate для каждого пола, округлив его до трёх знаков после запятой. Колонку с посчитанным средним значением назовите avg_cancel_rate.

Помните про отсутствие информации о поле некоторых пользователей после join, так как не все пользователи из таблицы user_action есть в таблице users. Для этой группы тоже посчитайте cancel_rate и в результирующей таблице для пустого значения в колонке с полом укажите ‘unknown’ (без кавычек). Возможно, для этого придётся вспомнить, как работает COALESCE.

Результат отсортируйте по колонке с полом пользователя по возрастанию.

Поля в результирующей таблице: sex, avg_cancel_rate

**Пояснение:**

Метрику cancel_rate в разрезе пола можно посчитать разными способами, в этой задаче предлагаем следующий алгоритм:

1. Сначала посчитайте cancel_rate для каждого пользователя.

2. Затем приджойните к результату информацию о поле пользователей.

3. Потом рассчитайте avg_cancel_rate для каждого пола и округлите значения до трёх знаков после запятой.

**Вариант 1**
```sql
WITH 
user_cancel_rates AS (
                        SELECT 
                            user_id,
                            ROUND(COUNT(DISTINCT order_id) 
                                   FILTER (WHERE action = 'cancel_order')::decimal 
                                  / COUNT(DISTINCT order_id), 3) AS cancel_rate
                        FROM 
                            user_actions
                        GROUP BY 
                            user_id
                    )
SELECT 
    COALESCE(u.sex, 'unknown') AS sex,
    ROUND(AVG(ucr.cancel_rate), 3) AS avg_cancel_rate
FROM 
    user_cancel_rates ucr
LEFT JOIN 
    users u ON ucr.user_id = u.user_id
GROUP BY 
    COALESCE(u.sex, 'unknown')
ORDER BY 
    sex
```
**Вариант 2**
```sql
SELECT coalesce(sex, 'unknown') as sex,
       round(avg(cancel_rate), 3) as avg_cancel_rate
FROM   (SELECT user_id,
               sex,
               count(distinct order_id) filter (WHERE action = 'cancel_order')::decimal / count(distinct order_id) as cancel_rate
        FROM   user_actions
            LEFT JOIN users using(user_id)
        GROUP BY user_id, sex
        ORDER BY cancel_rate desc) t
GROUP BY sex
ORDER BY sex
```

**Задание:**

Выясните, какие пары товаров покупают вместе чаще всего.

Пары товаров сформируйте на основе таблицы с заказами. Отменённые заказы не учитывайте. В качестве результата выведите две колонки — колонку с парами наименований товаров и колонку со значениями, показывающими, сколько раз конкретная пара встретилась в заказах пользователей. Колонки назовите соответственно pair и count_pair.

Пары товаров должны быть представлены в виде списков из двух наименований. Пары товаров внутри списков должны быть отсортированы в порядке возрастания наименования. Результат отсортируйте сначала по убыванию частоты встречаемости пары товаров в заказах, затем по колонке pair — по возрастанию.

**Вариант 1**
```sql
WITH 
uncancel_orders AS (
                    SELECT order_id
                    FROM user_actions
                    WHERE order_id NOT IN (
                                            SELECT order_id
                                            FROM user_actions
                                            WHERE action = 'cancel_order'
                                          )
),
list_order AS (
                SELECT order_id, 
                       UNNEST(product_ids) AS product_id
                FROM orders
                WHERE 
                    ARRAY_LENGTH(product_ids, 1) >= 2
                    AND order_id IN (SELECT order_id FROM uncancel_orders)
),
order_by_product AS (
                        SELECT DISTINCT order_id, 
                               name AS product_name
                        FROM list_order
                        LEFT JOIN products USING(product_id)
),
product_pairs AS (
                    SELECT 
                        LEAST(o1.product_name, o2.product_name) AS product1,
                        GREATEST(o1.product_name, o2.product_name) AS product2
                    FROM order_by_product o1
                    JOIN order_by_product o2 ON o1.order_id = o2.order_id
                    WHERE o1.product_name < o2.product_name  -- Убедитесь, что мы берем только уникальные пары
)

SELECT 
    ARRAY[product1, product2] AS pair,
    COUNT(*) AS count_pair
FROM 
    product_pairs
GROUP BY 
    product1, product2
ORDER BY 
    count_pair DESC, 
    pair
```
**Вариант 2**
```sql
with main_table as (SELECT DISTINCT order_id,
                                    product_id,
                                    name
                    FROM   (SELECT order_id,
                                   unnest(product_ids) as product_id
                            FROM   orders
                            WHERE  order_id not in (SELECT order_id
                                                    FROM   user_actions
                                                    WHERE  action = 'cancel_order')) t
                        LEFT JOIN products using(product_id)
                    ORDER BY order_id, name)
SELECT pair,
       count(order_id) as count_pair
FROM   (SELECT DISTINCT a.order_id,
                        case when a.name > b.name then string_to_array(concat(b.name, '+', a.name), '+')
                             else string_to_array(concat(a.name, '+', b.name), '+') end as pair
        FROM   main_table a join main_table b
                ON a.order_id = b.order_id and
                   a.name != b.name) t
GROUP BY pair
ORDER BY count_pair desc, pair
```