# Импорты и подключение к базе данных

In [1]:
%pip install psycopg psycopg-binary sqlalchemy dotenv pandas

Note: you may need to restart the kernel to use updated packages.


In [2]:
from sqlalchemy import create_engine
from dotenv import load_dotenv
import pandas as pd
import os

In [3]:
# Укажите путь к вашему .env файлу (по умолчанию он ищется в текущей директории)
env_path = os.path.join("..", ".env")
load_dotenv(dotenv_path=env_path)

DSN = f"postgresql+psycopg://{os.getenv("POSTGRES_USER")}:{os.getenv("POSTGRES_PASSWORD")}@localhost:5432/{os.getenv("POSTGRES_DB")}"

engine = create_engine(url=DSN)

In [4]:
query = "SELECT VERSION();"

data = pd.read_sql_query(query, engine)
data.head()

Unnamed: 0,version
0,PostgreSQL 17.4 (Debian 17.4-1.pgdg120+2) on a...


# Запросы

## Простые

### 1. Найти выручку сервиса за последний месяц.

In [5]:
with open("1.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,Выручка
0,13073300.0


### 2. Какая доля (в `%`) общей выручки приходится на меню с названием «Похудение»? Проценты округлить до двух знаков после запятой.

In [6]:
with open("2.sql", "r") as file:
    query = file.read()

# Выполнить запрос
df = pd.read_sql(query, engine)
df

Unnamed: 0,losing_weight_revenue_ratio
0,27.01


### 3. Вычислить НДС каждого меню и рассчитать цену каждого меню не включая НДС. Вывести название меню, его текущую цену, НДС и цену без НДС. Значения округлить до двух знаков после запятой.

In [8]:
with open("3.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,title,cost,tax,cost_before_tax
0,Похудение,700.0,116.67,583.33
1,Баланс,850.0,141.67,708.33
2,Набор,1000.0,166.67,833.33


### 4. Найти заказы, которые оказались возвращены и были оплачены с помощью «Яндекс.Сплит». Вывести `id` заказа, дату заказа и реквизиты платежа.

In [9]:
with open("4.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,order_id,order_created_at,requisites
0,127,2025-04-01,8181979749623921
1,308,2025-02-25,2368386054863829
2,365,2025-02-01,6275851895406800
3,458,2025-03-14,6301788255282215
4,468,2025-03-18,2204140066478425
...,...,...,...
583,49505,2025-03-14,6288604520952291
584,49506,2025-02-07,2203724676744051
585,49550,2025-03-16,6905162011622280
586,49645,2025-04-21,6265273732652649


## Средние

### 1. Найти топ-5 пользователей по количеству бонусов, которые большинство своих заказов оплатили наличными курьеру. Вывести `id` пользователя, его имя и количество бонусов.

Начнём с простого: выведем payment_info_id и название способа оплаты

In [10]:
query = """
SELECT
    i.id AS payment_info_id,
    m.title AS payment_method
FROM
    payment_infos i
    JOIN payment_methods m ON i.payment_method_id = m.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,payment_info_id,payment_method
0,1,Карта курьеру
1,2,Яндекс.Сплит
2,3,Карта курьеру
3,4,Яндекс.Сплит
4,5,Наличные курьеру
...,...,...
19931,19932,Наличные курьеру
19932,19933,Карта курьеру
19933,19934,Наличные курьеру
19934,19935,Карта курьеру


Далее присоединяем эту таблицу к таблице заказов

In [11]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    orders_payment_method AS (
        SELECT
            o.id AS order_id,
            o.user_id,
            p.payment_method
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
    )
SELECT
    *
FROM
    orders_payment_method
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,order_id,user_id,payment_method
0,1,543,Карта курьеру
1,2,9100,Карта курьеру
2,3,2193,Наличные курьеру
3,4,8951,Карта
4,5,3640,Карта
...,...,...,...
49995,49996,6351,Карта курьеру
49996,49997,6697,Яндекс.Сплит
49997,49998,3732,Яндекс.Сплит
49998,49999,4108,Яндекс.Сплит


Дальше группируем сначала по пользователю, потом по способу оплаты.

In [12]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    )
SELECT
    *
FROM
    user_method_counts
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,user_id,payment_method,orders_count
0,1,Карта,2
1,1,Яндекс.Сплит,2
2,2,Карта,2
3,2,Карта курьеру,1
4,3,Карта,3
...,...,...,...
28517,9999,Наличные курьеру,3
28518,9999,Яндекс.Сплит,1
28519,10000,Карта,1
28520,10000,Карта курьеру,1


Добавляем колонку с суммарным количеством заказов для каждого пользователя.

In [13]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    ),
    user_method_counts_with_total AS (
        SELECT
            *,
            SUM(orders_count) OVER (
                PARTITION BY
                    user_id
            ) AS total_orders_count
        FROM
            user_method_counts
    )
SELECT
    *
FROM
    user_method_counts_with_total
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,user_id,payment_method,orders_count,total_orders_count
0,1,Карта,2,4.0
1,1,Яндекс.Сплит,2,4.0
2,2,Карта,2,3.0
3,2,Карта курьеру,1,3.0
4,3,Карта,3,6.0
...,...,...,...,...
28517,9999,Наличные курьеру,3,6.0
28518,9999,Яндекс.Сплит,1,6.0
28519,10000,Карта,1,3.0
28520,10000,Карта курьеру,1,3.0


И оставляем только тех пользователей, у которых большинство заказов оплачено наличными курьеру. Большинство - это больше половины от всех заказов.

In [14]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    ),
    user_method_counts_with_total AS (
        SELECT
            *,
            SUM(orders_count) OVER (
                PARTITION BY
                    user_id
            ) AS total_orders_count
        FROM
            user_method_counts
    ),
    users_with_almost_cash_orders AS (
        SELECT
            user_id AS id
        FROM
            user_method_counts_with_total
        WHERE
            payment_method = 'Наличные курьеру'
            AND orders_count > total_orders_count / 2
    )

SELECT
    *
FROM
    users_with_almost_cash_orders
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id
0,19
1,29
2,33
3,34
4,44
...,...
807,9926
808,9937
809,9976
810,9977


А дальше сортируем по количеству бонусов и выводим топ-5.

In [15]:
with open("5.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,name,bonuses
0,7494,Натан Фролович Фомин,510
1,5045,Регина Дмитриевна Бирюкова,456
2,9688,Татьяна Тимофеевна Лобанова,453
3,4298,Евдоким Георгиевич Титов,424
4,6482,Алексей Алексеевич Кондратьев,412


### 2. Найти блюда, содержащие хотя бы один ингредиент, который относится к самой популярной категории предпочтений. Вывести только названия блюд, отсортированные в алфавитном порядке.

Первым шагом соединим таблицы выбранных предпочтений пользователями и информации об этих предпочтениях.

In [16]:
query = """
SELECT
    pu.id,
    preference_id,
    p.title AS preference_title,
    p.preference_category_id AS category_id
FROM
    preferences_users pu
    JOIN preferences p ON pu.preference_id = p.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,preference_id,preference_title,category_id
0,1,11,Без свинины и ветчины,3
1,2,20,Без лука,4
2,3,2,Без орехов,1
3,4,7,Без десертов,2
4,5,5,Без горчицы,1
...,...,...,...,...
9046,9047,24,Без кускуса,5
9047,9048,5,Без горчицы,1
9048,9049,18,Без брокколи,4
9049,9050,10,Без белого сахара,2


Дальше группируем по категории предпочтений и считаем количество пользователей, выбравших каждую категорию.

In [17]:
query = """
SELECT
    preference_category_id,
    COUNT(pu.id) AS count
FROM
    preferences_users pu
    JOIN preferences p ON pu.preference_id = p.id
GROUP BY
    preference_category_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,preference_category_id,count
0,3,1363
1,5,1743
2,4,2435
3,2,1362
4,1,2148


Сортируем по `count` и берём топ-1. Убираем в подзапрос.

Следующим шагом выведем список предпочтений, относящихся к самой популярной категории предпочтений.

In [18]:
query = """
WITH most_popular_category AS (
    SELECT
        preference_category_id,
        COUNT(pu.id) AS count
    FROM
        preferences_users pu
        JOIN preferences p ON pu.preference_id = p.id
    GROUP BY
        preference_category_id
    ORDER BY
        count DESC
    LIMIT 1
)

SELECT
    id,
    title
FROM
    preferences
WHERE
    preference_category_id = (SELECT preference_category_id FROM most_popular_category)
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,title
0,15,Без сельдерея
1,16,Без грибов
2,17,Без стручковой фасоли
3,18,Без брокколи
4,19,Без кабачков
5,20,Без лука
6,21,Без чеснока


Далее нам нужен список ингредиентов, относящихся к этим предпочтениям.

In [19]:
query = """
WITH
    most_popular_category AS (
        SELECT
            preference_category_id,
            COUNT(pu.id) AS count
        FROM
            preferences_users pu
            JOIN preferences p ON pu.preference_id = p.id
        GROUP BY
            preference_category_id
        ORDER BY
            count DESC
        LIMIT
            1
    ),
    preferences_from_most_popular_category AS (
        SELECT
            id,
            title
        FROM
            preferences
        WHERE
            preference_category_id = (
                SELECT
                    preference_category_id
                FROM
                    most_popular_category
            )
    )

SELECT
    ip.ingredient_id,
    ip.preference_id
FROM
    ingredients_preferences ip
    JOIN preferences_from_most_popular_category p ON ip.preference_id = p.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,preference_id
0,101,16
1,102,16
2,103,16
3,104,16
4,105,16
5,99,17
6,51,18
7,54,19
8,34,20
9,35,20


Далее осталось найти блюда, содержащие хотя бы один из этих ингредиентов.

In [20]:
with open("6.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,title
0,Борщ
1,Борщ с капустой
2,Вареники с картошкой
3,Винегрет
4,Гречка с грибами
5,Гречка с овощами
6,Гречневая каша
7,Жаркое
8,Запеканка с творогом
9,Каша овсяная


### 3. Вывести 2 строки с названием меню, массивом входящих в него блюд и даты, которые принесут больше всего прибыли (численно и в % относительно себестоимости).

Пусть блюдо состоит из ингридиентов $x_1, x_2, \ldots, x_n$. Закупочная стоимость каждого ингридиента равна $c_1, c_2, \ldots, c_n$ соответственно. Тогда я предполагаю, что себестоимость блюда равна $p = \sum_{i=1}^n c_i$ (я не учитываю, что блюдо содержит $a$ грамм данного ингридиента).

Пусть меню на конкретный день состоит из блюд $y_1, y_2, \ldots, y_m$. Тогда себестоимость меню будет равна $P = \sum_{j=1}^m p_j$.

Розничная цена на данное меню равна $S$. Тогда прибыль от данного меню равна $S - P$. Будем находить 2 меню: с наибольшим значением $S - P$ и с наибольшим значением $\frac{S - P}{P}$.

Заметим, что цена ингредиента указана в долларах, а цена меню в рублях. Поэтому для вычисления прибыли нужно умножить цену ингредиента на курс доллара. Курс доллара принять равным 1 доллар = 7.55 рублей (поправка на нереалистичную заполненность базы данных и предположение о составе блюда).

Сначала переводим цены ингредиентов в рубли.

In [21]:
query = """
SELECT
    id,
    cost * 7.55 AS cost_rubles
FROM
    ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,cost_rubles
0,1,37.6745
1,2,48.9995
2,3,45.2245
3,4,60.3245
4,5,67.8745
...,...,...
144,145,33.8995
145,146,45.2245
146,147,22.5745
147,148,15.0245


Далее считаем себестоимость каждого блюда.

In [22]:
query = """
WITH
    ingredients_costs_in_rubles AS (
        SELECT
            id,
            cost * 15.06 AS cost_rubles
        FROM
            ingredients
    )

SELECT
    d.dish_id AS id,
    SUM(i.cost_rubles) AS cost
FROM
    dishes_ingredients d
    JOIN ingredients_costs_in_rubles i ON d.ingredient_id = i.id
GROUP BY
    d.dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,cost
0,33,375.4458
1,1,396.5298
2,76,142.6182
3,106,14.9094
4,104,59.7882
...,...,...
101,3,351.5004
102,17,395.1744
103,37,187.7982
104,28,417.7644


Аналогичную процедуру делаем с каждым меню.

In [23]:
query = """
    WITH
    ingredients_costs_in_rubles AS (
        SELECT
            id,
            cost * 15.06 AS cost_rubles
        FROM
            ingredients
    ),
    dishes_costs AS (
        SELECT
            d.dish_id AS id,
            SUM(i.cost_rubles) AS cost
        FROM
            dishes_ingredients d
            JOIN ingredients_costs_in_rubles i ON d.ingredient_id = i.id
        GROUP BY
            d.dish_id
    )

SELECT
    menu_id,
    m.date,
    SUM(cost)
FROM
    dishes_menus m
    JOIN dishes_costs c ON m.dish_id = c.id
GROUP BY
    menu_id,
    m.date
ORDER BY
    m.date,
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,sum
0,1,2025-05-07,899.3832
1,2,2025-05-07,1031.4594
2,3,2025-05-07,2088.9726
3,1,2025-05-08,975.8880
4,2,2025-05-08,1088.3862
...,...,...,...
85,2,2025-06-04,1126.6386
86,3,2025-06-04,1220.4624
87,1,2025-06-05,720.9222
88,2,2025-06-05,1479.6450


In [24]:
with open("7.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dishes,profit,profit_percent
0,1,2025-05-29,"[100, 65, 26]",447.3,177.01
1,2,2025-05-27,"[76, 78, 65, 84]",475.22,126.8


### 4. Какие пары блюд находятся вместе в меню чаще всего? Вывести их названия и количество нахождений вместе.

Посмотрим на структуру таблицы `menus_dishes`:

In [25]:
query = """
SELECT
    menu_id,
    date,
    dish_id
FROM
    dishes_menus
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id
0,1,2025-05-07,48
1,1,2025-05-07,38
2,1,2025-05-07,26
3,2,2025-05-07,90
4,2,2025-05-07,24
...,...,...,...
355,3,2025-06-05,79
356,3,2025-06-05,26
357,3,2025-06-05,15
358,3,2025-06-05,10


Сначала соединяем таблицу саму с собой, чтобы получить все возможные пары блюд. При этом учтём, что в паре не может быть блюдо само с собой.

In [26]:
query = """
SELECT
    menu_id,
    date,
    dm1.dish_id AS dish_id_1,
    dm2.dish_id AS dish_id_2
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id_1,dish_id_2
0,1,2025-05-07,38,48
1,1,2025-05-07,26,38
2,1,2025-05-07,26,48
3,2,2025-05-07,24,90
4,2,2025-05-07,16,24
...,...,...,...,...
563,3,2025-06-05,10,15
564,3,2025-06-05,10,26
565,3,2025-06-05,10,79
566,3,2025-06-05,24,26


Видно, что в таблице оказались дубликаты. Это происходит потому, что в одно меню могла войти "двойная порция" блюда. Поэтому уберём дубликаты.

In [27]:
query = """
SELECT DISTINCT
    menu_id,
    date,
    dm1.dish_id AS dish_id_1,
    dm2.dish_id AS dish_id_2
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
ORDER BY
    date,
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id_1,dish_id_2
0,1,2025-05-07,26,38
1,1,2025-05-07,26,48
2,1,2025-05-07,38,48
3,2,2025-05-07,3,16
4,2,2025-05-07,3,24
...,...,...,...,...
558,3,2025-06-05,15,26
559,3,2025-06-05,15,79
560,3,2025-06-05,24,26
561,3,2025-06-05,24,79


Засовываем пару блюд в один столбец(например, в массив) и группируем по нему.

In [28]:
query = """
SELECT DISTINCT
    ARRAY[dm1.dish_id, dm2.dish_id] AS pair,
    COUNT(*) AS count
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
GROUP BY
    pair
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,pair,count
0,"[40, 53]",1
1,"[60, 83]",1
2,"[42, 77]",1
3,"[85, 94]",1
4,"[61, 84]",1
...,...,...
526,"[65, 76]",1
527,"[65, 78]",1
528,"[25, 42]",1
529,"[10, 71]",1


Сортируем по количеству встречаемости и выводим топ-1. Выводим названия блюд и количество встречаемости.

In [29]:
with open("8.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish1,dish2,count
0,"Печенье ""Маковое""",Солянка с мясом,3


## Сложные

### 1. Найти медианное количество заказов у пользователей.

Для начала найдём количество заказов у каждого пользователя.

In [30]:
query = """
SELECT
    u.id,
    COUNT(o.id) AS orders_count
FROM
    users u
    JOIN orders o ON u.id = o.user_id
GROUP BY
    u.id
ORDER BY
    orders_count ASC
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,orders_count
0,9163,1
1,6724,1
2,1444,1
3,4564,1
4,6449,1
...,...,...
9913,969,14
9914,4272,14
9915,6945,15
9916,1950,15


Потом отсортируем по возрастанию количества заказов, пронумеруем строки и припишем общее количество строк.

In [31]:
query = """
WITH
    main_table AS (
        SELECT
            u.id,
            COUNT(o.id) AS orders_count
        FROM
            users u
            JOIN orders o ON u.id = o.user_id
        GROUP BY
            u.id
        ORDER BY
            orders_count ASC
    )

SELECT
    orders_count,
    ROW_NUMBER() OVER (
        ORDER BY
            orders_count
    ) AS row_number,
    COUNT(*) OVER () AS total_rows
FROM
    main_table
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,orders_count,row_number,total_rows
0,1,1,9918
1,1,2,9918
2,1,3,9918
3,1,4,9918
4,1,5,9918
...,...,...,...
9913,14,9914,9918
9914,14,9915,9918
9915,15,9916,9918
9916,15,9917,9918


Далее есть два варианта: если количество строк чётное, то медиана - это среднее двух средних значений. Если количество строк нечётное, то медиана - это значение в середине.

Если всего строк чётное количество, то `total_rows / 2` и `total_rows / 2 + 1` - целые числа, на выходе будет две строки и среднее арифметическое возьмётся от двух значений.

Если всего строк нечётное количество, то `total_rows / 2` и `total_rows / 2 + 1` - нецелые числа, на выходе будет одна строка и это и будет медиана.

In [32]:
with open("9.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,median_count
0,5.0


### 2.  Рассчитать ежедневную выручку сервиса, рассчитать ежедневный прирост выручки (численно и в %) относительно предыдущего дня.

Рассчитаем ежедневную выручку.

In [33]:
query = """
SELECT
    DATE (o.created_at) AS date,
    SUM(m.cost) AS revenue
FROM
    orders o
    JOIN menus m ON o.menu_id = m.id
GROUP BY
    DATE (o.created_at)
ORDER BY
    date
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue
0,2025-01-27,177050.0
1,2025-01-28,417000.0
2,2025-01-29,441500.0
3,2025-01-30,434100.0
4,2025-01-31,432600.0
...,...,...
96,2025-05-03,423450.0
97,2025-05-04,405100.0
98,2025-05-05,441550.0
99,2025-05-06,436850.0


Далее сделаем оконную функцию, чтобы посчитать разницу между текущим и предыдущим днём.

In [34]:
query = """
WITH
    main_table AS (
        SELECT
            DATE (o.created_at) AS date,
            SUM(m.cost) AS revenue
        FROM
            orders o
            JOIN menus m ON o.menu_id = m.id
        GROUP BY
            DATE (o.created_at)
        ORDER BY
            date
    )

SELECT
    date,
    revenue,
    (revenue - LAG (revenue, 1) OVER ()) AS revenue_growth_abs
FROM
    main_table
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue,revenue_growth_abs
0,2025-01-27,177050.0,
1,2025-01-28,417000.0,239950.0
2,2025-01-29,441500.0,24500.0
3,2025-01-30,434100.0,-7400.0
4,2025-01-31,432600.0,-1500.0
...,...,...,...
96,2025-05-03,423450.0,-5100.0
97,2025-05-04,405100.0,-18350.0
98,2025-05-05,441550.0,36450.0
99,2025-05-06,436850.0,-4700.0


И добавим колонку с процентным приростом.

In [35]:
with open("10.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue,revenue_growth_abs,revenue_growth_rate
0,2025-01-27,177050.0,,
1,2025-01-28,417000.0,239950.0,135.53
2,2025-01-29,441500.0,24500.0,5.88
3,2025-01-30,434100.0,-7400.0,-1.68
4,2025-01-31,432600.0,-1500.0,-0.35
...,...,...,...,...
96,2025-05-03,423450.0,-5100.0,-1.19
97,2025-05-04,405100.0,-18350.0,-4.33
98,2025-05-05,441550.0,36450.0,9.00
99,2025-05-06,436850.0,-4700.0,-1.06


### 3.  Задание на рекурсивочку: построить иерархию приглашенных и пригласивших пользователей.

Сначала найдём всех пользователей, которых никто не пригласил и присвоим им первый уровень.

In [36]:
query = """
SELECT
    id,
    CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
    invited_by_id AS parent_id,
    1 AS level
FROM
    users
WHERE
    invited_by_id IS NULL
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,51,Наина Григорьевна Белоусова,,1
1,26,Ростислав Юлианович Новиков,,1
2,4,Валерий Терентьевич Русаков,,1
3,8,Лаврентий Чеславович Копылов,,1
4,36,Ангелина Геннадиевна Казакова,,1
...,...,...,...,...
7032,1030,Богдан Дмитриевич Селезнев,,1
7033,2476,Агафья Яковлевна Абрамова,,1
7034,8733,Елена Павловна Колесникова,,1
7035,1380,Порфирий Исидорович Дьячков,,1


Далее найдём пользователей, которых пригласил пользователь первого уровня и присвоим им второй уровень.

In [37]:
query = """
WITH
first_level AS (
    SELECT
        id,
        CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
        invited_by_id AS parent_id,
        1 AS level
    FROM
        users
    WHERE
        invited_by_id IS NULL
)

SELECT
    u.id,
    CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
    invited_by_id AS parent_id,
    2 AS level
FROM
    users u
    JOIN first_level f ON u.invited_by_id = f.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,50,Галина Леоновна Королева,3959,2
1,15,София Валентиновна Прохорова,6086,2
2,54,Наталья Михайловна Игнатова,7569,2
3,49,Прокофий Адрианович Мухин,8114,2
4,9,Ульяна Андреевна Федотова,7474,2
...,...,...,...,...
2081,7459,Феврония Степановна Михайлова,5406,2
2082,5832,Евпраксия Макаровна Муравьева,564,2
2083,7963,Владлен Ефстафьевич Мишин,3006,2
2084,4367,Сигизмунд Демьянович Голубев,4415,2


И так далее.

In [38]:
with open("11.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,51,Наина Григорьевна Белоусова,,1
1,26,Ростислав Юлианович Новиков,,1
2,4,Валерий Терентьевич Русаков,,1
3,8,Лаврентий Чеславович Копылов,,1
4,36,Ангелина Геннадиевна Казакова,,1
...,...,...,...,...
9995,70,Василиса Антоновна Петухова,2082.0,7
9996,3133,Ярослав Ильич Абрамов,6270.0,7
9997,7343,Гордей Бенедиктович Воробьев,3663.0,7
9998,4612,Лазарь Денисович Одинцов,1412.0,8


### 4.  Пусть сегодня 1 число какого-то месяца. У нас есть список заказов за предыдущий месяц. В предположении, что количество заказов на каждую позицию в меню останется таким же, вывести список ингредиентов, для которых следует нанять ещё поставщиков (которых не хватит для изготовления нужных блюд на ближайший месяц). Рассчитывать со следующим допущением: если блюдо весит $a$ грамм и для его изготовления нужно $n$ ингредиентов, то каждого ингредиента нужно в количестве $\frac{a}{n}$ грамм.

Сначала найдём количество заказов на каждую позицию в меню за предыдущий месяц.

In [39]:
query = """
SELECT
    menu_id,
    date(created_at) AS date,
    COUNT(*) AS orders_count
FROM
    orders
WHERE
    date(created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
GROUP BY
    date(created_at),
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,orders_count
0,1,2025-04-06,173
1,2,2025-04-06,170
2,3,2025-04-06,179
3,1,2025-04-07,158
4,2,2025-04-07,178
...,...,...,...
88,2,2025-05-05,191
89,3,2025-05-05,156
90,1,2025-05-06,170
91,2,2025-05-06,161


Далее найдём количество каждого блюда, которое будет заказано за ближайший месяц. У нас есть предположение, что количество заказов на каждую позицию в меню останется таким же, как в прошлом месяце. Поэтому нам нужно к таблице `dishes_menus` присоединить количество заказов этого меню в этот же день в прошлом месяце.

In [40]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    )
    
SELECT
    dm.menu_id,
    dm.date,
    dish_id,
    orders_count
FROM
    orders_last_month o
    JOIN dishes_menus dm ON o.menu_id = dm.menu_id AND o.date + INTERVAL '1 month 1 day' = dm.date
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id,orders_count
0,1,2025-05-07,48,173
1,1,2025-05-07,38,173
2,1,2025-05-07,26,173
3,2,2025-05-07,90,170
4,2,2025-05-07,24,170
...,...,...,...,...
343,3,2025-06-05,79,171
344,3,2025-06-05,26,171
345,3,2025-06-05,15,171
346,3,2025-06-05,10,171


Группируем по блюдам и необходимое количество.

In [41]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    )
    
SELECT
    dish_id,
    SUM(orders_count) AS count
FROM
    orders_last_month o
    JOIN dishes_menus dm ON o.menu_id = dm.menu_id AND o.date + INTERVAL '1 month 1 day' = dm.date
GROUP BY
    dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,count
0,1,470.0
1,2,493.0
2,3,331.0
3,4,183.0
4,5,323.0
...,...,...
97,102,472.0
98,103,780.0
99,104,156.0
100,105,328.0


Отправляем полученные данные в подзапрос.

Добавим в `dishes_ingridients` колонку `ingredients_count`, которая равна количеству ингредиентов в блюде.

In [42]:
query = """
SELECT
    dish_id,
    ingredient_id,
    COUNT(*) OVER (PARTITION BY dish_id) AS ingredients_count
FROM
    dishes_ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_count
0,1,70,7
1,1,92,7
2,1,130,7
3,1,42,7
4,1,44,7
...,...,...,...
529,104,40,3
530,105,74,3
531,105,47,3
532,105,55,3


Заджойним сюда колонки с информацией о блюдах, например о их весе.

In [43]:
query = """
SELECT
    dish_id,
    ingredient_id,
    COUNT(*) OVER (PARTITION BY dish_id) AS ingredients_count,
    weight
FROM
    dishes_ingredients AS di
    JOIN dishes AS d ON di.dish_id = d.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_count,weight
0,1,70,7,250.0
1,1,92,7,250.0
2,1,130,7,250.0
3,1,42,7,250.0
4,1,44,7,250.0
...,...,...,...,...
529,104,40,3,200.0
530,105,74,3,150.0
531,105,47,3,150.0
532,105,55,3,150.0


Далее найдём вес каждого ингредиента в каждом блюде.

In [44]:
query = """
SELECT
    dish_id,
    ingredient_id,
    weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
FROM
    dishes_ingredients AS di
    JOIN dishes AS d ON di.dish_id = d.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_weight
0,1,70,35.714286
1,1,92,35.714286
2,1,130,35.714286
3,1,42,35.714286
4,1,44,35.714286
...,...,...,...
529,104,40,66.666667
530,105,74,50.000000
531,105,47,50.000000
532,105,55,50.000000


И добавим эту таблицу в подзапросы.

Далее присоединим сюда колонку с нужным нам количеством блюд на ближайший месяц.

In [45]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    ),
    dishes_count AS (
        SELECT
            dish_id,
            SUM(orders_count) AS count
        FROM
            orders_last_month o
            JOIN dishes_menus dm ON o.menu_id = dm.menu_id
            AND o.date + INTERVAL '1 month 1 day' = dm.date
        GROUP BY
            dish_id
    ),
    dishes_ingredients_with_weights AS (
        SELECT
            dish_id,
            ingredient_id,
            weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
        FROM
            dishes_ingredients AS di
            JOIN dishes AS d ON di.dish_id = d.id
    )

SELECT
    *
FROM
    dishes_ingredients_with_weights AS weights
    JOIN dishes_count AS counts USING (dish_id)
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_weight,count
0,1,70,35.714286,470.0
1,1,92,35.714286,470.0
2,1,130,35.714286,470.0
3,1,42,35.714286,470.0
4,1,44,35.714286,470.0
...,...,...,...,...
509,104,40,66.666667,156.0
510,105,74,50.000000,328.0
511,105,47,50.000000,328.0
512,105,55,50.000000,328.0


Перемножаем последние два столбца, группируем по ингредиентам и считаем сумму веса.

In [46]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    ),
    dishes_count AS (
        SELECT
            dish_id,
            SUM(orders_count) AS count
        FROM
            orders_last_month o
            JOIN dishes_menus dm ON o.menu_id = dm.menu_id
            AND o.date + INTERVAL '1 month 1 day' = dm.date
        GROUP BY
            dish_id
    ),
    dishes_ingredients_with_weights AS (
        SELECT
            dish_id,
            ingredient_id,
            weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
        FROM
            dishes_ingredients AS di
            JOIN dishes AS d ON di.dish_id = d.id
    )

SELECT
    ingredient_id,
    SUM(ingredients_weight * count) AS total_weight
FROM
    dishes_ingredients_with_weights AS weights
    JOIN dishes_count AS counts USING (dish_id)
GROUP BY
    ingredient_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,total_weight
0,1,123331.428571
1,2,186118.571429
2,4,35416.666667
3,5,148025.000000
4,6,105432.500000
...,...,...
139,145,100550.666667
140,146,32800.000000
141,147,162182.857143
142,148,10400.000000


Теперь предположим, что в таблице `suppliers` колонка `productivity` - это количество килограммов ингридиента, которое поставщик может поставить в месяц.

In [47]:
query = """
SELECT
    ingredient_id,
    SUM(productivity) AS productivity
FROM
    ingredients_suppliers AS ins
    JOIN suppliers s ON ins.supplier_id = s.id
GROUP BY
    ingredient_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,productivity
0,116,125.0
1,87,416.0
2,71,496.0
3,68,183.0
4,51,244.0
...,...,...
144,27,161.0
145,143,98.0
146,23,395.0
147,58,693.0


Отлично, теперь соединяем последние две таблицы и фильтруем по условию, что продуктивность выше, чем необходимое количество.

In [48]:
with open("12.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id
0,1
1,4
2,5
3,6
4,8
...,...
119,144
120,145
121,146
122,147


То есть это около $\dfrac{2}{3}$ ингредиентов, вообще имеющихся в базе данных.

In [49]:
query = """
SELECT
    COUNT(*)
FROM
    ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,count
0,149
