# Импорты и подключение к базе данных

In [2]:
from sqlalchemy import create_engine
from dotenv import load_dotenv
import pandas as pd
import os

In [3]:
# Укажите путь к вашему .env файлу (по умолчанию он ищется в текущей директории)
env_path = os.path.join("..", ".env")
load_dotenv(dotenv_path=env_path)

DSN = f"postgresql+psycopg://{os.getenv("POSTGRES_USER")}:{os.getenv("POSTGRES_PASSWORD")}@localhost:5432/{os.getenv("POSTGRES_DB")}"

engine = create_engine(url=DSN)

In [4]:
query = "SELECT VERSION();"

data = pd.read_sql_query(query, engine)
data.head()

Unnamed: 0,version
0,PostgreSQL 17.0 (Debian 17.0-1.pgdg120+1) on a...


# Запросы

## Простые

### 1. Найти выручку сервиса за последний месяц.

In [None]:
with open("1.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,Выручка
0,13422150.0


### 2. Какая доля (в `%`) общей выручки приходится на меню с названием «Похудение»? Проценты округлить до двух знаков после запятой.

In [6]:
with open("2.sql", "r") as file:
    query = file.read()

# Выполнить запрос
df = pd.read_sql(query, engine)
df

Unnamed: 0,losing_weight_revenue_ratio
0,27.56


### 3. Вычислить НДС каждого меню и рассчитать цену каждого меню не включая НДС. Вывести название меню, его текущую цену, НДС и цену без НДС. Значения округлить до двух знаков после запятой.

In [7]:
with open("3.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,title,cost,tax,cost_before_tax
0,Похудение,700.0,116.67,583.33
1,Баланс,850.0,141.67,708.33
2,Набор,1000.0,166.67,833.33


### 4. Найти заказы, которые оказались возвращены и были оплачены с помощью «Яндекс.Сплит». Вывести `id` заказа, дату заказа и реквизиты платежа.

In [8]:
with open("4.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,order_id,order_created_at,requisites
0,10,2024-09-17,348003776203841
1,86,2024-11-02,2257648768555601
2,110,2024-09-21,8100939730499929
3,136,2024-11-16,6635525845179221
4,432,2024-11-09,4037182764191594
...,...,...,...
591,49466,2024-11-14,4214473832989134
592,49543,2024-10-04,6908438154829347
593,49789,2024-08-24,6546165912392635
594,49880,2024-10-09,6831288755820316


## Средние

### 1. Найти топ-5 пользователей по количеству бонусов, которые большинство своих заказов оплатили наличными курьеру. Вывести `id` пользователя, его имя и количество бонусов.

Начнём с простого: выведем payment_info_id и название способа оплаты

In [9]:
query = """
SELECT
    i.id AS payment_info_id,
    m.title AS payment_method
FROM
    payment_infos i
    JOIN payment_methods m ON i.payment_method_id = m.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,payment_info_id,payment_method
0,1,Карта курьеру
1,2,Карта
2,3,Карта
3,4,Яндекс.Сплит
4,5,Карта курьеру
...,...,...
30031,30032,Наличные курьеру
30032,30033,Карта курьеру
30033,30034,Наличные курьеру
30034,30035,Наличные курьеру


Далее присоединяем эту таблицу к таблице заказов

In [10]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    orders_payment_method AS (
        SELECT
            o.id AS order_id,
            o.user_id,
            p.payment_method
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
    )
SELECT
    *
FROM
    orders_payment_method
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,order_id,user_id,payment_method
0,1,2250,Яндекс.Сплит
1,2,7643,Яндекс.Сплит
2,3,8003,Карта
3,4,5998,Яндекс.Сплит
4,5,13533,Карта курьеру
...,...,...,...
49995,49996,1020,Карта
49996,49997,14025,Карта
49997,49998,9533,Наличные курьеру
49998,49999,11639,Карта курьеру


Дальше группируем сначала по пользователю, потом по способу оплаты.

In [11]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    )
SELECT
    *
FROM
    user_method_counts
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,user_id,payment_method,orders_count
0,1,Карта,1
1,1,Наличные курьеру,2
2,2,Карта курьеру,1
3,2,Наличные курьеру,1
4,2,Яндекс.Сплит,4
...,...,...,...
34006,14998,Наличные курьеру,1
34007,14998,Яндекс.Сплит,1
34008,14999,Карта,1
34009,15000,Карта,1


Добавляем колонку с суммарным количеством заказов для каждого пользователя.

In [12]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    ),
    user_method_counts_with_total AS (
        SELECT
            *,
            SUM(orders_count) OVER (
                PARTITION BY
                    user_id
            ) AS total_orders_count
        FROM
            user_method_counts
    )
SELECT
    *
FROM
    user_method_counts_with_total
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,user_id,payment_method,orders_count,total_orders_count
0,1,Карта,1,3.0
1,1,Наличные курьеру,2,3.0
2,2,Карта курьеру,1,6.0
3,2,Наличные курьеру,1,6.0
4,2,Яндекс.Сплит,4,6.0
...,...,...,...,...
34006,14998,Наличные курьеру,1,5.0
34007,14998,Яндекс.Сплит,1,5.0
34008,14999,Карта,1,1.0
34009,15000,Карта,1,3.0


И оставляем только тех пользователей, у которых большинство заказов оплачено наличными курьеру. Большинство - это больше половины от всех заказов.

In [13]:
query = """
WITH
    payment_infos_and_methods AS (
        SELECT
            i.id AS payment_info_id,
            m.title AS payment_method
        FROM
            payment_infos i
            JOIN payment_methods m ON i.payment_method_id = m.id
    ),
    user_method_counts AS (
        SELECT
            o.user_id,
            p.payment_method,
            COUNT(o.id) AS orders_count
        FROM
            orders o
            JOIN payment_infos_and_methods p USING (payment_info_id)
        GROUP BY
            o.user_id,
            p.payment_method
    ),
    user_method_counts_with_total AS (
        SELECT
            *,
            SUM(orders_count) OVER (
                PARTITION BY
                    user_id
            ) AS total_orders_count
        FROM
            user_method_counts
    ),
    users_with_almost_cash_orders AS (
        SELECT
            user_id AS id
        FROM
            user_method_counts_with_total
        WHERE
            payment_method = 'Наличные курьеру'
            AND orders_count > total_orders_count / 2
    )

SELECT
    *
FROM
    users_with_almost_cash_orders
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id
0,1
1,3
2,22
3,31
4,32
...,...
1499,14936
1500,14958
1501,14984
1502,14986


А дальше сортируем по количеству бонусов и выводим топ-5.

In [14]:
with open("5.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,name,bonuses
0,1227,Ольга Кузьминична Соколова,410
1,5673,Назар Анатольевич Орехов,398
2,3924,Ирина Геннадиевна Петухова,398
3,2461,Александра Романовна Кондратьева,398
4,7821,Ульяна Робертовна Юдина,390


### 2. Найти блюда, содержащие хотя бы один ингредиент, который относится к самой популярной категории предпочтений. Вывести только названия блюд, отсортированные в алфавитном порядке.

Первым шагом соединим таблицы выбранных предпочтений пользователями и информации об этих предпочтениях.

In [15]:
query = """
SELECT
    pu.id,
    preference_id,
    p.title AS preference_title,
    p.preference_category_id AS category_id
FROM
    preferences_users pu
    JOIN preferences p ON pu.preference_id = p.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,preference_id,preference_title,category_id
0,1,26,Без молочных каш,5
1,2,19,Без кабачков,4
2,3,20,Без лука,4
3,4,23,Без булгура,5
4,5,21,Без чеснока,4
...,...,...,...,...
13373,13374,2,Без орехов,1
13374,13375,3,Без меда,1
13375,13376,25,Без гречки,5
13376,13377,24,Без кускуса,5


Дальше группируем по категории предпочтений и считаем количество пользователей, выбравших каждую категорию.

In [16]:
query = """
SELECT
    preference_category_id,
    COUNT(pu.id) AS count
FROM
    preferences_users pu
    JOIN preferences p ON pu.preference_id = p.id
GROUP BY
    preference_category_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,preference_category_id,count
0,3,2038
1,5,2639
2,4,3508
3,2,2101
4,1,3092


Сортируем по `count` и берём топ-1. Убираем в подзапрос.

Следующим шагом выведем список предпочтений, относящихся к самой популярной категории предпочтений.

In [17]:
query = """
WITH most_popular_category AS (
    SELECT
        preference_category_id,
        COUNT(pu.id) AS count
    FROM
        preferences_users pu
        JOIN preferences p ON pu.preference_id = p.id
    GROUP BY
        preference_category_id
    ORDER BY
        count DESC
    LIMIT 1
)

SELECT
    id,
    title
FROM
    preferences
WHERE
    preference_category_id = (SELECT preference_category_id FROM most_popular_category)
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,title
0,15,Без сельдерея
1,16,Без грибов
2,17,Без стручковой фасоли
3,18,Без брокколи
4,19,Без кабачков
5,20,Без лука
6,21,Без чеснока


Далее нам нужен список ингредиентов, относящихся к этим предпочтениям.

In [18]:
query = """
WITH
    most_popular_category AS (
        SELECT
            preference_category_id,
            COUNT(pu.id) AS count
        FROM
            preferences_users pu
            JOIN preferences p ON pu.preference_id = p.id
        GROUP BY
            preference_category_id
        ORDER BY
            count DESC
        LIMIT
            1
    ),
    preferences_from_most_popular_category AS (
        SELECT
            id,
            title
        FROM
            preferences
        WHERE
            preference_category_id = (
                SELECT
                    preference_category_id
                FROM
                    most_popular_category
            )
    )

SELECT
    ip.ingredient_id,
    ip.preference_id
FROM
    ingredients_preferences ip
    JOIN preferences_from_most_popular_category p ON ip.preference_id = p.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,preference_id
0,101,16
1,102,16
2,103,16
3,104,16
4,105,16
5,99,17
6,51,18
7,54,19
8,34,20
9,35,20


Далее осталось найти блюда, содержащие хотя бы один из этих ингредиентов.

In [19]:
with open("6.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,title
0,Борщ
1,Борщ с капустой
2,Вареники с картошкой
3,Винегрет
4,Гречка с грибами
5,Гречка с овощами
6,Гречневая каша
7,Жаркое
8,Запеканка с творогом
9,Каша овсяная


### 3. Вывести 2 строки с названием меню, массивом входящих в него блюд и даты, которые принесут больше всего прибыли (численно и в % относительно себестоимости).

Пусть блюдо состоит из ингридиентов $x_1, x_2, \ldots, x_n$. Закупочная стоимость каждого ингридиента равна $c_1, c_2, \ldots, c_n$ соответственно. Тогда я предполагаю, что себестоимость блюда равна $p = \sum_{i=1}^n c_i$ (я не учитываю, что блюдо содержит $a$ грамм данного ингридиента).

Пусть меню на конкретный день состоит из блюд $y_1, y_2, \ldots, y_m$. Тогда себестоимость меню будет равна $P = \sum_{j=1}^m p_j$.

Розничная цена на данное меню равна $S$. Тогда прибыль от данного меню равна $S - P$. Будем находить 2 меню: с наибольшим значением $S - P$ и с наибольшим значением $\frac{S - P}{P}$.

Заметим, что цена ингредиента указана в долларах, а цена меню в рублях. Поэтому для вычисления прибыли нужно умножить цену ингредиента на курс доллара. Курс доллара принять равным 1 доллар = 7.55 рублей (поправка на нереалистичную заполненность базы данных и предположение о составе блюда).

Сначала переводим цены ингредиентов в рубли.

In [110]:
query = """
SELECT
    id,
    cost * 7.55 AS cost_rubles
FROM
    ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,cost_rubles
0,1,37.6745
1,2,48.9995
2,3,45.2245
3,4,60.3245
4,5,67.8745
...,...,...
144,145,33.8995
145,146,45.2245
146,147,22.5745
147,148,15.0245


Далее считаем себестоимость каждого блюда.

In [111]:
query = """
WITH
    ingredients_costs_in_rubles AS (
        SELECT
            id,
            cost * 15.06 AS cost_rubles
        FROM
            ingredients
    )

SELECT
    d.dish_id AS id,
    SUM(i.cost_rubles) AS cost
FROM
    dishes_ingredients d
    JOIN ingredients_costs_in_rubles i ON d.ingredient_id = i.id
GROUP BY
    d.dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,cost
0,33,375.4458
1,1,396.5298
2,76,142.6182
3,106,14.9094
4,104,59.7882
...,...,...
101,3,351.5004
102,17,395.1744
103,37,187.7982
104,28,417.7644


Аналогичную процедуру делаем с каждым меню.

In [112]:
query = """
    WITH
    ingredients_costs_in_rubles AS (
        SELECT
            id,
            cost * 15.06 AS cost_rubles
        FROM
            ingredients
    ),
    dishes_costs AS (
        SELECT
            d.dish_id AS id,
            SUM(i.cost_rubles) AS cost
        FROM
            dishes_ingredients d
            JOIN ingredients_costs_in_rubles i ON d.ingredient_id = i.id
        GROUP BY
            d.dish_id
    )

SELECT
    menu_id,
    m.date,
    SUM(cost)
FROM
    dishes_menus m
    JOIN dishes_costs c ON m.dish_id = c.id
GROUP BY
    menu_id,
    m.date
ORDER BY
    m.date,
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,sum
0,1,2024-11-27,665.0496
1,2,2024-11-27,953.4486
2,3,2024-11-27,1962.7698
3,1,2024-11-28,510.3834
4,2,2024-11-28,956.6112
...,...,...,...
85,2,2024-12-25,938.8404
86,3,2024-12-25,1185.0714
87,1,2024-12-26,918.9612
88,2,2024-12-26,1514.5842


Добавляем сюда розничную стоимость меню, а далее идут просто рассчёты.

In [113]:
with open("7.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dishes,profit,profit_percent
0,1,2024-12-06,"[12, 56, 103]",531.48,315.39
1,2,2024-12-08,"[81, 56, 56, 65]",536.83,171.41


### 4. Какие пары блюд находятся вместе в меню чаще всего? Вывести их названия и количество нахождений вместе.

Посмотрим на структуру таблицы `menus_dishes`:

In [114]:
query = """
SELECT
    menu_id,
    date,
    dish_id
FROM
    dishes_menus
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id
0,1,2024-11-27,26
1,1,2024-11-27,83
2,1,2024-11-27,26
3,2,2024-11-27,11
4,2,2024-11-27,44
...,...,...,...
355,3,2024-12-26,84
356,3,2024-12-26,52
357,3,2024-12-26,3
358,3,2024-12-26,59


Сначала соединяем таблицу саму с собой, чтобы получить все возможные пары блюд. При этом учтём, что в паре не может быть блюдо само с собой.

In [134]:
query = """
SELECT
    menu_id,
    date,
    dm1.dish_id AS dish_id_1,
    dm2.dish_id AS dish_id_2
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id_1,dish_id_2
0,1,2024-11-27,26,83
1,1,2024-11-27,26,83
2,2,2024-11-27,11,89
3,2,2024-11-27,11,96
4,2,2024-11-27,11,44
...,...,...,...,...
556,3,2024-12-26,3,59
557,3,2024-12-26,3,52
558,3,2024-12-26,3,84
559,3,2024-12-26,59,88


Видно, что в таблице оказались дубликаты. Это происходит потому, что в одно меню могла войти "двойная порция" блюда. Поэтому уберём дубликаты.

In [135]:
query = """
SELECT DISTINCT
    menu_id,
    date,
    dm1.dish_id AS dish_id_1,
    dm2.dish_id AS dish_id_2
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
ORDER BY
    date,
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id_1,dish_id_2
0,1,2024-11-27,26,83
1,2,2024-11-27,11,44
2,2,2024-11-27,11,89
3,2,2024-11-27,11,96
4,2,2024-11-27,44,89
...,...,...,...,...
537,3,2024-12-26,52,84
538,3,2024-12-26,52,88
539,3,2024-12-26,59,84
540,3,2024-12-26,59,88


Засовываем пару блюд в один столбец(например, в массив) и группируем по нему.

In [136]:
query = """
SELECT DISTINCT
    ARRAY[dm1.dish_id, dm2.dish_id] AS pair,
    COUNT(*) AS count
FROM
    dishes_menus dm1 JOIN dishes_menus dm2 USING(menu_id, date)
WHERE 
    dm1.dish_id < dm2.dish_id
GROUP BY
    pair
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,pair,count
0,"[21, 104]",1
1,"[61, 84]",1
2,"[69, 91]",1
3,"[7, 31]",1
4,"[36, 56]",1
...,...,...
514,"[31, 62]",1
515,"[7, 65]",1
516,"[20, 58]",2
517,"[61, 83]",1


Сортируем по количеству встречаемости и выводим топ-1. Выводим названия блюд и количество встречаемости.

In [144]:
with open("8.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish1,dish2,count
0,Сельдь под шубой,Кекс,3


## Сложные

### 1. Найти медианное количество заказов у пользователей.

Для начала найдём количество заказов у каждого пользователя.

In [147]:
query = """
SELECT
    u.id,
    COUNT(o.id) AS orders_count
FROM
    users u
    JOIN orders o ON u.id = o.user_id
GROUP BY
    u.id
ORDER BY
    orders_count ASC
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,orders_count
0,2750,1
1,10636,1
2,7968,1
3,13785,1
4,8179,1
...,...,...
14471,2238,11
14472,8352,11
14473,5444,12
14474,11565,12


Потом отсортируем по возрастанию количества заказов, пронумеруем строки и припишем общее количество строк.

In [151]:
query = """
WITH
    main_table AS (
        SELECT
            u.id,
            COUNT(o.id) AS orders_count
        FROM
            users u
            JOIN orders o ON u.id = o.user_id
        GROUP BY
            u.id
        ORDER BY
            orders_count ASC
    )

SELECT
    orders_count,
    ROW_NUMBER() OVER (
        ORDER BY
            orders_count
    ) AS row_number,
    COUNT(*) OVER () AS total_rows
FROM
    main_table
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,orders_count,row_number,total_rows
0,1,1,14476
1,1,2,14476
2,1,3,14476
3,1,4,14476
4,1,5,14476
...,...,...,...
14471,11,14472,14476
14472,11,14473,14476
14473,12,14474,14476
14474,12,14475,14476


Далее есть два варианта: если количество строк чётное, то медиана - это среднее двух средних значений. Если количество строк нечётное, то медиана - это значение в середине.

Если всего строк чётное количество, то `total_rows / 2` и `total_rows / 2 + 1` - целые числа, на выходе будет две строки и среднее арифметическое возьмётся от двух значений.

Если всего строк нечётное количество, то `total_rows / 2` и `total_rows / 2 + 1` - нецелые числа, на выходе будет одна строка и это и будет медиана.

In [161]:
with open("9.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,median_count
0,3.0


### 2.  Рассчитать ежедневную выручку сервиса, рассчитать ежедневный прирост выручки (численно и в %) относительно предыдущего дня.

Рассчитаем ежедневную выручку.

In [167]:
query = """
SELECT
    DATE (o.created_at) AS date,
    SUM(m.cost) AS revenue
FROM
    orders o
    JOIN menus m ON o.menu_id = m.id
GROUP BY
    DATE (o.created_at)
ORDER BY
    date
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue
0,2024-08-19,108100.0
1,2024-08-20,423050.0
2,2024-08-21,432450.0
3,2024-08-22,405150.0
4,2024-08-23,430900.0
...,...,...
96,2024-11-23,474850.0
97,2024-11-24,403450.0
98,2024-11-25,417250.0
99,2024-11-26,398900.0


Далее сделаем оконную функцию, чтобы посчитать разницу между текущим и предыдущим днём.

In [171]:
query = """
WITH
    main_table AS (
        SELECT
            DATE (o.created_at) AS date,
            SUM(m.cost) AS revenue
        FROM
            orders o
            JOIN menus m ON o.menu_id = m.id
        GROUP BY
            DATE (o.created_at)
        ORDER BY
            date
    )

SELECT
    date,
    revenue,
    (revenue - LAG (revenue, 1) OVER ()) AS revenue_growth_abs
FROM
    main_table
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue,revenue_growth_abs
0,2024-08-19,108100.0,
1,2024-08-20,423050.0,314950.0
2,2024-08-21,432450.0,9400.0
3,2024-08-22,405150.0,-27300.0
4,2024-08-23,430900.0,25750.0
...,...,...,...
96,2024-11-23,474850.0,50600.0
97,2024-11-24,403450.0,-71400.0
98,2024-11-25,417250.0,13800.0
99,2024-11-26,398900.0,-18350.0


И добавим колонку с процентным приростом.

In [185]:
with open("10.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,date,revenue,revenue_growth_abs,revenue_growth_rate
0,2024-08-19,108100.0,,
1,2024-08-20,423050.0,314950.0,291.35
2,2024-08-21,432450.0,9400.0,2.22
3,2024-08-22,405150.0,-27300.0,-6.31
4,2024-08-23,430900.0,25750.0,6.36
...,...,...,...,...
96,2024-11-23,474850.0,50600.0,11.93
97,2024-11-24,403450.0,-71400.0,-15.04
98,2024-11-25,417250.0,13800.0,3.42
99,2024-11-26,398900.0,-18350.0,-4.40


### 3.  Задание на рекурсивочку: построить иерархию приглашенных и пригласивших пользователей.

Сначала найдём всех пользователей, которых никто не пригласил и присвоим им первый уровень.

In [204]:
query = """
SELECT
    id,
    CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
    invited_by_id AS parent_id,
    1 AS level
FROM
    users
WHERE
    invited_by_id IS NULL
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,14,Демьян Ильич Романов,,1
1,47,Панфил Валерьянович Назаров,,1
2,1,Фёкла Владиславовна Мартынова,,1
3,2,Раиса Кузьминична Игнатова,,1
4,4,Евпраксия Мироновна Гуляева,,1
...,...,...,...,...
10616,14992,Юлия Эльдаровна Дорофеева,,1
10617,14994,Дарья Болеславовна Панфилова,,1
10618,14996,Олимпиада Яковлевна Белозерова,,1
10619,14999,Валентина Натановна Сазонова,,1


Далее найдём пользователей, которых пригласил пользователь первого уровня и присвоим им второй уровень.

In [206]:
query = """
WITH
first_level AS (
    SELECT
        id,
        CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
        invited_by_id AS parent_id,
        1 AS level
    FROM
        users
    WHERE
        invited_by_id IS NULL
)

SELECT
    u.id,
    CONCAT (first_name, ' ', middle_name, ' ', last_name) AS full_name,
    invited_by_id AS parent_id,
    2 AS level
FROM
    users u
    JOIN first_level f ON u.invited_by_id = f.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,325,Стоян Адамович Селезнев,5714,2
1,1118,Устин Димитриевич Субботин,5284,2
2,1683,Марк Тимурович Котов,9854,2
3,1987,Иосиф Ерофеевич Рожков,11929,2
4,2973,Тимур Власович Муравьев,8450,2
...,...,...,...,...
3101,14978,Лора Юльевна Доронина,452,2
3102,14979,Зоя Валериевна Белова,7520,2
3103,14984,Нифонт Викентьевич Казаков,7955,2
3104,14988,Кира Дмитриевна Александрова,14538,2


И так далее.

In [203]:
with open("11.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,id,full_name,parent_id,level
0,14,Демьян Ильич Романов,,1
1,47,Панфил Валерьянович Назаров,,1
2,1,Фёкла Владиславовна Мартынова,,1
3,2,Раиса Кузьминична Игнатова,,1
4,4,Евпраксия Мироновна Гуляева,,1
...,...,...,...,...
14995,228,Таисия Тарасовна Новикова,13314.0,6
14996,6681,Лариса Робертовна Афанасьева,6977.0,7
14997,2039,Мариан Дмитриевич Анисимов,10803.0,7
14998,5621,Леонтий Ярославович Никонов,524.0,7


### 4.  Пусть сегодня 1 число какого-то месяца. У нас есть список заказов за предыдущий месяц. В предположении, что количество заказов на каждую позицию в меню останется таким же, вывести список ингредиентов, для которых следует нанять ещё поставщиков (которых не хватит для изготовления нужных блюд на ближайший месяц). Рассчитывать со следующим допущением: если блюдо весит $a$ грамм и для его изготовления нужно $n$ ингредиентов, то каждого ингредиента нужно в количестве $\frac{a}{n}$ грамм.

Сначала найдём количество заказов на каждую позицию в меню за предыдущий месяц.

In [217]:
query = """
SELECT
    menu_id,
    date(created_at) AS date,
    COUNT(*) AS orders_count
FROM
    orders
WHERE
    date(created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
GROUP BY
    date(created_at),
    menu_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,orders_count
0,1,2024-10-26,167
1,2,2024-10-26,176
2,3,2024-10-26,157
3,1,2024-10-27,172
4,2,2024-10-27,150
...,...,...,...
91,2,2024-11-25,161
92,3,2024-11-25,167
93,1,2024-11-26,150
94,2,2024-11-26,154


Далее найдём количество каждого блюда, которое будет заказано за ближайший месяц. У нас есть предположение, что количество заказов на каждую позицию в меню останется таким же, как в прошлом месяце. Поэтому нам нужно к таблице `dishes_menus` присоединить количество заказов этого меню в этот же день в прошлом месяце.

In [253]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    )
    
SELECT
    dm.menu_id,
    dm.date,
    dish_id,
    orders_count
FROM
    orders_last_month o
    JOIN dishes_menus dm ON o.menu_id = dm.menu_id AND o.date + INTERVAL '1 month 1 day' = dm.date
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,menu_id,date,dish_id,orders_count
0,1,2024-11-27,26,167
1,1,2024-11-27,83,167
2,1,2024-11-27,26,167
3,2,2024-11-27,11,176
4,2,2024-11-27,44,176
...,...,...,...,...
367,3,2024-12-26,84,167
368,3,2024-12-26,52,167
369,3,2024-12-26,3,167
370,3,2024-12-26,59,167


Группируем по блюдам и необходимое количество.

In [254]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    )
    
SELECT
    dish_id,
    SUM(orders_count) AS count
FROM
    orders_last_month o
    JOIN dishes_menus dm ON o.menu_id = dm.menu_id AND o.date + INTERVAL '1 month 1 day' = dm.date
GROUP BY
    dish_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,count
0,1,655.0
1,2,354.0
2,3,489.0
3,4,648.0
4,5,325.0
...,...,...
98,102,473.0
99,103,320.0
100,104,342.0
101,105,681.0


Отправляем полученные данные в подзапрос.

Добавим в `dishes_ingridients` колонку `ingredients_count`, которая равна количеству ингредиентов в блюде.

In [229]:
query = """
SELECT
    dish_id,
    ingredient_id,
    COUNT(*) OVER (PARTITION BY dish_id) AS ingredients_count
FROM
    dishes_ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_count
0,1,70,7
1,1,92,7
2,1,130,7
3,1,42,7
4,1,44,7
...,...,...,...
529,104,40,3
530,105,74,3
531,105,47,3
532,105,55,3


Заджойним сюда колонки с информацией о блюдах, например о их весе.

In [233]:
query = """
SELECT
    dish_id,
    ingredient_id,
    COUNT(*) OVER (PARTITION BY dish_id) AS ingredients_count,
    weight
FROM
    dishes_ingredients AS di
    JOIN dishes AS d ON di.dish_id = d.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_count,weight
0,1,70,7,250.0
1,1,92,7,250.0
2,1,130,7,250.0
3,1,42,7,250.0
4,1,44,7,250.0
...,...,...,...,...
529,104,40,3,200.0
530,105,74,3,150.0
531,105,47,3,150.0
532,105,55,3,150.0


Далее найдём вес каждого ингредиента в каждом блюде.

In [235]:
query = """
SELECT
    dish_id,
    ingredient_id,
    weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
FROM
    dishes_ingredients AS di
    JOIN dishes AS d ON di.dish_id = d.id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_weight
0,1,70,35.714286
1,1,92,35.714286
2,1,130,35.714286
3,1,42,35.714286
4,1,44,35.714286
...,...,...,...
529,104,40,66.666667
530,105,74,50.000000
531,105,47,50.000000
532,105,55,50.000000


И добавим эту таблицу в подзапросы.

Далее присоединим сюда колонку с нужным нам количеством блюд на ближайший месяц.

In [257]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    ),
    dishes_count AS (
        SELECT
            dish_id,
            SUM(orders_count) AS count
        FROM
            orders_last_month o
            JOIN dishes_menus dm ON o.menu_id = dm.menu_id
            AND o.date + INTERVAL '1 month 1 day' = dm.date
        GROUP BY
            dish_id
    ),
    dishes_ingredients_with_weights AS (
        SELECT
            dish_id,
            ingredient_id,
            weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
        FROM
            dishes_ingredients AS di
            JOIN dishes AS d ON di.dish_id = d.id
    )

SELECT
    *
FROM
    dishes_ingredients_with_weights AS weights
    JOIN dishes_count AS counts USING (dish_id)
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,dish_id,ingredient_id,ingredients_weight,count
0,1,70,35.714286,655.0
1,1,92,35.714286,655.0
2,1,130,35.714286,655.0
3,1,42,35.714286,655.0
4,1,44,35.714286,655.0
...,...,...,...,...
514,104,40,66.666667,342.0
515,105,74,50.000000,681.0
516,105,47,50.000000,681.0
517,105,55,50.000000,681.0


Перемножаем последние два столбца, группируем по ингредиентам и считаем сумму веса.

In [260]:
query = """
WITH
    orders_last_month AS (
        SELECT
            menu_id,
            date (created_at) AS date,
            COUNT(*) AS orders_count
        FROM
            orders
        WHERE
            date (created_at) + INTERVAL '1 day' BETWEEN CURRENT_DATE - INTERVAL '1 month' AND CURRENT_DATE
        GROUP BY
            date (created_at),
            menu_id
    ),
    dishes_count AS (
        SELECT
            dish_id,
            SUM(orders_count) AS count
        FROM
            orders_last_month o
            JOIN dishes_menus dm ON o.menu_id = dm.menu_id
            AND o.date + INTERVAL '1 month 1 day' = dm.date
        GROUP BY
            dish_id
    ),
    dishes_ingredients_with_weights AS (
        SELECT
            dish_id,
            ingredient_id,
            weight::DECIMAL / COUNT(*) OVER (PARTITION BY dish_id)::DECIMAL AS ingredients_weight
        FROM
            dishes_ingredients AS di
            JOIN dishes AS d ON di.dish_id = d.id
    )

SELECT
    ingredient_id,
    SUM(ingredients_weight * count) AS total_weight
FROM
    dishes_ingredients_with_weights AS weights
    JOIN dishes_count AS counts USING (dish_id)
GROUP BY
    ingredient_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,total_weight
0,1,222856.071429
1,2,285898.571429
2,4,61033.333333
3,5,132911.666667
4,6,95330.833333
...,...,...
138,145,82169.666667
139,146,25100.000000
140,147,205534.285714
141,148,22800.000000


Теперь предположим, что в таблице `suppliers` колонка `productivity` - это количество килограммов ингридиента, которое поставщик может поставить в месяц.

In [266]:
query = """
SELECT
    ingredient_id,
    SUM(productivity) AS productivity
FROM
    ingredients_suppliers AS ins
    JOIN suppliers s ON ins.supplier_id = s.id
GROUP BY
    ingredient_id
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id,productivity
0,116,380.0
1,87,177.0
2,71,372.0
3,68,225.0
4,51,548.0
...,...,...
144,27,69.0
145,143,555.0
146,23,399.0
147,58,378.0


Отлично, теперь соединяем последние две таблицы и фильтруем по условию, что продуктивность выше, чем необходимое количество.

In [269]:
with open("12.sql", "r") as file:
    query = file.read()

df = pd.read_sql(query, engine)
df

Unnamed: 0,ingredient_id
0,1
1,2
2,4
3,5
4,6
...,...
111,144
112,145
113,146
114,147


То есть это около $\dfrac{2}{3}$ ингредиентов, вообще имеющихся в базе данных.

In [272]:
query = """
SELECT
    COUNT(*)
FROM
    ingredients
"""

df = pd.read_sql(query, engine)
df

Unnamed: 0,count
0,149
