### Домашнее задание 3. Группировка данных и оконные функции

#### 1. Создание таблиц по csv таблицам

Просто создаем табличке, как в ДЗ_2.

In [1]:
import pandas as pd

customer_pd = pd.read_csv("raw_data/customer.csv", sep=';')
order_items_pd = pd.read_csv("raw_data/order_items.csv")
orders_pd = pd.read_csv("raw_data/orders.csv")
products_pd = pd.read_csv("raw_data/product.csv")

In [2]:
import pandas as pd
from sqlalchemy import create_engine, text, MetaData, inspect


engine = create_engine("postgresql+psycopg2://myuser:mypassword@localhost:5432/mydb")


def run_sql_script(file_path, params=None):
    with open(file_path) as file:
        sql_script = file.read()
    with engine.begin() as conn:
        conn.execute(text(sql_script), params)


def run_query(file_path, params=None):
    with open(file_path) as file:
        sql_script = file.read()
    return pd.read_sql(text(sql_script), engine)


def drop_all_tables():
    meta = MetaData()
    meta.reflect(bind=engine)
    meta.drop_all(bind=engine)

In [3]:
# Ячейка для сброса всех добавленных таблиц для экспериментов
drop_all_tables()

In [4]:
run_sql_script("sql/init/create_db_schema.sql")
run_sql_script("sql/init/create_product_raw_table.sql")

tables = inspect(engine).get_table_names(schema="public")
print(f"Created tables: {tables}")

# Удаляем мусорную запись из product.
products_pd = products_pd[~(
    (products_pd['product_id'] == 0) &
    (products_pd['brand'].isna())
)]

products_pd.to_sql("product_raw", engine, if_exists="append", index=False)
# Копируем в product только уникальные продукты из product_raw.
run_sql_script("sql/init/copy_from_product_raw_to_product.sql")

customer_pd.to_sql("customer", engine, if_exists="append", index=False)

# Удаляем запись для которой нет customer_id.
orders_pd = orders_pd[~(
    (orders_pd['customer_id'] == 5034)
)]
orders_pd.to_sql("orders", engine, if_exists="append", index=False)

# Удаляем записи для которых нет order_id.
missing_order_ids = [8708, 16701, 17469]
for missing_id in missing_order_ids:
    order_items_pd = order_items_pd[~(
        (order_items_pd['order_id'] == missing_id)
    )]

order_items_pd.to_sql("order_items", engine, if_exists="append", index=False)

Created tables: ['customer', 'orders', 'order_items', 'product', 'product_raw']


997

#### 2. Выполнение запросов

##### Запрос 1

Вывести распределение (количество) клиентов по сферам деятельности, отсортировав результат по убыванию количества

- [query_1.sql](sql/queries/query_1.sql)

In [5]:
run_query("sql/queries/query_1.sql")

Unnamed: 0,job_industry_category,customers
0,Manufacturing,799
1,Financial Services,774
2,,656
3,Health,602
4,Retail,358
5,Property,267
6,IT,223
7,Entertainment,136
8,Argiculture,113
9,Telecommunications,72


##### Запрос 2

Найти общую сумму дохода (list_price*quantity) по всем подтвержденным заказам за каждый месяц по сферам деятельности клиентов. Отсортировать по году, месяцу и сфере деятельности

- [query_2.sql](sql/queries/query_2.sql)

In [6]:
run_query("sql/queries/query_2.sql")

Unnamed: 0,year_month,job_industry_category,sum
0,2017-01,Argiculture,299741.43
1,2017-01,Entertainment,416965.33
2,2017-01,Financial Services,2443496.22
3,2017-01,Health,1921608.44
4,2017-01,IT,735074.61
...,...,...,...
115,2017-12,Manufacturing,2327259.35
116,2017-12,Property,846434.85
117,2017-12,Retail,1071326.73
118,2017-12,Telecommunications,193052.53


##### Запрос 3

Вывести количество уникальных онлайн-заказов для всех брендов в рамках подтвержденных заказов клиентов из сферы IT. Включить бренды, у которых нет онлайн-заказов от IT-клиентов, с количеством 0

- [query_3.sql](sql/queries/query_3.sql)

In [7]:
run_query("sql/queries/query_3.sql")

Unnamed: 0,brand,unique_orders_count
0,OHM Cycles,3896
1,Solex,3885
2,Giant Bicycles,3755
3,WeareA2B,3685
4,Trek Bicycles,2568
5,Norco Bicycles,2208


##### Запрос 4

Найти по всем клиентам: сумму всех заказов (общего дохода), максимум, минимум и количество заказов, а также среднюю сумму заказа по каждому клиенту. Отсортировать результат по убыванию суммы всех заказов и количества заказов. Выполнить двумя способами: используя только GROUP BY и используя только оконные функции. Сравнить результат

- [query_4_group.sql](sql/queries/query_4_group.sql) - с помощью GROUP BY.
- [query_4_window.sql](sql/queries/query_4_window.sql) - с помощью OVER.

In [8]:
run_query("sql/queries/query_4_group.sql")

Unnamed: 0,customer_id,sum_profit,max_profit,min_profit,orders_count,average_profit
0,1129,157178.59,20914.7,4757.40,13,12090.660769
1,1597,154920.99,20914.7,1720.70,12,12910.082500
2,2183,151898.43,20056.6,1469.44,14,10849.887857
3,941,134413.32,20914.7,2807.00,10,13441.332000
4,2309,127089.78,18739.7,2073.18,12,10590.815000
...,...,...,...,...,...,...
3995,3678,0.00,,,0,
3996,3679,0.00,,,0,
3997,3680,0.00,,,0,
3998,3681,0.00,,,0,


In [9]:
run_query("sql/queries/query_4_window.sql")

Unnamed: 0,customer_id,sum_profit,max_profit,min_profit,orders_count,average_profit
0,1129,157178.59,20914.7,4757.40,13,12090.660769
1,1597,154920.99,20914.7,1720.70,12,12910.082500
2,2183,151898.43,20056.6,1469.44,14,10849.887857
3,941,134413.32,20914.7,2807.00,10,13441.332000
4,2309,127089.78,18739.7,2073.18,12,10590.815000
...,...,...,...,...,...,...
3995,3996,0.00,,,0,
3996,3997,0.00,,,0,
3997,3998,0.00,,,0,
3998,3999,0.00,,,0,


Сравнивая получившийся результат, можно отметить, что в обоих случаях результаты запроса совпадают. Но в плане эффективности запрос с GROUP BY работает более оптимально, так как в нем группировка всех записей выполняется один раз, а затем для каждой колонки выполняется функция агрегации. В решении через OVER группировка строк будет происходит при каждом вызове оконной функции.

##### Запрос 5

Найти имена и фамилии клиентов с топ-3 минимальной и топ-3 максимальной суммой транзакций за весь период (учесть клиентов, у которых нет заказов).

- [query_5.sql](sql/queries/query_5.sql)

Покупатели с нулем sum_profit были учтены и присутствуют в таблице.

In [10]:
run_query("sql/queries/query_5.sql")

Unnamed: 0,customer_id,first_name,last_name,sum_profit
0,1129,Hercule,,157178.59
1,1597,Jeffry,Slowly,154920.99
2,2394,Ferne,Reese,1311.44
3,2532,Milli,Hubbert,590.26
4,3292,Hamlen,Slograve,575.27
...,...,...,...,...
507,3767,Man,Bigglestone,0.00
508,3843,Mahmoud,Ligerton,0.00
509,3901,Evelina,Bavin,0.00
510,3645,Cozmo,Rylstone,0.00


##### Запрос 6

Вывести только вторые транзакции клиентов (если они есть). Решить с помощью оконных функций. Если у клиента меньше двух транзакций, он не должен попасть в результат

- [query_6.sql](sql/queries/query_6.sql)

In [11]:
run_query("sql/queries/query_6.sql")

Unnamed: 0,customer_id,order_id
0,1,13424
1,2,6743
2,3,15188
3,4,14648
4,5,19993
...,...,...
3439,3496,18797
3440,3497,10493
3441,3498,17866
3442,3499,2433


##### Запрос 7

Вывести имена, фамилии и профессии клиентов, а также длительность максимального интервала (в днях) между двумя последовательными заказами. Исключить клиентов, у которых только один или меньше заказов

- [query_7.sql](sql/queries/query_7.sql)

In [12]:
run_query("sql/queries/query_7.sql")

Unnamed: 0,customer_id,first_name,last_name,job_title,max_interval
0,1584,Susanetta,,Legal Assistant,357
1,3316,Stoddard,Giacomoni,Structural Analysis Engineer,330
2,1810,Royall,Terris,Geological Engineer,330
3,2128,Gregorius,Cockram,Data Coordiator,330
4,3156,Bearnard,Letixier,,329
...,...,...,...,...,...
3439,78,Arch,Van der Kruis,Business Systems Development Analyst,1
3440,1246,Ibrahim,Wibrew,,1
3441,474,Consolata,Clacson,Geologist IV,1
3442,1209,Jacky,Jerosch,Senior Developer,1


##### Запрос 8

Найти топ-5 клиентов (по общему доходу) в каждом сегменте благосостояния (wealth_segment). Вывести имя, фамилию, сегмент и общий доход. Если в сегменте менее 5 клиентов, вывести все

- [query_8.sql](sql/queries/query_8.sql)

In [13]:
run_query("sql/queries/query_8.sql")

Unnamed: 0,customer_id,first_name,last_name,wealth_segment,profit
0,1597,Jeffry,Slowly,Affluent Customer,154920.99
1,941,Tye,Doohan,Affluent Customer,134413.32
2,2309,Herc,McIlhone,Affluent Customer,127089.78
3,2914,Jessamine,Brazear,Affluent Customer,121689.23
4,3015,Queenie,Flips,Affluent Customer,120473.8
5,637,Mercy,Wilsone,High Net Worth,119122.06
6,2659,Konstance,Elgey,High Net Worth,100181.79
7,213,Lockwood,Exroll,High Net Worth,96724.28
8,2476,Hal,Braddon,High Net Worth,93694.53
9,3326,Wes,Crotch,High Net Worth,92508.57
