In [1]:
import pandas as pd
from sqlalchemy import text, create_engine, inspect

In [2]:
# Проверка, что сервер PostgreSQL запущен

!systemctl status postgresql

[0;1;32m●[0m postgresql.service - PostgreSQL RDBMS
     Loaded: loaded (]8;;file://acer-wsl/lib/systemd/system/postgresql.service/lib/systemd/system/postgresql.service]8;;; enabled; vendor preset: enabled)
     Active: [0;1;32mactive (exited)[0m since Tue 2025-11-25 18:42:02 MSK; 3h 8min ago
    Process: 324 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 324 (code=exited, status=0/SUCCESS)
        CPU: 1ms

Nov 25 18:42:02 acer-wsl systemd[1]: Starting PostgreSQL RDBMS...
Nov 25 18:42:02 acer-wsl systemd[1]: Finished PostgreSQL RDBMS.


In [3]:
# Создание подключения к БД PostgreSQL

with open('./password.txt', encoding='UTF-8') as f:
    password = f.readline()

try:
    engine = create_engine(
        f"postgresql://soloveven:{password}@localhost:5432/homework3"
    )
    conn = engine.connect()
    print('Соединение успешно установлено!')
except:
    print('Ошибка подключения!')

Соединение успешно установлено!


In [4]:
# Функция проверки, что БД PostgreSQL пуста и не имеет таблиц.

def check_db_tables(engine):
    tables_list = inspect(engine).get_table_names
    if not tables_list():
        print('Таблицы в БД отсутствуют:', tables_list())

    else:
        print('Имеющиеся в БД таблицы:', *tables_list(), sep='\n  >> ')

    return tables_list()

In [5]:
# Проверка таблиц в БД PostgreSQL

tables = check_db_tables(engine)

Таблицы в БД отсутствуют: []


### Шаг 1. Создать таблицы с перечисленными ниже структурами, используя CSV-файлы.

#### Чтение csv таблиц

In [6]:
# Загрузка csv в Pandas DataFrame

customer = pd.read_csv('./data-samples/customer.csv',
                       delimiter=';',
                       dtype={'postcode': str})

order_items = pd.read_csv('./data-samples/order_items.csv',
                          delimiter=',',
                          dtype={'quantity': int})

orders = pd.read_csv('./data-samples/orders.csv', delimiter=',')

product = pd.read_csv('./data-samples/product.csv', delimiter=',')

print("customer shape:", customer.shape)
print("order_items shape:", order_items.shape)
print("orders shape:", orders.shape)
print("product shape:", product.shape)

customer shape: (4000, 15)
order_items shape: (20000, 6)
orders shape: (20000, 5)
product shape: (190, 7)


#### Создание таблиц в БД PostreSQL

In [7]:
# Транзакции на создание таблиц в БД PostgreSQL

create_tables_query = """
    CREATE TABLE IF NOT EXISTS customer (
         customer_id INT4 PRIMARY KEY
        ,first_name VARCHAR(128) NOT NULL
        ,last_name VARCHAR(128)
        ,gender VARCHAR(128) NOT NULL
        ,DOB DATE
        ,job_title VARCHAR(128)
        ,job_industry_category VARCHAR(128)
        ,wealth_segment VARCHAR(128) NOT NULL
        ,deceased_indicator VARCHAR(128) NOT NULL
        ,owns_car VARCHAR(128) NOT NULL
        ,address VARCHAR(128) NOT NULL
        ,postcode VARCHAR(128) NOT NULL
        ,state VARCHAR(128) NOT NULL
        ,country VARCHAR(128) NOT NULL
        ,property_valuation INT2 NOT NULL
    );

    CREATE TABLE IF NOT EXISTS order_items (
         order_item_id INT4 PRIMARY KEY
        ,order_id INT4 NOT NULL
        ,product_id INT4 NOT NULL
        ,quantity INT4 NOT NULL
        ,item_list_price_at_sale FLOAT4 NOT NULL
        ,item_standard_cost_at_sale FLOAT4
    );

    CREATE TABLE IF NOT EXISTS orders (
         order_id INT4 PRIMARY KEY
        ,customer_id INT4 NOT NULL
        ,order_date DATE NOT NULL
        ,online_order BOOLEAN
        ,order_status VARCHAR(128) NOT NULL
    );

    CREATE TABLE IF NOT EXISTS product (
         product_id INT4 NOT NULL
        ,brand VARCHAR(128)
        ,product_line VARCHAR(128)
        ,product_class VARCHAR(128)
        ,product_size VARCHAR(128)
        ,list_price FLOAT4 NOT NULL
        ,standard_cost FLOAT4
    )
"""

In [8]:
# Проводка транзакций на создание таблиц в БД PostgreSQL

conn.execute(text(create_tables_query));

In [9]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Загрузка данных в таблицы БД PostgreSQL

In [10]:
# Транзакция на загрузку в БД PostgreSQL таблицы `customer`

load_table_customer_query = """

    INSERT INTO customer (
        customer_id, first_name, last_name, gender, DOB, job_title,
        job_industry_category, wealth_segment, deceased_indicator, owns_car,
        address, postcode, state, country, property_valuation

    ) VALUES (:customer_id
             ,:first_name
             ,NULLIF(:last_name, 'NaN')
             ,:gender
             ,CAST(NULLIF(CAST(:DOB AS TEXT), 'NaN') AS DATE)
             ,NULLIF(:job_title, 'NaN')
             ,NULLIF(:job_industry_category, 'NaN')
             ,:wealth_segment
             ,:deceased_indicator
             ,:owns_car
             ,:address
             ,:postcode
             ,:state
             ,:country
             ,:property_valuation)
"""

In [11]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `customer`

conn.execute(text(load_table_customer_query),
             customer.to_dict('records'));

In [12]:
# Транзакция на загрузку в БД PostgreSQL таблицы `order_items`

load_table_order_items_query = """

    INSERT INTO order_items (
        order_item_id, order_id, product_id, quantity, item_list_price_at_sale,
        item_standard_cost_at_sale
    
    ) VALUES (:order_item_id
             ,:order_id
             ,:product_id
             ,:quantity
             ,:item_list_price_at_sale
             ,NULLIF(:item_standard_cost_at_sale, 'NaN'))
"""

In [13]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `order_items`

conn.execute(text(load_table_order_items_query),
             order_items.to_dict('records'));

In [14]:
# Транзакция на загрузку в БД PostgreSQL таблицы `orders`

load_table_orders_query = """

    INSERT INTO orders (
        order_id, customer_id, order_date, online_order, order_status

    ) VALUES (:order_id
             ,:customer_id
             ,CAST(:order_date AS DATE)
             ,CAST(NULLIF(CAST(:online_order AS TEXT), 'NaN') AS BOOLEAN)
             ,:order_status)
"""

In [15]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `orders`

conn.execute(text(load_table_orders_query),
             orders.to_dict('records'));

In [16]:
# Транзакция на загрузку в БД PostgreSQL таблицы `product`

load_table_product_query = """

    INSERT INTO product (
        product_id, brand, product_line, product_class, product_size,
        list_price, standard_cost

    ) VALUES (:product_id
             ,NULLIF(:brand, 'NaN')
             ,NULLIF(:product_line, 'NaN')
             ,NULLIF(:product_class, 'NaN')
             ,NULLIF(:product_size, 'NaN')
             ,:list_price
             ,CAST(NULLIF(CAST(:standard_cost AS TEXT), 'NaN') AS FLOAT4))
"""

In [17]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `product`

conn.execute(text(load_table_product_query),
             product.to_dict('records'));

In [18]:
# Транзакция на удаление дубликатов в таблице `product` БД PostgreSQL

correction_product_table = """
    CREATE TABLE product_cor AS SELECT product_id
                                      ,brand
                                      ,product_line
                                      ,product_class
                                      ,product_size
                                      ,list_price
                                      ,standard_cost
	FROM (
        SELECT *
              ,row_number() over(partition by product_id ORDER BY list_price desc) AS rn
        FROM product
    ) AS rm where rn = 1

"""

In [19]:
# Проводка транзакции на удаление дубликатов в таблице `product` БД PostgreSQL

conn.execute(text(correction_product_table));

In [20]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Проверка созданных таблиц

In [21]:
check_db_tables(engine);

Имеющиеся в БД таблицы:
  >> customer
  >> order_items
  >> orders
  >> product
  >> product_cor


<div style="text-align: center;">
  <img src="./misc/images/exists_tables.png" width=1050/>
  <p>Визуальная проверка существования таблиц</p>
</div>


In [22]:
# Удаление таблиц pandas

del customer 
del order_items
del orders
del product

### Шаг 2. Выполнить следующие запросы:

In [98]:
# Вспомогательная функция получения результатов выполнения транзакции

def execute_query(query):
    conn.commit()
    result = pd.read_sql_query(query, con=conn, params=None)
    return result

In [99]:
# Собираем все запросы из файла ./SQL_scripts/HomeWork3.sql в словарь

queries_dict = dict()
with open('./SQL_scripts/HomeWork3.sql') as f:
    queries = ''.join(f.readlines()).split(';')
    for num_query, query in enumerate(queries, 1):
        queries_dict[f"query{num_query}"] = (
            str(query.split('*/')[1] +';')
            .strip()
        )

#### 1. Вывести распределение (количество) клиентов по сферам деятельности, отсортировав результат по убыванию количества.

In [24]:
execute_query(  # Query 1
"""
    select
        job_industry_category,
        COUNT(customer_id) as num_customers
    from
        customer
    where
        job_industry_category is not null
    group by
        job_industry_category
    order by
        num_customers desc
    ;
"""
)

Unnamed: 0,job_industry_category,num_customers
0,Manufacturing,799
1,Financial Services,774
2,Health,602
3,Retail,358
4,Property,267
5,IT,223
6,Entertainment,136
7,Argiculture,113
8,Telecommunications,72


#### 2. Найти общую сумму дохода (list_price*quantity) по всем подтвержденным заказам за каждый месяц по сферам деятельности клиентов. Отсортировать результат по году,месяцу и сфере деятельности.

In [25]:
execute_query(  # Query 2
"""
    with approved_order_revenues as(
        select customer_id, o.order_id, order_date, revenues.revenue 
        from orders o
        left join (
            select order_id, quantity * item_list_price_at_sale revenue
            from order_items) as revenues on o.order_id = revenues.order_id 
        where order_status = 'Approved'
    )
    select
        c.job_industry_category,
        extract(year from aor.order_date) as year,
        extract(month from aor.order_date) as month,	
        TRUNC(sum(aor.revenue)::numeric, 2) revenue
    from
        approved_order_revenues aor
    left join customer c on
        c.customer_id = aor.customer_id
    where
        c.job_industry_category is not null
    group by
        year,
        month,
        c.job_industry_category
    order by
        year,
        month,
        c.job_industry_category
    ;
"""
)

Unnamed: 0,job_industry_category,year,month,revenue
0,Argiculture,2017.0,1.0,232148.24
1,Entertainment,2017.0,1.0,342541.16
2,Financial Services,2017.0,1.0,2032708.45
3,Health,2017.0,1.0,1570012.48
4,IT,2017.0,1.0,604949.53
...,...,...,...,...
103,IT,2017.0,12.0,620265.30
104,Manufacturing,2017.0,12.0,1821976.45
105,Property,2017.0,12.0,654253.28
106,Retail,2017.0,12.0,862122.87


#### 3. Вывести количество уникальных онлайн-заказов для всех брендов в рамках подтвержденных заказов клиентов из сферы IT. Включить бренды, у которых нет онлайн-заказовот IT-клиентов, — для них должно быть указано количество 0.

In [26]:
execute_query(  # Query 3
"""
    with unique_approved_orders_IT as (
        select
            o.order_id,
            oi.product_id,
            o.online_order,
            o.order_status
        from
            orders o
        join customer c on
            o.customer_id = c.customer_id
        join order_items oi on
            oi.order_id = o.order_id
        where
            c.job_industry_category = 'IT'
            and o.order_status = 'Approved'
    )
    select
        distinct brand,
        count(order_id) over (partition by brand) num_orders
    from
        product_cor pc
    left join unique_approved_orders_IT uao on
        uao.product_id = pc.product_id
        and uao.online_order = true
    order by num_orders desc
    ;
"""
)

Unnamed: 0,brand,num_orders
0,OHM Cycles,113
1,Giant Bicycles,102
2,Solex,101
3,WeareA2B,87
4,Trek Bicycles,78
5,Norco Bicycles,59


#### 4. Найти по всем клиентам: сумму всех заказов (общего дохода), максимум, минимум и количество заказов, а также среднюю сумму заказа по каждому клиенту. Отсортироватьрезультат по убыванию суммы всех заказов и количества заказов. Выполнить двумя способами: используя только GROUP BY и используя только оконные функции. Сравнитьрезультат.

In [None]:
execute_query(  # Query 4
"""

""")

#### 5. Найти имена и фамилии клиентов с топ-3 минимальной и топ-3 максимальной суммой транзакций за весь период (учесть клиентов, у которых нет заказов, приняв их суммутранзакций за 0).

In [96]:
queries_dict

{'query1': 'select\n\tjob_industry_category,\n\tCOUNT(customer_id) as num_customers\nfrom\n\tcustomer\nwhere\n\tjob_industry_category is not null\ngroup by\n\tjob_industry_category\norder by\n\tnum_customers desc\n;',
 'query2': "with approved_order_revenues as(\n\tselect customer_id, o.order_id, order_date, revenues.revenue \n\tfrom orders o\n\tleft join (\n\t\tselect order_id, quantity * item_list_price_at_sale revenue\n\t\tfrom order_items) as revenues on o.order_id = revenues.order_id \n\twhere order_status = 'Approved'\n)\nselect\n\tc.job_industry_category,\n\textract(year from aor.order_date) as year,\n\textract(month from aor.order_date) as month,\t\n\tTRUNC(sum(aor.revenue)::numeric, 2) revenue\nfrom\n\tapproved_order_revenues aor\nleft join customer c on\n\tc.customer_id = aor.customer_id\nwhere\n\tc.job_industry_category is not null\ngroup by\n\tyear,\n\tmonth,\n\tc.job_industry_category\norder by\n\tyear,\n\tmonth,\n\tc.job_industry_category\n;",
 'query3': "with unique_appr

In [97]:
print(queries_dict['query3'])
execute_query(queries_dict['query3'])

with unique_approved_orders_IT as (
	select
		o.order_id,
		oi.product_id,
		o.online_order,
		o.order_status
	from
		orders o
	join customer c on
		o.customer_id = c.customer_id
	join order_items oi on
		oi.order_id = o.order_id
	where
		c.job_industry_category = 'IT'
		and o.order_status = 'Approved'
)
select
	distinct brand,
	count(order_id) over (partition by brand) num_orders
from
	product_cor pc
left join unique_approved_orders_IT uao on
	uao.product_id = pc.product_id
	and uao.online_order = true
order by num_orders desc
;


Unnamed: 0,brand,num_orders
0,OHM Cycles,113
1,Giant Bicycles,102
2,Solex,101
3,WeareA2B,87
4,Trek Bicycles,78
5,Norco Bicycles,59


In [None]:
execute_query(  # Query 5
"""

"""
)

#### 6. Вывести только вторые транзакции клиентов (если они есть) с помощью оконных функций. Если у клиента меньше двух транзакций, он не должен попасть в результат.

In [None]:
execute_query(  # Query 6
"""

"""
)

#### 7. Вывести имена, фамилии и профессии клиентов, а также длительность максимального интервала (в днях) между двумя последовательными заказами. Исключить клиентов, укоторых только один или меньше заказов.

In [None]:
execute_query(  # Query 7
"""

"""
)

#### 8. Найти топ-5 клиентов (по общему доходу) в каждом сегменте благосостояния (wealth_segment). Вывести имя, фамилию, сегмент и общий доход. Если в сегменте менее 5клиентов, вывести всех.

Разделить вывод на две группы (IT и Health) с помощью UNION.

In [None]:
execute_query(  # Query 8
"""

"""
)

In [None]:
conn.close()