In [1]:
import pandas as pd
from sqlalchemy import text, create_engine, inspect

In [2]:
# Проверка, что сервер PostgreSQL запущен

!systemctl status postgresql

[0;1;32m●[0m postgresql.service - PostgreSQL RDBMS
     Loaded: loaded (]8;;file://acer-wsl/lib/systemd/system/postgresql.service/lib/systemd/system/postgresql.service]8;;; enabled; vendor preset: enabled)
     Active: [0;1;32mactive (exited)[0m since Thu 2025-11-20 23:34:57 MSK; 12h ago
    Process: 8008 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 8008 (code=exited, status=0/SUCCESS)
        CPU: 1ms

Nov 20 23:34:57 acer-wsl systemd[1]: Starting PostgreSQL RDBMS...
Nov 20 23:34:57 acer-wsl systemd[1]: Finished PostgreSQL RDBMS.


In [3]:
# Создание подключения к БД PostgreSQL

with open('./password.txt', encoding='UTF-8') as f:
    password = f.readline()

try:
    engine = create_engine(
        f"postgresql://postgres:{password}@localhost:5432/postgres"
    )
    conn = engine.connect()
    print('Соединение успешно установлено!')
except:
    print('Ошибка подключения!')

Соединение успешно установлено!


In [4]:
# Функция проверки, что БД PostgreSQL пуста и не имеет таблиц.

def check_db_tables(engine):
    tables_list = inspect(engine).get_table_names
    if not tables_list():
        print('Таблицы в БД отсутствуют:', tables_list())

    else:
        print('Имеющиеся в БД таблицы:', *tables_list(), sep='\n  >> ')

    return tables_list()

In [5]:
# Проверка таблиц в БД PostgreSQL

tables = check_db_tables(engine)

Таблицы в БД отсутствуют: []


### Шаг 1. Создать таблицы с перечисленными ниже структурами, используя CSV-файлы.

#### Чтение csv таблиц

In [6]:
# Загрузка csv в Pandas DataFrame

customer = pd.read_csv('./data-samples/customer.csv',
                       delimiter=';',
                       dtype={'postcode': str})

order_items = pd.read_csv('./data-samples/order_items.csv',
                          delimiter=',',
                          dtype={'quantity': int})

orders = pd.read_csv('./data-samples/orders.csv', delimiter=',')

product = pd.read_csv('./data-samples/product.csv', delimiter=',')

print("customer shape:", customer.shape)
print("order_items shape:", order_items.shape)
print("orders shape:", orders.shape)
print("product shape:", product.shape)

customer shape: (4000, 15)
order_items shape: (20000, 6)
orders shape: (20000, 5)
product shape: (190, 7)


#### Создание таблиц в БД PostreSQL

In [7]:
# Транзакции на создание таблиц в БД PostgreSQL

create_tables_query = """
    CREATE TABLE IF NOT EXISTS customer (
         customer_id INT4 PRIMARY KEY
        ,first_name VARCHAR(128) NOT NULL
        ,last_name VARCHAR(128)
        ,gender VARCHAR(128) NOT NULL
        ,DOB DATE
        ,job_title VARCHAR(128)
        ,job_industry_category VARCHAR(128)
        ,wealth_segment VARCHAR(128) NOT NULL
        ,deceased_indicator VARCHAR(128) NOT NULL
        ,owns_car VARCHAR(128) NOT NULL
        ,address VARCHAR(128) NOT NULL
        ,postcode VARCHAR(128) NOT NULL
        ,state VARCHAR(128) NOT NULL
        ,country VARCHAR(128) NOT NULL
        ,property_valuation INT2 NOT NULL
    );

    CREATE TABLE IF NOT EXISTS order_items (
         order_item_id INT4 PRIMARY KEY
        ,order_id INT4 NOT NULL
        ,product_id INT4 NOT NULL
        ,quantity INT4 NOT NULL
        ,item_list_price_at_sale FLOAT4 NOT NULL
        ,item_standard_cost_at_sale FLOAT4
    );

    CREATE TABLE IF NOT EXISTS orders (
         order_id INT4 PRIMARY KEY
        ,customer_id INT4 NOT NULL
        ,order_date DATE NOT NULL
        ,online_order BOOLEAN
        ,order_status VARCHAR(128) NOT NULL
    );

    CREATE TABLE IF NOT EXISTS product (
         product_id INT4 NOT NULL
        ,brand VARCHAR(128)
        ,product_line VARCHAR(128)
        ,product_class VARCHAR(128)
        ,product_size VARCHAR(128)
        ,list_price FLOAT4 NOT NULL
        ,standard_cost FLOAT4
    )
"""

In [8]:
# Проводка транзакций на создание таблиц в БД PostgreSQL

conn.execute(text(create_tables_query));

In [9]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Загрузка данных в таблицы БД PostgreSQL

In [10]:
# Транзакция на загрузку в БД PostgreSQL таблицы `customer`

load_table_customer_query = """

    INSERT INTO customer (
        customer_id, first_name, last_name, gender, DOB, job_title,
        job_industry_category, wealth_segment, deceased_indicator, owns_car,
        address, postcode, state, country, property_valuation

    ) VALUES (:customer_id
             ,:first_name
             ,NULLIF(:last_name, 'NaN')
             ,:gender
             ,CAST(NULLIF(CAST(:DOB AS TEXT), 'NaN') AS DATE)
             ,NULLIF(:job_title, 'NaN')
             ,NULLIF(:job_industry_category, 'NaN')
             ,:wealth_segment
             ,:deceased_indicator
             ,:owns_car
             ,:address
             ,:postcode
             ,:state
             ,:country
             ,:property_valuation)
"""

In [11]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `customer`

conn.execute(text(load_table_customer_query),
             customer.to_dict('records'));

In [12]:
# Транзакция на загрузку в БД PostgreSQL таблицы `order_items`

load_table_order_items_query = """

    INSERT INTO order_items (
        order_item_id, order_id, product_id, quantity, item_list_price_at_sale,
        item_standard_cost_at_sale
    
    ) VALUES (:order_item_id
             ,:order_id
             ,:product_id
             ,:quantity
             ,:item_list_price_at_sale
             ,NULLIF(:item_standard_cost_at_sale, 'NaN'))
"""

In [13]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `order_items`

conn.execute(text(load_table_order_items_query),
             order_items.to_dict('records'));

In [14]:
# Транзакция на загрузку в БД PostgreSQL таблицы `orders`

load_table_orders_query = """

    INSERT INTO orders (
        order_id, customer_id, order_date, online_order, order_status

    ) VALUES (:order_id
             ,:customer_id
             ,CAST(:order_date AS DATE)
             ,CAST(NULLIF(CAST(:online_order AS TEXT), 'NaN') AS BOOLEAN)
             ,:order_status)
"""

In [15]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `orders`

conn.execute(text(load_table_orders_query),
             orders.to_dict('records'));

In [16]:
# Транзакция на загрузку в БД PostgreSQL таблицы `product`

load_table_product_query = """

    INSERT INTO product (
        product_id, brand, product_line, product_class, product_size,
        list_price, standard_cost

    ) VALUES (:product_id
             ,NULLIF(:brand, 'NaN')
             ,NULLIF(:product_line, 'NaN')
             ,NULLIF(:product_class, 'NaN')
             ,NULLIF(:product_size, 'NaN')
             ,:list_price
             ,CAST(NULLIF(CAST(:standard_cost AS TEXT), 'NaN') AS FLOAT4))
"""

In [17]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `product`

conn.execute(text(load_table_product_query),
             product.to_dict('records'));

In [18]:
# Транзакция на удаление дубликатов в таблице `product` БД PostgreSQL

correction_product_table = """
    CREATE TABLE product_cor AS SELECT product_id
                                      ,brand
                                      ,product_line
                                      ,product_class
                                      ,product_size
                                      ,list_price
                                      ,standard_cost
	FROM (
        SELECT *
              ,row_number() over(partition by product_id ORDER BY list_price desc) AS rn
        FROM product
    ) AS rm where rn = 1

"""

In [19]:
# Проводка транзакции на удаление дубликатов в таблице `product` БД PostgreSQL

conn.execute(text(correction_product_table));

In [20]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Проверка созданных таблиц

In [21]:
check_db_tables(engine);

Имеющиеся в БД таблицы:
  >> customer
  >> order_items
  >> orders
  >> product
  >> product_cor


<div style="text-align: center;">
  <img src="./misc/images/exists_tables.png" width=1050/>
  <p>Визуальная проверка существования таблиц</p>
</div>


In [22]:
# Удаление таблиц pandas

del customer 
del order_items
del orders
del product

### Шаг 2. Выполнить следующие запросы:

In [23]:
# Вспомогательная функция получения результатов выполнения транзакции

def execute_query(query):
    conn.commit()
    result = pd.read_sql_query(query, con=conn, params=None)
    return result

#### 1. Вывести все уникальные бренды, у которых есть хотя бы один продукт со стандартной стоимостью выше 1500 долларов, и суммарными продажами не менее 1000 единиц.

In [24]:
execute_query(  # Query 1
"""
    select sub_q.brand 
    from (
        select pc.brand
              ,pc.product_line
              ,SUM(oi.quantity) sum_quantity
        from orders o
            ,order_items oi
            ,product_cor pc
        where o.order_id = oi.order_id 
              and oi.product_id = pc.product_id
              and o.order_status = 'Approved'
              and pc.standard_cost > 1500
        group by pc.brand
                ,pc.product_line
        ) as sub_q
    group by sub_q.brand 
    having sum(sub_q.sum_quantity) > 1000
    ;
"""
)

Unnamed: 0,brand
0,Giant Bicycles
1,OHM Cycles
2,Solex
3,Trek Bicycles


#### 2. Для каждого дня в диапазоне с 2017-04-01 по 2017-04-09 включительно вывести количество подтвержденных онлайн-заказов и количество уникальных клиентов, совершивших эти заказы.

In [25]:
execute_query(  # Query 2
"""
    select o.order_date
          ,COUNT(o.order_status) orders_cnt
          ,COUNT(distinct o.customer_id ) uq_customers_cnt
    from orders o
    where o.online_order = True
          and o.order_status = 'Approved'
          and o.order_date between '2017-04-01' and '2017-04-09'
    group by o.order_date
    ;
"""
)

Unnamed: 0,order_date,orders_cnt,uq_customers_cnt
0,2017-04-01,37,37
1,2017-04-02,29,29
2,2017-04-03,27,27
3,2017-04-04,32,32
4,2017-04-05,33,32
5,2017-04-06,36,36
6,2017-04-07,24,24
7,2017-04-08,33,33
8,2017-04-09,30,30


#### 3. Вывести профессии клиентов:
   * из сферы IT, чья профессия начинается с Senior;
   * из сферы Financial Services, чья профессия начинается с Lead.
   
   Для обеих групп учитывать только клиентов старше 35 лет. Объединить выборки с помощью UNION ALL.


In [26]:
"""
      Версии запроса с `and c.job_title ILIKE 'Senior%'`
      и `and 'Senior' ^@ c.job_title` в jupyter не сработали, поэтому
      пришлось остановиться на Си версии STARTS_WITH(job_title, 'Senior')
"""
execute_query(  # Query 3
"""
    with customers_IT as (
        select c.job_title
              ,CAST(EXTRACT(year from AGE(c.dob)) as INT) as age
        from customer c
        where c.job_industry_category = 'IT'
              and STARTS_WITH(job_title, 'Senior')
    )
    ,customers_FS as (
        select c.job_title
              ,CAST(EXTRACT(year from AGE(c.dob)) as INT) as age
        from customer c
        where c.job_industry_category = 'Financial Services'
              and STARTS_WITH(job_title, 'Lead')
    )
    select job_title
    from (
        select * from customers_IT
        union all
        select * from customers_FS
    ) as target_customers
    where target_customers.age > 35
    ;
"""
)  # Query 3

Unnamed: 0,job_title
0,Senior Sales Associate
1,Senior Developer


#### 4. Вывести бренды, которые были куплены клиентами из сферы Financial Services, но не были куплены клиентами из сферы IT.

In [27]:
execute_query(  # Query 4
"""
    with sold_brands as (
        select c.job_industry_category
            ,pc.brand
        from orders o
        inner join (
            select customer_id, job_industry_category
            from customer
            ) as c on c.customer_id = o.customer_id
        inner join (
            select order_id, product_id from order_items
            ) as oi on oi.order_id = o.order_id
        inner join (
            select product_id, brand from product_cor
            ) as pc on pc.product_id = oi.product_id
        where o.order_status = 'Approved'
    )
    select brand from sold_brands where job_industry_category = 'Financial Services'
    EXCEPT
    select brand from sold_brands where job_industry_category = 'IT'
    ;
""")

Unnamed: 0,brand


#### 5. Вывести 10 клиентов (ID, имя, фамилия), которые совершили наибольшее количество онлайн-заказов (в штуках) брендов Giant Bicycles, Norco Bicycles, Trek Bicycles, при условии, что они активны и имеют оценку имущества (property_valuation) выше среднего среди клиентов из того же штата.

In [28]:
execute_query(  # Query 5
"""
    select c1.customer_id
        ,c1.first_name
        ,c1.last_name
    from customer c1
    inner join (
        select state, AVG(property_valuation) state_avg_property
        from customer
        group by state
        ) as c2 on c1.state = c2.state
    inner join (
        select order_id, customer_id
        from orders
        where order_status = 'Approved'
              and online_order = True
        ) as o on c1.customer_id = o.customer_id
    inner join (
        select order_id, product_id
        from order_items
        ) as oi on o.order_id = oi.order_id 
    left JOIN (
        select product_id
        from product_cor
        where brand in ('Giant Bicycles', 'Norco Bicycles', 'Trek Bicycles')
        ) as b on oi.product_id = b.product_id
    where c1.deceased_indicator = 'N'
        and c1.property_valuation > c2.state_avg_property
        and b.product_id is not null
    group by c1.customer_id
            ,c1.first_name
            ,c1.last_name
    order by COUNT(DISTINCT oi.product_id) desc
    limit 10
    ;
"""
)

Unnamed: 0,customer_id,first_name,last_name
0,3337,Brendan,Aird
1,1,Laraine,Medendorp
2,787,Norma,Batrim
3,2498,Rosana,Emmatt
4,2072,Margie,Tillyer
5,273,Nevile,Abraham
6,353,Antonia,Cardis
7,295,Lena,Chape
8,359,Dulcine,Gauson
9,80,Pablo,Small


#### 6. Вывести всех клиентов (ID, имя, фамилия), у которых нет подтвержденных онлайн-заказов за последний год, но при этом они владеют автомобилем и их сегмент благосостояния не Mass Customer.

In [29]:
execute_query(  # Query 6
"""
    with target_customer as (
        select customer_id, first_name, last_name
        from customer
        where owns_car = 'Yes'
            and wealth_segment != 'Mass Customer'
    )
    ,online_orders_ly as (
        select customer_id, order_status
        from orders
        where online_order = true
            and order_date >= CURRENT_DATE - interval '1 year'
    )
    select tc.customer_id ID
        ,tc.first_name
        ,tc.last_name 
    from target_customer tc
    inner join online_orders_ly as oly on oly.customer_id = tc.customer_id
    where oly.order_status != 'Approved'
        or oly.order_status is null
    ;
"""
)

Unnamed: 0,id,first_name,last_name


#### 7. Вывести всех клиентов из сферы 'IT' (ID, имя, фамилия), которые купили 2 из 5 продуктов с самой высокой list_price в продуктовой линейке Road.

In [30]:
execute_query(  # Query 7
"""
    with target_customers as (
        select customer_id ID
            ,first_name
            ,last_name
        from customer
        where job_industry_category = 'IT'
    )
    ,to_5_cost_road as (
        select product_id
        from product_cor
        where product_line = 'Road'
        order by list_price desc
        limit 5
    )
    select tc.id
        ,tc.first_name
        ,tc.last_name
    --      ,COUNT(distinct oi.product_id)
    from target_customers tc
    inner join (
        select customer_id
        ,order_id
        ,order_status 
        from orders
        ) as o on o.customer_id = tc.id
    inner join (
        select product_id
        ,order_id from order_items
        ) as oi on oi.order_id = o.order_id
    where oi.product_id in (select product_id from to_5_cost_road)
        and o.order_status = 'Approved'
    group by tc.id
            ,tc.first_name
            ,tc.last_name
    having COUNT(distinct oi.product_id) >= 2
    order by id
    ;
"""
)

Unnamed: 0,id,first_name,last_name
0,604,Mella,Petrovsky
1,983,Shaylyn,Riggs
2,1683,Brenn,Bacon
3,2469,Kermie,Hedger
4,3406,Lucy,Lackmann


#### 8. Вывести клиентов (ID, имя, фамилия, сфера деятельности) из сфер IT или Health, которые совершили не менее 3 подтвержденных заказов в период 2017-01-01 по 2017-03-01, и при этом их общий доход от этих заказов превышает 10 000 долларов.

Разделить вывод на две группы (IT и Health) с помощью UNION.

In [31]:
execute_query(  # Query 8
"""
    with approve_interval_orders as (
        select order_id
              ,customer_id
        from orders
        where order_status = 'Approved'
              and order_date between '2017-01-01'
                  and CAST('2017-03-01' as date) - interval '1 day'
    )
    ,customers_H as (
        select c.customer_id
              ,c.first_name
              ,c.last_name
              ,c.job_industry_category
              ,COUNT(distinct aio.order_id) num_orders
              ,SUM(oi.item_list_price_at_sale * oi.quantity) revenue
        from customer c
        inner join approve_interval_orders aio
                   on aio.customer_id = c.customer_id
        inner join order_items oi on oi.order_id = aio.order_id
        where job_industry_category = 'Health'
        group by c.customer_id
                ,c.first_name
                ,c.last_name
                ,c.job_industry_category
    )
    ,customers_IT as (
        select c.customer_id
              ,c.first_name
              ,c.last_name
              ,c.job_industry_category
              ,COUNT(distinct aio.order_id) num_orders
              ,SUM(oi.item_list_price_at_sale * oi.quantity) revenue
        from customer c
        inner join approve_interval_orders aio
                   on aio.customer_id = c.customer_id
        inner join order_items oi on oi.order_id = aio.order_id
        where job_industry_category = 'IT'
        group by c.customer_id
                ,c.first_name
                ,c.last_name
                ,c.job_industry_category
    )
    select customer_id
          ,first_name
          ,last_name
          ,job_industry_category
    from (
        select * from customers_IT union all select * from customers_H
    ) as customers
    where num_orders >= 3
          and revenue > 10000
    ;
"""
)

Unnamed: 0,customer_id,first_name,last_name,job_industry_category
0,64,Gerek,Yve,IT
1,255,Keeley,Kruger,IT
2,513,Kienan,Soar,IT
3,769,Cameron,Letherbury,IT
4,799,Harland,Spilisy,IT
5,1583,Krysta,O' Reagan,IT
6,1791,Ninon,Van Der Hoog,IT
7,2039,Laureen,Blower,IT
8,2252,Darcey,Annis,IT
9,2932,Bradly,Deboick,IT


In [32]:
conn.close()