In [1]:
import pandas as pd
from sqlalchemy import text, create_engine, inspect

In [2]:
# Проверка, что сервер PostgreSQL запущен

!systemctl status postgresql

[0;1;32m●[0m postgresql.service - PostgreSQL RDBMS
     Loaded: loaded (]8;;file://acer-wsl/lib/systemd/system/postgresql.service/lib/systemd/system/postgresql.service]8;;; enabled; vendor preset: enabled)
     Active: [0;1;32mactive (exited)[0m since Thu 2025-11-20 12:01:20 MSK; 6h ago
    Process: 331 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 331 (code=exited, status=0/SUCCESS)
        CPU: 1ms

Nov 20 12:01:20 acer-wsl systemd[1]: Starting PostgreSQL RDBMS...
Nov 20 12:01:20 acer-wsl systemd[1]: Finished PostgreSQL RDBMS.


In [3]:
# Создание подключения к БД PostgreSQL

with open('./password.txt', encoding='UTF-8') as f:
    password = f.readline()

try:
    engine = create_engine(
        f"postgresql://postgres:{password}@localhost:5432/postgres"
    )
    conn = engine.connect()
    print('Соединение успешно установлено!')
except:
    print('Ошибка подключения!')

Соединение успешно установлено!


In [4]:
# Функция проверки, что БД PostgreSQL пуста и не имеет таблиц.

def check_db_tables(engine):
    tables_list = inspect(engine).get_table_names
    if not tables_list():
        print('Таблицы в БД отсутствуют:', tables_list())

    else:
        print('Имеющиеся в БД таблицы:', *tables_list(), sep='\n  >> ')

    return tables_list()

In [5]:
# Проверка таблиц в БД PostgreSQL

tables = check_db_tables(engine)

Имеющиеся в БД таблицы:
  >> product
  >> customer
  >> order_items
  >> orders


In [6]:
# Функция удаления всех таблиц в БД PostgreSQL
# Удаление всех таблиц в БД

def del_tables(conn, tables):
    conn.commit()
    for table in tables[::]:
        conn.execute(text(f"DROP TABLE IF EXISTS {table} CASCADE;"))
    conn.commit()

del_tables(conn, tables)

In [7]:
# Проверка таблиц в БД PostgreSQL

tables = check_db_tables(engine)

Таблицы в БД отсутствуют: []


### Шаг 1. Создать таблицы с перечисленными ниже структурами, используя CSV-файлы.

#### Чтение csv таблиц

In [8]:
# Загрузка csv в Pandas DataFrame

customer = pd.read_csv('./data-samples/customer.csv',
                       delimiter=';',
                       dtype={'postcode': str})

order_items = pd.read_csv('./data-samples/order_items.csv',
                          delimiter=',',
                          dtype={'quantity': int})

orders = pd.read_csv('./data-samples/orders.csv', delimiter=',')

product = pd.read_csv('./data-samples/product.csv', delimiter=',')

print("customer shape:", customer.shape)
print("order_items shape:", order_items.shape)
print("orders shape:", orders.shape)
print("product shape:", product.shape)

customer shape: (4000, 15)
order_items shape: (20000, 6)
orders shape: (20000, 5)
product shape: (190, 7)


#### Создание таблиц в БД PostreSQL

In [9]:
# Транзакции на создание таблиц в БД PostgreSQL

create_tables_query = """
    CREATE TABLE IF NOT EXISTS customer (
         customer_id INT4 PRIMARY KEY
        ,first_name VARCHAR(128) NOT NULL
        ,last_name VARCHAR(128)
        ,gender VARCHAR(128) NOT NULL
        ,DOB DATE
        ,job_title VARCHAR(128)
        ,job_industry_category VARCHAR(128)
        ,wealth_segment VARCHAR(128) NOT NULL
        ,deceased_indicator VARCHAR(128) NOT NULL
        ,owns_car VARCHAR(128) NOT NULL
        ,address VARCHAR(128) NOT NULL
        ,postcode VARCHAR(128) NOT NULL
        ,state VARCHAR(128) NOT NULL
        ,country VARCHAR(128) NOT NULL
        ,property_valuation INT2 NOT NULL
    );

    CREATE TABLE IF NOT EXISTS order_items (
         order_item_id INT4 PRIMARY KEY
        ,order_id INT4 NOT NULL
        ,product_id INT4 NOT NULL
        ,quantity INT4 NOT NULL
        ,item_list_price_at_sale FLOAT4 NOT NULL
        ,item_standard_cost_at_sale FLOAT4
    );

    CREATE TABLE IF NOT EXISTS orders (
         order_id INT4 PRIMARY KEY
        ,customer_id INT4 NOT NULL
        ,order_date DATE NOT NULL
        ,online_order BOOLEAN
        ,order_status VARCHAR(128) NOT NULL
    );

    CREATE TABLE IF NOT EXISTS product (
         product_id INT4 NOT NULL
        ,brand VARCHAR(128)
        ,product_line VARCHAR(128)
        ,product_class VARCHAR(128)
        ,product_size VARCHAR(128)
        ,list_price FLOAT4 NOT NULL
        ,standard_cost FLOAT4
    )
"""

In [10]:
# Проводка транзакций на создание таблиц в БД PostgreSQL

conn.execute(text(create_tables_query));

In [11]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Загрузка данных в таблицы БД PostgreSQL

In [12]:
# Транзакция на загрузку в БД PostgreSQL таблицы `customer`

load_table_customer_query = """

    INSERT INTO customer (
        customer_id, first_name, last_name, gender, DOB, job_title,
        job_industry_category, wealth_segment, deceased_indicator, owns_car,
        address, postcode, state, country, property_valuation

    ) VALUES (:customer_id
             ,:first_name
             ,NULLIF(:last_name, 'NaN')
             ,:gender
             ,CAST(NULLIF(CAST(:DOB AS TEXT), 'NaN') AS DATE)
             ,NULLIF(:job_title, 'NaN')
             ,NULLIF(:job_industry_category, 'NaN')
             ,:wealth_segment
             ,:deceased_indicator
             ,:owns_car
             ,:address
             ,:postcode
             ,:state
             ,:country
             ,:property_valuation)
"""

In [13]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `customer`

conn.execute(text(load_table_customer_query),
             customer.to_dict('records'));

In [14]:
# Транзакция на загрузку в БД PostgreSQL таблицы `order_items`

load_table_order_items_query = """

    INSERT INTO order_items (
        order_item_id, order_id, product_id, quantity, item_list_price_at_sale,
        item_standard_cost_at_sale
    
    ) VALUES (:order_item_id
             ,:order_id
             ,:product_id
             ,:quantity
             ,:item_list_price_at_sale
             ,NULLIF(:item_standard_cost_at_sale, 'NaN'))
"""

In [15]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `order_items`

conn.execute(text(load_table_order_items_query),
             order_items.to_dict('records'));

In [16]:
# Транзакция на загрузку в БД PostgreSQL таблицы `orders`

load_table_orders_query = """

    INSERT INTO orders (
        order_id, customer_id, order_date, online_order, order_status

    ) VALUES (:order_id
             ,:customer_id
             ,CAST(:order_date AS DATE)
             ,CAST(NULLIF(CAST(:online_order AS TEXT), 'NaN') AS BOOLEAN)
             ,:order_status)
"""

In [17]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `orders`

conn.execute(text(load_table_orders_query),
             orders.to_dict('records'));

In [18]:
# Транзакция на загрузку в БД PostgreSQL таблицы `product`

load_table_product_query = """

    INSERT INTO product (
        product_id, brand, product_line, product_class, product_size,
        list_price, standard_cost

    ) VALUES (:product_id
             ,NULLIF(:brand, 'NaN')
             ,NULLIF(:product_line, 'NaN')
             ,NULLIF(:product_class, 'NaN')
             ,NULLIF(:product_size, 'NaN')
             ,:list_price
             ,CAST(NULLIF(CAST(:standard_cost AS TEXT), 'NaN') AS FLOAT4))
"""

In [19]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `product`

conn.execute(text(load_table_product_query),
             product.to_dict('records'));

In [20]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Проверка созданных таблиц

In [21]:
tables = check_db_tables(engine)

Имеющиеся в БД таблицы:
  >> customer
  >> order_items
  >> orders
  >> product


<div style="text-align: center;">
  <img src="./misc/images/exists_tables.png" width=1050/>
  <p>Визуальная проверка существования таблиц</p>
</div>


In [22]:
# Удаление таблиц pandas
del customer 
del order_items
del orders
del product

### Шаг 2. Выполнить следующие запросы:

In [23]:
# УДАЛИТЬ!
# объекты pd.DataFrame для проверки выполнения запроса

customer = pd.read_csv('./data-samples/customer.csv',
                       delimiter=';',
                       dtype={'postcode': str})

order_items = pd.read_csv('./data-samples/order_items.csv',
                          delimiter=',',
                          dtype={'quantity': int})

orders = pd.read_csv('./data-samples/orders.csv', delimiter=',')

product = pd.read_csv('./data-samples/product.csv', delimiter=',')

In [24]:
# Вспомогательная функция получения результатов выполнения транзакции

def execute_query(query):
    conn.commit()
    return pd.read_sql_query(query, con=conn)

#### 1. Вывести все уникальные бренды, у которых есть хотя бы один продукт со стандартной стоимостью выше 1500 долларов, и суммарными продажами не менее 1000 единиц.

In [25]:
query1 = """

    WITH cte_products AS (
        SELECT product_id, SUM(quantity)
        FROM order_items
        GROUP BY product_id
        HAVING SUM(quantity) >= 1000
    )
    SELECT DISTINCT product.brand
    FROM product
    JOIN cte_products ON product.product_id = cte_products.product_id
    WHERE product.standard_cost > 1500
    ;

"""

execute_query(query1)

Unnamed: 0,brand
0,Giant Bicycles
1,OHM Cycles


#### 2. Для каждого дня в диапазоне с 2017-04-01 по 2017-04-09 включительно вывести количество подтвержденных онлайн-заказов и количество уникальных клиентов, совершивших эти заказы.

In [26]:
query2 = """

    SELECT order_date
          ,COUNT(DISTINCT customer_id) customers
          ,COUNT(*) orders
    FROM orders
    WHERE order_date BETWEEN '2017-04-01' AND '2017-04-09'
          AND online_order
          AND order_status = 'Approved'
    GROUP BY order_date
    ;

"""

execute_query(query2)

Unnamed: 0,order_date,customers,orders
0,2017-04-01,37,37
1,2017-04-02,29,29
2,2017-04-03,27,27
3,2017-04-04,32,32
4,2017-04-05,32,33
5,2017-04-06,36,36
6,2017-04-07,24,24
7,2017-04-08,33,33
8,2017-04-09,30,30


#### 3. Вывести профессии клиентов:
   * из сферы IT, чья профессия начинается с Senior;
   * из сферы Financial Services, чья профессия начинается с Lead.
   
   Для обеих групп учитывать только клиентов старше 35 лет. Объединить выборки с помощью UNION ALL.


In [27]:
query3 = """

    WITH customers_IT AS (
      SELECT customer_id
            ,job_title
            ,job_industry_category
            ,CAST(DATE_PART('year', AGE(DOB)) AS INT) age
      FROM customer
      WHERE job_industry_category = 'IT'
            AND STARTS_WITH(job_title, 'Senior')
    )
    ,customers_FS AS (
      SELECT customer_id
            ,job_title
            ,job_industry_category
            ,CAST(DATE_PART('year', AGE(DOB)) AS INT) age
      FROM customer
      WHERE job_industry_category = 'Financial Services'
            AND STARTS_WITH(job_title, 'Lead')
    )
    SELECT * FROM (
      SELECT * FROM customers_IT
      UNION ALL
      SELECT * FROM customers_FS
    ) AS customers
    WHERE customers.age > 35
    ;

"""

execute_query(query3)

Unnamed: 0,customer_id,job_title,job_industry_category,age
0,1418,Senior Sales Associate,IT,48
1,2039,Senior Developer,IT,47


#### 4. Вывести бренды, которые были куплены клиентами из сферы Financial Services, но не были куплены клиентами из сферы IT.

In [28]:
query4 = """

  WITH full_items AS (
    SELECT brand, job_industry_category
      FROM orders
      INNER JOIN customer ON customer.customer_id = orders.customer_id
      INNER JOIN order_items ON order_items.order_id = orders.order_id
      INNER JOIN product ON order_items.product_id = product.product_id
      ORDER BY brand
    )
    SELECT brand, job_industry_category
    FROM full_items
    WHERE job_industry_category = 'Financial Services'
          AND brand NOT IN (
            SELECT brand
            FROM full_items
            WHERE job_industry_category = 'IT'
          )
  ;

"""

execute_query(query4)

Unnamed: 0,brand,job_industry_category


#### 5. Вывести 10 клиентов (ID, имя, фамилия), которые совершили наибольшее количество онлайн-заказов (в штуках) брендов Giant Bicycles, Norco Bicycles, Trek Bicycles, при условии, что они активны и имеют оценку имущества (property_valuation) выше среднего среди клиентов из того же штата.

In [29]:
query5 = """
    WITH avg_property_val_state AS (
        SELECT state, AVG(property_valuation) avg_property_val
        FROM customer
        GROUP BY state
    )
    ,target_customers AS (
        SELECT customer_id, first_name, last_name
              --,property_valuation, mspv.state, avg_property_valuation_state
        FROM customer c
        INNER JOIN avg_property_val_state apvs ON apvs.state = c.state
        WHERE c.deceased_indicator = 'N'
              AND c.property_valuation > apvs.avg_property_val
    )
    , top_10_orders_cnt AS (
        SELECT tc.customer_id ID, tc.first_name, tc.last_name, COUNT(quantity)
        FROM target_customers tc
        INNER JOIN orders o ON o.customer_id = tc.customer_id
        INNER JOIN order_items oi ON oi.order_id = o.order_id
        INNER JOIN product p ON p.product_id = oi.product_id
        WHERE online_order
            AND brand IN ('Giant Bicycles', 'Norco Bicycles', 'Trek Bicycles')
        GROUP BY tc.customer_id, tc.first_name, tc.last_name
        ORDER BY count DESC
        LIMIT 10
    )
    SELECT ID, first_name, last_name
    FROM top_10_orders_cnt
    ;

"""

execute_query(query5)

Unnamed: 0,id,first_name,last_name
0,714,Burtie,Scintsbury
1,1480,Bird,Diess
2,1640,Erie,Worswick
3,2240,Niall,Hallifax
4,3326,Wes,Crotch
5,3375,Thorsten,Gregon
6,1817,Jozef,Frizzell
7,3251,Cammie,Edridge
8,86,Job,Sleney
9,2358,Ave,Peatt


#### 6. Вывести всех клиентов (ID, имя, фамилия), у которых нет подтвержденных онлайн-заказов за последний год, но при этом они владеют автомобилем и их сегмент благосостояния не Mass Customer.

In [30]:
query6 = """
    WITH target_customers AS (
        SELECT customer_id, first_name, last_name
        FROM customer
        WHERE owns_car = 'Yes' AND wealth_segment != 'Mass Customer'
    )
    ,online_orders AS (
        SELECT *
        FROM orders
        WHERE online_order = True
        -- как определить период "за последний год", если у нас всего один 2017й год?
        -- если выводить за последний год, то получится пустой список
    )

    SELECT tc.customer_id ID, tc.first_name, tc.last_name
    FROM target_customers tc
    INNER JOIN online_orders oo ON oo.customer_id = tc.customer_id
    WHERE oo.order_status != 'Approved' OR oo.order_status IS NULL
    ;

"""

execute_query(query6)

Unnamed: 0,id,first_name,last_name
0,1186,Brantley,Cecchi
1,2253,Gracie,Kubacki
2,3285,Mendie,Teresi
3,399,Nickie,Neissen
4,2202,Diannne,Neissen
5,2922,Wallache,Tatlow
6,1422,Georgy,Rickwood
7,1725,Corena,Postlewhite
8,33,Ernst,Hacon
9,2122,Osborne,Nawton


#### 7. Вывести всех клиентов из сферы 'IT' (ID, имя, фамилия), которые купили 2 из 5 продуктов с самой высокой list_price в продуктовой линейке Road.

In [31]:
query7 = """
    WITH target_customers AS (
        SELECT customer_id ID, first_name, last_name
        FROM customer
        WHERE job_industry_category = 'IT'
    )
    ,top_5_cost_road AS (
        SELECT product_id
        FROM product
        WHERE product_line = 'Road'
        ORDER BY list_price DESC
        LIMIT 5
    )
    SELECT tc.id, tc.first_name, tc.last_name, COUNT(DISTINCT oi.product_id)
    FROM target_customers tc
    INNER JOIN orders o ON o.customer_id = tc.id
    INNER JOIN order_items oi ON oi.order_id = o.order_id
    WHERE oi.product_id IN (
        SELECT *
        FROM top_5_cost_road
    ) AND order_status = 'Approved'
    GROUP BY tc.id, tc.first_name, tc.last_name
    HAVING COUNT(DISTINCT oi.product_id) >= 2
    ORDER BY id
    ;

"""

execute_query(query7)

Unnamed: 0,id,first_name,last_name,count
0,799,Harland,Spilisy,2
1,983,Shaylyn,Riggs,2
2,1683,Brenn,Bacon,2
3,1791,Ninon,Van Der Hoog,2
4,1820,Yard,Teeney,2
5,1887,Kynthia,Purcer,2
6,3406,Lucy,Lackmann,2


#### 8. Вывести клиентов (ID, имя, фамилия, сфера деятельности) из сфер IT или Health, которые совершили не менее 3 подтвержденных заказов в период 2017-01-01 по 2017-03-01, и при этом их общий доход от этих заказов превышает 10 000 долларов.

Разделить вывод на две группы (IT и Health) с помощью UNION.

In [43]:
query8 = """
    WITH target_customers AS (
        SELECT customer_id ID, first_name, last_name
            --,job_industry_category
        FROM customer
        WHERE job_industry_category IN ('IT', 'Health')
    )
    ,top_5_cost_road AS (
        SELECT *
        FROM orders
        WHERE order_status = 'Approved' 
            AND order_date 
                BETWEEN '2017-01-01' 
                    AND CAST('2017-03-01' AS date) - INTERVAL '1 day'
        ORDER BY order_date
    )
    SELECT *
    FROM top_5_cost_road
    --SELECT tc.id, tc.first_name, tc.last_name, COUNT(DISTINCT oi.product_id)
    --FROM target_customers tc
    --INNER JOIN orders o ON o.customer_id = tc.id
    --INNER JOIN order_items oi ON oi.order_id = o.order_id
    --WHERE oi.product_id IN (
    --    SELECT *
    --    FROM top_5_cost_road
    --) AND order_status = 'Approved'
    --GROUP BY tc.id, tc.first_name, tc.last_name
    --HAVING COUNT(DISTINCT oi.product_id) >= 2
    --ORDER BY id
    ;

"""

execute_query(query8)

Unnamed: 0,order_id,customer_id,order_date,online_order,order_status
0,15205,123,2017-01-01,False,Approved
1,517,311,2017-01-01,True,Approved
2,11468,2686,2017-01-01,False,Approved
3,2276,2843,2017-01-01,False,Approved
4,15138,1022,2017-01-01,True,Approved
...,...,...,...,...,...
3281,14654,2211,2017-02-28,False,Approved
3282,6323,467,2017-02-28,False,Approved
3283,13485,237,2017-02-28,True,Approved
3284,847,183,2017-02-28,False,Approved


In [None]:
gi

In [36]:
(
    orders
    .head(2)
)

Unnamed: 0,order_id,customer_id,order_date,online_order,order_status
0,1,2950,2017-02-25,False,Approved
1,2,3120,2017-05-21,True,Approved


In [None]:
orders.order_date.min()

In [None]:
customer
order_items
orders
product

In [None]:
conn.close()