In [None]:
import pandas as pd
from sqlalchemy import text, create_engine, inspect


In [None]:
# Проверка, что сервер PostgreSQL запущен

!systemctl status postgresql


[0;1;32m●[0m postgresql.service - PostgreSQL RDBMS
     Loaded: loaded (]8;;file://acer-wsl/lib/systemd/system/postgresql.service/lib/systemd/system/postgresql.service]8;;; enabled; vendor preset: enabled)
     Active: [0;1;32mactive (exited)[0m since Tue 2025-12-09 10:23:01 MSK; 52min ago
    Process: 370 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 370 (code=exited, status=0/SUCCESS)
        CPU: 1ms

Dec 09 10:23:01 acer-wsl systemd[1]: Starting PostgreSQL RDBMS...
Dec 09 10:23:01 acer-wsl systemd[1]: Finished PostgreSQL RDBMS.


In [None]:
# Создание подключения к БД PostgreSQL

with open('./password.txt', encoding='UTF-8') as f:
    password = f.readline()

try:
    engine = create_engine(
        f"postgresql://soloveven:{password}@localhost:5432/homework3"
    )
    conn = engine.connect()
    print('Соединение успешно установлено!')
except:
    print('Ошибка подключения!')


Соединение успешно установлено!


In [None]:
# Функция проверки, что БД PostgreSQL пуста и не имеет таблиц.

def check_db_tables(engine):
    tables_list = inspect(engine).get_table_names
    if not tables_list():
        print('Таблицы в БД отсутствуют:', tables_list())

    else:
        print('Имеющиеся в БД таблицы:', *tables_list(), sep='\n  >> ')

    return tables_list()


In [None]:
# Проверка таблиц в БД PostgreSQL

tables = check_db_tables(engine)


Таблицы в БД отсутствуют: []


### Шаг 1. Создать таблицы с перечисленными ниже структурами, используя CSV-файлы.

#### Чтение csv таблиц

In [6]:
# Загрузка csv в Pandas DataFrame

customer = pd.read_csv('./data-samples/customer.csv',
                       delimiter=';',
                       dtype={'postcode': str})

order_items = pd.read_csv('./data-samples/order_items.csv',
                          delimiter=',',
                          dtype={'quantity': int})

orders = pd.read_csv('./data-samples/orders.csv', delimiter=',')

product = pd.read_csv('./data-samples/product.csv', delimiter=',')

print("customer shape:", customer.shape)
print("order_items shape:", order_items.shape)
print("orders shape:", orders.shape)
print("product shape:", product.shape)

customer shape: (4000, 15)
order_items shape: (20000, 6)
orders shape: (20000, 5)
product shape: (190, 7)


#### Создание таблиц в БД PostreSQL

In [7]:
# Транзакции на создание таблиц в БД PostgreSQL

create_tables_query = """
    CREATE TABLE IF NOT EXISTS customer (
         customer_id INT4 PRIMARY KEY
        ,first_name VARCHAR(128) NOT NULL
        ,last_name VARCHAR(128)
        ,gender VARCHAR(128) NOT NULL
        ,DOB DATE
        ,job_title VARCHAR(128)
        ,job_industry_category VARCHAR(128)
        ,wealth_segment VARCHAR(128) NOT NULL
        ,deceased_indicator VARCHAR(128) NOT NULL
        ,owns_car VARCHAR(128) NOT NULL
        ,address VARCHAR(128) NOT NULL
        ,postcode VARCHAR(128) NOT NULL
        ,state VARCHAR(128) NOT NULL
        ,country VARCHAR(128) NOT NULL
        ,property_valuation INT2 NOT NULL
    );

    CREATE TABLE IF NOT EXISTS order_items (
         order_item_id INT4 PRIMARY KEY
        ,order_id INT4 NOT NULL
        ,product_id INT4 NOT NULL
        ,quantity INT4 NOT NULL
        ,item_list_price_at_sale FLOAT4 NOT NULL
        ,item_standard_cost_at_sale FLOAT4
    );

    CREATE TABLE IF NOT EXISTS orders (
         order_id INT4 PRIMARY KEY
        ,customer_id INT4 NOT NULL
        ,order_date DATE NOT NULL
        ,online_order BOOLEAN
        ,order_status VARCHAR(128) NOT NULL
    );

    CREATE TABLE IF NOT EXISTS product (
         product_id INT4 NOT NULL
        ,brand VARCHAR(128)
        ,product_line VARCHAR(128)
        ,product_class VARCHAR(128)
        ,product_size VARCHAR(128)
        ,list_price FLOAT4 NOT NULL
        ,standard_cost FLOAT4
    )
"""

In [8]:
# Проводка транзакций на создание таблиц в БД PostgreSQL

conn.execute(text(create_tables_query));

In [9]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Загрузка данных в таблицы БД PostgreSQL

In [10]:
# Транзакция на загрузку в БД PostgreSQL таблицы `customer`

load_table_customer_query = """

    INSERT INTO customer (
        customer_id, first_name, last_name, gender, DOB, job_title,
        job_industry_category, wealth_segment, deceased_indicator, owns_car,
        address, postcode, state, country, property_valuation

    ) VALUES (:customer_id
             ,:first_name
             ,NULLIF(:last_name, 'NaN')
             ,:gender
             ,CAST(NULLIF(CAST(:DOB AS TEXT), 'NaN') AS DATE)
             ,NULLIF(:job_title, 'NaN')
             ,NULLIF(:job_industry_category, 'NaN')
             ,:wealth_segment
             ,:deceased_indicator
             ,:owns_car
             ,:address
             ,:postcode
             ,:state
             ,:country
             ,:property_valuation)
"""

In [11]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `customer`

conn.execute(text(load_table_customer_query),
             customer.to_dict('records'));

In [12]:
# Транзакция на загрузку в БД PostgreSQL таблицы `order_items`

load_table_order_items_query = """

    INSERT INTO order_items (
        order_item_id, order_id, product_id, quantity, item_list_price_at_sale,
        item_standard_cost_at_sale
    
    ) VALUES (:order_item_id
             ,:order_id
             ,:product_id
             ,:quantity
             ,:item_list_price_at_sale
             ,NULLIF(:item_standard_cost_at_sale, 'NaN'))
"""

In [13]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `order_items`

conn.execute(text(load_table_order_items_query),
             order_items.to_dict('records'));

In [14]:
# Транзакция на загрузку в БД PostgreSQL таблицы `orders`

load_table_orders_query = """

    INSERT INTO orders (
        order_id, customer_id, order_date, online_order, order_status

    ) VALUES (:order_id
             ,:customer_id
             ,CAST(:order_date AS DATE)
             ,CAST(NULLIF(CAST(:online_order AS TEXT), 'NaN') AS BOOLEAN)
             ,:order_status)
"""

In [15]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `orders`

conn.execute(text(load_table_orders_query),
             orders.to_dict('records'));

In [16]:
# Транзакция на загрузку в БД PostgreSQL таблицы `product`

load_table_product_query = """

    INSERT INTO product (
        product_id, brand, product_line, product_class, product_size,
        list_price, standard_cost

    ) VALUES (:product_id
             ,NULLIF(:brand, 'NaN')
             ,NULLIF(:product_line, 'NaN')
             ,NULLIF(:product_class, 'NaN')
             ,NULLIF(:product_size, 'NaN')
             ,:list_price
             ,CAST(NULLIF(CAST(:standard_cost AS TEXT), 'NaN') AS FLOAT4))
"""

In [17]:
# Проводка транзакции на загрузку в БД PostgreSQL таблицы `product`

conn.execute(text(load_table_product_query),
             product.to_dict('records'));

In [18]:
# Транзакция на удаление дубликатов в таблице `product` БД PostgreSQL

correction_product_table = """
    CREATE TABLE product_cor AS SELECT product_id
                                      ,brand
                                      ,product_line
                                      ,product_class
                                      ,product_size
                                      ,list_price
                                      ,standard_cost
	FROM (
        SELECT *
              ,row_number() over(partition by product_id ORDER BY list_price desc) AS rn
        FROM product
    ) AS rm where rn = 1

"""

In [19]:
# Проводка транзакции на удаление дубликатов в таблице `product` БД PostgreSQL

conn.execute(text(correction_product_table));

In [20]:
# Фиксация изменений в БД PostgreSQL

conn.commit();

#### Проверка созданных таблиц

In [21]:
check_db_tables(engine);

Имеющиеся в БД таблицы:
  >> order_items
  >> orders
  >> customer
  >> product
  >> product_cor


<div style="text-align: center;">
  <img src="./misc/images/exists_tables.png" width=1050/>
  <p>Визуальная проверка существования таблиц</p>
</div>


In [22]:
# Удаление таблиц pandas

del customer 
del order_items
del orders
del product

### Шаг 2. Выполнить следующие запросы:

In [None]:
# Вспомогательные функции получения результатов выполнения транзакции

def get_query(query):
    """
    Считывает содержимое SQL-файла из директории SQL_scripts.
    
    Функция читает SQL-скрипт из файла, расположенного в поддиректории 
    SQL_scripts, и возвращает его содержимое в виде строки.
    
    Parameters
    ----------
    query : str
        Имя SQL-файла без расширения .sql.
        
    Returns
    -------
    str
        Полное содержимое SQL-файла.
        
    Notes
    -----
    Файл должен находиться в директории SQL_scripts и иметь расширение .sql.
    Функция автоматически добавляет путь SQL_scripts/ и расширение .sql.
    
    Examples
    --------
    >>> get_query('query1')
    'select * from customers...'
    
    Author
    ------
    Solovev EN
    """
    with open(f"SQL_scripts/{query}.sql", 'r', encoding='UTF-8') as f:
        query = f.read()
    return query

def execute_query(query='', show_script=False):
    """
    Выполняет SQL-запрос из файла и возвращает результаты в виде DataFrame.
    
    Функция выполняет коммит текущей транзакции, загружает SQL-скрипт 
    из указанного файла с помощью get_query(), выполняет запрос через 
    соединение с базой данных и возвращает результат в виде pandas DataFrame.
    
    Parameters
    ----------
    query : str, optional
        Имя SQL-файла без расширения .sql. По умолчанию - пустая строка.
    show_script : bool, optional
        Флаг для отображения выполняемого SQL-скрипта в консоли.
        По умолчанию False.
        
    Returns
    -------
    pandas.DataFrame
        Результаты выполнения SQL-запроса.
        
    See Also
    --------
    get_query : Функция загрузки SQL-скрипта из файла.
    
    Notes
    -----
    Перед выполнением запроса выполняется коммит текущей транзакции (conn.commit()).
    
    Examples
    --------
    >>> df = execute_query('query1', show_script=True)
    select * from customers...
    >>> print(df.shape)
    (100, 5)
    
    Author
    ------
    Solovev EN
    """
    conn.commit()
    query = get_query(query)
    if show_script:
        print(query)
    return pd.read_sql_query(query, con=conn, params=None)


#### 1. Вывести распределение (количество) клиентов по сферам деятельности, отсортировав результат по убыванию количества.

In [None]:
execute_query("query1", False)


Unnamed: 0,job_industry_category,num_customers
0,Manufacturing,799
1,Financial Services,774
2,n\a,656
3,Health,602
4,Retail,358
5,Property,267
6,IT,223
7,Entertainment,136
8,Argiculture,113
9,Telecommunications,72


#### 2. Найти общую сумму дохода (list_price*quantity) по всем подтвержденным заказам за каждый месяц по сферам деятельности клиентов. Отсортировать результат по году,месяцу и сфере деятельности.

In [None]:
execute_query("query2", False)


Unnamed: 0,job_industry_category,year,month,revenue
0,Argiculture,2017.0,1.0,232148.24
1,Entertainment,2017.0,1.0,342541.16
2,Financial Services,2017.0,1.0,2032708.45
3,Health,2017.0,1.0,1570012.48
4,IT,2017.0,1.0,604949.53
...,...,...,...,...
115,Manufacturing,2017.0,12.0,1821976.45
116,Property,2017.0,12.0,654253.28
117,Retail,2017.0,12.0,862122.87
118,Telecommunications,2017.0,12.0,137207.63


#### 3. Вывести количество уникальных онлайн-заказов для всех брендов в рамках подтвержденных заказов клиентов из сферы IT. Включить бренды, у которых нет онлайн-заказовот IT-клиентов, — для них должно быть указано количество 0.

In [None]:
execute_query("query3", False)


Unnamed: 0,brand,num_orders
0,OHM Cycles,113
1,Giant Bicycles,102
2,Solex,101
3,WeareA2B,87
4,Trek Bicycles,78
5,Norco Bicycles,59


#### 4. Найти по всем клиентам: сумму всех заказов (общего дохода), максимум, минимум и количество заказов, а также среднюю сумму заказа по каждому клиенту. Отсортироватьрезультат по убыванию суммы всех заказов и количества заказов. Выполнить двумя способами: используя только GROUP BY и используя только оконные функции. Сравнитьрезультат.

In [None]:
execute_query("query4", False)


Unnamed: 0,customer_id,sum_revenue,max_revenue,min_revenue,num_orders,avg_revenue
0,3783,,,,0,
1,3725,,,,0,
2,3726,,,,0,
3,3837,,,,0,
4,3836,,,,0,
...,...,...,...,...,...,...
20499,2089,598.00,416.98,181.02,2,299.00
20500,301,432.93,290.61,142.32,2,216.46
20501,301,432.93,290.61,142.32,2,216.46
20502,2532,71.48,71.48,71.48,1,71.48


#### 5. Найти имена и фамилии клиентов с топ-3 минимальной и топ-3 максимальной суммой транзакций за весь период (учесть клиентов, у которых нет заказов, приняв их суммутранзакций за 0).

In [None]:
execute_query("query5", False)


Unnamed: 0,first_name,last_name,amount,top3_min_amount,top3_max_amount
0,Hildy,Bilbrook,432.94,3,3492
1,Tye,Doohan,129789.93,3492,3
2,Jeffry,Slowly,133657.05,3493,2
3,Jillie,Fyndon,136632.46,3494,1
4,Milli,Hubbert,71.48,2,3493
5,Hamlen,Slograve,60.34,1,3494


#### 6. Вывести только вторые транзакции клиентов (если они есть) с помощью оконных функций. Если у клиента меньше двух транзакций, он не должен попасть в результат.

In [None]:
execute_query("query6", False)


Unnamed: 0,order_id,customer_id,order_date,online_order,order_status
0,1,2950,2017-02-25,False,Approved
1,17,2426,2017-04-03,False,Approved
2,18,1842,2017-06-02,False,Approved
3,30,1173,2017-03-15,False,Approved
4,31,2810,2017-09-05,True,Approved
...,...,...,...,...,...
3439,19931,2827,2017-09-07,True,Approved
3440,19960,816,2017-11-06,True,Approved
3441,19973,1188,2017-05-13,True,Approved
3442,19978,932,2017-10-08,True,Approved


#### 7. Вывести имена, фамилии и профессии клиентов, а также длительность максимального интервала (в днях) между двумя последовательными заказами. Исключить клиентов, укоторых только один или меньше заказов.

In [None]:
execute_query("query7", False)


Unnamed: 0,first_name,last_name,job_title,max_interval_days
0,Susanetta,n\a,Legal Assistant,357
1,Gregorius,Cockram,Data Coordiator,330
2,Stoddard,Giacomoni,Structural Analysis Engineer,330
3,Royall,Terris,Geological Engineer,330
4,Bearnard,Letixier,n\a,329
...,...,...,...,...
3439,Ibrahim,Wibrew,n\a,1
3440,Jacky,Jerosch,Senior Developer,1
3441,Alie,Sowle,Budget/Accounting Analyst II,1
3442,Consolata,Clacson,Geologist IV,1


#### 8. Найти топ-5 клиентов (по общему доходу) в каждом сегменте благосостояния (wealth_segment). Вывести имя, фамилию, сегмент и общий доход. Если в сегменте менее 5клиентов, вывести всех.

Разделить вывод на две группы (IT и Health) с помощью UNION.

In [None]:
execute_query("query8", False)


Unnamed: 0,first_name,last_name,wealth_segment,amount,rn
0,Jeffry,Slowly,Affluent Customer,133657.05,1
1,Tye,Doohan,Affluent Customer,129789.93,2
2,Herc,McIlhone,Affluent Customer,107476.68,3
3,Queenie,Flips,Affluent Customer,106182.32,4
4,Jessamine,Brazear,Affluent Customer,98618.77,5
5,Mercy,Wilsone,High Net Worth,109334.73,1
6,Lockwood,Exroll,High Net Worth,92405.18,2
7,Linell,n\a,High Net Worth,91450.18,3
8,Gayelord,Lipman,High Net Worth,90493.05,4
9,Jonell,Gon,High Net Worth,87555.69,5


In [None]:
conn.close()


### Оценка преподавателя

<div style="text-align: center;">
  <img src="./misc/images/review.png" width=1050/>
  <p>Отзыв преподавателя о выполненной работе</p>
</div>
