### Домашнее задание 2. Основные операторы PostgreSQL

#### 1. Создание таблиц по csv таблицам

In [1]:
import pandas as pd
import os

os.environ["PGPASSWORD"] = "mypassword"

customer_pd = pd.read_csv("raw_data/customer.csv", sep=';')
order_items_pd = pd.read_csv("raw_data/order_items.csv")
orders_pd = pd.read_csv("raw_data/orders.csv")
products_pd = pd.read_csv("raw_data/product.csv")

products_pd

Unnamed: 0,product_id,brand,product_line,product_class,product_size,list_price,standard_cost
0,14,Trek Bicycles,Standard,medium,small,1386.84,1234.29
1,28,Norco Bicycles,Standard,medium,small,1216.14,1082.36
2,0,Solex,Standard,medium,medium,71.49,53.62
3,5,Giant Bicycles,Standard,high,medium,1129.13,677.48
4,22,WeareA2B,Standard,medium,medium,60.34,45.26
...,...,...,...,...,...,...,...
185,74,WeareA2B,Standard,medium,medium,1228.07,400.91
186,20,Trek Bicycles,Standard,medium,small,1775.81,1580.47
187,16,Norco Bicycles,Standard,high,small,1661.92,1479.11
188,29,WeareA2B,Standard,medium,medium,1065.03,230.09


In [2]:
import pandas as pd
from sqlalchemy import create_engine, text, MetaData, inspect


engine = create_engine("postgresql+psycopg2://myuser:mypassword@localhost:5432/mydb")


def run_sql_script(file_path, params=None):
    with open(file_path) as file:
        sql_script = file.read()
    with engine.begin() as conn:
        conn.execute(text(sql_script), params)


def run_query(file_path, params=None):
    with open(file_path) as file:
        sql_script = file.read()
    return pd.read_sql(text(sql_script), engine)


def drop_all_tables():
    meta = MetaData()
    meta.reflect(bind=engine)
    meta.drop_all(bind=engine)

In [3]:
# Ячейка для сброса всех добавленных таблиц для экспериментов
drop_all_tables()

Далее напишем и выполним [sql запрос для создания схемы бд](./sql/create_db_schema.sql).

Также, создадим отдельно _product\_raw_ таблицу, без primary key. Она будет содержать все записи `product.csv`, т.к. в этой таблице есть некорректные записи.

In [4]:
run_sql_script("sql/init/create_db_schema.sql")
run_sql_script("sql/init/create_product_raw_table.sql")

tables = inspect(engine).get_table_names(schema="public")
print(f"Created tables: {tables}")

Created tables: ['customer', 'orders', 'order_items', 'product', 'product_raw']


Добавим данные из .csv таблиц в базу данных.

Заметим, что в `product.csv`, содержится некорректная запись:

```csv
0,"","","","",16.08,
```

Ее мы предварительно удалим из исходной таблицы.

Так же, для того что бы в таблице _product_ были только уникальные продукты, без дублирования id. Применим [copy_from_product_raw_to_product.sql](./sql/copy_from_product_raw_to_product.sql) скрипт, для заполнения таблици _product_ корректными значениями.

В таблице _orders_ был обнаружен customer_id = 5034, которого нет в _customer_ таблице. В _order\_items_ нет order_id [8708, 16701, 17469]. Удалим их из исходной таблицы.

In [5]:
# Удаляем мусорную запись из product.
products_pd = products_pd[~(
    (products_pd['product_id'] == 0) &
    (products_pd['brand'].isna())
)]

products_pd.to_sql("product_raw", engine, if_exists="append", index=False)
# Копируем в product только уникальные продукты из product_raw.
run_sql_script("sql/init/copy_from_product_raw_to_product.sql")

customer_pd.to_sql("customer", engine, if_exists="append", index=False)

# Удаляем запись для которой нет customer_id.
orders_pd = orders_pd[~(
    (orders_pd['customer_id'] == 5034)
)]
orders_pd.to_sql("orders", engine, if_exists="append", index=False)

# Удаляем записи для которых нет order_id.
missing_order_ids = [8708, 16701, 17469]
for missing_id in missing_order_ids:
    order_items_pd = order_items_pd[~(
        (order_items_pd['order_id'] == missing_id)
    )]

order_items_pd.to_sql("order_items", engine, if_exists="append", index=False)

997

Проверим сколько записей в каждой из таблиц после добавления.

In [6]:
def table_records_size(table_name: str) -> int:
    with engine.connect() as conn:
        result = conn.execute(text(f"SELECT COUNT(*) FROM {table_name}"))
        count = result.scalar()
    return count


for table in tables:
    print(f"Records in {table}: {table_records_size(table)}")

Records in customer: 4000
Records in orders: 19997
Records in order_items: 19997
Records in product: 101
Records in product_raw: 189


#### 2. Выполнение запросов

##### Запрос 1

Вывести все уникальные бренды, у которых есть хотя бы один продукт со стандартной стоимостью выше 1500 долларов, и который был продан как минимум 1000 раз (суммарное количество)

- [query_1.sql](sql/queries/query_1.sql)

In [7]:
run_query("sql/queries/query_1.sql")

Unnamed: 0,brand
0,Giant Bicycles
1,OHM Cycles


##### Запрос 2

Для каждого дня в диапазоне с 2017-04-01 по 2017-04-09 включительно вывести количество подтвержденных онлайн-заказов и количество уникальных клиентов, совершивших эти заказы

- [query_2.sql](sql/queries/query_2.sql)

In [8]:
run_query("sql/queries/query_2.sql")

Unnamed: 0,date,approved_online_orders,unique_customers
0,2017-04-01,37,37
1,2017-04-02,29,29
2,2017-04-03,27,27
3,2017-04-04,32,32
4,2017-04-05,33,32
5,2017-04-06,36,36
6,2017-04-07,24,24
7,2017-04-08,33,33
8,2017-04-09,30,30


##### Запрос 3

Вывести профессии для клиентов, которые: находятся в сфере 'IT' И их профессия начинается с Senior, находятся в сфере 'Financial Services' и их профессия начинается с Lead. При этом для обоих пунктов учесть, что возраст клиентов должен быть старше 35 лет. Использовать UNION ALL для объединения 2 пунктов

- [query_3.sql](sql/queries/query_3.sql)

In [9]:
run_query("sql/queries/query_3.sql")

Unnamed: 0,job_title
0,Senior Sales Associate
1,Senior Developer


##### Запрос 4

Вывести бренды, которые были куплены клиентами из сферы Financial Services, но НЕ были куплены клиентами из сферы IT

- [query_4.sql](sql/queries/query_4.sql)

In [10]:
run_query("sql/queries/query_4.sql")

Unnamed: 0,brand


Результат пустой. Действительно, если посмотреть по данным, то не найдется такого бренда, который купил кто-то из Financial Service, но не купил из IT.

##### Запрос 5

Вывести 10 клиентов (ID, имя, фамилия), которые совершили наибольшее количество онлайн-заказов (в штуках) брендов Giant Bicycles, Norco Bicycles, Trek Bicycles, при условии, что они активны и имеют оценку имущества (property_valuation) выше среднего по их штату

- [query_5.sql](sql/queries/query_5.sql)

In [11]:
run_query("sql/queries/query_5.sql")

Unnamed: 0,customer_id,first_name,last_name,orders_number
0,787,Norma,Batrim,6
1,2595,Land,Bangley,5
2,1,Laraine,Medendorp,5
3,1117,Georgena,Guilaem,5
4,2498,Rosana,Emmatt,5
5,353,Antonia,Cardis,5
6,2072,Margie,Tillyer,5
7,273,Nevile,Abraham,5
8,1033,Jacob,Claringbold,5
9,2637,Marcile,Christley,5


##### Запрос 6

Вывести всех клиентов (ID, имя, фамилия), у которых нет подтвержденных онлайн-заказов за последний год, но при этом они владеют автомобилем и их сегмент благосостояния не Mass Customer.

- [query_6.sql](sql/queries/query_6.sql)

In [12]:
run_query("sql/queries/query_6.sql")

Unnamed: 0,customer_id,first_name,last_name
0,5,Sheila-kathryn,Calton
1,6,Curr,Duckhouse
2,7,Fina,Merali
3,9,Mala,Lind
4,13,Gabriele,Norcross
...,...,...,...
1027,3976,Gretel,Chrystal
1028,3989,Nicolas,Burdass
1029,3992,Germain,Tireman
1030,3997,Blanch,Nisuis


##### Запрос 7

Вывести всех клиентов из сферы IT (ID, имя, фамилия), которые купили 2 из 5 продуктов с самой высокой list_price в продуктовой линейке Road

- [query_7.sql](sql/queries/query_7.sql)

In [13]:
run_query("sql/queries/query_7.sql")

Unnamed: 0,customer_id,first_name,last_name
0,604,Mella,Petrovsky
1,983,Shaylyn,Riggs
2,1683,Brenn,Bacon
3,2469,Kermie,Hedger
4,3406,Lucy,Lackmann


##### Запрос 8

Вывести клиентов (ID, имя, фамилия, сфера деятельности) из сферы IT или Health, которые совершили не менее 3 подтвержденных заказов в период 2017-01-01 по 2017-03-01 и при этом их общий доход от этих заказов превышает 10000 долларов.
Разделить вывод на две группы (IT и Health) с помощью UNION

- [query_8.sql](sql/queries/query_8.sql)

In [14]:
run_query("sql/queries/query_8.sql")

Unnamed: 0,customer_id,first_name,last_name,job_industry_category
0,64,Gerek,Yve,IT
1,167,Nathalie,Tideswell,Health
2,173,Ebba,Hanselmann,Health
3,250,Kristofer,,Health
4,255,Keeley,Kruger,IT
5,394,Roanne,Cowthard,Health
6,424,Dennie,Eunson,Health
7,513,Kienan,Soar,IT
8,590,Ddene,Burleton,Health
9,607,Adelaida,Redmond,Health
