## 1. Импорт библиотек

In [2]:
# pip install psycopg2

In [4]:
import pandas as pd
from sqlalchemy import create_engine
from sqlalchemy import text

## 2. Оценка данных и их нормальной формы

> **При первичном визуальном анализе в Excel видно, что таблица ```transactions``` находится в 1 НФ**  
> об этом говорит следующее:
> - столбец ```transactions.product_id``` не является уникальным значением для товаров, при одинаковом значении id могут быть разные товары что также некорректно
> ![Снимок экрана 2025-11-12 в 20.48.10.png](attachment:1d3b3ef0-f639-4d64-b4f1-f3b036ed52ff.png)
> ![Снимок экрана 2025-11-12 в 20.57.19.png](attachment:2c4be493-4a7d-480c-bb22-48abdf0ca2c5.png)
> - одинаковые товары с одинаковым ```transactions.product_id``` также могут иметь разную цену в ```transactions.list_price``` и ```transactions.standard_cost```:
> ![Снимок экрана 2025-11-12 в 21.01.43.png](attachment:ff64f215-01d3-45b1-b539-f86cc55918a3.png)
> 
> - ```transactions.customer_id``` имееет значения более 4000, хотя максимальное значение таблицы ```customer``` - это 4000
> - нарушение 2НФ выражено тем, что в transaction смешаны данные о транзакциях и продуктах
> - нарушение 3НФ: транзитивные зависимости (адрес и property_valuation)

## 3. Создание ER-схемы

Исходная структура:
```
Table "customer_old" {
	"customer_id" integer
	"first_name" text
	"last_name" text
	"gender" text
	"dob" timestamp
	"job_title" text
	"job_industry_category" text
	"wealth_segment" text
	"deceased_indicator" text
	"owns_car" text
	"address" text
	"postcode" integer
	"state" text
	"country" text
	"property_valuation" text
}


Table "transaction_old" {
	"transaction_id" integer
	"product_id" integer
	"customer_id" integer
	"transaction_date" text
	"online_order" boolean
	"order_status" text
	"brand" text
	"product_line" text
	"product_class" text
	"product_size" text
	"list_price" text
	"standard_cost" text
}
```
![Снимок экрана 2025-11-16 в 17.46.10.png](attachment:256d2b63-a717-4010-a7ff-9262fcbab0b6.png)

**Cпроектируем структуру таблицы исходя из приведения к 3НФ**:

Для этого разобъём структуру на блоки
___
**Блок 1: Клиенты**  
Таблица `customer` - "Паспорт клиента"  
Основная информация: ФИО, пол, дата рождения  
Работа: должность, отрасль, сегмент богатства  
Статус: жив/умер, есть ли машина  

Таблица `customer_address` - "История адресов"  
Один клиент но несколько адресов в разное время  
Как в паспорте штампы о прописке - видно где жил раньше  
`valid_from` - когда начал жить по этому адресу  
`valid_to` - когда переехал  

Справочники - "Списки значений"  
`wealth_segment` - варианты богатства ("Богатый", "Средний", "Бюджетный")  
`job_industry_category` - отрасли работы  
___
**Блок 2: Товары**  
Таблица `product` - "Карточка товара"  
Не содержит цен, только характеристики  
Как паспорт товара: бренд, линейка, класс, размер  

Таблица `product_price` - "История цен"  
Цены меняются - храним когда и почём  
`valid_from` - с какой даты действует цена  
`is_current` - актуальна ли сейчас эта цена  

Справочники товаров - "Каталоги характеристик"  
`brand` - бренды ("Trek", "Giant")  
`product_line` - линейки ("Горный", "Шоссейный")  
`product_class` - классы ("Бюджет", "Премиум")  
`product_size` - размеры ("S", "M", "L") 
___
**Блок 3: Продажи**  
Таблица `transaction` - "Чек из магазина"  
Кто купил `customer_id`  
Что купил `product_id`  
Когда купил `transaction_date`  
Онлайн или в магазине  
Статус заказа  
Цены на момент покупки  
___
**Логика структуры оналйн-магазина:**

Клиент заходит в магазин - смотрим в таблицу customer
Выбирает товар - смотрим в product + актуальную цену из product_price
Покупает - создаём запись в transaction
Меняет адрес - добавляем новую запись в customer_address

**За счёт этого приводим к 3НФ, так как:**
- Нет дублирования - каждый факт хранится в одном месте
- Хронологичность - видно как менялись адреса и цены
- Гибкость - легко добавлять новые бренды, размеры и т.д.
- Целостность - нельзя продать несуществующий товар
- Быстрый поиск - легко найти всех клиентов из определённой отрасли

Код для ER:
```
Table wealth_segment {
  wealth_segment_id integer [primary key]
  segment_name text [not null]
  
  Note: 'Справочник сегментов богатства клиентов'
}

Table job_industry_category {
  category_id integer [primary key]
  category_name text [not null]
  
  Note: 'Справочник отраслей работы клиентов'
}

Table customer {
  customer_id integer [primary key]
  first_name text
  last_name text
  gender text
  dob date
  job_title text
  job_industry_category_id integer
  wealth_segment_id integer
  deceased_indicator text
  owns_car text
  
  Note: 'Основная информация о клиентах'
}

Table customer_address {
  address_id integer [primary key]
  customer_id integer
  address text [not null]
  postcode integer
  state text
  country text
  property_valuation integer
  valid_from date [not null]
  valid_to date
  is_current boolean
  
  Note: 'Исторические адреса клиентов'
}

Table brand {
  brand_id integer [primary key]
  brand_name text [not null]
  
  Note: 'Справочник брендов'
}

Table product_line {
  line_id integer [primary key]
  line_name text [not null]
  
  Note: 'Справочник продуктовых линеек'
}

Table product_class {
  class_id integer [primary key]
  class_name text [not null]
  
  Note: 'Справочник классов продуктов'
}

Table product_size {
  size_id integer [primary key]
  size_name text [not null]
  
  Note: 'Справочник размеров продуктов'
}

Table product {
  product_id integer [primary key]
  brand_id integer
  line_id integer
  class_id integer
  size_id integer
  created_date date
  
  Note: 'Основная информация о продуктах'
}

Table product_price {
  price_id integer [primary key]
  product_id integer
  list_price numeric(10,2) [not null]
  standard_cost numeric(10,2)
  valid_from date [not null]
  valid_to date
  is_current boolean
  
  Note: 'Исторические цены продуктов'
}

Table transaction {
  transaction_id integer [primary key]
  product_id integer
  customer_id integer
  transaction_date date [not null]
  online_order boolean
  order_status text
  list_price numeric(10,2)
  standard_cost numeric(10,2)
  
  Note: 'Транзакции продаж'
}


Ref: customer.job_industry_category_id > job_industry_category.category_id
Ref: customer.wealth_segment_id > wealth_segment.wealth_segment_id

Ref: customer_address.customer_id > customer.customer_id

Ref: product.brand_id > brand.brand_id
Ref: product.line_id > product_line.line_id
Ref: product.class_id > product_class.class_id
Ref: product.size_id > product_size.size_id

Ref: product_price.product_id > product.product_id

Ref: transaction.customer_id > customer.customer_id
Ref: transaction.product_id > product.product_id
```
![Untitled-3.png](attachment:46ab39f5-117c-43f1-9e65-565947d0e33f.png)

> Отдельные таблицы для `job_industry_category` и `wealth_segment`, что даёт: 
упрощение вместо хранения текста в каждой записи клиента, предотвращение опечаток в категориях, изменение названия категории в одном месте  
> Отдельная таблица адресов учитвает клиентов которые меняют адреса при заказе, один клиент - несколько адресов в разное время  
> Структура товаров переработана, так как цены меняются со временем и один продукт может иметь разные цены в разные периоды  

## 4. Предобработка и создание таблиц в БД согласно ER

### 4.1. Подключение к БД

In [15]:
engine = create_engine('postgresql://postgres:210701@localhost:5432/postgres')

### 4.2. Загрузка исходных таблиц в БД

In [18]:
# Загрузка Excel файла 
transactions_old = pd.read_excel('customer_and_transaction.xlsx', sheet_name='transaction')
customer_old = pd.read_excel('customer_and_transaction.xlsx', sheet_name='customer')
# Заменим запятые на точки в нужных столбцах
transactions_old['list_price'] = transactions_old['list_price'].astype(str).str.replace(',', '.').astype(float)
transactions_old['standard_cost'] = transactions_old['standard_cost'].astype(str).str.replace(',', '.').astype(float)

# Загрузка DataFrame в БД
transactions_old.to_sql('transactions_old', con=engine, if_exists='replace', index=False)
customer_old.to_sql('customer_old', con=engine, if_exists='replace', index=False)

query_transactions_old = text("SELECT * FROM transactions_old LIMIT 10;")
query_customer_old = text("SELECT * FROM customer_old LIMIT 10;")
print("="*60, query_transactions_old, "="*50)
display(pd.read_sql(query_transactions_old, con=engine))
print("="*60, query_customer_old, "="*50)
display(pd.read_sql(query_customer_old, con=engine))



Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,list_price,standard_cost
0,1,2,2950,2017-02-25,False,Approved,Solex,Standard,medium,medium,71.49,53.62
1,2,3,3120,2017-05-21,True,Approved,Trek Bicycles,Standard,medium,large,2091.47,388.92
2,3,37,402,2017-10-16,False,Approved,OHM Cycles,Standard,low,medium,1793.43,248.82
3,4,88,3135,2017-08-31,False,Approved,Norco Bicycles,Standard,medium,medium,1198.46,381.1
4,5,78,787,2017-10-01,True,Approved,Giant Bicycles,Standard,medium,large,1765.3,709.48
5,6,25,2339,2017-03-08,True,Approved,Giant Bicycles,Road,medium,medium,1538.99,829.65
6,7,22,1542,2017-04-21,True,Approved,WeareA2B,Standard,medium,medium,60.34,45.26
7,8,15,2459,2017-07-15,False,Approved,WeareA2B,Standard,medium,medium,1292.84,13.44
8,9,67,1305,2017-08-10,False,Approved,Solex,Standard,medium,large,1071.23,380.74
9,10,12,3262,2017-08-30,True,Approved,WeareA2B,Standard,medium,medium,1231.15,161.6




Unnamed: 0,customer_id,first_name,last_name,gender,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,address,postcode,state,country,property_valuation
0,1,Laraine,Medendorp,F,1953-10-12 00:00:00,Executive Secretary,Health,Mass Customer,N,Yes,060 Morning Avenue,2016,New South Wales,Australia,10
1,2,Eli,Bockman,Male,1980-12-16 00:00:00,Administrative Officer,Financial Services,Mass Customer,N,Yes,6 Meadow Vale Court,2153,New South Wales,Australia,10
2,3,Arlin,Dearle,Male,1954-01-20 00:00:00,Recruiting Manager,Property,Mass Customer,N,Yes,0 Holy Cross Court,4211,QLD,Australia,9
3,4,Talbot,,Male,1961-10-03 00:00:00,,IT,Mass Customer,N,No,17979 Del Mar Point,2448,New South Wales,Australia,4
4,5,Sheila-kathryn,Calton,Female,1977-05-13 00:00:00,Senior Editor,,Affluent Customer,N,Yes,9 Oakridge Court,3216,VIC,Australia,9
5,6,Curr,Duckhouse,Male,1966-09-16 00:00:00,,Retail,High Net Worth,N,Yes,4 Delaware Trail,2210,New South Wales,Australia,9
6,7,Fina,Merali,Female,1976-02-23 00:00:00,,Financial Services,Affluent Customer,N,Yes,49 Londonderry Lane,2650,New South Wales,Australia,4
7,8,Rod,Inder,Male,1962-03-30 00:00:00,Media Manager I,,Mass Customer,N,No,97736 7th Trail,2023,New South Wales,Australia,12
8,9,Mala,Lind,Female,1973-03-10 00:00:00,Business Systems Development Analyst,Argiculture,Affluent Customer,N,Yes,93405 Ludington Park,3044,VIC,Australia,8
9,10,Fiorenze,Birdall,Female,1988-10-11 00:00:00,Senior Quality Engineer,Financial Services,Mass Customer,N,Yes,44339 Golden Leaf Alley,4557,QLD,Australia,4


![Снимок экрана 2025-11-16 в 22.11.59.png](attachment:4635c699-deed-48e7-b602-0ce720c67a80.png)

### 4.3. Создание структуры таблиц новой БД

In [27]:
query_2 = text(
"""
-- 1. Справочник сегментов богатства (выносим, т.к. ограниченное число значений)
CREATE TABLE wealth_segment (
    wealth_segment_id SERIAL PRIMARY KEY,
    segment_name TEXT UNIQUE NOT NULL
);

-- 2. Справочник отраслей (выносим, т.к. ограниченное число категорий)
CREATE TABLE job_industry_category (
    category_id SERIAL PRIMARY KEY,
    category_name TEXT UNIQUE NOT NULL
);

-- 3. Таблица клиентов (без адреса)
CREATE TABLE customer (
    customer_id INTEGER PRIMARY KEY,
    first_name TEXT,
    last_name TEXT,
    gender TEXT,
    dob DATE,
    job_title TEXT,
    job_industry_category_id INTEGER REFERENCES job_industry_category(category_id),
    wealth_segment_id INTEGER REFERENCES wealth_segment(wealth_segment_id),
    deceased_indicator TEXT,
    owns_car TEXT
);

-- 4. Таблица адресов клиентов (историческая)
CREATE TABLE customer_address (
    address_id SERIAL PRIMARY KEY,
    customer_id INTEGER REFERENCES customer(customer_id),
    address TEXT NOT NULL,
    postcode INTEGER,
    state TEXT,
    country TEXT,
    property_valuation INTEGER,
    valid_from DATE NOT NULL,
    valid_to DATE,
    is_current BOOLEAN DEFAULT TRUE
);

-- 5. Таблица брендов
CREATE TABLE brand (
    brand_id SERIAL PRIMARY KEY,
    brand_name TEXT UNIQUE NOT NULL
);

-- 6. Таблица продуктовых линеек
CREATE TABLE product_line (
    line_id SERIAL PRIMARY KEY,
    line_name TEXT UNIQUE NOT NULL
);

-- 7. Таблица продуктовых классов
CREATE TABLE product_class (
    class_id SERIAL PRIMARY KEY,
    class_name TEXT UNIQUE NOT NULL
);

-- 8. Таблица размеров продуктов
CREATE TABLE product_size (
    size_id SERIAL PRIMARY KEY,
    size_name TEXT UNIQUE NOT NULL
);

-- 9. Основная таблица продуктов (без цен)
CREATE TABLE product (
    product_id SERIAL PRIMARY KEY, -- Новый уникальный ID!
    brand_id INTEGER REFERENCES brand(brand_id),
    line_id INTEGER REFERENCES product_line(line_id),
    class_id INTEGER REFERENCES product_class(class_id),
    size_id INTEGER REFERENCES product_size(size_id),
    created_date DATE DEFAULT CURRENT_DATE
);

-- 10. Таблица цен продуктов (историческая)
CREATE TABLE product_price (
    price_id SERIAL PRIMARY KEY,
    product_id INTEGER REFERENCES product(product_id),
    list_price NUMERIC(10,2) NOT NULL,
    standard_cost NUMERIC(10,2),
    valid_from DATE NOT NULL,
    valid_to DATE,
    is_current BOOLEAN DEFAULT TRUE
);

-- 11. Таблица транзакций
CREATE TABLE transaction (
    transaction_id INTEGER PRIMARY KEY,
    product_id INTEGER REFERENCES product(product_id),
    customer_id INTEGER REFERENCES customer(customer_id),
    transaction_date DATE NOT NULL,
    online_order BOOLEAN,
    order_status TEXT,
    -- Цены на момент транзакции (дублируем для истории)
    list_price NUMERIC(10,2),
    standard_cost NUMERIC(10,2)
);
"""
)

with engine.connect() as conn:
    conn.execute(query_2)
    conn.commit()

In [29]:
print("\nСписок всех таблиц в схеме:")
tables = pd.read_sql("""
    SELECT table_name
    FROM information_schema.tables
    WHERE table_schema = 'public';
""", con=engine)
print(tables)


Список всех таблиц в схеме:
               table_name
0        transactions_old
1            customer_old
2   job_industry_category
3                customer
4          wealth_segment
5        customer_address
6                   brand
7                 product
8            product_line
9           product_class
10           product_size
11          product_price
12            transaction


![Снимок экрана 2025-11-16 в 22.19.37.png](attachment:ca4abc3d-102a-431a-8698-ac44fbae6b74.png)

### 4.5. Миграция данных 

#### Заполняем справочники и клиентов

In [36]:
query_2 = text("""
-- 1. Заполняем справочники
INSERT INTO wealth_segment (segment_name)
SELECT DISTINCT wealth_segment FROM customer_old WHERE wealth_segment IS NOT NULL;

INSERT INTO job_industry_category (category_name)
SELECT DISTINCT job_industry_category FROM customer_old WHERE job_industry_category IS NOT NULL;
""")

with engine.connect() as conn:
    conn.execute(query_2)
    conn.commit()

**Заполняем клиентов**

In [44]:
query_3 = text("""
-- 2. Заполняем клиентов
INSERT INTO customer (customer_id, first_name, last_name, gender, dob, job_title, 
                     job_industry_category_id, wealth_segment_id, deceased_indicator, owns_car)
SELECT 
    c."customer_id", c."first_name", c."last_name", c."gender", c."DOB"::DATE, c."job_title",
    jic.category_id, ws.wealth_segment_id, c."deceased_indicator", c."owns_car"
FROM customer_old c
LEFT JOIN job_industry_category jic ON c."job_industry_category" = jic.category_name
LEFT JOIN wealth_segment ws ON c."wealth_segment" = ws.segment_name;

-- 3. Добавляем недостающих клиентов из транзакций
INSERT INTO customer (customer_id, first_name, last_name)
SELECT DISTINCT "customer_id", 'Unknown', 'Customer'
FROM transactions_old 
WHERE "customer_id" NOT IN (SELECT customer_id FROM customer);
""")

with engine.connect() as conn:
    conn.execute(query_3)
    conn.commit()

#### Создаём справочники товаров

In [47]:
query_4 = text("""
-- 4. Создаем продукты на основе уникальных комбинаций
INSERT INTO brand (brand_name) 
SELECT DISTINCT brand FROM transactions_old WHERE brand IS NOT NULL AND brand != '';

INSERT INTO product_line (line_name)
SELECT DISTINCT product_line FROM transactions_old WHERE product_line IS NOT NULL AND product_line != '';

INSERT INTO product_class (class_name)
SELECT DISTINCT product_class FROM transactions_old WHERE product_class IS NOT NULL AND product_class != '';

INSERT INTO product_size (size_name)
SELECT DISTINCT product_size FROM transactions_old WHERE product_size IS NOT NULL AND product_size != '';
""")

with engine.connect() as conn:
    conn.execute(query_4)
    conn.commit()

#### Создаём продукты

In [50]:
query_5 = text("""
-- 5. Создаем основные продукты
INSERT INTO product (brand_id, line_id, class_id, size_id)
SELECT 
    b.brand_id, pl.line_id, pc.class_id, ps.size_id
FROM (
    SELECT DISTINCT brand, product_line, product_class, product_size
    FROM transactions_old 
    WHERE brand IS NOT NULL AND brand != ''
) AS unique_products
JOIN brand b ON unique_products.brand = b.brand_name
JOIN product_line pl ON unique_products.product_line = pl.line_name
JOIN product_class pc ON unique_products.product_class = pc.class_name
JOIN product_size ps ON unique_products.product_size = ps.size_name;
""")

with engine.connect() as conn:
    conn.execute(query_5)
    conn.commit()

#### Заполняем транзакции

In [58]:
query_6 = text("""
-- 6. Заполняем транзакции
INSERT INTO transaction (transaction_id, product_id, customer_id, transaction_date, 
                        online_order, order_status, list_price, standard_cost)
SELECT 
    t.transaction_id,
    p.product_id,
    t.customer_id,
    t.transaction_date::date,  -- Простое приведение типа timestamp к date
    t.online_order,
    t.order_status,
    t.list_price::NUMERIC(10,2),
    t.standard_cost::NUMERIC(10,2)
FROM transactions_old t
LEFT JOIN brand b ON t.brand = b.brand_name
LEFT JOIN product_line pl ON t.product_line = pl.line_name
LEFT JOIN product_class pc ON t.product_class = pc.class_name
LEFT JOIN product_size ps ON t.product_size = ps.size_name
LEFT JOIN product p ON p.brand_id = b.brand_id 
                   AND p.line_id = pl.line_id 
                   AND p.class_id = pc.class_id 
                   AND p.size_id = ps.size_id
LEFT JOIN customer c ON t.customer_id = c.customer_id;
""")

with engine.connect() as conn:
    conn.execute(query_6)
    conn.commit()

#### Адреса клиентов

In [62]:
query_7 = text("""
-- 7. Заполняем адреса клиентов
INSERT INTO customer_address (customer_id, address, postcode, state, country, property_valuation, valid_from, is_current)
SELECT 
    customer_id,
    address,
    postcode,
    state,
    country,
    property_valuation::integer,
    CURRENT_DATE as valid_from,
    TRUE as is_current
FROM customer_old;
""")

with engine.connect() as conn:
    conn.execute(query_7)
    conn.commit()

#### Цены продуктов

In [65]:
query_8 = text("""
-- 8. Заполняем цены продуктов
INSERT INTO product_price (product_id, list_price, standard_cost, valid_from, is_current)
SELECT 
    p.product_id,
    AVG(t.list_price::NUMERIC(10,2)) as list_price,
    AVG(t.standard_cost::NUMERIC(10,2)) as standard_cost,
    MIN(t.transaction_date::date) as valid_from,
    TRUE as is_current
FROM transactions_old t
JOIN brand b ON t.brand = b.brand_name
JOIN product_line pl ON t.product_line = pl.line_name
JOIN product_class pc ON t.product_class = pc.class_name
JOIN product_size ps ON t.product_size = ps.size_name
JOIN product p ON p.brand_id = b.brand_id 
               AND p.line_id = pl.line_id 
               AND p.class_id = pc.class_id 
               AND p.size_id = ps.size_id
GROUP BY p.product_id;
""")

with engine.connect() as conn:
    conn.execute(query_8)
    conn.commit()

### 5. Проверка структуры БД

In [69]:
# Посмотрим на финальную структуру
final_check = text("""
SELECT 
    'customer' as table_name, COUNT(*) as row_count FROM customer
UNION ALL
SELECT 'customer_address', COUNT(*) FROM customer_address
UNION ALL
SELECT 'transaction', COUNT(*) FROM transaction
UNION ALL
SELECT 'product', COUNT(*) FROM product
UNION ALL
SELECT 'product_price', COUNT(*) FROM product_price
UNION ALL
SELECT 'brand', COUNT(*) FROM brand
UNION ALL
SELECT 'product_line', COUNT(*) FROM product_line
UNION ALL
SELECT 'product_class', COUNT(*) FROM product_class
UNION ALL
SELECT 'product_size', COUNT(*) FROM product_size
UNION ALL
SELECT 'wealth_segment', COUNT(*) FROM wealth_segment
UNION ALL
SELECT 'job_industry_category', COUNT(*) FROM job_industry_category;
""")

display(pd.read_sql(final_check, con=engine))

Unnamed: 0,table_name,row_count
0,customer,4001
1,customer_address,4000
2,transaction,20000
3,product,49
4,product_price,49
5,brand,6
6,product_line,4
7,product_class,3
8,product_size,3
9,wealth_segment,3


![Снимок экрана 2025-11-16 в 22.49.54.png](attachment:9216997c-69b8-4734-8132-6b38593279ef.png)