## Системы хранения и обработки данных. 
**Домашнее задание 1: создание и нормализация базы данных.**

В исходном файле содержатся две таблицы, которые имеют следующую структуру:

Таблица транзакций (transactions):

- transaction_id
- product_id
- customer_id
- transaction_date
- online_order
- order_status
- brand
- product_line
- product_class
- product_size
- list_price
- standard_cost

Таблица клиентов (customers):

- customer_id
- first_name
- last_name
- gender
- DOB
- job_title
- job_industry_category
- wealth_segment
- deceased_indicator
- owns_car
- address
- postcode
- state
- country
- property_valuation

### Нормализация и структура

In [None]:
import pandas as pd

transaction = pd.read_excel('D:\ds\customer_and_transaction.xlsx', sheet_name='transaction')
customer = pd.read_excel('D:\ds\customer_and_transaction.xlsx', sheet_name='customer')
display(transaction.head(15))
display(customer.head(15))

Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,list_price,standard_cost
0,1,2,2950,2017-02-25,False,Approved,Solex,Standard,medium,medium,71.49,53.62
1,2,3,3120,2017-05-21,True,Approved,Trek Bicycles,Standard,medium,large,2091.47,388.92
2,3,37,402,2017-10-16,False,Approved,OHM Cycles,Standard,low,medium,1793.43,248.82
3,4,88,3135,2017-08-31,False,Approved,Norco Bicycles,Standard,medium,medium,1198.46,381.1
4,5,78,787,2017-10-01,True,Approved,Giant Bicycles,Standard,medium,large,1765.3,709.48
5,6,25,2339,2017-03-08,True,Approved,Giant Bicycles,Road,medium,medium,1538.99,829.65
6,7,22,1542,2017-04-21,True,Approved,WeareA2B,Standard,medium,medium,60.34,45.26
7,8,15,2459,2017-07-15,False,Approved,WeareA2B,Standard,medium,medium,1292.84,13.44
8,9,67,1305,2017-08-10,False,Approved,Solex,Standard,medium,large,1071.23,380.74
9,10,12,3262,2017-08-30,True,Approved,WeareA2B,Standard,medium,medium,1231.15,161.6


Unnamed: 0,customer_id,first_name,last_name,gender,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,address,postcode,state,country,property_valuation
0,1,Laraine,Medendorp,F,1953-10-12 00:00:00,Executive Secretary,Health,Mass Customer,N,Yes,060 Morning Avenue,2016,New South Wales,Australia,10
1,2,Eli,Bockman,Male,1980-12-16 00:00:00,Administrative Officer,Financial Services,Mass Customer,N,Yes,6 Meadow Vale Court,2153,New South Wales,Australia,10
2,3,Arlin,Dearle,Male,1954-01-20 00:00:00,Recruiting Manager,Property,Mass Customer,N,Yes,0 Holy Cross Court,4211,QLD,Australia,9
3,4,Talbot,,Male,1961-10-03 00:00:00,,IT,Mass Customer,N,No,17979 Del Mar Point,2448,New South Wales,Australia,4
4,5,Sheila-kathryn,Calton,Female,1977-05-13 00:00:00,Senior Editor,,Affluent Customer,N,Yes,9 Oakridge Court,3216,VIC,Australia,9
5,6,Curr,Duckhouse,Male,1966-09-16 00:00:00,,Retail,High Net Worth,N,Yes,4 Delaware Trail,2210,New South Wales,Australia,9
6,7,Fina,Merali,Female,1976-02-23 00:00:00,,Financial Services,Affluent Customer,N,Yes,49 Londonderry Lane,2650,New South Wales,Australia,4
7,8,Rod,Inder,Male,1962-03-30 00:00:00,Media Manager I,,Mass Customer,N,No,97736 7th Trail,2023,New South Wales,Australia,12
8,9,Mala,Lind,Female,1973-03-10 00:00:00,Business Systems Development Analyst,Argiculture,Affluent Customer,N,Yes,93405 Ludington Park,3044,VIC,Australia,8
9,10,Fiorenze,Birdall,Female,1988-10-11 00:00:00,Senior Quality Engineer,Financial Services,Mass Customer,N,Yes,44339 Golden Leaf Alley,4557,QLD,Australia,4


**Таблица `transaction`:**
1. 1НФ (Первая нормальная форма):
- Атомарность значений: все поля содержат атомарные данные (нет составных значений).
- Уникальный идентификатор: есть первичный ключ `transaction_id`.
- Отсутствие повторяющихся групп: каждая строка представляет уникальную транзакцию.
- Соответствие 1НФ: ✅
2. 2НФ (Вторая нормальная форма):
- Зависимость от первичного ключа: все атрибуты зависят от `transaction_id`.
- Отсутствие частичных зависимостей: так как первичный ключ не составной, частичные зависимости исключены.
- Соответствие 2НФ: ✅
3. 3НФ (Третья нормальная форма):
- Транзитивные зависимости: атрибуты `brand`, `product_line`, `product_class`, `product_size`, `list_price`, `standard_cost` зависят от `product_id`, а не напрямую от `transaction_id`. Это нарушает 3НФ.
- Соответствие 3НФ: ❌

**Таблица `customer`:**
1. 1НФ (Первая нормальная форма):
- Атомарность значений: все поля атомарны.
- Уникальный идентификатор: есть первичный ключ `customer_id`.
- Соответствие 1НФ: ✅
2. 2НФ (Вторая нормальная форма):
- Зависимость от первичного ключа: все атрибуты зависят от `customer_id`.
- Соответствие 2НФ: ✅
3. 3НФ (Третья нормальная форма):
- Транзитивные зависимости: атрибуты `postcode`, `state`, `country` могут зависеть друг от друга (например, `postcode` → `state, postcode` → `country`). Это нарушает 3НФ.
- Соответствие 3НФ: ❌

**Декомпозиция таблиц:**
1. `transaction`:
- Создать таблицу `product` для хранения информации о продуктах.
- Упростить таблицу `transaction`, оставив только ссылки на продукты и клиентов.
2. `customer`:
- Создать таблицу `address` для хранения информации о регионах.
- Упростить таблицу `customer`, оставив ссылку на `address_id`.

Теперь можно отрисовать схему:

```sql
Table address {
  address_id INT [pk, increment]
  postcode VARCHAR(10) [not null]
  state VARCHAR(50) [not null]
  country VARCHAR(50) [not null]
  address_line VARCHAR(255) [not null]
  Indexes {
    (postcode, state, country, address_line) [unique, name: 'unique_address']
  }
}

Table customer {
  customer_id INT [pk]
  first_name VARCHAR(50) [not null]
  last_name VARCHAR(50)
  gender VARCHAR(10) [not null]
  DOB DATE [not null]
  job_title VARCHAR(100)
  job_industry_category VARCHAR(50)
  wealth_segment VARCHAR(50) [not null]
  deceased_indicator CHAR(1) [not null]
  owns_car VARCHAR(3) [not null]
  address_id INT [not null, ref: > address.address_id]
  property_valuation INT [not null]
}

Table product {
  product_id INT [pk]
  brand VARCHAR(255) [not null]
  product_line VARCHAR(50) [not null]
  product_class VARCHAR(50) [not null]
  product_size VARCHAR(50) [not null]
  list_price DECIMAL(10, 2) [not null]
  standard_cost DECIMAL(10, 2) [not null]
}

Table transaction {
  transaction_id INT [pk]
  product_id INT [not null, ref: > product.product_id]
  customer_id INT [not null, ref: > customer.customer_id]
  transaction_date DATE [not null]
  online_order BOOLEAN [not null]
  order_status VARCHAR(50) [not null]
}
```

![](https://raw.githubusercontent.com/Vendor62/MIPT_practice/refs/heads/main/homework/dsps_hw_1/media/06.png)

### Создание таблиц в DBeaver

```sql
CREATE TABLE product (
    product_id INT PRIMARY KEY,
    brand VARCHAR(255),
    product_line VARCHAR(50) NOT NULL,
    product_class VARCHAR(50) NOT NULL,
    product_size VARCHAR(50) NOT NULL,
    list_price DECIMAL(10, 2) NOT NULL,
    standard_cost DECIMAL(10, 2) NOT NULL
);

CREATE TABLE address (
    address_id SERIAL PRIMARY KEY, -- Автоинкрементный суррогатный ключ
    postcode VARCHAR(10) NOT NULL,
    state VARCHAR(50) NOT NULL,
    country VARCHAR(50) NOT NULL,
    address VARCHAR(255),
    -- Уникальное ограничение на комбинацию полей
    CONSTRAINT unique_address UNIQUE (postcode, state, country, address)
);

CREATE TABLE customer (
    customer_id INT PRIMARY KEY,
    first_name VARCHAR(50) NOT NULL,
    last_name VARCHAR(50),
    gender VARCHAR(10) NOT NULL,
    DOB DATE,
    job_title VARCHAR(100),
    job_industry_category VARCHAR(50),
    wealth_segment VARCHAR(50) NOT NULL,
    deceased_indicator CHAR(1) NOT NULL,
    owns_car VARCHAR(3) NOT NULL,
    address_id INT NOT NULL,
    property_valuation INT NOT NULL,
    -- Внешний ключ на таблицу address
    FOREIGN KEY (address_id) REFERENCES address(address_id)
);

CREATE TABLE transaction (
    transaction_id INT PRIMARY KEY,
    product_id INT NOT NULL,
    customer_id INT NOT NULL,
    transaction_date DATE NOT NULL,
    online_order BOOLEAN NOT NULL,
    order_status VARCHAR(50) NOT NULL,
    -- Внешние ключи
    FOREIGN KEY (product_id) REFERENCES product(product_id),
    FOREIGN KEY (customer_id) REFERENCES customer(customer_id)
);
```

Первичные ключи:
- У каждой таблицы есть первичный ключ (PRIMARY KEY), который уникально идентифицирует каждую запись.
- Суррогатный ключ `address_id` с автоинкрементом и уникальное ограничение `unique_address` для проверки комбинаций адресов.

Типы данных:
- Используются подходящие типы данных, такие как `INT` для целых чисел, `VARCHAR` для строк, `DECIMAL` для чисел с плавающей точкой, `DATE` для дат и `BOOLEAN` для логических значений.

Ограничения `NOT NULL`:
- Поля, которые не могут быть пустыми, помечены как `NOT NULL`.
- Например, `brand`, `product_line`, `product_class`, `product_size`, `list_price` и `standard_cost` в таблице `product` обязательны.

Внешние ключи:
- В таблице `customer` поле `addres_id` ссылается на таблицу `address`.
- В таблице `transaction` поля `product_id` и `customer_id` ссылаются на таблицы `product` и `customer` соответственно.

### Загрузка данных в таблицы

Для того, чтоб сгенерировать `address_id` и связать им таблицы `address` и `customer` воспользуемся временными таблицами.

```sql
CREATE TEMP TABLE temp_address (
    postcode VARCHAR(10),
    state VARCHAR(50),
    country VARCHAR(50),
    address VARCHAR(255)
);

CREATE TEMP TABLE temp_customer (
    customer_id INT,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    gender VARCHAR(10),
    DOB DATE,
    job_title VARCHAR(100),
    job_industry_category VARCHAR(50),
    wealth_segment VARCHAR(50),
    deceased_indicator CHAR(1),
    owns_car VARCHAR(3),
    postcode VARCHAR(10),
    state VARCHAR(50),
    country VARCHAR(50),
    address VARCHAR(255),
    property_valuation INT
);
```

Заливаем данные с адресами и клиентами в эти таблицы из csv файла.
```sql
COPY temp_address(postcode, state, country, address)
FROM 'D:\ds\address.csv' DELIMITER ';' CSV HEADER;

COPY temp_customer(customer_id, first_name, last_name, gender, DOB, job_title,
                   job_industry_category, wealth_segment, deceased_indicator,
                   owns_car, postcode, state, country, address, property_valuation)
FROM 'D:\ds\customer.csv' DELIMITER ';' CSV HEADER;
```

Загружаем в `address` уникальные адреса.

```sql
INSERT INTO address (postcode, state, country, address)
SELECT DISTINCT postcode, state, country, address
FROM temp_customer
ON CONFLICT DO NOTHING;
```

Обновляем `temp_customer`, чтоб добавить `address_id`.
```sql
UPDATE temp_customer tc
SET address_id = a.address_id
FROM address a
WHERE tc.postcode = a.postcode
AND tc.state = a.state
AND tc.country = a.country
AND (tc.address = a.address OR (tc.address IS NULL AND a.address IS NULL));
```

Теперь, когда `temp_customer` имеет `address_id`, заливаем всё в `customer`:
```sql
INSERT INTO customer (customer_id, first_name, last_name, gender, DOB, job_title, 
                      job_industry_category, wealth_segment, deceased_indicator, 
                      owns_car, address_id, property_valuation)
SELECT customer_id, first_name, last_name, gender, DOB, job_title, 
       job_industry_category, wealth_segment, deceased_indicator, 
       owns_car, address_id, property_valuation
FROM temp_customer;
```

Проверим содержимое таблиц.

![](https://raw.githubusercontent.com/Vendor62/MIPT_practice/refs/heads/main/homework/dsps_hw_1/media/03.png)
![](https://raw.githubusercontent.com/Vendor62/MIPT_practice/refs/heads/main/homework/dsps_hw_1/media/04.png)

Таблицы заполнены и связаны ключом `address_id`. Осталось заполнить таблицы с продуктом и транзакциями. Аналогичным образом заполняем эти таблицы, в исходных данных уже имеется `product_id`, который их свяжет. При заполнении нужно учесть, что в `products` id не может дублироваться.

![](https://raw.githubusercontent.com/Vendor62/MIPT_practice/refs/heads/main/homework/dsps_hw_1/media/05.png)