
# Домашнее задание 1. Создание и нормализация базы данных
Перед вами домашнее задание по модулю 1, которое выполняется индивидуально. У вас есть одна попытка. Оценивание задания проходит по 10-балльной шкале.

## Цель задания
 Научиться создавать базы данных и нормализовать их.

## Как выполнять задание
 __Алгоритм выполнения задания:__
 1. [Загрузить файл](https://docs.google.com/spreadsheets/d/1W-JMPed7tYOSzeCsWivlzEpLzPhkx7tX/edit?gid=292087062#gid=292087062) с данными по клиентам и транзакциям.

 2. Продумать структуру базы данных и отрисовать [в редакторе](https://dbdiagram.io/home?utm_source=holistics&utm_medium=top_5_tools_blog).

 3. Нормализовать базу данных (от 1НФ до 3НФ), описав, к какой нормальной форме приводится таблица и почему таблица в этой нормальной форме изначально не находилась.

 4. Создать все таблицы в DBeaver, указав первичные ключи к таблицам, правильные типы данных, могут ли поля быть пустыми или нет (использовать команду CREATE TABLE).

 5. Загрузить данные в таблицы в соответствии с созданной структурой (использовать команду INSERT INTO или загрузить файлы, используя возможности инструмента DBeaver; в случае загрузки файлами приложить скрины, что данные действительно были залиты).

Обратите внимание:
 * Итоговое количество таблиц может отличаться от количества листов в Excel.
 * Можно загрузить не все данные, а какую-то маленькую выборку для быстроты и удобства.
 * Формат сдачи и отправка задания
 * Как отправить задание на проверку:
    * Назовите файлы по шаблону: «Фамилия_имя».
    * Загрузите файлы в GitHub.
    * Приложите ссылку на него в форму для сдачи задания.
    * Что нужно отправить: ссылку на репозиторий, в котором будут Jupyter Notebook с решением или sql-скрипты на PostgreSQL со скринами из DBeaver.

 * Скриншот схемы базы данных (см. пункт 2 алгоритма выполнения задания) и описание формы (см. пункт 3) можно отправить отдельным документом или же вставить в Jupyter Notebook в начале работы.

 ### __Задача 1__. [Загрузить файл](https://docs.google.com/spreadsheets/d/1W-JMPed7tYOSzeCsWivlzEpLzPhkx7tX/edit?gid=292087062#gid=292087062) с данными по клиентам и транзакциям.

In [1]:
import pandas as pd

In [2]:
# получаем данные для БД
customer, transaction = (pd.read_excel(io='./data-samples/customer_and_transaction.xlsx',
                                        sheet_name='customer'),
                           pd.read_excel(io='./data-samples/customer_and_transaction.xlsx',
                                         sheet_name='transaction'))

In [3]:
customer.head()

Unnamed: 0,customer_id,first_name,last_name,gender,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,address,postcode,state,country,property_valuation
0,1,Laraine,Medendorp,F,1953-10-12 00:00:00,Executive Secretary,Health,Mass Customer,N,Yes,060 Morning Avenue,2016,New South Wales,Australia,10
1,2,Eli,Bockman,Male,1980-12-16 00:00:00,Administrative Officer,Financial Services,Mass Customer,N,Yes,6 Meadow Vale Court,2153,New South Wales,Australia,10
2,3,Arlin,Dearle,Male,1954-01-20 00:00:00,Recruiting Manager,Property,Mass Customer,N,Yes,0 Holy Cross Court,4211,QLD,Australia,9
3,4,Talbot,,Male,1961-10-03 00:00:00,,IT,Mass Customer,N,No,17979 Del Mar Point,2448,New South Wales,Australia,4
4,5,Sheila-kathryn,Calton,Female,1977-05-13 00:00:00,Senior Editor,,Affluent Customer,N,Yes,9 Oakridge Court,3216,VIC,Australia,9


In [4]:
transaction.head()

Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,list_price,standard_cost
0,1,2,2950,2017-02-25,False,Approved,Solex,Standard,medium,medium,71.49,53.62
1,2,3,3120,2017-05-21,True,Approved,Trek Bicycles,Standard,medium,large,2091.47,388.92
2,3,37,402,2017-10-16,False,Approved,OHM Cycles,Standard,low,medium,1793.43,248.82
3,4,88,3135,2017-08-31,False,Approved,Norco Bicycles,Standard,medium,medium,1198.46,381.1
4,5,78,787,2017-10-01,True,Approved,Giant Bicycles,Standard,medium,large,1765.3,709.48


Исходя из представленных таблиц - `customer` и `transaction`, можно сделать вывод, что признаки в каждой таблице можно группировать на сущности, а затем установить взаимосвязи между этими сущностями.

### __Задача 2__. Продумать структуру базы данных и отрисовать [в редакторе](https://dbdiagram.io/home?utm_source=holistics&utm_medium=top_5_tools_blog).

#### Рассмотрим таблицу `customer`.
В `customer` можно выделить ключевые 4 сущности:
 * `customers` - сущность содержит общие данные о клиентах;
 * `address` - сущность содержит данные об адресах клиентов;
 * `jobs` - сущность содержит данные о работе клиентов;
 * `prosperities` - сущность содержит данные о благосостоянии клиентов.

    Для сущностей `address` и `prosperities` дополнительно можно определить справочники, содержащие типовые для них данные:
    * `address`:
      * `states` - справочник по штатам, в которых проживают клиенты;
      * `countries` - справочник стран, в которых проживают клиенты (связь `customer -> address -> countries`);
      * сущность также имеет потенциал для дальнейшего масштабирования по `postcodes`.

    * `prosperities`:
      * `wealth_segments` - справочник типовых значений, который, при необходимости, может быть расширен;
      * сущность также имеет потенциал для дальнейшего масштабирования по `property_valuation`.
      
    * `jobs`:
      * сущность также имеет потенциал для дальнейшего масштабирования по `job_industry_category`.

#### Рассмотрим таблицу `transaction`.
В `transaction` можно выделить 2 ключевые сущности:
 * `transactions` - сущность содержит общие данные о совершенных транзакциях;
 * `products` - сущность содержит данные о реализованных продуктах.

    Для сущностей `transactions` и `products` дополнительно можно определить справочники, содержащие типовые для них данные:
    * `transactions`:
      * `statues` - справочник типых статусов совершенных транзакий. При необходимости может быть расширен.

    * `products`:
      * `brands` - справочник типовых брэндов продукта;
      * `product_lines` - справочник типовых линеек продукта;
      * `product_classes` - справочник типовых классов продукта;
      * `product_sizes` - справочник типовых размеров продукта.

__Сущности `transactions` и `customers` связаны между собой по принципу `многие ко многим`.__

<div style="display: grid; grid-template-columns: 1fr 2.5fr; gap: 10px;">
  <div>
    <h4>Структурный псевдо-код ER-диаграммы:</h4>
    <pre style="font-size: 11px; overflow: auto; max-height: 650px; margin: 0; padding: 10px; border-radius: 2px;">
      <code>
Table transactions {
  transaction_id int [pk]
  customer_id int [not null, ref: <> customers.customer_id]
  transaction_date date [not null]
  online_order bool
  order_status_id int [not null, ref: > statuses.status_id]
  product_id int [not null, ref: > products.product_id]
}
Table products {
  product_id int [not null, pk]
  brand_id int [ref: > brands.brand_id]
  product_line_id int [ref: > product_lines.product_line_id]
  product_class_id int [ref: > product_classes.product_class_id]
  product_size_id int [ref: > product_sizes.product_size_id]
  list_price numeric
  standard_cost numeric
}
Table product_sizes {
  product_size_id serial [pk]
  product_size varchar
}
Table product_classes {
  product_class_id serial [pk]
  product_class varchar
}
Table product_lines {
  product_line_id serial [pk]
  product_line varchar
}
Table brands {
  brand_id serial [pk]
  brand varchar
}
Table statuses {
  status_id serial [pk]
  status varchar [not null, unique]
}
Table customers {
  customer_id int [unique, pk]
  first_name varchar
  last_name varchar
  gender varchar
  DOB date [not null]
  deceased_indicator boolean
  address_id int [not null, ref: > address.address_id]
  job_id int [ref: > jobs.job_id]
  prosperity_id int [not null, ref: > prosperities.prosperity_id]
}
Table address {
  address_id serial [pk]
  address varchar [not null]
  postcode varchar [not null]
  state_id int [not null, ref: > states.state_id]
}
Table states {
  state_id serial [pk]
  state_name varchar [not null]
  country_id int [not null, ref: > countries.country_id]
}
Table countries {
  country_id serial [pk]
  country_name varchar [not null]
}
Table jobs {
  job_id serial [pk]
  job_title varchar
  job_industry_category varchar
}
Table prosperities {
  prosperity_id serial [pk]
  owns_car boolean
  property_valuation int [not null]
  wealth_segment_id int [not null, ref: > wealth_segments.wealth_segment_id]
}
Table wealth_segments {
  wealth_segment_id serial [pk]
  wealth_segment varchar [not null]
}</code></pre>
  </div>

  <div style="text-align: center;">
    <img src="./misc/images/ER_diagram_customer_and_transaction.png" width="950"/>
    <p>ER-диаграмма проектируемой БД</p>
  </div>
</div>

### __Задача 3__. Нормализовать базу данных (от 1НФ до 3НФ), описав, к какой нормальной форме приводится таблица и почему таблица в этой нормальной форме изначально не находилась.

#### **1НФ.**
> Изначально загруженные таблицы находятся в __1НФ__: _**все значения атомарны**_. Это видно из представления каждой таблицы выше.

<div style="display: grid; grid-template-columns: 1fr 2.5fr; gap: 10px;">
  <div>
    <h4>Первая нормальная форма - все значения атомарны:</h4>
    <pre style="font-size: 11px; overflow: auto; max-height: 650px; margin: 0; padding: 10px; border-radius: 2px;">
      <code>
Table transaction {
  transaction_id int4 
  product_id int4 
  customer_id int4 [ref: <> customer.customer_id]
  transaction_date datetime
  online_order varchar
  order_status varchar
  brand varchar
  product_line varchar
  product_class varchar
  product_size varchar
  list_price numeric
  standard_cost numeric
}
Table customer {
  customer_id int4 
  first_name varchar
  last_name varchar
  gender varchar
  DOB varchar
  job_title varchar
  job_industry_category varchar
  wealth_segment varchar
  deceased_indicator varchar
  owns_car varchar
  address varchar
  postcode int4
  state varchar
  country varchar
  property_valuation int4
}</code></pre>
  </div>

  <div style="text-align: center;">
    <img src="./misc/images/1NF.png" width="650"/>
    <p></p>
  </div>
</div>

#### **2НФ.**
> Приводим загруженные таблицы к **_2НФ: БД находится в 1НФ, а каждый столбец, который не является ключом, зависит от первичного ключа_**. Ранее таблица не находилась во 2-й нормальной форме по той причине, что не была разделена на сущности, данные в которых зависят от id-ключа сущности.

<div style="display: grid; grid-template-columns: 1fr 2.5fr; gap: 10px;">
  <div>
    <h4>Вторая нормальная форма - БД находится в 1НФ, а каждый столбец, который не является ключом, зависит от первичного ключа:</h4>
    <pre style="font-size: 11px; overflow: auto; max-height: 650px; margin: 0; padding: 10px; border-radius: 2px;">
      <code>
Table transactions {
  transaction_id int [pk]
  customer_id int [not null, ref: <> customers.customer_id]
  transaction_date date [not null]
  online_order bool
  order_status_id int [not null, ref: > statuses.order_status_id]
  product_id int [not null, ref: > products.product_id]
}
Table products {
  product_id int [not null, pk]
  brand_id int
  product_line varchar
  product_class varchar
  product_size varchar
  list_price numeric
  standard_cost numeric
}
Table statuses {
  order_status_id serial [pk]
  status varchar [not null, unique]
}
Table customers {
  customer_id int [unique, pk]
  first_name varchar
  last_name varchar
  gender varchar
  DOB date [not null]
  deceased_indicator boolean
  address_id int [not null, ref: > address.address_id]
  job_id int [ref: > jobs.job_id]
  prosperity_id int [not null, ref: > prosperities.prosperity_id]
}
Table address {
  address_id serial [pk]
  address varchar [not null]
  postcode varchar [not null]
  state_name varchar
  country_name varchar
}
Table jobs {
  job_id serial [pk]
  job_title varchar
  job_industry_category varchar
}
Table prosperities {
  prosperity_id serial [pk]
  owns_car boolean
  property_valuation int [not null]
  wealth_segment varchar
}</code></pre>
  </div>

  <div style="text-align: center;">
    <img src="./misc/images/2NF.png" width="1000"/>
    <p></p>
  </div>
</div>

#### **3НФ.**
> Приводим загруженные таблицы к **_3НФ: таблица должна находиться в 2НФ, плюс столбец, который не является ключом, должен зависеть лишь от первичного ключа._**. Для приведения БД к 3НФ необходимо выделить в справочники и привязать к ключу те признаки, значения которых являются категориями. Ранее БД не находилась в 3-й нормальной форме по причине наличия регулярно повторяющихся значений в ряде признаков

<div style="display: grid; grid-template-columns: 1fr 2.5fr; gap: 10px;">
  <div>
    <h4>Третья нормальная форма - БД находится в 2НФ, плюс признаки, которые не является ключом, зависят лишь от первичного ключа.</h4>
    <pre style="font-size: 11px; overflow: auto; max-height: 650px; margin: 0; padding: 10px; border-radius: 2px;">
      <code>
Table transactions {
  transaction_id int [pk]
  customer_id int [not null, ref: <> customers.customer_id]
  transaction_date date [not null]
  online_order bool
  order_status_id int [not null, ref: > statuses.status_id]
  product_id int [not null, ref: > products.product_id]
}
Table products {
  product_id int [not null, pk]
  brand_id int [ref: > brands.brand_id]
  product_line_id int [ref: > product_lines.product_line_id]
  product_class_id int [ref: > product_classes.product_class_id]
  product_size_id int [ref: > product_sizes.product_size_id]
  list_price numeric
  standard_cost numeric
}
Table product_sizes {
  product_size_id serial [pk]
  product_size varchar
}
Table product_classes {
  product_class_id serial [pk]
  product_class varchar
}
Table product_lines {
  product_line_id serial [pk]
  product_line varchar
}
Table brands {
  brand_id serial [pk]
  brand varchar
}
Table statuses {
  status_id serial [pk]
  status varchar [not null, unique]
}
Table customers {
  customer_id int [unique, pk]
  first_name varchar
  last_name varchar
  gender varchar
  DOB date [not null]
  deceased_indicator boolean
  address_id int [not null, ref: > address.address_id]
  job_id int [ref: > jobs.job_id]
  prosperity_id int [not null, ref: > prosperities.prosperity_id]
}
Table address {
  address_id serial [pk]
  address varchar [not null]
  postcode varchar [not null]
  state_id int [not null, ref: > states.state_id]
}
Table states {
  state_id serial [pk]
  state_name varchar [not null]
  country_id int [not null, ref: > countries.country_id]
}
Table countries {
  country_id serial [pk]
  country_name varchar [not null]
}
Table jobs {
  job_id serial [pk]
  job_title varchar
  job_industry_category varchar
}
Table prosperities {
  prosperity_id serial [pk]
  owns_car boolean
  property_valuation int [not null]
  wealth_segment_id int [not null, ref: > wealth_segments.wealth_segment_id]
}
Table wealth_segments {
  wealth_segment_id serial [pk]
  wealth_segment varchar [not null]
}</code></pre>
  </div>

  <div style="text-align: center;">
    <img src="./misc/images/ER_diagram_customer_and_transaction.png" width="950"/>
    <p></p>
  </div>
</div>

### __Задча 4__. Создать все таблицы в DBeaver, указав первичные ключи к таблицам, правильные типы данных, могут ли поля быть пустыми или нет (использовать команду CREATE TABLE).

В целях формирования и повышения профессиональных качеств использовать DBeaver не будем, вместо этого воспользуемся Python модулем `sqlalchemy`. Модуль `sqlalchemy` используется для подключения к БД и проводке соответствующих транзакций.

Чтобы установить модуль `sqlalchemy` необходимо выполнить команду:

       pip install sqlalchemy

Для взаимодейтсвия с Базами Данных `PostgreSQL` также существует модуль `psycopg2`, который разработан специально для `PostgreSQL`.

Установить `psycopg2`:

       pip install psycopg2

Существенное отличие `sqlalchemy` от `psycopg2` заключается в более широком спектре возможностей `sqlalchemy` и простоте использования. По этой причине, для дальнейшего выполнения задания, будем использовать `sqlalchemy`.

In [5]:
# Проверим, что сервер PostgreSQL запущен

!systemctl status postgresql

[0;1;32m●[0m postgresql.service - PostgreSQL RDBMS
     Loaded: loaded (]8;;file://acer-wsl/lib/systemd/system/postgresql.service/lib/systemd/system/postgresql.service]8;;; enabled; vendor preset: enabled)
     Active: [0;1;32mactive (exited)[0m since Sun 2025-11-16 16:28:54 MSK; 7h ago
    Process: 330 ExecStart=/bin/true (code=exited, status=0/SUCCESS)
   Main PID: 330 (code=exited, status=0/SUCCESS)
        CPU: 1ms

Nov 16 16:28:54 acer-wsl systemd[1]: Starting PostgreSQL RDBMS...
Nov 16 16:28:54 acer-wsl systemd[1]: Finished PostgreSQL RDBMS.


In [6]:
# Импортируем модуль для работы с БД PostgreSQL

from sqlalchemy import create_engine, text, inspect

In [7]:
# Создаем подключение к БД PostgreSQL

with open('./password.txt', encoding='UTF-8') as f:
    password = f.readline()

try:
    engine = create_engine(
        f"postgresql://postgres:{password}@localhost:5432/postgres"
    )
    conn = engine.connect()
    print('Соединение успешно установлено!')
except:
    print('Ошибка подключения!')

Соединение успешно установлено!


In [8]:
# Проверим, что БД PostgreSQL пуста и не имеет таблиц.
# Для этой и последующих проверок создадим функцию `check_db_tables``

def check_db_tables(engine):
    tables_list = inspect(engine).get_table_names
    if not tables_list():
        print('Таблицы в БД отсутствуют:', tables_list())

    else:
        print('Имеющиеся в БД таблицы:', *tables_list(), sep='\n  >> ')

    return tables_list()

tables = check_db_tables(engine)

Таблицы в БД отсутствуют: []


Формирование БД PostgreSQL начинается с анализа того, что содержится в колнках исходных таблиц: `customer` и `transaction`. Создание таблиц БД производится в обратном порядке: от справочников к ключевым таблицам.

Отобразим типы данных таблицы `customer`

In [9]:
customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4000 entries, 0 to 3999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   customer_id            4000 non-null   int64 
 1   first_name             4000 non-null   object
 2   last_name              3875 non-null   object
 3   gender                 4000 non-null   object
 4   DOB                    3913 non-null   object
 5   job_title              3494 non-null   object
 6   job_industry_category  3344 non-null   object
 7   wealth_segment         4000 non-null   object
 8   deceased_indicator     4000 non-null   object
 9   owns_car               4000 non-null   object
 10  address                4000 non-null   object
 11  postcode               4000 non-null   int64 
 12  state                  4000 non-null   object
 13  country                4000 non-null   object
 14  property_valuation     4000 non-null   int64 
dtypes: int64(3), object(1

Отобразим типы данных таблицы `transaction`

In [10]:
transaction.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   transaction_id    20000 non-null  int64         
 1   product_id        20000 non-null  int64         
 2   customer_id       20000 non-null  int64         
 3   transaction_date  20000 non-null  datetime64[ns]
 4   online_order      19640 non-null  object        
 5   order_status      20000 non-null  object        
 6   brand             19803 non-null  object        
 7   product_line      19803 non-null  object        
 8   product_class     19803 non-null  object        
 9   product_size      19803 non-null  object        
 10  list_price        20000 non-null  float64       
 11  standard_cost     19803 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(3), object(6)
memory usage: 1.8+ MB


При создании таблиц в БД PostgreSQL будем ориентироваться на типы данных исходных таблиц, но с поправкой на специфику PostgreSQL.

Примем, следующие типы данных:
 * `object` - это `VARCHAR`;
 * `int64` - это `int4`;
 * `datetime64[ns]` - это `DATE`;
 * `float64` - это `float4`.

 и приступим к созданию таблиц.

#### 4.1. Создание таблиц-справочников: `statuses`; `brands`; `product_lines`; `product_classes`; `product_sizes`; `countries`; `wealth_segments`.

In [11]:
# Создание таблиц-справочников

conn.execute(text("""
    CREATE TABLE statuses (
         status_id SERIAL PRIMARY KEY 
        ,status VARCHAR(16) UNIQUE NOT NULL
    );

    CREATE TABLE brands (
         brand_id SERIAL PRIMARY KEY 
        ,brand VARCHAR(32) UNIQUE
    );

    CREATE TABLE product_lines (
         product_line_id SERIAL PRIMARY KEY 
        ,product_line VARCHAR(32) UNIQUE
    );

    CREATE TABLE product_classes (
         product_class_id SERIAL PRIMARY KEY 
        ,product_class VARCHAR(32) UNIQUE
    );

    CREATE TABLE product_sizes (
         product_size_id SERIAL PRIMARY KEY 
        ,product_size VARCHAR(32) UNIQUE
    );

    CREATE TABLE countries (
         country_id SERIAL PRIMARY KEY 
        ,country_name VARCHAR(32) NOT NULL UNIQUE
    );

    CREATE TABLE wealth_segments (
         wealth_segment_id SERIAL PRIMARY KEY 
        ,wealth_segment VARCHAR(32) NOT NULL UNIQUE
    );
"""));

In [12]:
# Фиксация изменений в БД - проводка транзакций

conn.commit()

In [13]:
# Проверка, что таблицы успешно созданы в БД

tables = check_db_tables(engine)

Имеющиеся в БД таблицы:
  >> statuses
  >> brands
  >> product_lines
  >> product_classes
  >> product_sizes
  >> countries
  >> wealth_segments


#### 4.2. Создание ключевых таблиц: `products`; `prosperities`; `jobs`; `states`; `address`.

In [14]:
# Создание ключевых таблиц

conn.execute(text("""
    CREATE TABLE products (
         product_id SERIAL PRIMARY KEY 
        ,brand_id INT4 REFERENCES brands(brand_id)
        ,product_line_id INT4 REFERENCES product_lines(product_line_id)
        ,product_class_id INT4 REFERENCES product_classes(product_class_id)
        ,product_size_id INT4 REFERENCES product_sizes(product_size_id)
        ,list_price FLOAT4 NOT NULL
        ,standard_cost FLOAT4
    );

    CREATE TABLE prosperities (
         prosperity_id SERIAL PRIMARY KEY 
        ,owns_car VARCHAR(4) NOT NULL
        ,property_valuation INT4 NOT NULL
        ,wealth_segment_id INT4 REFERENCES wealth_segments(wealth_segment_id)
    );

    CREATE TABLE jobs (
         job_id SERIAL PRIMARY KEY 
        ,job_title VARCHAR(64)
        ,job_industry_category VARCHAR(64)
    );

    CREATE TABLE states (
         state_id SERIAL PRIMARY KEY 
        ,state_name VARCHAR(32) NOT NULL
        ,country_id INT4 REFERENCES countries(country_id)
    );

    CREATE TABLE address (
         address_id SERIAL PRIMARY KEY 
        ,address VARCHAR(64) NOT NULL
        ,postcode VARCHAR(8) NOT NULL
        ,state_id INT4 REFERENCES states(state_id)
    );
"""));

In [15]:
# Проводка транзакций

conn.commit()

In [16]:
# Проверка

tables = check_db_tables(engine)

Имеющиеся в БД таблицы:
  >> statuses
  >> brands
  >> products
  >> product_lines
  >> product_classes
  >> product_sizes
  >> wealth_segments
  >> prosperities
  >> jobs
  >> countries
  >> states
  >> address


#### 4.3. Создание основных таблиц: `customers`; `transactions`.

In [17]:
# Создание ключевых таблиц

conn.execute(text("""
    CREATE TABLE customers (
         customer_id INT4 PRIMARY KEY
        ,first_name VARCHAR(24) NOT NULL
        ,last_name VARCHAR(24)
        ,gender VARCHAR(8) NOT NULL
        ,DOB DATE
        ,deceased_indicator VARCHAR(8)
        ,address_id INT4 REFERENCES address(address_id)
        ,job_id INT4 REFERENCES jobs(job_id)
        ,prosperity_id INT4 REFERENCES prosperities(prosperity_id)
    );

    CREATE TABLE transactions (
         transaction_id INT4 PRIMARY KEY
        ,customer_id INT4 REFERENCES customers(customer_id)
        ,transaction_date DATE NOT NULL
        ,online_order VARCHAR(16)
        ,order_status_id INT4 REFERENCES statuses(status_id)
        ,product_id INT4 REFERENCES products(product_id)
    );
"""));

In [18]:
# Проводка транзакций

conn.commit()

In [19]:
# Проверка

tables = check_db_tables(engine)

Имеющиеся в БД таблицы:
  >> brands
  >> products
  >> product_lines
  >> product_classes
  >> product_sizes
  >> wealth_segments
  >> prosperities
  >> countries
  >> states
  >> address
  >> customers
  >> jobs
  >> transactions
  >> statuses


#### 4.4. Визуальная проверка.

<div style="text-align: center;">
  <img src="./misc/images/Tables_check_DBeaver.png" width=720/>
  <p>Визуальная проверка существования таблиц</p>
</div>


### Задача 5. Загрузить данные в таблицы в соответствии с созданной структурой (использовать команду INSERT INTO или загрузить файлы, используя возможности инструмента DBeaver; в случае загрузки файлами приложить скрины, что данные действительно были залиты).

#### 5.1. Вставка данных в таблицы-справочники: `statuses`; `brands`; `product_lines`; `product_classes`; `product_sizes`; `countries`; `wealth_segments`.

Сперва подготовим данны для вставки в таблицы-справочники:

In [20]:
statuses = (transaction['order_status']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('status')
)
brands = (transaction['brand']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('brand')
)
product_lines = (transaction['product_line']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('product_line')
)
product_classes = (transaction['product_class']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('product_class')
)
product_sizes = (transaction['product_size']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('product_size')
)
countries = (customer['country']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('country_name')
)
wealth_segments = (customer['wealth_segment']
            .drop_duplicates()
            .reset_index(drop=True)
            .to_frame('wealth_segment')
)

После подготовки данных вставим данные в таблицы-справочники:

In [21]:
# Вставка данных в таблицы-справочники

conn.execute(text("""INSERT INTO statuses (status) VALUES (:status)"""),
             statuses.to_dict('records'))  # +

conn.execute(text("""INSERT INTO brands (brand) VALUES (:brand)"""),
             brands.to_dict('records'))  # +

conn.execute(text("""INSERT INTO product_lines (product_line) VALUES (:product_line)"""),
             product_lines.to_dict('records'))  # +

conn.execute(text("""INSERT INTO product_classes (product_class) VALUES (:product_class)"""),
             product_classes.to_dict('records'))  # +

conn.execute(text("""INSERT INTO product_sizes (product_size) VALUES (:product_size)"""),
             product_sizes.to_dict('records'))  # +

conn.execute(text("""INSERT INTO countries (country_name) VALUES (:country_name)"""),
             countries.to_dict('records'))  # +

conn.execute(text("""INSERT INTO wealth_segments (wealth_segment) VALUES (:wealth_segment)"""),
             wealth_segments.to_dict('records'));

In [22]:
# Проводка транзакций

conn.commit()

In [23]:
# Используя Pandas получим данные из таблицы `brands` для проверки


pd.read_sql_query(
    sql="SELECT * FROM brands",
    con=engine
)

Unnamed: 0,brand_id,brand
0,1,Solex
1,2,Trek Bicycles
2,3,OHM Cycles
3,4,Norco Bicycles
4,5,Giant Bicycles
5,6,WeareA2B
6,7,


#### 5.2. Вставка данных в ключевые таблицы: `products`; `prosperities`; `jobs`; `states`; `address`.

Сперва подготовим данны для вставки в ключевые таблицы:

In [24]:
# Получим данные из таблиц-справочников

brands = pd.read_sql_query(sql="SELECT * FROM brands", con=engine)
statuses = pd.read_sql_query(sql="SELECT * FROM statuses", con=engine)
product_lines = pd.read_sql_query(sql="SELECT * FROM product_lines", con=engine)
product_classes = pd.read_sql_query(sql="SELECT * FROM product_classes", con=engine)
product_sizes = pd.read_sql_query(sql="SELECT * FROM product_sizes", con=engine)
countries = pd.read_sql_query(sql="SELECT * FROM countries", con=engine)
wealth_segments = pd.read_sql_query(sql="SELECT * FROM wealth_segments", con=engine)

In [25]:
# Сопоставим id значений в таблица-справочниках с их значением и сохраним в словарь

statuses = dict(zip(statuses['status'], statuses['status_id']))
brands = dict(zip(brands['brand'], brands['brand_id']))
product_lines = dict(zip(product_lines['product_line'], product_lines['product_line_id']))
product_classes = dict(zip(product_classes['product_class'], product_classes['product_class_id']))
product_sizes = dict(zip(product_sizes['product_size'], product_sizes['product_size_id']))
countries = dict(zip(countries['country_name'], countries['country_id']))
wealth_segments = dict(zip(wealth_segments['wealth_segment'], wealth_segments['wealth_segment_id']))

In [26]:
# Создадим копии исходных таблиц customer и transaction
# Оставим и добавим только те колонки, которые будем добавлять в БД

states_to_load = customer[['state', 'country']].copy().rename(columns={'state': 'state_name'}).drop_duplicates().reset_index(drop=True)
jobs_to_load = customer[['job_title', 'job_industry_category']].copy()
prosperities_to_load = customer[['owns_car', 'property_valuation', 'wealth_segment']].copy().drop_duplicates().reset_index(drop=True)
products_to_load = transaction[['brand', 'product_line', 'product_class', 'product_size', 'list_price', 'standard_cost']].copy().drop_duplicates().reset_index(drop=True)

In [27]:
product_lines

{'Standard': 1, 'Road': 2, 'Mountain': 3, 'Touring': 4, 'NaN': 5}

In [28]:
# Добавим к копиям исходных таблиц значения id из таблиц-справочников

states_to_load['country_id'] = states_to_load['country'].map(countries)
prosperities_to_load['wealth_segment_id'] = prosperities_to_load['wealth_segment'].map(wealth_segments)
products_to_load['brand_id'] = products_to_load['brand'].map(brands)
products_to_load['product_line_id'] = products_to_load['product_line'].map(product_lines)
products_to_load['product_class_id'] = products_to_load['product_class'].map(product_classes)
products_to_load['product_size_id'] = products_to_load['product_size'].map(product_sizes)

In [29]:
# Удалим текстовые значения данныХ

states_to_load.drop(columns=['country'], inplace=True)
prosperities_to_load.drop(columns=['wealth_segment'], inplace=True)
products_to_load.drop(columns=['brand', 'product_line', 'product_class', 'product_size'], inplace=True)

In [30]:
conn.commit()

In [31]:
# Вставка данных в ключевые таблицы

conn.execute(text("""INSERT INTO states (state_name, country_id) VALUES (:state_name, :country_id)"""),
             states_to_load.to_dict('records'))  # +

conn.execute(text("""INSERT INTO prosperities (owns_car, property_valuation, wealth_segment_id) VALUES (:owns_car, :property_valuation, :wealth_segment_id)"""),
             prosperities_to_load.to_dict('records'))  # +

conn.execute(text("""INSERT INTO jobs (job_title, job_industry_category) VALUES (:job_title, :job_industry_category)"""),
             jobs_to_load.to_dict('records'))  #  +
conn.commit()

# conn.execute(text("""INSERT INTO products (brand_id, product_line_id, product_class_id, product_size_id, list_price, standard_cost) VALUES (:brand_id, :product_line_id, :product_class_id, :product_size_id, :list_price, :standard_cost)"""),
#              products_to_load.astype({'brand_id': int, 'brand_id': int, 'product_line_id': int, 'product_class_id': int, 'product_size_id': int}, errors='ignore').to_dict('records'))  #

<div style="text-align: center;">
  <img src="./misc/images/Tables_check_DBeaver_loads.png" width=720/>
  <p>Данные частично загружены</p>
</div>


In [32]:
# Используя Pandas получим данные из таблицы `зкщызукшешуы` для проверки


pd.read_sql_query(
    sql="SELECT * FROM prosperities",
    con=engine
)

Unnamed: 0,prosperity_id,owns_car,property_valuation,wealth_segment_id
0,1,Yes,10,1
1,2,Yes,9,1
2,3,No,4,1
3,4,Yes,9,2
4,5,Yes,9,3
...,...,...,...,...
67,68,Yes,6,1
68,69,Yes,3,3
69,70,No,3,3
70,71,No,5,3


In [None]:
# Удаление всех таблиц в БД

conn.commit()
for table in tables[::]:
    conn.execute(text(f"DROP TABLE IF EXISTS {table} CASCADE;"))
conn.commit()