# Введення в реляційні бази даних.
# PostgreSQL + Python

---

## лекція 5: Проектування БД. DDL - керуємо базами даних і таблицями.

In [None]:
from python_postgresql import execute_query, execute_read_query, connection
print("лекція 5: Проектування БД. DDL - керуємо базами даних і таблицями.")

### Проектування БД.

Проектування БД - досить складна і глибоко пропрацьована як на теоретичному, так і на практичному рівні наука.  І - це дійсно важливо, і якісне пропрацювання пректу БД вимагає глибоких і специфічних знань. Якісне проектування БД закладає міцний фундамент проекту і суттєво впливає на функціональність і розвиток проекту. Все це абсолютна правда, але в сьогоднішніх реаліях - так майже ніколи не буває.

Найбільш поширена методологія розробки програмного забезпечення сьогодні - Agile - не передбачає розробки глобальних планів і проектів перед імплементацією. Ці методології віддають перевагу "кортким крокам з конкретними результатами" і "активним діям" перед глибокими і детальними планами і довгими виробничими інтервалами. Тобто - у Вас не буде багато виділиного часу на проектування БД і окремих фахівців які будуть цім займатись. Сучасна розробка ПО відштовхується від ідеї що моделі краще адаптувати "по ходу справи", тому що ми починаємо краще розбиратись в предметній області і розуміти які програмні нішення ми використали і які зміни моделей даних для цього необхідні. Доречі - не думайте що це погані методики - все сучасне ПО розроблено, переважно, з використанням саме цих методик. Але - чим якісніше будуть стартові моделі - тим краще.

Розробкою БД займаються ті ж самі software developers, які і пишуть проект - тобто це будете саме Ви. Тому Вам необхідно розуміти базові етапи проектування БД і намагатись їх притимуватись.

Проектування БД відбувається спираючись на предметну область. Предметна область - це будь яка реальна область з життя: магазин, склад, бібліотека, якась суспільна группа людей, спортивна спільнота і т.ін.

Будь-яка БД є моделлю предметної області, яку вона відображує, з точки зору даних які знаходяться в цій предметній області, якімі оперують люди працюючі в цій преметній області. Таким чином - нам необхідно представити якусь предметну область з точки зору даних. Створити модель даних для якоїсь предметної області.

З точки зору програміста найбільш важдивою частиною проектування є логічне проектування - відображення в моделі зв'язків між сутностями, які ми описуємо, обмежень на дані, відображення всіх необхідних атрибутів об'єктів. Мо


#### Етапи проектування БД

Етапи проектування бази даних зазвичай поділяють на три етапи: концептуальний, логічний і фізичний.

##### Концептуальний проект:

На цьому етапі дизайнер зосереджується на розумінні вимог користувачів і створенні концептуальної моделі даних, які необхідно зберігати. Концептуальна модель зазвичай представлена діаграмою сутності та зв’язку (ERD), яка показує сутності, атрибути та зв’язки між ними. До основних дій дизайнера на цьому етапі відносяться:
- Ідентифікація сутностей і зв’язків між ними
- Створення ERD для представлення концептуальної моделі
- Уточнення концептуальної моделі на основі відгуків користувачів

Досить продуктивним інструментом на цьому етапі є аналіз і пропрацювання USE CASES: у співпраці з умовним "замовником" (влпсником, експертом, кінцевим користувачем).

##### Логічний дизайн:

На цьому етапі проектувальник зосереджується на створенні логічної моделі даних, яка може бути реалізована в системі управління базами даних (СУБД). Логічна модель представлена схемою, яка показує структуру бази даних, включаючи таблиці, атрибути та їхні зв’язки. До основних дій дизайнера на цьому етапі відносяться:
- Переведення концептуальної моделі в логічну модель
- Нормалізація схеми для зменшення надмірності та підвищення ефективності
- Перевірка схеми, щоб переконатися, що вона відповідає вимогам користувачів

Як правило (але не обов'язково) на цьому етапі визначають всі ключі, визначають типи даних (можливо - безвідносно до кокретної БД, хоча як правило на цбому етапі БД вже відома), описують логічні обмеження на дані, нормалізують відношення (як правило - не більше ніж третя нормальна форма. Ми докладніше поговоримо про це пізніше).

##### Фізичний дизайн:

На цьому етапі дизайнер зосереджується на реалізації логічної моделі в конкретній СУБД і оптимізації бази даних для продуктивності. До основних дій дизайнера на цьому етапі відносяться:
- Створення фізичної схеми, яка відображає логічну схему в обраній СУБД
- Вибір структур зберігання даних, таких як індекси, розділення та кластеризація
- Налаштування продуктивності бази даних шляхом оптимізації запитів, шляхів доступу та структур зберігання.
- Загалом розробка бази даних передбачає багато аналізу, планування та спілкування з зацікавленими сторонами, щоб переконатися, що остаточна база даних відповідає потребам користувачів, є ефективною та масштабованою.

Формально на цьому етапі (як правло, але не обов'язково) - обирають конкретну СУБД, визначать типи даних в кокретних реалізаціях обраної СУБД, визначають індекси (але це не остаточне визначення - протягом розробки і експлуатації це може змінюватись і доповнюватись), можуть визначатися представлення (для спрощення роботи з БД), визначаються обмеження на доступ.

#### Деякі рекомендації щодо проектування БД.

Як правило:
- запис (сукупність колонок) - відображає якийсь конкретний об'єкт, подію або абстрацію
- поле (колонка) - це якась властивість об'єкта, події або абстрації
- таблиця - сукупність записів одного типу (тобто тіх, які описуються одним набором атрибутів - полів)
- значення в кожному полі не повинні мати не валідні дані
- значення сукупності полів не можуть бути суперечливими

Як не треба робити, атипатерни:
- повне ігнорування нормалізації даних. Існуюють ситуації, коли на етапі проектування свідомо відмовляються від нормалізації частини даних. Але це, скоріше, виключення ніж правило.
- Відсутність стандартів іменування в проекті.
- використання однієї таблиці для різних за суттю даних
- ігнорування актуалізації представлення даних з часом (але це може бути проблемою проекту вцілому, а не виключно бідою БД)

Ще декілька більш конкретних рекомендацій:
- не робіть поля які складаються більше ніж з однієї логічної частина. Поле full_name ("Степан Андрійович Бандера") це, скоріше за все, буде поганий варіант, а поля first_name ("Степан"), last_name ("Бандера"), patronymic ("Андрійович") - будуть хорошим варіантом
- не робіть поля, які складаються з більш ніж одного значення (массиви, коли вони не потрібні). PostgreSQL відмінно працює з масивами даних. Але новачни інколи використовують цю можливість надмірно.
- уникайте використовувати обчислювані поля (наприклад - повна зарплатня за весь період роботи співробітника). Головна мера таблиці - зберігати дані, для обчислення має сенс використовувати інші інструменти.
- неправильний вибір перинних ключів. Приклад - номер мобільного телефону - вони не будуть унікальними, хоча можуть здаватись такими.
- уникайте використання композитиних (з декількох полів) первинних ключів. Це може приводити до падіння швидкості роботи БД.
- добре, коли в таблиці є не тільки сурогатний ключ (тобто - просто не маючий фізичної інтерпретації унікальний набір символів який однозначно ідентифікує запис), а і натуральний первинний ключ
- важливе правило: порушуйте правила, якщо ви розумієте для чого це вам. Якщо ваше обчислюване поле дає приріст швидкості - робіть його...


#### Нормалізація БД

Спочатку визначемо терміни:

__Нормальна форма__ - властивість відносини, що характеризує його з погляду надмірності даних.

__Нормалізація__ - процес мінімізації надмірності відношення (приведення його до нормальної форми).

Нормалізація бази даних — це процес структурування бази даних таким чином, щоб зменшити надмірність і забезпечити цілісність даних. Основною метою нормалізації є усунення аномалій і невідповідностей даних, які можуть виникнути через надлишкові або погано організовані дані.

Нормалізація передбачає розбиття великої таблиці на менші, більш спеціалізовані таблиці та встановлення зв’язків між ними за допомогою ключів. Завдяки цьому дані зберігаються таким чином, щоб кожна частина інформації зберігалася лише в одному місці, зменшуючи ймовірність неузгодженості даних.

Процес нормалізації зазвичай поділяється на ряд «нормальних форм», кожна з яких представляє вищий рівень нормалізації. Найпоширенішими нормальними формами є перша нормальна форма (1NF), друга нормальна форма (2NF) і третя нормальна форма (3NF), але існують і вищі рівні нормалізації.

Загалом, чим вище буде досягнута нормальна форма, тим більш організованими та послідовними будуть дані в базі даних. Однак досягнення вищого рівня нормалізації може вимагати більш складних структур таблиці та більш просунутих навичок моделювання даних, тому часто існує компроміс між нормалізацією та простотою використання чи продуктивністю.


#### Перша нормальна форма (1NF).

Перша звичайна форма (1NF) — це перший рівень нормалізації бази даних. Щоб задовольнити 1NF, таблиця повинна відповідати таким критеріям:

- Кожна комірка таблиці повинна містити лише атомарні (неподільні) значення.
- Кожен стовпець у таблиці повинен мати унікальну назву.
- Кожен рядок у таблиці має бути унікальним.
- Порядок зберігання даних не має значення.

Перший критерій означає, що кожна комірка в таблиці повинна містити одне значення, а не список або групу значень. Наприклад, якщо в таблиці є стовпець «Номери телефонів», кожна клітинка в цьому стовпці має містити окремий номер телефону, а не список телефонних номерів.

Другий критерій означає, що кожен стовпець у таблиці повинен мати унікальну назву. Це допоможе уникнути плутанини під час посилань на таблицю пізніше.

Третій критерій означає, що кожен рядок у таблиці має бути унікальним, щоб не було повторюваних рядків. Це гарантує, що кожен рядок можна ідентифікувати та оновлювати незалежно від інших рядків.

Четвертий критерій означає, що порядок, у якому дані зберігаються в таблиці, не має значення. Іншими словами, порядок, у якому рядки вставляються в таблицю, не повинен впливати на значення даних.

Відповідність цим критеріям допомагає переконатися, що дані в таблиці добре організовані та з ними легко працювати, а також зменшує ймовірність помилок і невідповідностей у даних. Як тільки таблиця задовольняє 1NF, її можна нормалізувати до вищих рівнів, таких як друга нормальна форма (2NF) і третя нормальна форма (3NF).

#### Друга нормальна форма (2ТА)

Друга звичайна форма (2NF) — це другий рівень нормалізації бази даних, який базується на вимогах першої нормальної форми (1NF). Щоб задовольнити 2NF, таблиця повинна відповідати таким критеріям:

- Він уже повинен відповідати вимогам 1НФ.
- Усі неключові атрибути (тобто стовпці, які не є частиною первинного ключа) мають функціонально залежати від усього первинного ключа.
Іншими словами, кожен неключовий атрибут повинен залежати лише від усього первинного ключа, а не від будь-якої його частини. Якщо неключовий атрибут залежить лише від частини первинного ключа, його слід перемістити до нової таблиці разом із частиною первинного ключа, від якої він залежить.

Наприклад, розглянемо таблицю замовлень із стовпцями для ідентифікатора замовлення, ідентифікатора продукту та назви продукту. У цьому випадку назва продукту функціонально залежить від ідентифікатора продукту, який є лише частиною первинного ключа. Щоб задовольнити 2NF, нам потрібно буде створити окрему таблицю для продуктів і перемістити стовпець «Назва продукту» до цієї таблиці, щоб він залежав лише від первинного ключа ID продукту.

Упорядковуючи дані таким чином, 2NF допомагає зменшити надмірність і гарантує, що кожна частина інформації зберігається лише в одному місці. Це допомагає запобігти невідповідності даних і аномаліям, які можуть виникнути внаслідок зберігання дублікатів або конфліктних даних. Як тільки таблиця задовольняє 2NF, її можна нормалізувати до вищих рівнів, таких як Третя нормальна форма (3NF) і далі.

#### Третя нормальна форма (3NF)

Третя звичайна форма (3NF) — це третій рівень нормалізації бази даних, який базується на вимогах другої нормальної форми (2NF). Щоб задовольнити 3NF, таблиця повинна відповідати таким критеріям:

Він вже повинен відповідати вимогам 2NF.
Усі неключові атрибути (тобто стовпці, які не є частиною первинного ключа) мають функціонально залежати лише від первинного ключа, а не від будь-яких інших неключових атрибутів.
Іншими словами, якщо неключовий атрибут залежить від іншого неключового атрибута, його слід перемістити до нової таблиці разом із атрибутом, від якого він залежить.

Наприклад, розглянемо таблицю інформації про співробітника зі стовпцями для ідентифікатора працівника, ідентифікатора відділу та керівника відділу. У цьому випадку менеджер відділу функціонально залежить від ідентифікатора відділу, який є частиною первинного ключа, але він також залежить від назви відділу, яка є неключовим атрибутом. Щоб задовольнити 3NF, нам потрібно буде створити окрему таблицю для відділів і перемістити стовпець «Менеджер відділу» до цієї таблиці, щоб він залежав лише від первинного ключа ідентифікатора відділу.

Упорядковуючи дані таким чином, 3NF допомагає ще більше зменшити надмірність і гарантує, що кожен фрагмент інформації зберігається лише в одному місці. Це допомагає запобігти невідповідності даних і аномаліям, які можуть виникнути внаслідок зберігання дублікатів або конфліктних даних, а також допомагає спростити запити та оновлення даних.

Давайте розберемо на прикладі.

![таблиця автори і твори](media/NF_step_1.png)

Перевіримо на відповідність першій НФ
- тут не має рядків-дублікатів
- використовуються прості типи даних - так. Це все текстові типи.
- кожна окрема комірка таблиці атомарна? ні - у другому стовпці перелічується по декілька окркмих книжок (навіть якщо ми приймемо що перший стовпець - ім'я і фамілія автора як едине атомарне значення)

Щоб привести таблицю до форми 1NF внесемо зміни:

![приведена до NF1](media/NF1_step_2.png)

Тепер приведемо нашу таблицю до другої нормальної форми.

Перше - повинен з'явитись первинний ключ. Давайте подивимось на існуюючи атрибути з точки зору використання їх як первинного ключа.
Атрибут - author_name - явно не підходить, бо він повторюється. Атрибут book_title - виглядає більш перспективним, але уявіть що у двох авторів книжки будуть мати однакову назву. Це цілком можливо. Або - більш складна ситуація - коли два автора, які мають книжки написані лише ними, і є твори, які ці два автора написали в соавторстві. Тому назва твору як первинний ключ - не надто добра ідея.

Можна подумати про композитиний первинний ключ - який буде складатися з двох полів:

![композитні ключі NF2 крок 1](media/NF2_step_1.png)

дивіться - зараз композитний ключ став унікальним. Тобто - він дійсно унікальний в межах цієї таблиці. Але у другої нормальної форми є ще одна вимога - "Усі неключові атрибути (тобто стовпці, які не є частиною первинного ключа) мають функціонально залежати від усього первинного ключа". Давайте розшифруємо це на нашому прикладі.
Наприклад - поле author_name має відношення лише до частини нашого композитного ключа - author_id. Вого ніяк не пов'язано з другою частиною ключа - book_id.

Тобто ми не відповідаємо другій нормальній формі.

Перед тим, як подивитись що з цім робити, давайте додамо в цб таблицю додаткову інформацію - про видавництво яке видало цю книгу і контакти видавництва (виключно щоб приклад став більш інформативним):

![NF 2 розширена таблиця до перетворення](media/NF2_step_2.png)

Для реалізації цієї вимоги нам необхідно розділити нашу таблицю. Нам необхідно створити додаткову таблицю, яка буде мати у якості атрибутів лише ключі author_id і book_id, зв'язок між якими допоможе нам виконати умови другої нормальної форми.

![розділення на більш прості таблиці](media/NF2_step_3.png)

Ми виконали вимогу для другої нормальної форми для всіх створених таблиць.

Тепер давайте подивимось на створені таблиці з точки зору вимог третьої нормальної форми. 
Зверніть увагу на вимогу "усі неключові атрибути (тобто стовпці, які не є частиною первинного ключа) мають функціонально залежати лише від первинного ключа, а не від будь-яких інших неключових атрибутів". Тепер дивимось на таблицю нижче (одна з створених на попередньому кроці):

![3NF_step_1](media/3NF_step_1.png)

Ви можете побачити невідповідніть озученій вимозі - неключевий атрибут publisher_contact залежить від неключового атрибута publisher_title. І це зрозуміло - бо атрибут publisher_contact - це атрибут видавництва, а не атрибут книги. Вирішити цю невідповідність ми можемо декомпозицією таблиці - розділенням на більш прості таблиці і встановленням між ними зв'язку.

Виглядати це буде так:

![NF# step 2](media/NF3_step_2.png)


Тепер всі атрибути в обох таблицях залежать лише від первинного ключа.


Ми з Вами з однієї таблиці створили чотири. Це може здаватись ускладненням, але це тільки на перший погляд. При розростанні обсягу даних в першому випадку ми б отримували дублювання даних. Тепер - вони виключені.

Необхідно відмітити, що інколи дані денормалізуються. Тобто - нормалізовані до високих рівнів нормальних форм таблиці починають поєднувати. Це роблять інколи, щоб уникнути зайвих join - коли їх багато швидкість виконання операцій може зменшуватись. Як поступати - покаже практична експлуатація БД. Але на першому етапі - краще пропрацювати нормальні форми.


### DDL - керуємо базами даних і таблицями.

Протягом нашого курсу зараз, і в процесі першого знайомства з SQL (на прикладах роботи з БД SQLite) ми з Вами створювали як БД так і таблиці в них. Такі дії регламентуються розділом SQL, який називається DDL (Data Definition Language). Це команди які допомогають нам створювати\модифікувати\видаляти - тобто створювати і змінювати структуру будь-яких об'єктів бази даних - таблиць, представлень, схем і ндексфів і т. ін.


На початок давайте створимо нову БД, з якою будемо експерементувати.
Про створення БД докладно [тут](https://www.postgresql.org/docs/15/sql-createdatabase.html).
Команда може мати велику кількість додаткових пареметрів які будуть керувати всіма аспектами створення БД - від власника і прав до використовуємих кодувань, правил сортування і кількості одночасних підключень. Ми не будемо зараз в це заглиблюватись - ми просто створимо нову БД. Звертаю лише вашу увагу на те, що створити БД  необхідно бути суперкористувачем або мати спеціальне право [CREATEDB](https://www.postgresql.org/docs/15/sql-createrole.html). Якщо все раніше виконувалось згідно інструкцій, то наш користувач, який визначений в файлі docker-compose.yaml - POSTGRES_USER="student" має таку роль і може виконати цю операцію.

Давайте створимо нову БД з назвою my_new_db:

In [None]:
operation_query = """
CREATE DATABASE my_new_db;
"""

final_set = execute_query(connection, operation_query)


Тепер цікаво побачити цю БД. Використаємо для цього DBeaver або pgAdmin. 
Щоб побачити БД треба створити нове з'єднання з БД. Пам'ятаємо, що наш користувач - той самий що і для нашої БД Nordwind і пароль у нього той самий. Згадати їх нам допоможе запис в docker-compose.yaml.

В моєму випадку - я використовував DBeaver - створення з'єднання виглядало так:

![create connection to my_new_db](./media/connection_to_my_new_db.png)


Після цього Ви можете побачити  створену БД в переліку існуючих з'єднань:

![connection to my_new_db](./media/my_new_db%20connection.png)

Після створення БД логічно проговорити про її видалення. Це проста операція, але повинно виконуватись кілька умов:
- у Вас на це повинні бути права (ви повинні бути її власником), 
- крім того, не можна видалити базу, до якої ви підключені зараз. (Щоб виконати цю команду, підключіться до postgres (ця БД створюється за замовченням при розгортанні сервера) або будь-якої іншої бази даних)
- команда не буде виконана, коли до цільової бази підключені якісь користувачі, якщо ви не додасте вказівку FORCE

В цілому формат команди видалення виглядає наступним чином:
```SQL
DROP DATABASE [ IF EXISTS ] name [ [ WITH ] ( option [, ...] ) ]

where option can be:

    FORCE
```

[докладно про цю команду написано тут](https://www.postgresql.org/docs/15/sql-dropdatabase.html)

Ми зараз не будемо виконувати команду видалення - ми попрацюємо з створеноб Бд, а після всього - видалимо її).

Для того, щоб вионувати операції на іншій БД, необхідно створити з'єднання до неї. Це вре знайома для нас операція, в файлі python_postgresql.py у нас створено з'єднання з Nordwind, яке ми використовували ппотягом всього курса. Давайте тут створимо аналогічно з'єднання з новою БД. Для цього імпортуємо і використаємо написану нами функцію create_connection, опишемо параметри нового підключення. А функції, які виконують запити (execute_query, execute_read_query) - ми імпортували раніше, тому можемо використовувати:

In [None]:
from python_postgresql import create_connection

database = "my_new_db"
user = "student"
password = "cyberbionics"
host = "127.0.0.1"
port = 5432

my_new_db_connection = create_connection(
    db_name=database,
    db_user=user,
    db_password=password,
    db_host=host,
    db_port=port
)


Тепер ми можемо працювати з новою БД.

[Основні команди для створення і модифікації таблиць](https://www.postgresql.org/docs/15/sql-altertable.html):
- [CREATE TABLE \<table_name\>](https://www.postgresql.org/docs/15/sql-createtable.html) - створити нову таблицю з назвою \<table_name\>
- [ALTER TABLE \<table_name\>](https://www.postgresql.org/docs/15/ddl-alter.html) - модифікувату таблицю. Після цієї команди додається кокретизація:
    - [ADD COLUMN \<column_name\> \<data_type\>](https://www.postgresql.org/docs/15/ddl-alter.html#DDL-ALTER-ADDING-A-COLUMN) - додати колонку <>column_name з типом даних \<data_type\>
    - [RENAME TO \<new_table_name\>](https://www.postgresql.org/docs/15/ddl-alter.html#id-1.5.4.8.12) - перейменувати таблицю \<table_name\> в таблицю \<new_table_name\>
    - [RENAME \<old_column_name\> TO \<new_column_name\>](https://www.postgresql.org/docs/15/ddl-alter.html#id-1.5.4.8.11) - перейменувати колонку \<old_column_name\> таблиці \<table_name\> в \<new_column_name\>
    - [ALTER COLUMN \<column_name\> SET DATA TYPE \<dat_type\>](https://www.postgresql.org/docs/15/ddl-alter.html#id-1.5.4.8.10) - замінити тип даних на \<data_type\>, які представляє існуюча колонка \<column_name\>.
- [DROP TABLE \<table_name\>](https://www.postgresql.org/docs/15/sql-droptable.html) - видалити існуючу таблицю \<table_name\>.
- [TRUNCATE TABLE \<table_name\>](https://www.postgresql.org/docs/15/sql-truncate.html) - видалити всі дані в таблиці \<table_name\>. При цьому інформація в лог-файл не пишеться. Якщо видалення даних призведе до порушення цілісністі даних (наприклад, на них є посилання через вториний ключ) - дані видалені не будуть.
- [DROP COLUMN \<column_name\>](https://www.postgresql.org/docs/15/ddl-alter.html#DDL-ALTER-REMOVING-A-COLUMN) - видалити колонку \<column_name\>

Кожна команда має значну кількість варіантів використання, тому ви маєте активні посилання на документацію для вивчення варіантів коли вони Вам потрібні. А ми зараз - виконаємо декілька практичних вправ.

Давайте створимо таблиці з нашого прикладу про українські книги - автори, книги, видання, та таблиця зв'язків книжок з їх авторами.

In [None]:
operation_query = """
CREATE TABLE publisher
(
    id INTEGER,
    title VARCHAR,
    contact VARCHAR
);
CREATE TABLE author
(
    id INTEGER,
    name VARCHAR
);
CREATE TABLE book
(
    id SERIAL,
    title VARCHAR,
    publisher INTEGER
);
CREATE TABLE author_book
(
    author INTEGER,
    book INTEGER
);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Давайте підключимось до БД і подивимось на створену структуру. У мене вона виглядає так:

![створені таблиці БД](./media/my_new_db_create_first_step.png)

Давайте модифікуємо наші таблиці:
- в таблиці author модифікуємо атрибут name: замість нього зробимо поля first_name, last_name і patronymic

In [None]:
operation_query = """
ALTER TABLE author
ADD COLUMN first_name VARCHAR;
ALTER TABLE author
ADD COLUMN last_name VARCHAR;
ALTER TABLE author
ADD COLUMN patronymic VARCHAR;
"""

final_set = execute_query(my_new_db_connection, operation_query)


Тепер має сенс видалити колонку name:

In [None]:
operation_query = """
ALTER TABLE author
DROP COLUMN name;
"""

final_set = execute_query(my_new_db_connection, operation_query)


Є ще одна бажана зміна - давайте обмежимо довжину даних, які ми використовуємо для імен і назв.
Наприклад, будемо вважати що 
- атрибути first_name, last_name i patronymic таблиці authors можуть мати максимальну довжину 50 символів
- атрибут title таблиці book може мати максимальну довжину 200 символів
- атрибут title таблиці publisher може мати максимальну довжину 100 символів

In [None]:
operation_query = """
ALTER TABLE author
ALTER COLUMN first_name SET DATA TYPE varchar(50);
ALTER TABLE author
ALTER COLUMN last_name SET DATA TYPE varchar(50);
ALTER TABLE author
ALTER COLUMN patronymic SET DATA TYPE varchar(50);
ALTER TABLE book
ALTER COLUMN title SET DATA TYPE varchar(200);
ALTER TABLE publisher
ALTER COLUMN title SET DATA TYPE varchar(100);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Пропоную Вам, використовуючи графічний кліент, переконатись що зміни типів даних зафіксовано. Для цього Ви можете подивитись на властивості обраних таблиць. Наприклал, в моєму випадку це виглядає так:

![властивості таблиці author](./media/my_new_db_create_second_step.png)


Тепер давайте попрацюємо з обмеженнями. В першу чергу - обмеження первинного і вторинного ключів. Ми визначили таблиці, але не визначали в них первінні і вторинні ключі, хоча в першій частині, коли описували для себе ці дані і нормалізували таблиці, ми мали на увазі що id в таблицях authors, book та publisher є унікальними і однозначно ідентифікують, відповідно, автора, книгу або видавця.
Обмеження первинного ключа - як раз про це. Воно відстежує унікальність поля в рамках таблиці і не допускає існування двох або більше записів в таблиці з однаковим значенням цього атрибута. До того ж - це поле не може бути пустим, тобто обов'язково має якесь значення.
Найчастіше при створенні таблиці Ви вже знаєте який атрибут буде первинним ключем і одразу накладаєте це обмеження:
```SQL
CREATE TABLE author
(
    id INTEGER PRIMARY KEY,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    patronymic VARCHAR(50)
);
```
Для того щоб СУБД самостійно створювала унікальне значення первинного ключа в типі даних ```INTEGER``` існує спеціальний тип даних - ```SERIAL```. Якщо вказати його то при внесені нових даних в таблицю можна не передавати значення ID, СУБД самостійно буде інкрементувати останній результат на одиницю і використовувати його, якщо не передати значення явно. Тобто, в нашому випадку, визначення таблиці моглоб виглядати наступним чином:
```SQL
CREATE TABLE author
(
    id SERIAL PRIMARY KEY,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    patronymic VARCHAR(50)
);
```



Доречі - обмеження унікальності і обов'язковості значення - відповідно ```UNIQUE``` і ```NOT NULL``` - можуть використовуватись і для інших колонок, якщо це відповідає суті ваших даних і необхідно для Вашого завдання. Докладно про це:
- [UNIQUE - документація](https://www.postgresql.org/docs/15/ddl-constraints.html#DDL-CONSTRAINTS-UNIQUE-CONSTRAINTS)
- [NOT NULL - документація](https://www.postgresql.org/docs/15/ddl-constraints.html#id-1.5.4.6.6)

В нашому випадку - таблиці вже створені і (хоча в них і не маємо даних і можливий шлях - видалити існуючи таблиці і створити нові з необхідним набором обмежень) ми внесемо обмеження на вже існуюючи в БД таблиці (коли така операція буде робитись на таблиці з даними, то Ви не зможете накласти обмеження якщо в таблицях будуть некосістентні дані - не відповідаючи вносимим обмеженням).


In [None]:
operation_query = """
ALTER TABLE author
DROP COLUMN id;
ALTER TABLE author
ADD COLUMN id serial PRIMARY KEY;
"""

final_set = execute_query(my_new_db_connection, operation_query)


І для інших таблиць:

In [None]:
operation_query = """
ALTER TABLE book
DROP COLUMN id;
ALTER TABLE book
ADD COLUMN id serial PRIMARY KEY;

ALTER TABLE publisher
DROP COLUMN id;
ALTER TABLE publisher
ADD COLUMN id serial PRIMARY KEY;
"""

final_set = execute_query(my_new_db_connection, operation_query)


Подивіться на результати:

![створення первинних ключів](./media/my_new_db_create_third_step.png)

Тепер давайте поговорим про обмеження вторинного ключа. [Докладно в документації про них описано тут.](https://www.postgresql.org/docs/15/ddl-constraints.html#DDL-CONSTRAINTS-FK) Ми їх використовували в нашій моделі даних - наприклад у нас таблиця author_book складається з двох атрибутів - один це ідентифікатор автора (тобто там може знаходитись тільки існуюче значення id з таблиці author), і ідентифікатор книги (існуюче поле id з таблиці book). Також у таблиці book в атрибуті publisher може бути лише значення з поля id таблиці publisher. 
Доречі - мені не дуже подобається назва атрибута publisher в таблиці book - мені здається більш відповідаючим суті назва publisher_id - тому я хочу спочатку змінити назву атрибута, а потім додати обмеженняЖ

In [None]:
operation_query = """
ALTER TABLE book
RENAME publisher TO publisher_id;
ALTER TABLE book
ADD CONSTRAINT fk_book_publisher_id FOREIGN KEY (publisher_id) REFERENCES publisher(id);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Аналогічно для інших таблиць. 
Перед внесенням обмежень на таблиці я приведу назви стовпців у відповідність до попереднього варіанту - якщо ключ посилається на поле id таблиці sometable, то я назву атрибут sometable_id:

In [None]:
operation_query = """
ALTER TABLE author_book
RENAME author TO author_id;
ALTER TABLE author_book
RENAME book TO book_id;
"""

final_set = execute_query(my_new_db_connection, operation_query)


In [None]:
operation_query = """
ALTER TABLE author_book
ADD CONSTRAINT fk_author_book_author_id FOREIGN KEY (author_id) REFERENCES author(id);
ALTER TABLE author_book
ADD CONSTRAINT fk_author_book_book_id FOREIGN KEY (book_id) REFERENCES book(id);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Подивіться в своєму клієнті БД на результати. У мене в DBeaver для таблиці author_book це виглядає так:

![таблиці з вторинними ключами](./media/my_new_db_create_fourth_step.png)


#### CHECK

Зручним інструментом є обмеження ```CHECK```. [Докладно документацію про нього можете почитати тут.](https://www.postgresql.org/docs/15/ddl-constraints.html#DDL-CONSTRAINTS-CHECK-CONSTRAINTS)

Ваші дані дуже часто мають логічні обмеження: ціна не може бути менше ніж 0, оцінки студента є цілі числа з якогось диапазону, показники зріст\вага\температура тіла для пацієнта мають якісь розумні обмеження і таке інше, приклади можна наводити нескінченно. Доброю практикою може стати контролювати ці обмеження на дані на рівні БД при внесенні даних. Допоможе в цьому команда CHECK.

Давайте для таблиці book додамо атрибут price з обмеженням да дані, що вони не можуть бути менші 0.

In [None]:
operation_query = """
ALTER TABLE book
ADD COLUMN price decimal;
ALTER TABLE book
ADD CONSTRAINT positive_price CHECK (price >= 0);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Ви можете подивитись результат в використовуємому Вами клієнті. У мене це виглядає так:

![внесення обмеження CHECK](./media/my_new_db_create_fifth_step.png)

#### DEFAULT

Давайте додамо обмеження значення за замовченням.
Тобто - коли у нас є необов'язкові поля (ті, при створенні рядка таблиці для яких не обов'язково передавати якісь значення) ми можемо заповнювати їх значенням за замовченням. Можливо хтось не буде вважати це обмеженням, але postgreSQl відносить це до обмежень.

Давайте для нашої таблиці publisher створимо додаткове поле - cooperation_status, яке буде відображувати наш статус співпраці з цім видавництвом. Цей статус може мати значення: 
- no - ми не співпрацюємо 
- yes - співпрацюємо
- in_progress - ідуть перемовини
Інші значення в полі недопустимі, тобто нам необхідно буде додати первірку.
Якщо ми тільки заводимо нового видавця, за замовченням статус повинен мати значення "no".

Виглядати реалізація цього буде таким чином:


In [None]:
operation_query = """
ALTER TABLE publisher
ADD COLUMN cooperation_status varchar(11) DEFAULT 'no';
ALTER TABLE publisher
ADD CONSTRAINT chk_coop_status CHECK (cooperation_status in ('no', 'yes', 'in_progress'));
"""

final_set = execute_query(my_new_db_connection, operation_query)


Тепер за замовченням значення поля буде "no" і намагання внести дані що не відповідають обумовленим нами буде викликати помилку. Видалити обмеження ми можемо використовуючи вже вивчений нами синтаксис модифікації таблиць (... DROP CONSTRAINT ...).

#### INSERT

Давайте наповнимо нашу БД даними і трохи узагальнимо наші знання по роботі з цім оператором. Давайте заповнимо таблицю з авторами:


In [None]:
operation_query = """
INSERT INTO author
VALUES ('Іван', 'Котляревський', 'Петрович')
"""

final_set = execute_query(my_new_db_connection, operation_query)


In [None]:
operation_query = """
INSERT INTO author
VALUES 
    ('Остап', 'Вишня'),
    ('Сергій', 'Жадан'),
    ('Оксана', 'Забужко');
"""

final_set = execute_query(my_new_db_connection, operation_query)


Зверніть увагу на наступне:
- для опису поля id ми використовували псевдотип SERIAL (псевдотип - тому що це, насправді тип INTEGER з деякими правилами формування значення за замовченням. Ми не заглиблюємось в цю тему, але для тих хто зацікавиться - це пов'язано з такими об'єктами БД як SEQUENCE) і тому можемо не передавати значення для останнього поля, воно заповниться автоматично.
- після назви таблиці я нічого не вказував. І якщо для Котляревського я вказав значення для всіх трьох атрибутів, то для інших авторів їх було всього два. Як СУБД знає в які саме поля їх вставляти? В цьому випадку СУБД просто заповнює їх для кожного запису послідовно. В нашому випадку - все співпало. Але якщо мені, з якихось причин, було б необхідно вставити, наприклад, тільки last_name, то необхідно після імені таблиці вкащати поля, в які буде вставка даних:
```SQL

INSERT INTO author (last_name)
VALUES 
    ('Вишня'),
    ('Жадан'),
    ('Забужко');
```

Давайте заповними даними таблицю по видавцям.

In [None]:
operation_query = """
INSERT INTO publisher
VALUES 
    ('Ранок', '380571122334'),
    ('Vivat', '380800201102'),
    ('А-БА-БА-ГА-ЛА-МА-ГА', '380686683595'),
    ('Астролябія', '380322762300');
"""

final_set = execute_query(my_new_db_connection, operation_query)


Давайте подивимось на результат заповнення таблиці:

In [None]:
operation_query = """
SELECT *
FROM publisher;
"""

final_set = execute_read_query(my_new_db_connection, operation_query)
if final_set:
    for record in final_set:
        print(record)
else:
    print(final_set)


Зверніть увагу на поля, заповнені за замовченням. Все відповідає нашим вимогам.

Тепер час таблиці book. Це буде складніше, так як атрибут publisher_id в ній повинен відповідати існуючим обмеженням вторинного ключа - тобто співвідноситись із значеннями первинного ключа таблиці publisher.

In [None]:
operation_query = """
INSERT INTO book
VALUES 
    ('Кассандра', 1),
    ('Лісова пісня', 2),
    ('Вишневі усмішки', 3),
    ('Усмішки', 4),
    ('Мисливські усмішки', 1),
    ('Гімн демократичної молоді', 1),
    ('Вогнепальної і ножової', 4),
    ('Інтернат', 3),
    ('Польові дослідження з українського сексу', 3),
    ('Музей покинутих секретів', 2),
    ('Наталка Полтавка', 2),
    ('Енеїда', 2);
"""

final_set = execute_query(my_new_db_connection, operation_query)


І дивимось результат:

In [None]:
operation_query = """
SELECT *
FROM book;
"""

final_set = execute_read_query(my_new_db_connection, operation_query)
if final_set:
    for record in final_set:
        print(record)
else:
    print(final_set)


Все відповідає нашим обмеженням - первинний ключ сформовано автоматично, price - необов'язковий параметр, мае невизначене значення.
Остання незаповнена таблиця - author_book, два поля якої мають обмеження вторинного ключа і формуються з первинних ключів таблиць book і author. Заповнимо і її:

In [None]:
operation_query = """
INSERT INTO author_book
VALUES 
    (2, 1),
    (2, 2),
    (3, 3),
    (3, 4),
    (3, 5),
    (4, 6),
    (4, 7),
    (4, 8),
    (5, 9),
    (5, 10),
    (1, 11),
    (1, 12);
"""

final_set = execute_query(my_new_db_connection, operation_query)


Пропоную Вам самостійно первірити правильність заповнення нашої невеликої БД - сформуйте запит який поверне для кожного автора всі його книжки з видавництвом, яке їх видало. До того ж - ще раз згадаєте українських авторів, а не тільки JOIN)))

#### UPDATE, DELETE, RETURNING

Це досить тривіальні операції, тому вивчимо їх одразу на прикладах.

UPDATE дає можливість нам оновиті дані в існуючому рядку. наприклад - давайте. Оновимо дані в нашій таблиці авторів, додамо для автора Сергія Жадана по-батькові (атрибут patronymic) - Вікторович.

In [None]:
operation_query = """
UPDATE author
SET patronymic = 'Вікторович'
WHERE last_name = 'Жадан' and first_name = 'Сергій';
"""

final_set = execute_query(my_new_db_connection, operation_query)


Подивіться на результат любим зручним для Вас чином.
Зверніть увагу на розділ в запиті WHERE: ми повинні сформулювати умову за якої СУБД обере рядки, в яких буде виконано оновлення. Якщо відповідать умові буде не один рядок - то всі вони отримають оновлення.
Давайте в таблиці publisher оновимо одразу всі статуси по стану нашої співпраці з видавництвами на "in_progress":

In [None]:
operation_query = """
UPDATE publisher
SET cooperation_status = 'in_progress';
"""

final_set = execute_query(my_new_db_connection, operation_query)


Подивіться на результат. Спробуйте внести інше значення - подивіться як буде працювати наше обмеження CHECK.

Щоб видалити рядок, необхідно виконати оператор
```SQL
DELETE FROM book
WHERE id=10;
```
Оператор буде виконано для рядків, для яких умова після WHERE буде виконуватись - тобто це може бути також не один рядок.
Наша БД надто мала - тому дуже не хочеться щось в ній видаляти. Пропоную Вам самостійно після закінчення вивчення теми поексперементувати з видаленням рядків, груп рядків. Зверніт увагу що буде виходити якщо видалення якогось рядка може порушити консістенсіть даних (наприклад - видалення автора книги якого є у нас в БД - і в таблиці book є вторинні ключі, які посилаються на id автора якого ми видаляємо. Це питання виходе за межі нашого невеликого курсу - а для тіх хто зацікавится пропоную [почитати тут](https://www.postgresql.org/docs/15/ddl-constraints.html#DDL-CONSTRAINTS-FK)).

Коли ми додаємо якісь дані в таблицю нам буває необхідно отримати одразу значення автоматично призначених параметрів (id, наприклад). Звісно можна зробити запит, але є більш короткий і швидкий шлях, інструкція RETURNING. 
Приклад:

In [None]:
operation_query = """
INSERT INTO publisher (title)
VALUES
    ('Країна мрій')
RETURNING *;
"""

final_set = execute_read_query(my_new_db_connection, operation_query)
print(final_set)


Зверніть увагу на наступні речі:
- я використав функцію ту ж саму, що і для селект - у нас є повертаємі дані
- ми маємо можливість використовувати символ * - і тоді ми отримаємо всі атрибути. Можемо вказати конкретно перелік атрибутів які нам потрібні - точно так як в запиті SELECT.
- цей оператор може використовуватись з INSERT, UPDATE i DELETE - і ми отримаємо, відповідно, атрибути втавленого\оновленого\видаленого рядка (або групи рядків).
