# Жизненный цикл баз данных. Проектирование баз данных.

1. Этапы жизненного цикла базы данных
2. Концептуальное (инфологическое) проектирование базы данных
3. Примеры концептуального проектирования БД, case-средства

## Этапы жизненного цикла базы данных

**Жизненным циклом базы данных** называется период времени от момента появления идеи ее создания до момента завершения ее поддержки и сопровождения.

Этапы жизненного цикла БД определяются международным стандартом ISO/IEC 12207:2008 Systems and software engineering – Software life cycle processes (Системная и программная инженерия – Процессы жизненного цикла).

На рисунке обозначены основные этапы жизненного цикла БД.

![image.png](attachment:92a0e73f-f799-45bd-b0d8-983a2b65c85b.png)


Кратко охарактеризуем каждый из этапов и подробно остановимся на этапе проектирования БД. 

На этапе **планирования разработки БД** отвечают на вопросы о назначении БД, взаимодействуют с заказчиком, определяются с примерными будущими требованиями к БД и примерной стоимостью разработки, временем разработки.

**Этап определения и анализа требований к системе** включает в себя определение целей и задач организации, анализ бизнес-процессов, для которых создается БД, опрос основные специалистов организации на предмет желаемого функционала БД, наблюдение за процессом документооборота организации. На выходе этого этапа формируется перечень согласованных с заказчиком требований к составу и функциональным возможностям БД.

**Этап проектирования БД** включает в себя:
  - концептуальное (инфологическое) проектирование;
  - логическое(даталогическое) проектирование
  - физическое проектирование
  
**Концептуальное (инфологическое) проектирование** - построение семантической модели предметной области, то есть информационной модели наиболее высокого уровня абстракции. Такая модель создаётся без ориентации на какую-либо конкретную СУБД и модель данных. Будем принимать термины «семантическая модель», «концептуальная модель» и «инфологическая модель», которые могут встретиться в литературе, как синонимы.

Логическое (даталогическое) проектирование - создание схемы базы данных на основе конкретной модели данных, например, чаще всего - реляционной модели данных. Для реляционной модели данных даталогическая модель будет включать в себя набор схем отношений, обычно с указанием первичных ключей, а также связей между отношениями, представляющих собой внешние ключи. На этапе логического проектирования учитывается специфика конкретной модели данных, но может не учитываться специфика конкретной СУБД.

Физическое проектирование - создание схемы базы данных для конкретной СУБД. Специфика конкретной СУБД может включать в себя ограничения на именование объектов базы данных, ограничения на поддерживаемые типы данных и т.д. Кроме того, специфика конкретной СУБД при физическом проектировании включает выбор решений, связанных с физической средой хранения данных (выбор методов управления дисковой памятью, разделение БД по файлам и устройствам, методов доступа к данным), создание индексов и другие средства оптимизации.

Физическое проектирование включает в себя выбор конкретной СУБД для дальнейшей реализации. На рисунке показаны основные критерии, которыми руководствуются при выборе.

![image.png](attachment:f6c15426-da58-4aac-8e3f-5b424013aadb.png)

Завершив работу над формированием физической структуры БД, проектировщик переходит к **этапу разработки приложений, предназначенных для работы с БД (создание клиентского ПО)**. Пользователь не обязан вникать в особенности реляционных БД, ему не стоит учить язык запросов SQL, пользователь просто хочет обладать необходимым инструментом, благодаря которому он без особых затруднений сможет воспользоваться услугами БД.

В самом общем случае приложение баз данных должно уметь делать следующее:
- получать доступ к БД;
- читать, добавлять, редактировать и удалять данные;
- представлять полученные данные в требуемом пользователем виде (формы, отчеты, многомерное представление и т. д.);
- поддерживать целостность данных, определять дополнительную бизнес-логику и ограничения на данные;
- обеспечивать требуемую безопасность данных.

Разработку ПО, конечно, сочетают с его **тестированием**, которое определяется как процесс выполнения программы с целью обнаружения ошибок.

Тестирование обеспечивает:
- обнаружение ошибок;
- демонстрацию соответствия функций БД и клиентского ПО их назначению;
- демонстрацию реализации требований к характеристикам БД и клиентского ПО.

Различают два принципа тестирования ПО:
1) структурное тестирование;
2) функциональное тестирование.

Структурное тестирование (еще его называют тестированием «белого ящика», т. к. нам полностью доступен исходный код программы) основано на анализе управляющей структуры программы. Лицо, ответственное за проведение тестирования, строит граф управления программой и формирует тестовые варианты для всех возможных маршрутов.

Во время структурного тестирования проводится:
1) модульное тестирование. Тестированию подлежат минимальные компоненты ПО, например запрос, процедура, триггер;
2) интеграционное тестирование. При интеграционном тестировании модули ПО объединяются и осуществляется проверка на корректность взаимодействия между интегрируемыми компонентами.

Функциональному тестированию подвергается уже полностью откомпилированное программное изделие. На этом
этапе исходный код вторичен, поэтому процесс называют тестированием «черного ящика». По своей сути функциональное тестирование ПО представляет собой эксплуатацию приложения в контролируемых условиях с последующим анализом полученных результатов. При этом проверяется работа приложения не только с нормальными, но и с ошибочными данными. Также во время тестирования следует изучить поведение БД и ПО в нештатных ситуациях.

Функциональное тестирование обычно включает в себя два этапа:
- альфа-тестирование;
- бета-тестирование. 

Во время альфа-тестирования имитируется реальная работа БД и прикладного ПО, но в качестве пользователей выступают штатные разработчики проекта. 

На этапе бета-тестирования программное обеспечение передается заказчику (или третьему лицу) с целью апробации работы и выявления не замеченных ранее ошибок в его работе.

Все выявленные во время тестирования ошибки должны быть локализованы и исправлены, для этого осуществляется отладка ПО.

**Отладка** – это процесс локализации и исправления ошибок, обнаруженных при тестировании программного обеспечения.

Различают три вида ошибок.
1. Синтаксические ошибки – ошибки, выявляемые при выполнении синтаксического и частично семантического анализа программы. Как правило, с такими ошибками не сложно бороться, так как они автоматически фиксируются компилятором (транслятором, интерпретатором).
2. Ошибки компоновки – ошибки, обнаруженные компоновщиком при объединении модулей программы. Подобная категория ошибок также относительно легко выявляется и устраняется.
3. Ошибки выполнения – самая сложная для устранения категория ошибок. Ошибки выполнения обнаруживаются операционной системой, аппаратными средствами, лицами, осуществляющими тестирование, или просто конечным пользователем при работе с программой.

На этапе реализации осуществляется выпуск окончательной версии программного продукта. Прежде чем проектировщик переходит к выпуску БД, необходимо убедиться в выполнении следующих
условий:
- база данных и пользовательские приложения обладают всеми указанными в техническом задании функциональными возможностями;
- программное обеспечение успешно прошло тестирование, и все выявленные критические ошибки устранены;
- заказчик и проектировщик приняли совместное решение о том, что реализация всех элементов БД в целом завершена.

На завершающей стадии этапа реализации разработчик ПО готовит материалы, необходимые для обучения и технической поддержки пользователей и для сопровождения приложения.

**Эксплуатация и сопровождение** – это заключительный этап жизненного цикла БД. В его начальной стадии осуществляется развертывание базы данных и прикладного ПО на сервере и клиентских станциях заказчика ПО. При необходимости администратор СУБД создает учетные записи пользователей базы данных. После этого проект полностью переходит под контроль заказчика.

Основная часть обязанностей по сопровождению БД возлагается на администратора БД. Администратор осуществляет профилактическое обслуживание БД, восстанавливает систему после сбоев, управляет учетными записями пользователей, следит за производительностью системы, поддерживает безопасность БД, ведет системный аудит.

## Концептуальное (инфологическое) проектирование базы данных

Концептуальное проектирование базы данных представляет собой процесс создания модели, используемой на предприятии информации без учета каких-либо физических аспектов ее реализации.

На этапе концептуального проектирования разработчик будущей БД должен обладать полной картиной об автоматизируемом предприятии, однако он пока не ограничен в вопросах выбора архитектурных решений, целевой СУБД, языков программирования, т.е., создатель БД пока может не задумываться о физическом проектировании.

На сегодняшний момент времени существует несколько эффективных решений для реализации концептуального проектирования.

Мы будем подробно рассматривать концептуальную модель, разработанную **Питером Ченом** (Peter Pin-Shan Chen). Указанная модель известна под названием «сущность-связь» (Entity-Relationship), или просто **ER-модель**.

Впервые она была анонсирована в марте 1976-го, тогда П. Чен опубликовал работу «The Entity-Relationship Model. Toward a Unified View of Data» в научном журнале «Transactions on Database Systems».

Достоинство предложенного П. Ченом решения – в том, что ER-модель представляется в виде наглядных графических диаграмм. Для того чтобы научиться читать и составлять эти диаграммы, не требуется глубокой специальной подготовки.

Введем основные понятия, которые использует ER-модель.

**Сущность** - это собирательное понятие, некоторая абстракция реально существующего объекта, процесса, явления или некоторого представления об объекте, информацию о котором требуется хранить в базе данных.

Различают две разновидности типов сущностей: **слабую и сильную**. 

Слабый тип находится в зависимом состоянии от сильной сущности, напротив, сильный тип вполне самостоятелен и ни от кого (или чего) не зависит. На диаграммах сильный тип изображается в виде прямоугольника с названием типа сущности внутри него, для обозначения слабого типа сущности контур прямоугольника рисуется двойной линией.

![image.png](attachment:125ddf85-2339-4106-ba9b-1a08034d1ed4.png)

Каждый тип сущности обладает некоторым набором **атрибутов**, в которых хранятся значения, описывающие конкретную сущность. 

Различают **простые, составные, однозначные, многозначные и производные атрибуты**. 

Главное отличие между простым и составным атрибутами в том, что простой состоит из одного компонента, а составной из нескольких. 

Примером составного атрибута может стать почтовый адрес, он включает группу простых атрибутов (индекс, страна, город, улица, дом). 

Однозначный атрибут содержит одно единственное значение для сущности, например фамилию для типа сущности «Сотрудник». 

Многозначный атрибут допускает одновременное хранение нескольких значений, например у сотрудника может быть несколько телефонных номеров. 

Производный атрибут содержит значение, полученное на основе данных, хранящихся в других атрибутах. Например, возраст сотрудника можно легко вычислить, зная день его рождения и сегодняшнее число.

Для изображения на схеме атрибута применяется эллипс, к своему типу сущности он присоединяется линией. 

Название атрибута записывается внутри эллипса. Если атрибут содержит идентификатор сущности (позднее он превратится в первичный ключ отношения), то название атрибута подчеркивается. Производный атрибут обводится
пунктирной линией, многозначный – двойной.

![image.png](attachment:196c8282-f76b-4314-9daf-ef4be4142c82.png)

Чем больше в организации числится персонала, тем сложнее организовать учет данных о нем. Люди обладают разными специальностями и разными профессиональными навыками. Чем шире спектр интересов предприятия,
тем больше атрибутов потребуется для описания его сотрудников. Как следствие у всех лиц, задействованных в нашей фирме, кроме общих данных (фамилия и имя, дата рождения и т. п.), появляются уникальные
черты, характерные только для узких профессиональных групп. Каким образом организовать хранение данных в таких случаях?

Для решения этой проблеммы в ER-модель ввели понятие **подтипов сущностей**. Это тот случай, когда общая для всех сотрудников информация хранится в головном типе сущности (супертипе), а нюансы и тонкости выносятся в несколько специализированных подтипов.

Построенные на основе идеи подтипов сущностей базы данных приобретают неоспоримые преимущества:
- устраняется избыточность данных, так как каждый подтип хранит только необходимую информацию;
- упрощается процесс определения доменных ограничений для столбцов таблиц подтипов;
- появление новой (не учтенной в момент проектирования БД) классификационной группы записей приводит к созданию очередной таблицы подтипов. Поэтому не возникает нужды реструктурировать таблицу супертипа (добавление новых или изменение старых столбцов), с вытекающими отсюда проблемами кардинальной переработки всех клиентских приложений.

Но иногда с подтипами сущностей могут возникать проблемы, например, один и тот же сотрудник может принадлежать сразу к нескольким подтипам, а иногда нет. 

Так, допустим, мы выделили у сотрудника такие подтипы: руководитель, ученый, рабочий. Сотрудник может быть одновременно и руководителем и ученым, но не может быть одновременно руководителем и рабочим.

![image.png](attachment:b76e103c-fbe6-495c-ae51-196eac866f31.png)

В целом с подтипами связан следующий перечень проблем:

- не существует единого правила поддержания целостности данных при организации взаимодействия между головной и подчиненными таблицами;
- возникают определенные сложности в определении первичных ключей в таблицах подтипов;
- средствами современного SQL весьма сложно создать запрос, объединяющий всю информацию из таблицы-супертипа и всех таблиц подтипов;
- достаточно тяжело обеспечить безопасный доступ пользователя к столбцам таблиц подтипов.


Сформировав полный перечень всех подлежащих учету типов сущностей и их атрибутов, создатель ER-модели переходит к очередному ответственному этапу. Теперь ему предстоит выявить все ассоциации между типами сущностей и на этой основе построить связи между ними.

Явным признаком связи выступает глагол, который можно применить, характеризуя взаимоотношения между типами сущностей. Например, сотрудник работает в отделе, или самолет выполняет рейс.

Для того чтобы разработчик мог на схеме отразить смысловую нагрузку **связи между сущностями**, ее имя, а точнее глагол, показывающий характер взаимодействия между сущностями, записывается внутри ромба.

![image.png](attachment:ad75a364-642d-4658-8776-015e72d90d01.png)

В ER-моделировании различают три типа связи между типами сущностей: **«один к одному» (1:1), «один ко многим» (1:M) и «многие ко многим» (M:N)**. 

При появлении на диаграмме связи типа 1:1 следует задуматься, не является ли предполагаемый тип сущности всего лишь атрибутом. Исключение составляет механизм супертипов и подтипов.

Проектируя ER-модель, нам следует особое внимание уделять связи «многие ко многим». Вполне реальна ситуация, когда несколько сотрудников одновременно выполняют несколько производственных поручений в заказе. 
Например, один и тот же автомеханик в рабочий день может получить заявки на обслуживание нескольких автомобилей, при этом отдельно взятый автомобиль может попасть в руки нескольких специалистов (допустим, на ремонт двигателя и на замену электропроводки).

![image.png](attachment:cbef477c-58ed-4e75-814e-035c626ccc64.png)

Хотя связь M:N легко изобразить на диаграмме, ее далеко не просто реализовать физически, ведь реляционные базы поддерживают только отношение «один ко многим». Но выход есть. Можно создать вспомогательную сущность, связанную с каждой из рассматриваемых сущностей в отношении один ко многим. Этот механизм реализуется через так называемую **связанную сущность** (изображается ромбом в прямоугольнике).

![image.png](attachment:ff69106c-5bbc-49b4-bd9a-a5c6e56ea0a6.png)

Рассмотрим еще одну особенность взаимодействия между типами сущностей в базе данных – наличие **сильных и слабых связей**. 

Сильная связь обычно возникает между сильным и слабым типами сущностей в тех условиях, когда существование слабого типа невозможно без поддержки сильного. Например, слабая сущность «самолет» принадлежит сильной сущности «авиакомпания», или слабая сущность сотрудник не может трудиться на предприятии, не входя в штат какого-либо из отделов. 

Напротив, в той ситуации, когда присутствие связи между двумя типами сущности необязательно, мы говорим о слабой связи. Слабые связи надо искать между типами сущностей, не находящимися в
прямой зависимости друг от друга и, как следствие, способными жить автономно. Например, работа над некоторыми заказами может осуществляться не только в стенах нашего предприятия, но и совместно с
каким-то соисполнителем (смежной фирмой). Несмотря на то что тип сущности  (соисполнитель) относится к разряду сильных, так как может существовать самостоятельно, связь между заказом и
смежником оказывается слабой. Ведь нам не всегда нужны помощники, и большинство заказов мы выполняем только своими силами. Об этом нас информирует маленький кружок со стороны необязательной
сущности. 

![image.png](attachment:f2d224ff-f446-4b3a-99ba-512a55b7fb4f.png)

В последующем, на этапе создания реляционной таблицы «Order», кружок подскажет нам о том, что информация о соисполнителе заказа необязательна и поэтому поле внешнего ключа допускает вставку определителя NULL.

Модель Питера Чена допускает возникновение связей более высокого порядка, чем бинарные.
В реальном мире объединение одной связью, скажем, трех сущностей далеко не редкость. 

![image.png](attachment:56ba6eef-27de-47fd-b922-e4da25c48314.png)

При этом надо иметь ввиду, то, что разрешено ER-модели, которая работает на концептуальном
уровне проектирования БД, иногда затруднительно реализовать на физическом уровне.

**Вариации ER-моделей**

Несмотря на то, что модель Питера Чена была первым вариантом концептуальной модели, со временем появились и другии вариации.

Один из наиболее популярных нотаций ER-модели принадлежит Чарльзу Бэчмэну. Бэчман
несколько видоизменил графические обозначения связей на диаграммах «сущность-связь». Связи в нотации Бэчмана также чертятся в виде линии, соединяющей типы сущностей, но на ней отсутствует ромб с названием связи. 

Вертикальная черта на конце линии связи означает, что эта сторона представляет отношение «один». На стороне «многие» линия связи расщепляется на три луча. Некоторая схожесть связи на
стороне «M» с трехпалой птичьей лапкой привела к тому, что за ER-моделью Бэчмана прочно закрепилось название «Crow’s Foot model» (модель «воронья лапка»)

![image.png](attachment:eb6063f6-9bb9-4988-b3ea-f0a085c59e5f.png)

На диаграммах «воронья лапка» атрибуты сущности рисуются не в виде отдельных эллипсов, а записываются в виде списка, под названием сущности. Благодаря этому модель приобрела более компактную форму представления.

Еще одна, заслуживающая внимания версия ER-моделей получилась в результате работы американской фирмы Hughes Aircraft. Создатели модели воспользовались наработками в области систем автоматизированного производства (integrated computer-aided manufacturing, ICAM), широко проводимых в США в 1970-х годах, и реализовали свою модель ICAM Definition, сокращенно IDEF. Несколько позднее модель IDEF была доработана и сегодня более широко известна под именем IDEF1X. IDEF1X впитала лучшие стороны моделей Чена и Бэчмэна.

Различными разработчиками создан внушительный перечень программного обеспечения, позволяющего автоматизировать этап концептуального моделирования БД. 

Эти продукты объединяют под понятием CASE-системы. Термин CASE ( Computer-Aided Software Engineering )
можно перевести как автоматизированное проектирование и создание программ. В качестве примеров CASE продуктов стоит упомянуть:

- ER/Studio (корпорации Embarcadero); 
- ERwin Data Modeler (фирмы Platinum – CA); 
- PowerDesigner (фирмы Sybase);
- Microsoft Visio;
- MySQL Workbench;
- Dia;
- google diagrams.

## Примеры концептуального проектирования БД, case-средства

Пример 1. Разработка концептуальной модели интернет-магазина