# Базы данных, СУБД и нормализация

## 1. Базы данных и системы управления базами данных (СУБД)

### 1.1. Определение базы данных
**База данных (БД)** – это организованный и структурированный набор данных, предназначенный для хранения, обработки и управления информацией. Базы данных используются в различных сферах, таких как бизнес, медицина, наука, финансы и IT.

### 1.2. Определение и функции СУБД
**Система управления базами данных (СУБД)** – это программное обеспечение, которое предоставляет интерфейс для работы с базой данных. Она позволяет пользователям и приложениям выполнять операции, такие как добавление, удаление, изменение и поиск данных.

**Основные функции СУБД:**
- **Управление данными** – создание, редактирование, удаление и поиск информации.
- **Обеспечение целостности данных** – предотвращение некорректных изменений данных.
- **Обеспечение безопасности** – контроль доступа к информации, разграничение прав пользователей.
- **Многопользовательская работа** – поддержка одновременного доступа нескольких пользователей.
- **Восстановление данных** – защита от сбоев и резервное копирование.

### 1.3. Типы баз данных
Существует несколько типов баз данных в зависимости от способа организации и хранения данных:

1. **Реляционные базы данных (РСУБД)**  
   - Данные организованы в виде таблиц (отношений).
   - Основные компоненты: таблицы, строки (записи), столбцы (атрибуты), ключи (первичный и внешние).
   - Используют язык SQL (Structured Query Language) для работы с данными.
   - **Примеры**: MySQL, PostgreSQL, Oracle, SQLite.

2. **Документо-ориентированные базы данных**  
   - Данные хранятся в виде документов (JSON, BSON, XML).
   - Гибкость структуры, подходит для хранения неструктурированной информации.
   - **Примеры**: MongoDB, CouchDB.

3. **Графовые базы данных**  
   - Основаны на представлении данных в виде узлов и связей (графов).
   - Применяются в социальных сетях, рекомендательных системах, сетевом анализе.
   - **Примеры**: Neo4j, ArangoDB.

4. **Ключ-значение базы данных**  
   - Простейший тип, где каждая запись состоит из ключа и соответствующего ему значения.
   - Высокая скорость доступа, используется для кэширования и распределённых систем.
   - **Примеры**: Redis, DynamoDB.

5. **Колонночные базы данных**  
   - Хранят данные по столбцам, а не по строкам, что улучшает производительность аналитических запросов.
   - Используются в системах бизнес-аналитики и Big Data.
   - **Примеры**: Apache Cassandra, Google Bigtable.

## 2. Нормализация баз данных

### 2.1. Определение нормализации
**Нормализация** представляет процесс разделения данных по отдельным связанным таблицам. Нормализация устраняет избыточность данных (data redundancy) и тем самым избежать нарушения целостности данных при их изменении, то есть избежать аномалий изменения (update anomaly).

Как правило, нормализация преимущественно применяется при восходящем подходе проектировании базы данных, то есть когда мы все атрибуты, которые надо сохранить в бд, группируем по сущностям, для которых затем создаются таблицы. Однако при нисходящем подходе, когда вначале выявляются сущности, а затем их атрибуты и связи между ними, нормализация также может применяться, например, для проверки корректности спроектированных таблиц.

В ненормализованной форме таблица может хранить информацию о двух и более сущностях. Также она может содержать повторяющиеся столбцы. Также столбцы могут хранить повторяющиеся значения. В нормализованной же форме каждая таблица хранит информацию только об одной сущности.

Аномалии могут возникать при добавлении, обновлении или удалении данных. Например:
- **Аномалия вставки** – если для добавления новой записи требуется информация, которая ещё недоступна.
- **Аномалия обновления** – если изменение одного значения требует модификации нескольких строк.
- **Аномалия удаления** – если удаление одной записи приводит к потере другой важной информации.

### 2.2. Формы нормализации
Процесс нормализации включает несколько этапов, называемых **нормальными формами (НФ)** 
Нормализация предполагает применение нормальных форм к структуре данных. Существуют 7 нормальных форм. Каждая нормальная форма (за исключением первой) подразумевает, что к данным уже была применена предыдущая нормальная форма. Например, прежде чем применить третью нормальную форму к данным должна быть применена вторая нормальная форма. И строго говоря, база данных считается нормализованной, если к ней применяется третья нормальная форма и выше.:

#### 1. Первая нормальная форма (1НФ)
- Первая нормальная форма (1NF) предполагает, что сохраняемые данные на пересечении строк и столбцов должны представлять скалярное значение, а таблицы не должны содержать повторяющихся строк.

**Пример:**
- **Ненормализованная таблица (до 1НФ)**:
  | ID | Имя  | Телефоны       |
  |----|------|---------------|
  | 1  | Иван | +123, +456    |
  | 2  | Анна | +789          |

- **После 1НФ (разделение на атомарные значения):**
  | ID | Имя  | Телефон |
  |----|------|---------|
  | 1  | Иван | +123    |
  | 1  | Иван | +456    |
  | 2  | Анна | +789    |

#### 2. Вторая нормальная форма (2НФ)
- Вторая нормальная форма (2NF) предполагает, что каждый столбец, не являющийся ключом, должен зависеть от первичного ключа.

**Пример:**  
В таблице заказов:

| OrderID | ProductID | ProductName | CustomerName |
|---------|-----------|------------|--------------|
| 1       | 101       | Телефон    | Иван         |
| 2       | 102       | Ноутбук    | Анна         |

- Здесь **ProductName** зависит только от **ProductID**, но не от всего ключа (OrderID, ProductID).
- Для исправления разделяем таблицу на две:
  - **Заказы:** (OrderID, ProductID, CustomerName)
  - **Продукты:** (ProductID, ProductName)

#### 3. Третья нормальная форма (3НФ)
- Данные соответствуют 2НФ.
- Третья нормальная форма (3NF) предполагает, что каждый столбец, не являющийся ключом, должен зависеть только от первичного ключа.

**Пример:**  
В таблице сотрудников:

| EmployeeID | Name  | DepartmentID | DepartmentName |
|------------|-------|--------------|---------------|
| 1          | Иван  | 10           | Продажи       |
| 2          | Анна  | 20           | IT            |

- Здесь **DepartmentName** зависит от **DepartmentID**, а не от **EmployeeID**.
- Разделяем таблицу на две:
  - **Сотрудники:** (EmployeeID, Name, DepartmentID)
  - **Отделы:** (DepartmentID, DepartmentName)

#### 4. Бойс-Кодд нормальная форма (БКНФ)
- Нормальная форма Бойса-Кодда (BCNF) является немного более строгой версией третьей нормальной формы.

#### 5. Четвёртая (4НФ) и пятая (5НФ) нормальные формы
- Четвертая нормальная форма (4NF) применяется для устранения многозначных зависимостей (multivalued dependencies) - таких зависимостей, где столбец с первичным ключом имеет связь один-ко-многим со столбцом, который не является ключом. Эта нормальная форма устраняет некорректные отношения многие-ко-многим.
- Пятая нормальная форма (5NF) разделяет таблицы на более малые таблицы для устранения избыточности данных. Разбиение идет до тех пор, пока нельзя будет воссоздать оригинальную таблицу путем объединения малых таблиц.

#### 6. Шестая нормальная форма (6НФ)
- Шестая нормальная форма (domain key normal form / 6NF). Каждое ограничение в связях между таблицами должно зависеть только от ограничений ключа и ограничений домена, где домен представляет набор допустимых значений для столбца. Эта форма предотвращает добавление недопустимых данных путем установки ограничения на уровне отношений между таблицами, но не на уровне таблиц или столбцов. Данная форма, как правило, не применима на уровне СУБД, в том числе и в SQL Server.

### 2.3. Плюсы и минусы нормализации
**Плюсы:**
- Минимизация избыточности данных.
- Предотвращение аномалий обновления и удаления.
- Улучшение целостности данных.

**Минусы:**
- Увеличение числа таблиц.
- Усложнение структуры базы данных.
- Потенциальное снижение производительности при сложных запросах.
