СУБД, или Системы управления базами данных
*******************************************

# Источники:

1. [Stepik: Введение в базы данных](https://stepik.org/course/551)
2. Книга: Распределенные данные. Алгоритмы работы современных систем хранения информации. Алекс Петров. 2021
3. Введение в системы баз данных. К. Дж. Дейт. 2005
4. Лекции ПАД (ЭФ НГУ)

# Введение в СУБД


## Основные определения

**Система баз данных** - компьютеризированная система хранения однотипных записей

**База данных** - хранилище или контейнер для некоторого набора файлов данных, занесенных в компьютер.

Пользователям этой системы предоставляется возможность выполнять (или передавать системе запросы на выполнение) множество различных операций над такими файлами, например:
* добавлять новые пустые файлы в базу данных;
* вставлять новые данные в существующие файлы;
* получать данные из существующих файлов;
* удалять данные из существующих файлов;
* изменять данные в существующих файлах;
* удалять существующие файлы из базы данных. 

ПРИМЕР: БД CELLAR - минный погреб. В табл. 1.1 показан пример выполнения операции выборки и данные, возвращенные этой операцией. 

!!!!!!!!!!!!!!!!!!!!!: Операции над базами данных, имена файлов и т.п. в этой книге для наглядности пишутся прописными буквами,
хотя на практике часто удобнее использовать строчные. В большинстве СУБД допускаются оба варианта

![image.png](attachment:image.png)

**Выборка:**

``SELECT WINE, BIN#, PRODUCER
FROM CELLAR
WHERE READY = 2004;``

В языке SQL компьютерные файлы, такие как CELLAR в табл. 11, называются таб
лицами (по очевидным причинам). Строки (row) подобных таблиц соответствуют
записям файла, а столбцы (column) можно рассматривать как поля этих записей.
В дальнейшем термины запись и поле будут использоваться тогда, когда речь будет
идти о базах данных вообще (в основном, в первых двух главах). Термины таблица,
строка и столбец будут использоваться при рассмотрении реляционных систем

Столбец ``BIN#`` является **первичным ключом** (primary key) таблицы ``CELLAR`` (подразумевается, что любые две строки этой таблицы никогда не будут содержать одно и то же значение поля ``BIN#``). 

## Пояснения SQL

Язык SQL был первоначально разработан компанией IBM, а в настоящее время поддерживается большинством коммерческих СУБД, представленных на рынке, и является официальным стандартом языка для работы с реляционными базами данных

Название SQL вначале было аббревиатурой, образованной от Structured Query
Language (язык структурированных запросов), и его было принято произносить как
"сиквел". Сейчас, когда язык стал стандартом, SQL— это уже не аббревиатура, а
обычное название, которое произносится как "эс-кью-эл". В дальнейшем в этой
книге предполагается именно такой вариант произношения. 

**Вставка новых данных:**

``INSERT
INTO CELLAR (BIN#, WINE, PRODUCER, YEAR, BOTTLES, READY)
VALUES (53, 'Pinot Noir', 'Saintsbury', 2001 , 6, 2005);``

**Удаление существующих данных:**

``DELETE
FROM CELLAR
WHERE BIN# = 2;``

**Модификация существующих данных:**

``UPDATE CELLAR
SET BOTTLES = 4
WHERE BIN# = 3;``

## Данные и информация

Следует отметить, что термины **данные** и **информация** трактуются в этой книге как синонимы. 
Некоторые авторы предпочитают различать эти два понятия.
* Понятие **данные** используется для ссылки на значения, которые реально сохранены в базе данных
* Понятие **информация** — для указания на то, что означают эти данные с точки зрения пользователя. 

Разница, безусловно, существенная, но предпочтительнее сделать ее более определенной там, где это уместно,
вместо того, чтобы полагаться на различные толкования двух по сути одинаковых терминов. 

## Система баз данных

Четыре главынх компонента: 
1. **Данные**
2. **Аппаратное обеспечение**
3. **Программное обеспечение**
4. **Пользователи**

![image.png](attachment:image.png)

### **1. Данные**

На больших вычислительных машинах применяются в основном
**многопользовательские системы** ("большие системы"), а на малых компьютерах, как
правило, — **однопользовательские системы** ("малые системы").

**Однопользовательская
система (single-user system)** — это система, в которой к базе данных может получить
доступ одновременно только один пользователь

**многопользовательская система
(multi-user system)** — это такая система, в которой к базе данных могут получить доступ
сразу несколько пользователей

В общем случае данные в базе данных:
1. Интегрированными (Преимущество при работе на малом оборудовании)
2. Разделяемыми 

Под понятием **интеграции** данных подразумевается возможность представить базу данных как объединение нескольких отдельных файлов данных, полностью или
частично исключающее избыточность хранения информации. 

Например, база данных может содержать файл EMPLOYEE, включающий имена сотрудников, адреса, отделы, данные о зарплате и т.д., и файл ENROLLMENT, содержащий сведения о регистрации сотрудников на курсах обучения (рис. 1.4). 

Допустим, что для контроля процесса обучения необходимо знать отдел каждого зачисленного на курсы сотрудника. Совершенно очевидно, что нет необходимости включать такую информацию в файл ENROLLMENT, поскольку ее всегда можно получить из файла EMPLOYEE. 

![image.png](attachment:image.png)

Под понятием **разделяемых данных** подразумевается возможность использования несколькими различными пользователями отдельных элементов, хранимых в
базе данных. 

Имеется в виду, что каждый из пользователей сможет получить доступ к одним и тем же данным, возможно, даже одновременно (параллельный доступ). Такое разделение данных, с параллельным или последовательным доступом,
частично является следствием того факта, что база данных имеет интегрированную структуру.

В примере, приведенном на рис. 1.4, информация об отделе в файле EMPLOYEE может совместно использоваться сотрудниками отдела кадров и отдела обучения. (Если база данных не является разделяемой, то ее иногда называют
личной базой или базой данных специального назначения.)

### **2. Аппартаное обеспечение**

К аппаратному обеспечению системы относится следующее:
* **тома вторичной (внешней) памяти (обычно это магнитные диски)**, используемые для хранения информации, а также соответствующие устройства ввода—вывода (дисководы и т.п.), контроллеры устройств, каналы ввода—вывода и т.д.;
* **аппаратный процессор (или процессоры) вместе с оперативной (первичной) памятью**, предназначенные для поддержки работы программного обеспечения системы баз данных (подробности приведены в следующем подразделе). 

### **3. Программное обеспечение**

Между собственно физической базой данных (т.е. данными, которые реально хранятся на компьютере) и пользователями системы располагается уровень программного обеспечения, который можно называть по-разному: 
1. **диспетчер базы данных (database manager)**
2. **сервер базы данных (database server)**
3. **система управления базами данных, СУБД (DataBase Management System — DBMS).**

* Все запросы пользователей на получение доступа к базе данных обрабатываются СУБД

* Все имеющиеся средства добавления файлов (или таблиц), выборки и обновления данных в этих файлах или таблицах также предоставляет СУБД.

**Основная задача СУБД** — дать пользователю базы данных возможность работать с ней, не вникая во все подробности работы на уровне аппаратного обеспечения. 

(Пользователь СУБД более отстранен от этих подробностей, чем прикладной программист, применяющий языковую среду программирования.)

 СУБД позволяет конечному пользователю рассматривать базу данных как объект более высокого уровня по сравнению с аппаратным
обеспечением, а также предоставляет в его распоряжение набор операций, выражаемых в терминах языка высокого уровня

**СУБД**— это наиболее важный, но не единственный программный компонент
системы.

В числе других компонентов можно назвать *утилиты*, *средства разработки приложений*, *средства проектирования*, *генераторы отчетов* и **диспетчер
транзакций (transaction manager)**, или **диспетчер обработки транзакций (transaction processing monitor — ТР monitor)**

!!!!!!!!!! Следует отметить, что термин база данных часто используется даже тогда, когда на самом деле подразумевается СУБД (в одном из уже упомянутых толкований). Вот типичный пример: "База данных изготовителя X превосходит по производительности базу данных изготовителя К в два раза". Такое небрежное обращение с терминами предосудительно; тем не менее, оно очень широко распространено.

(Проблема, естественно, заключается в том, что если СУБД называют базой данных, как же тогда называть саму базу данных?) Читатель, будь внимателен! 

### **4. Пользователи**

Пользователей можно разделить на три большие и отчасти перекрывающиеся группы: 
1. **ПРИКЛАДНЫЕ ПРОГРАММИСТЫ** - которые отвечают за написание прикладных программ, использующих базу данных. 

* Для этих целей применимы такие языки, как COBOL, PL/I, C++, Java или какой-нибудь высокоуровневый язык четвертого поколения. 
* Прикладные программы получают доступ к базе данных посредством выдачи соответствующего запроса к СУБД (обычно это некоторый оператор SQL). Подобные программы могут быть простыми пакетными приложениями или же интерактивными приложениями, предназначенными для поддержки работы конечных пользователей.
* В последнем случае они предоставляют пользователям непосредственный оперативный доступ к базе данных через рабочую станцию, терминал или персональный компьютер.


2. **КОНЕЧНЫЕ ПОЛЬЗОВАТЕЛИ** - которые работают с системой баз данных в интерактивном режиме. 

* Конечный пользователь может получать доступ к базе данных, применяя одно из интерактивных приложений, упомянутых выше, или же интерфейс, интегрированный в программное обеспечение самой СУБД. 
* Безусловно, подобный интерфейс также поддерживается интерактивными приложениями, но эти приложения не создаются пользователями-программистами, а являются встроенными в СУБД. 
* Большинство СУБД включает по крайней мере одно такое встроенное приложение, а именно — процессор языка запросов, позволяющий пользователю в диалоговом режиме вводить запросы к базе данных (их часто иначе называют предложениями или командами), например, с операторами SELECT или INSERT. 
* Язык SQL представляет собой типичный пример языка запросов к базе данных. 
* (Общепринятый термин язык запросов не совсем точно отражает рассматриваемое понятие, поскольку слово запрос подразумевает лишь выборку информации, в то время как с помощью этого языка выполняются также операции обновления, вставки, удаления и др.)
* Кроме языка запросов, в большинстве систем дополнительно предоставляются специализированные встроенные интерфейсы, в которых пользователь в явном виде не использует предложения, или команды с такими операторами, как SELECT и INSERT. Работа с базой данных осуществляется за счет выбора пользователем необходимых элементов меню или заполнения требуемых полей в предоставленных формах. Такие некомандные интерфейсы, основанные на меню и формах, облегчают работу с базами данных для тех, кто не имеет опыта работы с информационными технологиями
* Командный интерфейс, т.е. язык запросов, напротив, требует некоторого профессионального опыта работы с ИТ.
* Однако командный интерфейс более гибок, чем некомандный, к тому же языки запросов обычно включают определенные функции, отсутствующие в интерфейсах, основанных на
использовании меню или форм. 


3. **АДМИНИСТРАТОРЫ БАЗЫ ДАННЫХ** (АБД)

## Общее определение базы данных

**Перманентные данные** (постоянное хранимые) - данные , которые отличаются от других, более изменчивых данных, таких как промежуточные результаты, входные и выходные данные, управляющие операторы, рабочие очереди, программные управляющие блоки и вообще все данные, **временные (transient)** по своей сути

Можно утверждать, что данные в
базе являются **перманентными**, поскольку после того как они были приняты средствами СУБД для помещения в базу, их последующее удаление возможно лишь при использовании соответствующего явного запроса к базе данных, но не в результате какого-либо побочного эффекта от выполнения некоторой программы.

Подобный взгляд на понятие перманентности позволяет точнее определить терминбаза данных.

**База данных** - некоторый набор перманентных (постоянно хранимых) данных, используемых прикладными программными системами какого-либо предприятия.

Ниже приведено несколько примеров ПРЕДПРИЯТИЙ:
1. Промышленная компания.
2. Банк.
3. Больница.
4. Университет.
5. Министерство

Среди перманентных данных упомянутых предприятий обычно
встречаются данные, перечисленные ниже:
1. Данные о продукции.
2. Бухгалтерские данные.
3. Данные о пациентах.
4. Данные о студентах.
5. Данные о планируемой деятельности.

## Сущности и связи

**диаграммой "сущность—связь" (сокращенно ER-диаграммой).**

![image.png](attachment:image.png)

Рассмотрим более подробно пример некоторой промышленной компании (допустим,
она имеет название KnowWare, Inc.). 

Обычно подобному предприятию требуется записывать информацию об имеющихся проектах (Projects), используемых в этих проектах деталях (Parts), поставщиках (Suppliers) деталей, складах (Warehouses), на которых
хранятся детали, служащих (Employees), работающих над проектами и т.д. 

Проекты, детали, поставщики и т.д. представляют собой основные сущности (entity), о которых компании KnowWare, Inc. необходимо хранить информацию. 

В теории баз данных термин **сущность** обычно используется для обозначения любого различимого объекта, который может быть представлен в базе данных

Кроме этих основных сущностей (в данном примере это поставщики, детали и т.д.), имеются еще и **связи (relationship)** между ними, которые объединяют эти основные сущностипредставлены ромбами с соединительными линиями.

Например, между поставщиками и деталями существует связь SP (сокращение от Shipments/Parts): каждый поставщик поставляет определенные детали, и наоборот, каждая деталь поставляется определенными поставщиками. 

(Точнее, каждый поставщик поставляет определенные виды деталей, и каждый вид деталей поставляется определенными поставщиками.) 

Аналогично, детали используются в проектах, а для реализации проектов требуются детали (связь PJ — сокращение от Parts/proJects); детали хранятся на складах, а склады хранят детали (связь WP — сокращение от Warehouses/Parts) и т.д. 

Обратите внимание, что эти связи — бинарные (или двухсторонние), т.е. их можно прослеживать в любом направлении. В частности, используя связь SP между поставщиками и деталями, можно ответить на следующие вопросы:
* задан поставщик, и требуется определить поставляемые им детали;
* задана деталь, и необходимо найти поставщиков, предоставляющих такую деталь. 

Хотя большинство связей на этой диаграмме объединяют два типа сущностей (т.е.
они являются бинарными связями), это вовсе не означает, что все связи должны
быть бинарными. 

В примере есть одна связь (SPJ), охватывающая три типа сущностей (Suppliers, Parts и Projects). Это пример **тернарной (трехсторонней) связи**. 

Интерпретация данной связи такова: определенные поставщики поставляют определенные детали для определенных проектов. Обратите особое внимание
на то, что в общем случае такая тернарная связь ("поставщики поставляют детали для проектов") не эквивалентна простой комбинации из трех бинарных связей:

"поставщики поставляют детали", "детали используются в проектах" и "проекты
снабжаются поставщиками". В качестве примера рассмотрим приведенные ниже
утверждения.

а) "Смит поставляет разводные гаечные ключи для Манхэттенского проекта".
Оно содержит больше информации, чем следующие три отдельных утверждения, которые относятся к той же теме.,

б) "Смит поставляет разводные гаечные ключи".

в) "Разводные гаечные ключи используются в Манхэттенском проекте".

г) "Манхэттенский проект снабжается Смитом". 

Зная только утверждения б, в и г, мы не сможем доказать справедливость утверждения а

1. Точнее, зная, что справедливы утверждения б, в и г, мы можем лишь
сделать заключение, что Смит поставляет разводные гаечные ключи для какого-то
проекта (скажем, проекта Jz), что какой-то поставщик (скажем, поставщик Sx)
поставляет разводные гаечные ключи для Манхэттенского проекта и что Смит
поставляет какую-то деталь (скажем, деталь PY) для Манхэттенского проекта.
Однако мы не можем точно утверждать, что поставщик Sx — это Смит, деталь PY —
это разводной гаечный ключ, а проект Jz — это Манхэттенский проект. Ложные выводы, сделанные на основании неполной информации, называются дефектом
соединения (connection trap). 

2. На схеме также есть одна связь (РР), которая связывает один тип сущности
(Parts) с самим собой. Эта связь означает, что одни детали содержат другие дета
ли как собственные компоненты (так называемая связь спецификации материалов,
или связь "деталь—узел"). Например, винт— это компонент шарнира, который
тоже рассматривается как деталь и, в свою очередь, может быть компонентом ка
кой-либо более сложной детали, например колпака. Обратите внимание, что эта
связь также бинарная; просто она связывает две сущности совпадающего типа (в
данном случае Parts). 

3. Вообще говоря, для заданного набора типов сущностей может существовать любое
количество связей. В представленной на рис. 1.5 диаграмме присутствуют две раз
личные связи между сущностями Projects и Employees: первая (EJ) представ
ляет тот факт, что служащие заняты в проектах, а вторая (MJ) — что служащие
управляют проектами. 

**Связь можно понимать как особого типа.** Если
сущность определена как "нечто, о чем необходимо хранить информацию", то понятие
связи вполне подходит под такое определение.

Например, связь "деталь Р4 находится на
складе W8" — это сущность, о которой может потребоваться записать некоторую информацию, например, зафиксировать в базе данных количество указанных деталей. Благодаря
тому, что мы не проводим ненужных различий между сущностями и связями, достигаются
определенные преимущества (их описание выходит за рамки настоящей главы). Поэтому
в данной книге связи будут рассматриваться как особый вид сущности. 

### Свойства

**сущность** — это то, о чем необходимо хранить информацию.

Отсюда следует, что сущности (а значит, и связи) имеют некоторые свойства
(properties), соответствующие тем данным о них, которые необходимо хранить в базе. 

Например, поставщики имеют определенное *место расположения*, детали характеризуются *весом*, проекты — *очередностью выполнения*, закрепление служащих за проектами
имеет *начальную дату* и т.д.

Например, в базе данных может быть таблица s, представляющая тип сущности
"поставщики", а в этой таблице может присутствовать тип поля CITY (город), представляющий свойство "место расположения".

Свойства: простые (1 уровень) и сложные (более одного уровня)

## Данные и модели данных

**Высказыванием** в логике называется такое утверждение, которое может быть недвусмысленно определено как истинное или ложное.

Данные - это факты

**База данных** - это множество истинных высказываний

Итак, уже было отмечено, что продукты на основе языка **SQL** заняли доминирующее положение на рынке. Одной из причин этого является то, что они основаны на использовании формальной теории, называемой **реляционной моделью данных**, а эта теория, в свою очередь, поддерживает указанную выше интерпретацию данных и баз данных весьма просто (фактически почти тривиально). 

Конкретнее, **реляционная модель характеризуется описанными ниже особенностями:**

1. Данные представлены посредством строк в таблицах3
, и эти строки могут быть не
посредственно интерпретированы как истинные высказывания. Например, строку
с номером ячейки погреба (поле BIN#), равным 72 (см. табл. 1.1), можно очевидным образом интерпретировать как следующее истинное высказывание: 

``"В ячейке 72 находятся две бутылки вина Zinfandel, выпущенные компанией Rafanelli в 1999 году, которые будут готовы к употреблению в 2007 году".``

2. Для обработки строк данных предоставляются операторы, которые напрямую под держивают процесс логического вывода дополнительных истинных высказываний из существующих высказываний. Например, реляционная операция проекции (раздел 1.6) позволяет получить из приведенного выше истинного высказывания, помимо прочих истинных высказываний, и такое:

``"Некоторые бутылки вина Zinfandel будут готовы к употреблению в 2007 году".``

1. **Модель данных** — это абстрактное, самодостаточное, логическое определение объектов, операторов и прочих элементов, в совокупности составляющих абстрактную машину доступа к данным, с которой взаимодействует пользователь.

Упомянутые объекты позволяют моделировать структуру данных, а операторы —поведение данных. 

2. **модель данных (во втором смысле)** представляет собой модель перманентных данных некоторого конкретного предприятия (например, промышленной компании KnowWare, Inc., упоминаемой выше в этом разделе).

* Модель данных в первом значении подобна языку программирования (причем достаточно абстрактному), конструкции которого могут быть использованы для решения широкого круга конкретных задач, но который сам по себе не имеет четкой связи с какой-либо из этих конкретных задач. 
* Модель данных во втором значении подобна конкретной программе, написанной на таком языке. Иначе говоря, модель данных во втором значении использует средства, предоставляемые некоторой моделью (рассматриваемой в первом значении) и применяет их для решения конкретной проблемы. Ее можно рассматривать как некоторое конкретное приложение некоторой модели в первом значении.

**Реализация (implementation) заданной модели данных** — это физическое воплощение на реальной машине компонентов абстрактной машины, которые в совокупности составляют эту модель

!!!!!!! т.е. разница между логическим и физическим определением данных

## Назначение баз данных

Преимущества системы с базой данных по сравнению с традиционным
"бумажным" методом ведения учета для этих примеров вполне очевидны. Отметим
некоторые из них, которые описаны ниже:

■ Компактность. Нет необходимости в создании и ведении, возможно, весьма объемистых бумажных картотек.

■ Быстродействие. Компьютер может выбирать и обновлять данные гораздо быстрее
человека. В частности, с его помощью можно быстро получать ответы на произ
вольные вопросы, возникающие в процессе работы (например, "Какого вина у нас
сейчас больше — Zinfandel или Pinot Noir?"), не затрачивая времени на визуаль
ный осмотр или поиск вручную.

■ Низкие трудозатраты. Отпадает необходимость в утомительной работе над картотекой вручную. Механическую работу машины всегда выполняют лучше.

■ Актуальность. В случае необходимости под рукой в любой момент имеется точная,
свежая информация.

■ Защита. Данные могут быть лучше защищены от случайной потери и несанкционированного доступа. 

## Администрирование данных и базы данных

**администратор данных** (АД)- человек, который несет основную ответственность за данные предприятия.

В его обязанности входит принятие решений о том, какие данные необходимо вносить
в базу данных в первую очередь, а также выработка требований по сопровождению
и обработке данных после их занесения в базу данных. Примером подобных требований
может служить распоряжение о том, кто и при каких обстоятельствах имеет право выполнять конкретные операции над теми или иными данными. Другими словами,
администратор данных должен обеспечивать защиту данных (подробнее об этом речь
пойдет ниже). 


**администратор базы данных** (АБД) - Технический специалист, ответственный за реализацию решений администратора данных

Работа АБД заключается в создании самих баз данных и организации технического контроля, необходимого для осуществления решений, принятых администратором данных.
АБД несет также ответственность за обеспечение необходимого быстродействия системы
и ее техническое обслуживание

**Транзакция (transaction)** — это логическая единица работы (точнее, логическая
единица работы базы данных), обычно включающая несколько операций базы
данных (в частности, несколько операций модификации данных). 

Стандартный
пример — перевод некоторой суммы денег со счета А на счет В. Очевидно, что в
данном случае необходимы два изменения: списание некоторой суммы со счета А и зачисление ее на счет В. Если пользователь укажет, что оба изменения входят в
одну и ту же транзакцию, то система сможет реально гарантировать, что либо будут
выполнены оба эти изменения, либо не будет выполнено ни одно из них, если до
завершения процесса внесения изменений в системе произойдет сбой (скажем, из-за
перерыва в подаче электроэнергии). 


свойство неразрывности (atomicity) транзакций

Для этого администратор данных определяет (а администратор базы данных
реализует) ограничения целостности (integrity constraints), которые будут применяться
при любой попытке внести какие-либо изменения в соответствующие данные. 

Противоречие между двумя
записями, представляющими один "факт", является примером утраты целостности
данных (см. обсуждение этого вопроса выше в данном разделе).

граничения защиты
(security constraints), или правила, которые будут контролироваться при любой попытке
доступа к конфиденциальным данным. Можно установить азличные правила для разных типов доступа (выборка, вставка, удаление и т.д.)
к каждому из элементов информации в базе данных. Однако следует отметить,
что при отсутствии таких правил безопасность данных подвергается большему
риску, чем в обычной (разобщенной) файловой системе. Следовательно, централизованная природа системы баз данных в определенном смысле требует также
наличия надежной системы защиты. 

## НЕЗАВИСИМОСТЬ ОТ ДАННЫХ

Независимость от данных может быть реализована на двух уровнях: физическом и логическом. Однако на данном этапе нас интересует только физическая независимость. Поэтому неуточненный термин независимость от данных мы пока будем понимать
лишь как физическую независимость от данных. 

Проще всего разобраться в понятии независимости от данных на примере той ситуации, когда независимость от данных отсутствует. Приложения, реализованные в старых
системах (дореляционные, или созданные до появления систем баз данных), в той или
иной мере зависимы от данных. Это означает, что способ организации данных во вторичной памяти и способ доступа к ним диктуются требованиями приложения. Более того, сведения об организации данных и способе доступа к ним встроены в саму логику и программный
код приложения

Например, предположим, что в некотором приложении используется
файл EMPLOYEE (см. рис. 1.4). Исходя из соображений производительности решено, что
этот файл необходимо проиндексировать по полю "имя служащего" (см. приложение Г).
В старых системах в этом приложении учитывалось бы, что такой индекс существует и
что последовательность записей в файле определена этим индексом. На основе таких
сведений была бы построена вся внутренняя структура приложения. В частности, избранный способ реализации процедур доступа и обработки исключительных ситуаций в
значительной степени зависел бы от особенностей интерфейса, предоставляемого программами управления данными. 

Приложения, подобные описанному в этом примере, называются зависимыми от
данных, так как невозможно изменить физическое представление (т.е. способ физического размещения данных во вторичной памяти) или метод доступа (т.е. конкретный
способ доступа к данным), не изменив самого приложения (возможно, весьма радикально). Например, невозможно заменить индексированный файл в нашем примере хэшированным файлом, не внеся в приложение значительных изменений. Более того, изменению в подобных случаях подлежат те части приложения, которые взаимодействуют с
программами управления данными. Трудности, возникающие при этом, не имеют никакого отношения к проблеме, для решения которой было написано данное приложени

Однако для системы баз данных крайне нежелательно, чтобы приложение зависело от
данных, и на то есть по меньшей мере две причины, описанные ниже. 



1. Для разных приложений требуются разные представления одних и тех же данных.
Например, предположим, что до перехода к интегрированной базе данных пред
приятие имело два приложения, А и В. Каждое из них работало с собственным
файлом, содержащим поле "остаток средств на счете заказчика". Предположим
также, что приложение А записывает значение этого поля в десятичном формате,
а приложение В — в двоичном. Эти два файла все еще можно интегрировать, а су
ществующую избыточность устранить, если в СУБД есть возможность выполнить
все необходимые преобразования между форматом представления данных (формат
представления может быть десятичным, двоичным или любым другим) и форма
том, необходимым для приложения. Например, если принято решение хранить
значения этого поля в десятичном формате, то каждое обращение к приложению В
потребует прямого или обратного преобразования значений из десятичного фор
мата в двоичный.
Это довольно простой пример различий, которые могут существовать в системе
баз данных между формой представления данных в приложении и формой их физического хранения. Многие другие возможные различия будут рассмотрены ниже. 


2. Администратор базы данных должен иметь определенные возможности (завися
щие от применяемой СУБД) по изменению физического представления или
метода доступа к данным в случае изменения требований, причем без необходи
мости модифицировать существующие приложения. Например, к базе данных
могут быть добавлены новые виды данных, на предприятии могут быть приняты
новые стандарты, могут быть изменены приоритеты приложений (а следовательно, и
связанные с ними требования к производительности), могут появиться новые
типы запоминающих устройств и т.д. Если приложения зависят от данных, то
подобные изменения потребуют внесения корректировок в программы, а значит, дополнительных трудозатрат программистов, которые можно было бы направить на создание новых приложений. До сих пор подобные проблемы не являются исключением. И сегодня случается, что значительная часть рабочего
времени программистов тратится на подобную работу (достаточно вспомнить
хотя бы проблему 2000-го года!), а это, конечно, бесполезная трата дефицитных

**Независимость от данных можно определить как невосприимчивость приложений к изменениям в физическом представлении данных и в методах
доступа к ним, а это означает, что рассматриваемые приложения не зависят от любых
конкретных способов физического представления информации или выбранных методов доступа к ним**

**Хранимое поле** — это наименьшая единица хранимых данных. Типичная база
данных содержит множество **экземпляров (occurence, или instance)** каждого из
нескольких описанных в ней **типов** хранимых полей. 

Например, база данных,
содержащая информацию о деталях, может включать тип хранимого поля с име
нем "номер детали" и для каждого описанного в базе данных вида детали (винта,
шарнира, колпака и т.д.) будет существовать отдельный экземпляр этого храни
мого поля. 

**Хранимая запись** — это набор взаимосвязанных хранимых полей. И снова мы раз
личаем для них тип и экземпляр. В данном случае **экземпляр** хранимой записи со
стоит из группы связанных экземпляров хранимых полей. Например, экземпляр
хранимой записи в базе данных деталей состоит из экземпляров каждого из сле
дующих хранимых полей: "номер детали", "название детали", "цвет детали" и "вес
детали". Мы говорим, что база данных содержит множество экземпляров храни
мой записи **типа** "деталь" (опять же, по одному экземпляру для каждой конкрет
ной детали).

**хранимый файл** — это набор всех существующих в настоящий момент эк
земпляров хранимых записей одного и того же типа. (Для упрощения предполага
ется, что любой заданный хранимый файл может содержать хранимые записи
только одного типа. Это упрощение не окажет существенного влияния на последующие рассуждения.) 

![image.png](attachment:image.png)

В современных системах, отличных от баз данных, логическая (с точки зрения разработчика приложения) запись обычно совпадает с соответствующей хранимой записью.
Как было показано выше, в базах данных это вовсе не обязательно, поскольку в любой
момент может потребоваться внести изменения в структуру хранения данных (т.е. в хранимые поля, записи, файлы), в то время как структура данных с точки зрения приложения должна остаться неизменной. Например, поле SALARY В файле EMPLOYEE ДЛЯ ЭКОНОМИИ памяти может быть сохранено в двоичном формате, а в приложении, написанном
на языке COBOL, это поле может рассматриваться в качестве символьной строки.
В дальнейшем по каким-то причинам может понадобиться изменить двоичную форму
представления этого поля на десятичную, сохранив для приложения возможность обрабатывать поле в символьном формате. 

■ Представление числовых данных
Числовое поле может храниться во внутренней арифметической форме (например, в
упакованном десятичном формате) или в виде символьной строки. В каждом случае
АБД должен определить, следует ли применять числа с фиксированной или плавающей точкой, выбрать подходящее основание системы счисления (например,
двоичную или десятичную систему), точность (количество цифр во внутреннем
представлении числа), а если это число с фиксированной точкой, то определить
величину дробной части (количество цифр после точки, разделяющей целую и
дробную части числа). Каждый из этих параметров может быть изменен в целях
повышения производительности, при введении нового стандарта или по некоторым другим причинам.
■ Представление символьных данных
Поле в формате символьной строки может храниться с использованием любого из
существующих наборов кодировок символов (например ASCII, EBCDIC, Unicode).
■ Единицы измерения для числовых данных
Единицы измерения числовых полей могут быть изменены, например, дюймы могут
быть преобразованы в сантиметры в ходе внедрения метрической системы единиц.
■ Кодирование данных
В некоторых ситуациях может понадобиться представлять хранимые данные в виде кодированных значений. В частности, поле "цвет детали", которое представлено в приложении как символьная строка ("красный", "голубой", "зеленый"), может храниться в виде десятичной цифры в соответствии с некоторой таблицей перекодировки, например 1 = "красный", 2 = "голубой" и т.д.
■ Материализация данных
Используемое приложением логическое поле обычно действительно соответствует некоторому определенному хранимому полю (хотя, как было показано выше,
могут существовать различия в типе данных, применяемой кодировке и т.д.).
В этом случае процесс материализации (materialization), т.е. процесс построения
экземпляра логического поля из соответствующего экземпляра хранимого поля
и его передачи приложению, называется прямым. Однако иногда логическое поле
может не иметь соответствующего эквивалентного хранимого поля, а его значение
будет материализоваться с помощью некоторых вычислений, выполняемых над
набором из нескольких экземпляров хранимых полей. Например, значение логического поля "общее количество" можно определить путем суммирования нескольких хранимых значений поля "количество". В подобном случае процесс материализации называется косвенным.

■ Структура хранимых записей Две существующие хранимые записи можно
объединить в одну. Например, хранимые записи
![image.png](attachment:image.png)

■ Структура хранимых файлов

■ что база
данных может расти и развиваться, не оказывая влияния на приложения.

## Реляционная СУБД

Итак, кратко и не совсем точно можно определить, что **реляционная система** — это система, основанная на описанных ниже принципах:
* Данные рассматриваются пользователем как таблицы (и никак иначе).
* Пользователю предоставляются операторы (например, для выборки данных),
позволяющие генерировать новые таблицы на основании уже существующих.


Например, в системе обязательно должны присутствовать оператор сокращения,
предназначенный для получения подмножества строк заданной таблицы, и оператор проекции, позволяющий получить подмножество ее столбцов. Однако подмножество строк и подмножество столбцов некоторой таблицы, безусловно, можно рассматривать как новые таблицы. 

Причина, по которой такие системы называют реляционными, состоит в том, что английский термин "relation" {отношение), по сути, представляет собой общепринятое математическое название для таблиц. Поэтому на практике термины отношение и таблица
в большинстве случаев можно считать синонимами, по крайней мере, для неформальных
целей.

 Прежде всего, старые (дореляционные): **системы с инвертированными списками (inverted list)**, **иерархические (hierarchic)** и **сетевые (network)**.

![image.png](attachment:image.png)

## Резюме

Итак, подведем итог обсуждению основных вопросов. **Систему баз данных** можно рассматривать как компьютеризированную систему хранения записей. 

Такая система включает сами по себе **данные** (хранимые в базе данных), **аппаратное обеспечение**,
**программное обеспечение** (в частности, систему управления базами данных, или
СУБД), а также **пользователей** (что наиболее важно). 

Пользователи, в свою очередь,
подразделяются на **прикладных программистов**, **конечных пользователе**й и
**администраторов базы данных**, или АБД. 

Последние отвечают за **администрирование
базы данных** и всей системы баз данных в соответствии с требованиями,
устанавливаемыми администратором данных.

**Базы данных** являются интегрированными и чаще всего совместно
используемыми. Они применяются для хранения **перманентных данных**. 

Можно
считать (хотя это и не совсем точно), что эти **данные** представляют собой **сущности** и
**связи между этими сущностями**, хотя сами **связи** — это, по сути, просто специальный
вид сущности. Очень кратко мы рассмотрели понятие диаграмм "сущность—связь".

**Система баз данных** имеет ряд преимуществ, наиболее важным из которых является
**физическая независимость от данных**. 

**Независимость от данных** может быть определена
как невосприимчивость прикладных программ к изменениям способа физического хранения данных и используемых методов доступа. 

Среди всего прочего **для обеспечения
независимости от данных** требуется **строгое разделение между моделью данных и ее реализацией**. (По ходу изложения напоминаем, что термин модель данных, к нашему сожалению, имеет два различных значения.)

Системы баз данных обычно поддерживают **транзакции**, или логические единицы работы. 

Основное **преимущество транзакций** заключается в том, что они гарантируют **неразрывность выполняемых действий** (по принципу "все или ничего"), несмотря на возможные сбои системы, имевшие место до завершения выполнения транзакции.

Наконец, система баз данных может быть основана на нескольких различных подходах. **Реляционные системы** базируются на формальной теории, называемой реляционной
моделью, в соответствии с которой данные представляются в виде строк в таблицах
(и интерпретируются как истинные высказывания), а пользователям предоставляется возможность использовать операции, обеспечивающие поддержку процесса логического вывода дополнительных истинных высказываний как следствий из существующих данных.

И с экономической, и с формальной точек зрения можно считать, что реляционные системы являются наиболее важным сегментом рынка баз данных (и это положение дел,
по-видимому, не изменится в обозримом будущем). Мы рассмотрели несколько примеров использования языка SQL — стандартного языка для работы с реляционными системами (в частности, были приведены примеры операторов SELECT, INSERT, DELETE И
UPDATE этого языка). Материал данной книги в значительной мере ориентирован на реляционные системы и в меньшей мере — на сам язык SQL (по причинам, указанным в
предисловии). 

# Реялционная алгебра

Реляционная алгебра базируется на теории множеств и является основой логики работы баз данных.

Реляционной базой данных называется совокупность отношений, содержащих всю информацию, которая должна хранится в базе. В данном определении нам интересен термин отношение, но пока оставим его без строго определения.

Таблица $PRODUCTS$

| ID | NAME | COMPANY | PRICE |
| --- | --- | --- | --- |
| 123 | Печеньки | ООО ”Темная сторона” | 190 |
| 156 | Чай | ООО ”Темная сторона” | 60 |
| 235 | Ананасы | ОАО ”Фрукты” | 100 |
| 623 | Томаты | ООО ”Овощи” | 130 |

У таблицы 4 строки. **Строка** - это кортеж реляционной теории.

**Отношение** - это множество упорядоченных кортежей.

**Домены** применительно к таблице - это столбцы.

Пусть даны N множеств D1,D2, …. Dn (домены), отношением R над этими множествами называется множество упорядоченных N-кортежей вида <d1,d1,...dn>, где d1 принадлежит D1 и тд. 

Множества D1,D2,..Dn называются доменами отношения R.

Каждый элемент кортежа представляет собой значение одного из атрибутов, соответствующего одному из доменов.

## Ключи в отношениях

В отношении требованием является то, что все кортежи должны различаться. Для однозначной идентификации кортежа существует первичный ключ. Первичный ключ это атрибут или набор из минимального числа атрибутов, который однозначно идентифицирует конкретный кортеж и не содержит дополнительных атрибутов.

Подразумевается, что все атрибуты в первичном ключе должны быть необходимыми и достаточными для идентификации конкретного кортежа, и исключение любого из атрибутов в ключе сделает его недостаточным для идентификации.

Для таблицы PRODUCTS первичным ключом будет являться сочетание атрибутов из первого и второго стобца

Для таблицы $DRIVERS$ первичный ключ **СОСТАВНОЙ**

| COMPANY | DRIVER |
| --- | --- |
| ООО ”Темная сторона” | Владимир |
| ООО ”Темная сторона” | Михаил |
| ОАО ”Фрукты” | Руслан |
| ООО ”Овощи” | Владимир |

В реляционной БД таблицы взаимосвязаны и соотносятся друг с другом как главные и подчиненные. Связь главной и подчиненнной таблицы осуществляется через первичный ключ (primary key) главной таблицы и внешний ключ ( foreign key ) подчиненной таблицы.
Внешний ключ это атрибут или набор атрибутов, который в главной таблице является первичным ключем.

Операции реляционной алгебры:

* Основные восемь операций реляционной алгебры были предложены Э.Коддом.
* Объединение
* Пересечение
* Вычитание
* Декартово произведение
* Выборка
* Проекция
* Соединение
* Деление

Для понимания важно запомнить, что результатом любой операции алгебры над отношениями является еще одно отношение, которое можно потом так же использовать в других операциях.

Создадим еще одну таблицу $SELLERS$, которая нам пригодится в примерах. 

| ID | SELLER |
| --- | --- |
| 123 | OOO “Дарт” |
| 156 | ОАО ”Ведро” |
| 235 | ЗАО “Овоще База” |
| 623 | ОАО ”Фирма” |

Условимся, что в этой таблице ID это внешний ключ, связанный с первичным ключом таблицы PRODUCTS.

## ПРОЕКЦИЯ

Проекция является операцией, при которой из отношения выделяются атрибуты только из указанных доменов, то есть из таблицы выбираются только нужные столбцы, при этом, если получится несколько одинаковых кортежей, то в результирующем отношении остается только по одному экземпляру подобного кортежа.

Для примера сделаем проекцию на таблице PRODUCTS выбрав из нее ID и PRICE.


$\pi_{ID,PRICE} PRODUCTS$

В результате этой операции получим отношение:

| ID | PRICE |
| --- | --- |
| 123 | 190 |
| 156 | 60 |
| 235 | 100 |
| 623 | 130 |

### Выборка

Выборка — это операция, которая выделяет множество строк в таблице, удовлетворяющих заданным условиям. Условием может быть любое логическое выражение.
Для примера сделаем выборку из таблицы с ценой больше 90.

$\sigma_{PRICE>90} PRODUCT$

| ID | NAME | COMPANY | PRICE |
| --- | --- | --- | --- |
| 123 | Печеньки | ООО ”Темная сторона” | 190 |
| 235 | Ананасы | ОАО ”Фрукты” | 100 |
| 623 | Томаты | ООО ”Овощи” | 130 |

$\sigma_{(PRICE>90)\cap (ID<300)} PRODUCT$

| ID | NAME | COMPANY | PRICE |
| --- | --- | --- | --- |
| 123 | Печеньки | ООО ”Темная сторона” | 190 |
| 235 | Ананасы | ОАО ”Фрукты” | 100 |

Совместим операторы проекции и выборки. Мы можем это сделать, потому что любой из операторов в результате возвращает отношение и в качестве аргументов использует также отношение.

Из таблицы с продуктами выберем все компании, продающие продуты дешевле 110.

$\pi_{COMPANY} \sigma_{PRICE<100} PRODUCTS$

| COMPANY |
| --- |
| ООО ”Темная сторона” |
| ОАО ”Фрукты” |

### Умножение

Умножение или декартово произведение является операцией, производимой над двумя отношениями, в результате которой мы получаем отношение со всеми доменами из двух начальных отношений. Кортежи в этих доменах будут представлять из себя все возможные сочетания кортежей из начальных отношений. 

Получим декартово произведения таблиц $PRODUCTS$ и $SELLERS$.
Синтаксис операции: 

$PRODUCTS$ 

| ID | NAME | COMPANY | PRICE |
| --- | --- | --- | --- |
| 123 | Печеньки | ООО ”Темная сторона” | 190 |
| 156 | Чай | ООО ”Темная сторона” | 60 |
| 235 | Ананасы | ОАО ”Фрукты” | 100 |
| 623 | Томаты | ООО ”Овощи” | 130 |

$SELLERS$

| ID | SELLER |
| --- | --- |
| 123 | OOO “Дарт” |
| 156 | ОАО ”Ведро” |
| 235 | ЗАО “Овоще База” |
| 623 | ОАО ”Фирма” |

$PRODUCTS$ × $SELLERS$

Можно заметить, что у двух этих таблиц есть одинаковый домен ID. В подобной ситуации домены с одинаковыми названиями получают префикс в виде названия соответствующего отношения, как показано ниже.

<span style='color:Red'> message/text </span>
Example: 
<span style='color:Blue'> Blue is my favorite color.  </span>

$(\sigma_{ID<235} PRODUCT)$ ×$(\sigma_{ID<235} SELLERS)$

| ID | NAME | COMPANY | PRICE | SELLERS.ID | SELLER |
| --- | --- | --- | --- | --- | --- |
|<span style='color:green'> 123 |<span style='color:green'> Печеньки |<span style='color:green'> ООО ”Темная сторона” |<span style='color:green'> 190 </span>|<span style='color:Blue'> 123 |<span style='color:Blue'> OOO “Дарт” |
| 156 | Чай | ООО ”Темная сторона” | 60 |<span style='color:Red'> 156 |<span style='color:Red'> ОАО ”Ведро”  </span>|
|<span style='color:green'> 123 |<span style='color:green'> Печеньки |<span style='color:green'> ООО ”Темная сторона” |<span style='color:green'> 190 </span>|<span style='color:Red'> 156 |<span style='color:Red'> ОАО ”Ведро” </span>|
| 156 | Чай | ООО ”Темная сторона” | 60 |<span style='color:Blue'> 123 |<span style='color:Blue'> OOO “Дарт” </span>|

Для примера использования этой операции представим себе необходимость выбрать продавцов с ценами меньше 90. Без произведения необходимо было бы сначала получить ID продуктов из первой таблицы, потом по этим ID из второй таблицы получить нужные имена SELLER, а с использованием произведения будет такой запроc:


$\pi_{SELLER}\sigma_{PRODUCT.ID=SELLERS.ID \cap PRICE<90} PRODUCT x SELLERS$

| SELLER |
|---|
|ОАО "Ведро"|

**НЕ ЗАКОНЧИЛ**

# Лекция 1 (?) ПАД

## Начало лекции

$R_i$ - отношение

* Каждое отношение - это по сути своей табличка, исходя из определения 

$A_j$ - атрибут, т.е. столбцы

Отношения ниже не связаны, т.к. у них нет одинаковых атрибутов:

$R_1 (A_1, A_2, A_3, A_4)$

$R_2 (A_5, A_6)$

Отношения связаны:

$R_1 (A_1, A_2, A_3, A_4)$

$R_4 (A_1, A_5)$

$R_3 (A_7, A_8)$

$R_4 (A_1, A_5)$

$R_5 (A_1, A_7)$

$R_6 (A_5, A_7)$

ДЗ: НАДО ПРИДУМАТЬ ПРЕДМЕТНУЮ ОБЛАСТЬ, В КОТОРОЙ ВЫ ДЛЯ КАЖДОГО ИЗ ЭТИХ ОТНОШЕНИЙ ПРИДУМЫВАЕТЕ РЕАЛЬНЫХ ОБЪЕКТ И ЕГО ХАРАКТЕРИСТИКИ.
Хотя бы отношения должны попасть в эту предметную область

Пример: 

R1 - студент
* А1 - Код унивесритеа
* А2 - фио
* А3 - номер группы
* А4 - номер паспорта

R4 -университет 
* А1 - КОД УНИВЕРСИТТА
* А5 - НАЗВАНИЕ УНИВЕРСИТА

![image.png](attachment:image.png)

## Базы данных

Отношение - таблица, столбцы которой соответсвуют атрибутам сущности. Каждый атрибут может принимать определенное множество значений (домен)

Кортеж - строка таблицы с конкретными значениями полей (экземпляр записи). Поля таблицы элементарные (неделимые)

Первичный ключ - минимальный набор атрибутов, однозначно идентифицирующий кортеж в отношении.

**Отношение:**

|---|<span style='color:Green'> Первичный ключ </span>|<span style='color:Red'> Атрибут </span>|
| --- | --- |---|
|<span style='color:blue'> Кортеж </span>|154| х |


Групповое отношение: 

1. В таблицы, соответсвующие группам - членам отношения, добавляется столбцы ключевых полей (атрибутов( другого члена отношения (связь описывается через ключевые атрибуты) 
2. групповое отношение определяется как дополнительная группа (дополнительная таблица). Столбцами этой дополнительной таблицы являются ключи групп - членов отношения. 

Для формального описания таблицы используется теоретико-множественное понятие отношения. 

**Схемой отношения** $R$ называется перечень имен атрибутов отношения (соответсвующих столбцам таблицы) с указанием доменов этих атрибутов и обозначается $R(A_1, A_2, ..., A_n) : \{A_i\}\subseteq D_i$, где $\{A_i\}$ - множество значений, принимаесях атрибутов $A_i$ $(i=1,...,n)$.

Совокупность схем отношений, используемых для представления концептуальной модели, называется схемой **реляционной базы данных**, а текущеие значений соответсвующих отношений - **реляционной базой данных**.

Пусть $A_1, A_2, ..., A_n$ - имена атрибутов. Каждому имени $A_i$ соответсвует допустимое множество хначений, которое может принимать атрибут $A_i$. Это множество значений $D_i$ называется доменом атрибута  $A_i$  $(i=1,...,n)$.

По определению домены являются непустыми конечными или счетными множествами

**Работа с данными в реляционной модели**

При работе с данными в реляционной моделии используется два формальных аппарата:
* реляционная алгебра, основанная на теории множеств
* реляционное исчисление, основанное на исчислении предикатов первого порядка

Предикат первого порядка - дизъюнкция, конъюнкция, XOR, отрицание, дополнение

## **Операции в реляционной алгебре**

* **Запрос**, представленный на языке реляционной алгебры, может быть реализован как последовательность элементарных алгебраических операций с учетом их старшинства и возможного наличия скобок. 

* Любой запрос к БД можно представить в виде последовательности, составленной из пяти основных операций релицонной алгебры. 

**1. Объединение $r\cup s$**

**Объединением отношений** $r$ и $s$ называется множество кортежей, которые принадлежат или $r$, или $s$, или им обоим. Для операции объединения требуется одинаковая арность отношений

![image.png](attachment:image.png)

Пояснение: новую строку добавили, а повторяющуюся убрали. Дубликатов быть не должно. Мы получили 4 уникальных записи. С точки зрения формальной алгебры - это правильно, но в SQL есть 2 способа: удаление дубликатов и без их удаления

В картинке не хватает колонок с названиями. Мы не можем говорить, что мы работаем с реляционной базой данных, если у нас нет названий атрибутов

**2. Разность $r-s$**

**Разностью отношений** r и s называется множество кортежей принадлежащих r, но принадлежащих s. Для этой операции требуется одинаковая арность отношений. 

![image.png](attachment:image.png)

* С помощью операции разности может быть реализовано удаление кортежа из изменющегося отношения. В этом случае $r$ - исходное отношение, $s$ - отношение, содержащее один удаляемый кортеж

* Строки (b g a) нет в пересечении

**3. Пересечение $r\cap s$**

**Пересечением отношений** r и s называется множество кортежей принадлежащих как r, так и s. Пересечение может быть выражено черз операцию разности

$r \cap s=r-(r-s)$

![image.png](attachment:image.png)

**4. Соединение**

**Соединением отношений** $r$ и $s$ по стобцам  $A_i$ и $A_j$ представляет собой множество кортежей в декартовом произведении  $r$ и $s$, что $i$-ый компонент r находится в отношении с $j$-ым компонентом $s$, где - арифметический оператор сравнения. Если является оператором равенства, то эта операция называется эквисоединением.  

$r\underset{\rm i \theta j}{\rm \triangleright \triangleleft}   s=\sigma_{i\theta(i+j)} (r \times s)$

![image.png](attachment:image.png)

Примечание: сначала декартово произведение. Получаем матрицу 6 на 5. Т.о. 3 строки мы отбросили. 

(2)<(1) - условие селекции: значение второго атрибута первой таблицы меньше, чем значения первого атрибута второй таблицы. 

![image.png](attachment:image.png)

**Cлужащий:**

| Фамилия | Код отдела |
|---|---|
| Иванов	| 34 |
| Петров |	36 |
| Сидоров |	34 |
| Сергеев |	34 |

**Отдел:**

|Название	|Код отдела|
|---|---|
|Бухгалтерия	|34|
|Маркетинг	|36|

**Результат соединения:**

|Служащий.Фамилия|	Служащий.Код отдела	|Отдел.Название|	Отдел.Код отдела|
|---|---|---|---|
|Иванов|	34|	Бухгалтерия|	34|
|Петров|	36|	Маркетинг|	36|
|Сидоров|	34|	Бухгалтерия|	34|
|Сергеев|	34|	Бухгалтерия|	34|

**5. Декартово произведение $r \times s$**

Пусть $r$ и $s$ - отношениея арности $k_1$ и $k_2$ соответсвенно. **Декартовым произведением** $r \times s$ называется множество кортежей длины $k_1+k_2$, первые $k_1$ компонентов которых образуют кортежи, принадлежащие $r$, а последние $k_2$ -кортежи, принадлежащие $s$. 

**Декартово произведение:**

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Примечание: Берем первую строчку ``aba`` и берем все строки из $s$ и получаем строки ``ababga`` и ``abadaf``. К остальным строкам аналогично.

Получаем в итоге все возможные соответсвия двух таблиц. 

Число столбцов = 
Число строк = число строк $r$ $\times$ число строк $s$

**5. Селекция $ \sigma_{F}(r)$**

Пусть $F$ - формула, образованная: операндами, являющимимся константами или именами атрибутов, арифметическими операторами сравнения, логическими операторами (и, или, не), тогда **селекцией** называется множество кортежей, компоненты которого уовлетворяют условию, заданному формулой $F$
 

![image.png](attachment:image.png)

ПРИМЕЧАНИЕ: по некоторому условию отбрасывает строки. 
Оставляем только те, строки в которых первый и третий элемент равны

~фильтрация

**6. Проекция $ \pi_{A_i1, A_i2,...,A_im}(r)$**

**Проекция** - множество кортежей, получаемых из кортежей отношения $r$ выбором столбцов с именами $A_i1, A_i2,...,A_im$.

![image.png](attachment:image.png)

**Домашнее задание**

Надо придумать больше, чем 3 атрибута. При этом придумать таким образом, чтобы запросы 1 и 2 имели смысл

ПРИМЕРЫ:
1. $ \sigma_{(A_3)+35<date}(r1)$ = оставить только те строчки, у которых после прибавления третьему атрибуту числа 35 меньше константы. 
2. $ \pi_{A_1, A_3}(\sigma_{(A_3)+35<date}(r1))$ = Оставляем первый и третий стобцей, где первый столбец $date$
3. $ rp2 \pi_{A_1}(rp1)$ = 

## SQL

**SQL** (Structured Query Language) - декларированный язык программирования, применяемый для создания, модификации и управления данными в реляционной БД, управляемой соответсвующей СУБД.

Программная оболочка, реализующая реляционную модель данных

Преимущества и недостатки:

``+`` Независимость от конкретной СУБД

``+`` Наличие стандартов

``+`` Декларированность

``-`` Сложность

``-`` Несоответствие реляционной модели данных: 
1. Разрешены строки-дубликаты
2. Разрешены столбцы без имени и дублирующие имена столбцов

**Операторы**

* **DDL** - **Data Definition Language** - для создания базы данных (таблиц, индексов и т.д.) и редактирования ее схемы

* **DML** - **Data Manipulation Lanuage** - язык обработки данных. Содержит операторы для внесения изменений в содержимое таблиц базы данных

* **DCL** - **Data Control Language** - язык управления данными. Содержит операторы для разграничения доступа пользователей к объектам базы данных.

* **TCL** - **Transaction Contol Language**

* **DDL** - **Data Definition Language**

1. ``CREATE``
2. ``ALTER``
3. ``DROP``

1. ``CREATE``

Создаем таблицу в базе данных

In [1]:
CREATE TABLE item_loc(
Location int not null,
Item int not null,
Item_Name varchar(50) not null,
Status char(1) not null,
Status_date_update date not_null,
Stock_on_hand real);

SyntaxError: invalid syntax (2136732821.py, line 1)

![image.png](attachment:image.png)

Синим выделены системные слова.

``CREATE`` - оператор создать 

``TABLE`` - что мы создаем

``item_loc`` -  произвольное название таблицы, как хотим называем. Название отношения. 

(В скобках описываем структуру нашей таблицы. )

``Location``  - первый атрибут. тип данных ``int``. ``not null`` - не может быть строка с пустым данным атрибутом

...
 
``Item_Name``.  ``varchar(50)`` - изменяемый по размерности хранения символов

``Status``. ``char(1)`` - один символ размерности 1. ``not null``

``Status_date_update``. ``date`` - дата время. ``not_null``,

``Stock_on_hand``. ``real`` - число с плавающей точкой)


2. ``ALTER``

Позволяет изменять структуру в базе данных чего-то

![image.png](attachment:image.png)

Мы пишем ALTER.

Затем тип изменяемого объекта = TABLE 

Затем название изменяемого объекта. 

3. ``DROP``

![image.png](attachment:image.png)

# Cеминар (который очно был)

lead_time - с момента заказа

cycle_time - начало производства

$LT \geq CT$


![image.png](attachment:image.png)

Разница рангов можно сравнивать в случае несравнимых показателей. 

Например. как сравнивать скорость производства и количество людей. По рангам. 
Вторичная метрика - сравнение рангов. 

Гипотеза подтверждена. 

# Лекция 3 (?) ПАД

Прикладной кейс по базам данных 

**У НАС БУДЕТ СЕМЕСТРОВОЕ ЗАДАНИЕ**

Пример проекта: продажа сока "СЕМЬЯ"

Нужно сделать небольшое исследование, по 5 человек норм - группы. 

In [1]:
%%sql

UsageError: Cell magic `%%sql` not found.


In [2]:
%%sql
DELETE FROM table
[WHERE]

TRUNCATE TABLE table

UsageError: Cell magic `%%sql` not found.


**JOIN** - оператор соединения таблиц по некоторому условию

In [None]:
SELECT * FROM TABLE_A AS A
INNER JOIN TABKE_B AS B
ON a.variable_a=b, variable_b
LEFT JOIN TABLE_C AS C
ON a.variable_a=c.variable_c
...

![image.png](attachment:image.png)

|Student|
|---|
|id|
|last_name|
|first_name|
|group| 
|facultee|


**student**

|id|last_name|first_name|group|course|
|---|---|---|---|---|
|1|Иванов|Иван|105|3|
|2|Сидоров|Сидор|209|4|

|subject|
|---|
|id|
|name|
|sem|
|type|
|odd|
|group|

|facultee|
|---|
|id|
|descr|

|pair|
|---|
|1. 9:00|
|2. 10:50|

JOIN делает декартово произведение и фильтрацию. 

|id|F|
|---|---|
|1|ФЕН|
|2|ММТ|
|3|ФФ|
|4|ЭФ|

|id|last_name|first_name|group|course|
|---|---|---|---|---|
|1|Иванов|Иван|105|3|
|2|Сидоров|Сидор|209|4|

|id|last_name|first_name|group|course|id|F|
|---|---|---|---|---|---|---|
|1|Иванов|Иван|105|3|1|ФЕН|
|2|Сидоров|Сидор|209|4|2|ММТ|
|1|Иванов|Иван|105|3|3|ФФ|
|2|Сидоров|Сидор|209|4|4|ЭФ|
|1|Иванов|Иван|105|3|4|ЭФ|
|2|Сидоров|Сидор|209|4|3|ФФ|
|1|Иванов|Иван|105|3|2|ММТ|
|2|Сидоров|Сидор|209|4|1|ФЕН|

![image.png](attachment:image.png)

Леывй JOIN - все записи из таблицчки слева и только те, котоые выполнили условия справа. 


![image.png](attachment:image.png)

**Вложенный запрос**

S

In [None]:
SELECT * FROM TABLE_A AS A
WHERE A_FIELD_1 IN
(SELECT B_FIELD AS B
 ...
)

# МУСОР

Распределенные системы управления базами данных являются неотъемлемой частью большинства предприятий и подавляющего большинства программных приложений.

Приложения отвечают за логику и взаимодействие с пользователем, в то время как системы управления базами данных (СУБД) обеспечивают целостность, согласованность и избыточность данных.

План курса (позже удалить)
----------

- **Базовые операции SQL** - "как стать на “ты” с базами данных"
- **Основы реляционных СУБД** - "как написать запрос любой сложности"
- **Проектирование БД** - "от концепции до физической структуры"
- **Использование ORM** - "связь БД с концепциями ООП"
- **Администрирование MySQL и оптимизация запросов** - "как стать системным администратором БД"
- **Нереляционные СУБД** - "когда и как сказать “Not Only SQL”"

Технологии и инструменты курса
------------------------------

СУБД:
~~~~~

- **MySQL** - доминирующая РСУБД среди свободного ПО
- **MongoDB** - наиболее популярная документоориентированная СУБД (подходит для проектирвоания баз данных с нечеткой или часто меняющейсчя схемой) 
- **Redis** - наиболее стабильная СУБД типа “ключ-значение” (его преимущество - быстрый доступ к данным)

Проектирование:
~~~~~~~~~~~~~~~

- MySQL Workbench - популярный и свободный инструмент выполнения запросов и проектирования БД
  
- Ваш любимый ORM (наш - Django ORM) - на любом популярном языке есть несколько вариантов


Что такое база данных?
~~~~~~~~~~~~~~~~~~~~~~~
Определений много, но есть схожие характеристики:
- Хранит данные по правилам (концепция, схема)
- Можно управлять данными по правилам
- Нужна для удовлетворения информационных потребностей 

Основные понятия баз данных
============================

Что такое база данных?
~~~~~~~~~~~~~~~~~~~~~~~

Определений много, но есть схожие характеристики:
- Хранит данные по правилам (концепция, схема)
- Можно управлять данными по правилам
- Нужна для удовлетворения информационных потребностей 

**Сущность** - класс, хранящийся в базе данных, таблица. (Некоторая основа, наделенная смыслом)

.. note:: 
     Не всякая таблица является сущностью. Некоторые таблицы используются для связывания сущностей.

**Объект** - экземпляр сущности или класса.
**Атрибут** - некоторое свойство характеризующие сущность, **название столбца в таблице**. 

**Кортеж** - строка в таблице, набор значений конкретных атрибутов.

**Домен** - набор допустимых значений атрибута.
Например, пол: мужской и женский

**Идентификатор** - атрибут с уникальным значением для данной таблицы. Как правило - это целое число.

Области применения БД
~~~~~~~~~~~~~~~~~~~~~~

- Банки, картотеки, любые крупные системы, в которых нужно хранить и изменять данные, а также иметь доступ к ним с разными ролями. (системы, где уже не обойтись xls-файлом)
Пример: в базе любого банка определены сущности пользователя, его долгов, операций
- Веб-сайты - сервер использует БД для удобства управления информацией и взаимодействия с пользователем.
Пример: онлайн-магазины оперируют сущностями, корзин, покупателей, скидок, акций
- Приложения (мобильные и десктопные) используют локальные базы для удобства хранения данных по некоторым правилам.
- Любой программный продукт, подразумевающий отделение бизнеслогики и уровня хранения данных.

Архитектура СУБД
~~~~~~~~~~~~~~~~~

**Основные компоненты:**
- **Ядро** - процессы, сеть, память, файловая система и т.д.
- **Диспетчер данных** - транзакции, кэш
- **Диспетчер запросов** - парсер запроса, проверяющий валидность запросов; оптимизатор, исполнитель
- **Набор инструментов для служебных операций** - резервное копирование, восстановление, мониторинг

Почему **реляционные** СУБД популярны?
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

**Преимущества:**
- Простая схема данных для пользователя.
- Логическая и физическая независимость от данных.
- Целостность и защищенность данных.
- Методологический подход к проектированию.
**Недостатки:**
- Относительно низкая скость доступа к данным.
- Не универсальное решение для любой предметной области.
- Меньшая гибкость при добавлении своих типов данных и операций.

**Диалекты:**
- Oracle (Самый распространенный СУБД)
- MySQL (Самый популярный свободный СУБД)
- PostgreSQL (Постреляционная СУБД)
- MS SQL (СУБД, распространенная в Windows)
- SQLite (СУБД, используемая для локальных приложений)
- Access (Аналог SQLite от Microsoft)

Первый пример
=============

1. Надо установить сервер MySQL и MySQL Workbench. Для этого скачивается и запускается MySQL-инсталлер и там выбираются MySQL Server и MySQL Workbench
2. Далее клонируем с гита курса примеры БД
3. После этого необходимо сначала File -> Open Model...->