# Введение в базы данных

Многие люди знакомы с принципом работы электронных таблиц. Excel наверно самая популярная в этом плане программа для работы с ними. У неё высокий функционал и она достаточно проста в управлении. Возникает резонный вопрос, а почему бы не держать все данные в Excel?

Но есть две основные проблемы работы с Excel:
* Excel не обладает хорошими средствами для проверки корректности вводимых данных. Например, неверно введенная дата «32 декабря» или неверно записанное имя. Накопление таких мелких ошибок приводит к тому, что база данных, созданная в Excel, будет неработоспособна.
К примеру, в MySQL дата хранится в специальных переменных datetime, date или timestamp, которые в свою очередь основываются на POSIX-времени (определяется как количество секунд, прошедших с полуночи (00:00:00 UTC) 1 января 1970 года).
* Если с таблицей в Excel в текущей момент времени работают два или более пользователей, то изменять и сохранять содержимое сможет только один пользователь, а другому придется ждать своей очереди.

Для решения данных проблем и были созданы базы данных.

Что такое базы данных?

В современном мире базы данных используются практически везде. Например, когда вы заходите на сайт и вводите логин и пароль, программа проверяет, есть ли такая пара в базе данных. В базах хранятся данные о посещениях, покупках, контактах пользователей (или покупателей). Если данных становится много, то на помощь приходят базы данных (БД).

***База данных (БД)*** — это организованная структура для хранения, изменения и обработки взаимосвязанной информации. Обычно базы данных используют для взаимодействия с большими объёмами данных. Практически ни одна большая компания (от интернет-магазинов до банков) сейчас не обходится без использования баз данных.

Какие базы данных существуют?

1. Реляционные базы данных. В них данные хранятся в виде связанных таблиц. Связанные таблицы — это таблицы, в которых мы явно видим зависимость данных одной таблицы от другой. Например, в одной мы храним данные о сотрудниках, а во второй — их зарплату.
2. Нереляционные базы данных. В них данные хранятся иначе, например, в формате ключ-значение или в виде дерева.

На самом деле, база данных может содержать всё что угодно. Вот несколько примеров из рабочей практики: учёт времени входа и выхода работника с территории предприятия, создание матрицы доступов к кабинетам различных работников, сводные таблицы работы устройств в локальной сети и учёт времени их наработки, хранение цифровых документов.

В базе данных обязательно должен быть удобный доступ к данным. Например, если представить обычную книгу как БД, то оглавление книги будет являться индексом для поиска интересующей нас информации. Но хранить данные мало, их нужно добавлять и модифицировать.

И тут мы подходим к некоторой проблеме:

Проблема 1. Два пользователя пытаются добавить свои данные в базу данных одновременно (ну или почти одновременно) и нажимают кнопку «Добавить».

Логика нам подсказывает, что тот, кто первый добавил, тот и прав. И в большинстве систем именно так и работает. Но в базах данных данной проблемы нет.

Сейчас попробуем представить несколько ситуаций добавления данных и узнаем, как решается проблема добавления на некотором абстрактном уровне БД.

Если первый пользователь добавляет данные в одну таблицу, а другой в другую, и обе таблицы находятся в одной БД. В такой ситуации добавление отработает так, что для пользователей будет казаться, как будто каждый из них работает отдельно и независимо от своего товарища.
Если данные добавляются или изменяются в рамках одной таблицы, но это разные строки, то ошибки сохранения тоже не будет.
Оба пользователя изменяют данные, притом это конкретные данные на одной и той же строчке одной и той же таблицы. В этом случае будут добавлены данные будут того, кто сохранил последним.

Но в последнем примере у двух пользователей всё так же остается проблема добавления данных. Представим, что пользователи решают договориться между собой, что вначале меняет данные первый, потом второй. Притом они специально заводят вторую таблицу, в которой первый пользователь будет ставить, скажем, «плюсик» в первой строчке. Второй пользователь увидит, что первый поменял данные в первой строчке, и теперь ему тоже можно менять.

В теории мы избавились от одной проблемы и получили вторую.

Проблема 2. Первый пользователь поменял данные в таблице, но знак плюса во второй не поставился, например, из-за внезапного обрыва связи. И второй пользователь сидит и ждёт, когда первый закончит менять данные. Как становится ясно — не дождётся.

Путь решения новой проблемы так же прост. Это введение транзакций в нашу БД. Для начала разберём, что такое транзакция.

***Транзакция*** — это ряд действий, выполняемых подряд, которые должны быть обработаны полностью, или в случае сбоя БД быть восстановлены до состояния, пока транзакция не началась.

Схематично транзакцию для решения нашей проблемы можно представить так:

НАЧАЛО ТРАНЗАКЦИИ;\
ИЗМЕНЯЕМ ДАННЫЕ В ПЕРВОЙ ТАБЛИЦЕ;\
ИЗМЕНЯЕМ ДАННЫЕ ВО ВТОРОЙ ТАБЛИЦЕ;\
КОНЕЦ ТРАНЗАКЦИИ;

Хорошим примером транзакции также будет являться такой пример: допустим у нас есть база данных с таблицей, в которой мы храним счёт каждого пользователя. Один пользователь передает средства второму пользователю.

Схематичное представление транзакции выглядит следующим образом:

НАЧАЛО ТРАНЗАКЦИИ;\
СЧЁТ ПЕРВОГО ПОЛЬЗОВАТЕЛЯ = СЧЁТ ПЕРВОГО ПОЛЬЗОВАТЕЛЯ - СУММА СРЕДСТВ;\
СЧЁТ ВТОРОГО ПОЛЬЗОВАТЕЛЯ = СЧЁТ ВТОРОГО ПОЛЬЗОВАТЕЛЯ + СУММА СРЕДСТВ;\
КОНЕЦ ТРАНЗАКЦИИ;

Как видим из примера, если что-то произойдёт в момент переноса средств, то транзакция отменяется, а база вернется в первоначальное состояние до транзакции. Откатывает базу до первоначального состояния СУБД.

***Система Управления Базами Данных (СУБД, DBMS — DataBase Management System)*** — это комплекс программных средств, необходимых для создания структуры новой базы, её наполнения, редактирования содержимого и отображения информации.
Для работы с данными, хранящимися в БД, используется специальный язык — SQL, который мы и будем изучать в данном курсе.

СУБД бывают разные, и языки для них тоже отличаются, являясь диалектами SQL. Наиболее распространенными СУБД являются: MySQL, PostgreSQL, Oracle, Microsoft SQL Server.

Для очень большого объёма данных также используют ClickHouse, Hadoop и другие СУБД.

Для взаимодействия с базами данных через СУБД часто используется язык запросов SQL (Structured Query Language). Он применяется для создания, модификации и управления данными.

Вот схема простого SQL-запроса:

SELECT column_names\
FROM table_name\
WHERE conditions\

С помощью этого запроса можно получить данные из БД. Разберем запрос:
* SELECT отвечает за то, какие колонки будут выбираться из данных.
* FROM — за то, из какой таблицы эти данные.
* WHERE — за фильтрацию строк в данных.

Переводим запрос на русский язык:

ВЫБЕРИ (SELECT) колонки column_names ИЗ (FROM) ТАБЛИЦЫ table_name, ДЛЯ СТРОК КОТОРЫХ ВЫПОЛНЕНЫ УСЛОВИЯ(WHERE) conditions.

При использовании SQL очень важно соблюдать порядок ключевых слов.

Обязательные ключевые слова при выполнении запроса — только SELECT (если данные выбираются не из таблицы) и SELECT + FROM, если из таблицы). Остальные можно не включать в запрос.

Нужно ли ставить точку с запятой (;) в конце запроса? Это зависит от конкретной СУБД. Например, в большинстве современных СУБД делать это не обязательно.

SQL не чувствителен к регистру, поэтому ключевые слова можно писать в любом регистре, например, SELECT или SeLeCt.

Дальше давайте попробуем разобраться, в чём разница между различными СУБД, и заодно посмотрим, какие они бывают. СУБД можно классифицировать по разному: по модели хранения данных, по степени распределенности и по способу доступа к БД.

1. Для начала нужно понять, что модель данных — это некое  абстрактное описание объектов, операторов и взаимосвязей между объектами.

Например, в иерархической модели данных объекты представлены узлами и между ними есть связи, ну и у дерева может быть только один корень. Частным примером этой структуры является дерево бинарного поиска, но в отличие от него, количество дочерних элементов у элемента не должно быть равно двум. А ещё интересно знать, что эта модель была разработана одной из первых, и использовалась в 1960-1970 годах.

Следующей по развитию шла сетевая модель данных, отличающаяся от иерархической тем, что у каждого потомка могло быть несколько родительских объектов. Конкурентоспособной она была в 1975-1980 годах.

2. Следующим этапом развития СУБД стали базы, основанные на реляционной модели данных. Во многих источниках обычно используется достаточно сложное описание такой модели, но на самом деле она представляет собой таблицу, которая обладает рядом свойств:
* У нее может не быть строк , но хотя бы один столбец быть обязан.
* На пересечении столбца и строки должно быть только одно значение и оно атомарно (т.е. это минимально допустимая единица информации, при попытке разделить которую нарушится целостность информации. Например, если мы в ячейке храним почтовый индекс, то при попытке разделить на первые три цифры и вторые три цифры будет уже непонятно, что мы храним).
* У каждого столбца должно быть своё уникальное имя.
* Данные в одном столбце всегда одного типа (строки, числа, даты).

3. По степени распределённости СУБД делятся всего на два типа: локальные (размещенные на одном компьютере) и распределенные ( находящиеся на двух компьютерах и более).

4. Ну и последнее — различия по доступу к БД.
Всего есть три типа:
* Файл-серверные. Предполагают наличие в сети сервера (или серверов), на котором хранятся файлы БД. В соответствии с запросами пользователей файлы с файл-сервера передаются на рабочие станции пользователей, где и осуществляется основная часть обработки данных. При этом сам сервер выполняет роль хранилища файлов, не участвуя в обработке самих данных. 
* Клиент-серверные. Помимо хранения файлов БД, выполняют бОльшую часть обработки данных. Пользователи обращаются к серверу, сервер принимает запрос и запускает процессы обработки данных. В ответ пользователь получает уже обработанный, в соответствии с запросом, набор данных. Данная технология позволяет избежать передачи по сети больших объемов информации, переложив всю обработку на центральный сервер. 
* Встраиваемые. Обычно идут с родительским приложением для хранения его данных локально, не требуют установки и не имеют никакого коллективного использования.