# Базы данных

## Что такое база данных и зачем они используются?

База данных — это упорядоченный набор структурированной информации или данных, которые обычно хранятся в электронном виде в компьютерной системе. База данных обычно управляется системой управления базами данных (СУБД). Данные вместе с СУБД, а также приложения, которые с ними связаны, называются системой баз данных, или, для краткости, просто базой данных.

## Свойства базы данных

Правильно подобранная база данных должна обеспечивать:
* Целостность данных (данные не теряются после перезапуска программы)
* Многопользовательский доступ к данным (одно хранилище для многих пользователей)
* Быстродействие
* Удобство работы

## Типы баз данных

### 1) Реляционные БД

Самый популярный тип.

Записи и связи между ними организованы при помощи __таблиц__. В таблицах возможно наличие поля для внешнего ключа со ссылками на другие таблицы. Благодаря высокой организации и гибкости структуры реляционные БД применяются для многих типов данных.

![image.png](attachment:638369a6-2b7f-4ec7-ae5b-16b11db34b33.png)

__Преимущества реляционного подхода__:
* определение сложных отношений между объектами
* нормализация и денормализация данных
* структурированный язык запросов,
* богатая история развития и широкое распространение (основной инструмент при разработке различных приложений и сервисов).
  
__Недостатки подхода__:
* жесткая структура сведений об объектах.
  
__Примеры__: PostgreSQL, SQLite, MySQL, Oracle

### 2) Базы данных «ключ-значение»

В таких базах данные сохраняются под ключами. Если хотите получить объект, например, изображение или текст, нужно ввести ключ. Таким образом часто хранят информацию о состоянии объектов, представленную различными типами данных.

![image.png](attachment:27876b6f-b1c7-4ae8-8751-2dfa12f8132f.png)

Преимущества:
* Хранение и обработка разных по типу и содержанию данных: в одном хранилище под разными ключами могут находиться файлы, строки, текст, числа, JSON-объекты и другие типы данных.
* Высокая скорость доступа к данным за счет адресного хранения.
* Легкое масштабирование. Можно создать правила шардирования по определенным ключам – например, сессии пользователей разных сайтов хранятся в различных сегментах БД.
  
Недостатки:
* Поскольку подход не предполагает жесткой типизации и структуризации данных, то контроль их валидности, а также нейминг ключей отдаются на откуп разработчику.

__Примеры__: Redis, Amazon DynamoDB, Memcached

### 3) Документоориентированные БД

В отличие от баз типа «Ключ-значение» данные здесь хранятся в структурированных форматах – XML, JSON, BSON. Тем не менее, сохраняется адресный доступ к данным по ключу. При этом содержимое документа может иметь различный набор свойств. 

![image.png](attachment:26c797e2-e243-4919-b5d1-c468a889e8b3.png)

__Преимущества__:
* хорошо подходят для быстрой разработки систем и сервисов, работающих с по-разному структурированными данными
* легко масштабируются и меняют структуру при необходимости
  
__Недостатки__:
* Также, как и для БД "ключ-значение"

__Примеры__: MongoDB, DocumentDB, CouchDB

### 4) И многие, многие другие...


Графовые, временных рядов, поисковые и тд.

## База данных SQLite

В этом курсе будет рассматриваться работа с базой данных SQLite - реляционной базой данных

Почему она:
1) Поддерживается Python из коробки, не требует установки доп. ПО 
2) Простая - база данных = 1 файл 
3) Популярная

Однако принцип базовой работы с SQLite не отличается от любой другой реляционной базы данных (например, PostgreSQL).

На примере таблицы Сотрудник рассмотрим терминологию реляционных баз данных:
![image.png](attachment:01f60745-ebbd-4a48-af33-a198116c723d.png)

* отношение  – это структура данных целиком, набор записей (в обычном понимании – таблица) , в  примере –это Сотрудник;

* кортеж – это каждая строка , содержащая данные (более распространенный термин – запись ), например, <001, Борин С.А, 234-01-23, программист>, все кортежи в отношении должны быть различны;

* мощность – число кортежей в таблице (проще говоря, число записей), в данном случае 3, мощность отношения может быть любой (от 0 до бесконечности), порядок следования кортежей - неважен;

* атрибут – это столбец в таблице (более распространенный термин – поле ), в примере – Табельный номер, Фамилия И.О., Телефон, Должность) 
размерность – это число атрибутов в таблице, в данном случае – 4;

* размерность отношения должна быть больше 0, порядок следования атрибутов существенен;

* домен атрибута – это допустимые значения (неповторяющиеся), которые можно занести в поле , например для атрибута Должность домен – {инженер, программист}.

## SQL

Для работы с реляционными базами данных (сохранением, извлечением и изменением данных из нее) используется SQL - язык структурированных запросов (Structured Query Language)

### Основные типы данных


![image.png](attachment:8c794114-db28-470b-8011-3054f9d65d7b.png)

### Основные типы операторов SQL:

● DDL (Data Definition Language) — операторы определения данных, которые работают с целыми таблицами. Например: 
1) CREATE — чтобы создать таблицу (TABLE) или базу данных (DATABASE)
2) DROP (TABLE/DATABASE) — чтобы удалить всю таблицу или базу данных
3) ALTER — изменить таблицу таблицу или базу данных

● DML (Data Manipulation Language) — операторы манипуляции данными, которые работают с содержимым таблиц. Например:
1) INSERT — чтобы добавить новые
2) SELECT — чтобы выбрать нужные данные по заданному параметру.
3) UPDATE — чтобы обновить данные
2) DELETE — чтобы удалить

### Примеры работы SQL

Рассмотрим примеры работы на примере таблицы __book__
![image.png](attachment:a8e9561e-f888-43d4-a787-9d4527e523a9.png)

Примеры в папке examples:
1) CREATE
2) DROP
3) INSERT
4) SELECT
5) UPDATE
6) DELETE
7) filters + order
8) ALTER

### Несколько таблиц

В нашей таблице сейчас присутствуют 2 проблемы

1) У нас нет уникального поля, однозначно идентифицирующего запись.

Это можно решить, добавив первичный ключ (__PRIMARY KEY__) на одно из полей таблицы

2) Проблема избыточности данных: для каждой книги мы прямо указываем автора. Это:
* заставляет нас хранить больше данных, чем надо
* если мы захотим изменить что-то (например, формат с Фамилия И.О. на Фамилия Имя Отчество), то придется менять это для каждой записи в таблице

Это можно решить следующим образом: 
1) Создать отдельную таблицы __author__ с полями __id__ и __name__
2) Изменив в таблицу __book__ поле __author__ на __author_id__
3) Указать, что поле __author_id__ теперь является __FOREIGN KEY__, т.е указывает на поле __id__ таблицы __author__

### Пример 9. create + pk + fk

## Индексы

Индексы — это специальные поисковые таблицы (lookup tables), которые мы дополнительно создаём для более быстрого поиска в базе данных (SELECT, WHERE)

Например, база данных автоматически создаёт индекс на поле, отмеченное как PRIMARY KEY

### Пример 10. index

Стоит помнить, что создание индекса требует дополнительных накладных расходов, поэтому наличие индекса может замедлять операции изменения данных (UPDATE, INSERT)

## Полезные материалы

1. [Подробнее про виды БД](https://habr.com/ru/companies/amvera/articles/754702/)
2. [Подробнее про типы данных в БД](https://practicum.yandex.ru/blog/tipy-dannyh-sql/)
3. [FAQ про SQLite](https://habr.com/ru/articles/149356/)
4. [Что такое SQL и зачем нужен](https://practicum.yandex.ru/blog/chto-takoe-sql/)
5. [Отличный курс на Stepic для полноценного изучения SQL](https://stepik.org/course/63054)
6. [Шпаргалка по SQL](https://habr.com/ru/articles/564390)
7. [Виды индексов (возможно, будет тяжело)](https://habr.com/ru/companies/ruvds/articles/724066/)