# Базы данных


**Что такое базы данных?**

База данных (БД) — это программа, которая позволяет хранить и обрабатывать информацию в структурированном виде.
БД это отдельная независимая программа, которая не входит в состав языка программирования. Данные программы создавались специально для надежного хранения и обработки данных. Поэтому в скорости, удобстве и надежности работы с данными им нет равных. 

На прошлых семинарах мы уже загружали какие-то данные прямиком в наши ноутбуки и делали фильтрации, преобразования с ними. Казалось бы, зачем тогда нужны эти БД?  
Но:  
- эти файлы были очень небольших размеров и помещались в вашу оперативную память. А что делать если памяти не хватает?
- вокруг ваших данных не было выстроено сложной логики по поддержанию целостности, отсутствия дубликатов, не было сценариев на случай изменения каких-то значений и вставки новых строк, они не имели связи с другими таблицами.
- на больших объемах данных python/pandas начинали очень долго их обрабатывать
   
Существуют разные типы баз данных и это не случайно. Каждый из типов создан чтобы лучше других решать свои узко специализированные задачи.
Основные:
- Реляционные, представляет из себя набор таблиц, связанных между собой предопределенными связями. Как правило является основной базой данных во многих проектах, идеально подходит как хранилище всех данных вашего проекта. Все таблицы имеют четко описанную структуру. Справляются с огромными массивами данных.
- In Memory, небольшие базы находящихся прям в оперативной памяти. Это увеличивает скорость обработки данных и ответа пользователю, но ограничены в объеме. Как правило их вставляют в узкие места проекта, где критически необходима скорость. Как правило этот тип БД идет в паре с реляционной. In Memory перемещает неактуальные и отработанные данные в реляционную, в которой хранится уже вся история.
- NoSql - более гибкие в плане структуры данных, можно хранить практически произвольные структуры, но в этом есть и большие минусы. Построение каких-то сложных запросов может занять много времени при написании и выполнении. Документо-ориентированный.
- Графовые, TimeSerises и другие.
    
В нашем случае мы будем работать с **реляционными базами данных**.  
Даже среди них у нас есть большой выбор БД - Postgress, MySql, MS SQL Server, Oralce, SQLite, ...  
У них есть много общего в плане синтаксиса языка (SQL), так что если разобрались в одной из них, будет довольно легко пересеть на другую БД.  
Но каждая из них имеет свои плюсы и минусы, а так же может быть платной или бесплатной.

# SQLite и BD Browser
Мы будем работать с **SQLite**, которая позволяет не содавать никаких серверов и работать с базой на любом компьютере. 
В SQLite база данных выглядит как отдельный файл, который можно свободно перемещать и отрывать на любом устройстве.
Для работы с БД есть специальные среды, предоставляющие графический интерфейс, где вы можете заглянуть внутрь БД через нормальный интерфейс а не смотреть в черное окошко терминала.

Мы будем использовать [**DB Browser**](https://sqlitebrowser.org/). Скачайте и установите его.

# IMDB

Мы будем работать с базой IMDB. Она сокращена, там отфильтрованы только фильмы, сериалы и мини-сериалы.

База [тут](https://yadi.sk/d/GOxdLhob7et7Hw?w=1)

<img src="img/imdb_schema.png">

На схеме можно увидеть, как связаны таблицы между собой. Первый пример иллюстрирует связи фильм - люди.

У нас есть фильмы (titles) + люди (people). С помощью таблицы crew мы получает информацию, что в фильме с таким айди участвует человек со вторым айди. В этой свзяи появляется еще один параметр - айди роли (например, 1 - actor, 2 - actress), эти номера и человеческие названия хранятся в таблице role_categories.

По этому же принципу хранятся жанры в привязке к фильму.

После того как скачали файл с базой, пробуем открыть его программой DB Browser:
1. Открываем DB Browser
2. Жмем открыть базу данных и ищем её среди файлов.

Вы увидите примерно следующее:  
<img src="img/create.png">

# SQL - Язык управления данными
**SQL (Structured Query Language)** - это особый язык для управления данными в БД. С помощью него можно добавлять, удалять, изменять и выбирать данные в таблицах. Любое обращение к базе данных называется запросом.

**SQL** - очень простой язык. 
Его условно можно разбить на две части:
1. Data definition language (DDL)
    - CREATE - создание таблицы/представления/...
    - DELETE - удаление данных из таблицы
    - DROP - удаление самой таблицы
    - INSERT - вставка дынных в таблицу
    - UPDATE - изменение данных, находящихся в таблице
    - TRUNCATE - полная очистка таблицы
    - ALTER - изменение названий таблицы и ее колонок, добавление/удалене столбцов
 
2. Data manipulation language (DML) - язык запросов, работа непосредственно с данными таблиц.

## Data definition language (DDL)

**CREATE TABLE** - Создает таблицу, той структуры, которую вы определите

``` mysql
CREATE TABLE your_table_name (column_name datatype, ...); -- общий вид

CREATE TABLE crew (title_id INT, person_id INT, category INT); -- конкретный пример
```
___
**DROP TABLE** - удаляет таблицу

``` mysql
CREATE TABLE crew;
```
___
**INSERT** - вставляет строки в таблицу

``` mysql
INSERT INTO table (column1,column2 ,..) -- вставка одной строки
VALUES( value1,	value2 ,...);

INSERT INTO table1 (column1,column2 ,..) -- вставка нескольких строк
VALUES 
   (value1,value2 ,...),
   (value1,value2 ,...),
    ...
   (value1,value2 ,...);
```
___
**ALTER** - изменение таблицы (названий, добавление/удаление колонок)

``` mysql
ALTER TABLE TableName  -- изменяем название таблицы
RENAME TO new_table_name;


ALTER TABLE TableName -- изменяем название колонки
RENAME COLUMN current_name TO new_name;

ALTER TABLE TableName -- добавляем новый столбец
  ADD new_column_name column_type;
  
ALTER TABLE TableName -- удаляем столбец
  DROP new_column_name column_type;
  
```  
___

**TRUNCATE** - удаление всех данных из таблицы, сама таблица остается цела.
В SQLite данная операция делается с помощью команды **DELETE**. 

``` mysql
DELETE FROM TableName;
``` 
___

**DELETE, UPDATE** - мы вернемся к этим командам, когда освоим язык манипуляций с данными.

## Data manipulation language (DML)
Данная часть языка SQL намного больше богаче в плане синтаксиса и возможностей. Она отвечает за манипуляцию/агрегацию данных, это тот инструмент, которым очень часто пользуются все аналитики/датасайнтисты.

Давайте разберемся в структуре запросов и последовательности действий в нем.

### SELECT + FROM

``` mysql
SELECT * -- выводит всю информацию содержащуюся после выполнения запроса
FROM titles

SELECT premiered, is_adult -- вывод конкретных колонок
FROM titles

SELECT * -- выводит 10 строк
FROM titles
LIMIT 10 


SELECT distinct * -- выводит только уникальный набор строк
FROM titles
```
___
**ВАЖНО!** Порядок выполнения запроса не совпадает с его написанием.  
Сначала выполняется часть **FROM** (определяем откуда берем данные), затем  **SELECT** (что выводим из тех данных, что подцепили), и последним идет **LIMIT** (ограничиваем набор данных), если он есть.

### SELECT + FROM + WHERE 
Давайте теперь добавим какие-нибудь фильтры на те данные которые хотим получить!

``` mysql
SELECT * 
FROM titles 
WHERE premiered >= 2000 and premiered <= 2019 -- фильтр на год премьеры
LIMIT 50
```
___
**Порядок выполнения запроса: FROM -> WHERE -> SELECT -> LIMIT (если есть)**

### SELECT + FROM + WHERE + GROUP BY 
Следующий шаг - агрегация данных или группировка.


``` mysql
SELECT premiered, sum(is_adult) cnt_adult -- подсчитали сколько взрослых фильмов выходило по годам
FROM titles 
WHERE premiered >= 2000 and premiered <= 2019
GROUP BY premiered
```

Группировка может происходить по нескольким полям, все они должны быть указаны следом за GROUP BY.  
В селекте без агрегации могут участвовать только те столбцы, которые указаны в GROUP BY. Остальные либо должны отсутствовать в SELECT, либо должны подвергнуться какой-то агрегирующей функции.  
**Основные агрегирующие функции - count, max, min, sum, GROUP_CONCAT (не универсальна)**
____
**Порядок выполнения запроса: FROM -> WHERE -> GROUP BY (если есть)-> SELECT -> LIMIT (если есть)**

### SELECT + FROM + WHERE + GROUP BY + HAVING
HAVING подобен WHERE, но применяется после агрегации данных. По сути вам дают еще одну возможность отфильтровать данные, уже после агрегации. 
**HAVING-a без GROUP BY не бывает!**

``` mysql
SELECT premiered, sum(is_adult) cnt_adult -- подсчитали сколько взрослых фильмов выходило по годам
FROM titles 
WHERE premiered >= 2000 and premiered <= 2019
GROUP BY premiered
HAVING cnt_adult  > 100 -- отфильтровываем только те года, в которых было больше 100 взрослых фильмов
```
В порядке очередности выполнения HAVING стоит перед SELECT, и в некоторых БД данный запрос упал бы с ошибкой что ему незивестно такое поле как *cnt_adult*. Но в SQLite HAVING как бы подсматривает в SELECT, и видит те аграгации, которые он должен будет выполнить.

____
**Порядок выполнения запроса: FROM -> WHERE -> GROUP BY (если есть)-> HAVING (если есть)-> SELECT -> LIMIT (если есть)**

### SELECT + FROM + WHERE + GROUP BY + HAVING + ORDER BY
ORDER BY необходим что бы осортировать данные перед тем как вывести их. Ему не обязательно присутсвие каких либо конструкций, кроме обязательных SELECT и FROM.

``` mysql
SELECT premiered, sum(is_adult) cnt_adult -- подсчитали сколько взрослых фильмов выходило по годам
FROM titles 
WHERE premiered >= 2000 and premiered <= 2019
GROUP BY premiered
HAVING cnt_adult  > 100 -- отфильтровываем только те года, в которых было больше 100 взрослых фильмов
ORDER BY premiered asc -- desc, сортируем выдачу по полю premiered в порядке возрастания (asc) или убывания (asc)
```
Сортировка возможна сразу по нескольким столбцам.
____
**Порядок выполнения запроса: FROM -> WHERE -> GROUP BY (если есть)-> HAVING (если есть)-> SELECT -> ORDER BY (если есть) -> LIMIT (если есть)**

Вот мы и получили максимально полный набор этапов в запросе. Но каждый из них может становиться сложнее, содержать вложенные конструкции.

## ПОРЯДОК ВЫПОЛНЕНИЯ ЗАПРОСА
Чтобы не запутаться в запросах, самое важно понимать, что все происходит поэтапно, и представлять что вы имеете в результате выполнения каждого из этапов.

Запомните: **FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT**




### JOIN
Эта конструкция встраивается в конструкцию FROM (как раз то усложнение, о котором говорил выше). Ее задача связать в запросе несколько таблиц по какому то условию.
Давайте рассмотрим прицип работы JOIN на примере жножеств.

<img src="img/join_types.png">


При использовнии JOIN в FROM вы формируете "виртуальную" таблицу следующего формата:
- INNER JOIN - будет состоять из строк удовлетворяющих условию и столбцов обоих таблиц.
- LEFT JOIN - будет состоять из всех строк левой таблицы, но там где строка удовлетворяет условию присоединятся значения столбцов правой таблицы, если не удовлетворяет, то пустые значения на месте колонок правой таблицы.
- RIGTH JOIN - наоборот
- FULL OUTER JOIN - сохранит все можнество строк, но в местах выполнения условия будут заполнены данных обоих таблиц, в противном случае только одной из.

Просто JOIN = INNER JOIN, но я предпочитаю писать INNER JOIN, чтобы явно показать что за JOIN использую и глаз быстрей цепляет это в скрипте.

В таблице **titles** мы видим краткую информацию по фильму. Давайте построим запрос, чтобы обогатить эти данные жанром и типом фильма.

``` mysql
# ТИП ФИЛЬМА.
# SELECT  *
# SELECT  t1.*, t2.*
SELECT  t1.title_id, t1.title, t1.is_adult, t1.premiered, t2.film_type
FROM titles t1 -- используем синонимы/alias для таблицы. Помогает сделать код компактней.
    INNER JOIN film_types t2 ON t1.type = t2.id  -- присоединили расшифровку типа фильма.
WHERE t1.premiered >= 2019
LIMIT 50


# ТИП ФИЛЬМА + ЖАНР
SELECT  t1.title_id, t1.title, t1.is_adult, t1.premiered, t2.film_type, t4.genre_name
FROM titles t1 -- используем синонимы/alias для таблицы. Помогает сделать код компактней.
    INNER JOIN film_types t2 ON t1.type = t2.id -- присоединили расшифровку типа фильма
    INNER JOIN film_genres t3 ON t1.title_id = t3.title_id -- сначала необходимо присоединить код жанра
    INNER JOIN genre_types t4 ON t3.genre_id = t4.id -- присоединяем справочник жарнов
WHERE t1.premiered >= 2019 AND t2.film_type in ('movie', 'tvSeries')
```

### WHERE
В этой конструкции вы можете строить различные фильтры, опираясь на "виртуальную" таблицу, которую собрали в FROM.  
К стобцам вы обращаетесь либо "название таблицы"."название колонки", либо "синоним таблицы"."название колонки".
Что можно использовать:
- **AND/OR** между условиями
- **IN**, t1.col_name in (val1, val2, val3, ...) / t1.col_name in (Select col_name2 from t2)
- **LIKE**, t1.col_name like '%Мама%'
- **=,>,<,>=,<=,<>**
- **is null**, t1.col_name is null

## DELETE/UPDATE
В этих конструкциях так же используется конструкция WHERE. Теперь мы знаем как она работает.
``` mysql
UPDATE my_table
SET column_1 = new_value_1,
    column_2 = new_value_2
WHERE
    search_condition 
    
DELETE FROM my_table
WHERE search_condition;
```

# Первичный ключ, индексы
Если вы хотите чтобы в таблице соблюдалась уникальность строк по какому то набору столбцов, то вы можете создать первичный ключ - PRIMARY KEY.
Это запретит вставку в таблицу повторяющихся строк, а так же сделать поиск данных по этим слобцам максимально быстрым.

Это связано с тем что на первичный ключ создается индекс. Но его можно создать на любое поле. Важно только понимать к какому полю в своих запросах вы обращаетесь максимально часто, по какому полю в основном делается фильтрация или join. Индекс может ОЧЕНЬ сильно ускорить операции с данными, если он сделан на правильную колонку.

Само ускорение связано с тем что, БД как бы сортирует эти данные и в теперь они не в рандомном порядке, а как в бибилотеке. Вы знаете что если книга на "В", то надо идти в раздел "В", и вы знаете где он находится.

``` mysql
CREATE TABLE mytable (
    field1 text,
    field2 text,
    field3 integer,
    PRIMARY KEY (field1, field2)
);

CREATE INDEX crew_title ON crew (title_id);
CREATE INDEX crew_person ON crew (person_id);
```

и еще раз повторим запрос, должно стать быстрее

### Примеры запросов

``` mysql
SELECT name, title, premiered, rating
FROM titles 
    JOIN crew ON titles.title_id = crew.title_id
    JOIN people ON crew.person_id = people.person_id
	JOIN rating ON titles.title_id = rating.title_id
WHERE name IN ("Tom Hanks", "Julia Roberts", "Natalie Portman")
```

Теперь сгруппируем по имени и вычислим наши показатели. Комментарии пишутся через ```--```

``` mysql
SELECT 
    name, 
    MAX(rating) as max_rating, -- максимум
    MIN(rating) as min_rating, -- минимум
    AVG(rating) as average_rating, -- среднее
    COUNT(titles.title_id) as n_films -- посчитаем число фильмов
FROM titles 
    JOIN crew ON titles.title_id = crew.title_id
    JOIN people ON crew.person_id = people.person_id
    JOIN rating ON titles.title_id = rating.title_id
WHERE name IN ("Tom Hanks", "Julia Roberts", "Natalie Portman")
GROUP BY name
ORDER BY average_rating DESC
```

Среднее выглядит не очень красиво, очень много знаков после запятой, можно округлить

``` mysql
SELECT 
    name, 
    MAX(rating) as max_rating, -- максимум
    MIN(rating) as min_rating, -- минимум
    ROUND(AVG(rating), 2) as average_rating, -- среднее
    COUNT(titles.title_id) as n_films -- посчитаем число фильмов
FROM titles 
    JOIN crew ON titles.title_id = crew.title_id
    JOIN people ON crew.person_id = people.person_id
    JOIN rating ON titles.title_id = rating.title_id
WHERE name IN ("Tom Hanks", "Julia Roberts", "Natalie Portman")
GROUP BY name
ORDER BY average_rating DESC
```