## БАЗЫ ДАННЫХ

База данных — это организованная структура для хранения, изменения и обработки взаимосвязанной информации.

В современном мире базы данных применяются практически везде — без них не обходится ни одна большая компания!

## ВИДЫ БАЗ ДАННЫХ

Базы данных можно разделить на два вида:

* Реляционные. В таких БД данные хранятся в виде связанных таблиц. Мы сфокусируемся именно на реляционных БД.

* Нереляционные. Такие БД имеют специфическую структуру: например, данные хранятся в формате ключ-значение или в виде дерева.


## ХРАНЕНИЕ ДАННЫХ В БД

Данные в реляционных БД хранятся в виде таблиц. Каждая таблица обычно содержит данные, относящиеся к похожим объектам. У каждой таблицы есть название: оно соотносится с тем, какая информация хранится в таблице.

Например, у интернет-магазина будут таблицы customers с информацией о покупателях, carts — с информацией о корзинах, products — с информацией о товарах и так далее.

Таблицы в БД состоят из строк и столбцов. Каждый столбец имеет своё уникальное название, которое также отмечает вид хранимой в нём информации. В каждой строке хранится информация об одном объекте.

Примечание: Таблица содержит определённое число столбцов, но может иметь любое количество строк.

## СУБД (СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ)

Данные мало хранить — с ними нужно работать: записывать, модифицировать и удалять, т.н (CRUD операции). В этом помогает СУБД.

Система управления базами данных, или СУБД (DataBase Management System, DBMS) — это комплекс программных средств, необходимых для создания структуры новой базы, её наполнения, редактирования содержимого и отображения информации.

Существует множество СУБД, наиболее распространённые из них — MySQL, PostgreSQL, Oracle, Microsoft SQL Server. Для очень большого объёма данных также используют ClickHouse, Hadoop и др.

## ЯЗЫК SQL

Для работы с данными, хранящимися в БД, используется специальный язык — SQL. Для работы с разными СУБД используются разные диалекты SQL.

Язык SQL представляет собой совокупность операторов, инструкций, вычисляемых функций.

## ВИДЫ ОПЕРАТОРОВ SQL

Операторы SQL делятся на:

* операторы определения данных (Data Definition Language, DDL) — с их помощью создаются и изменяются объекты в БД (сама БД, таблицы, функции, процедуры, пользователи и т. д.);

* операторы манипуляции данными (Data Manipulation Language, DML) — с их помощью проводятся манипуляции с данными в таблицах;

* операторы определения доступа к данным (Data Control Language, DCL) — с их помощью, как следует из названия, создаются и изменяются разрешения на определённые операции с объектами в БД;

* операторы управления транзакциями (Transaction Control Language, TCL) — с их помощью осуществляется комплекс определённых действий, причём так, что либо все эти действия выполняются успешно, либо ни одно из них не выполняется вообще.

Для написания запросов к БД необходим специальный инструмент. Это может быть терминал в ОС, специализированная программа (например, одна из распространённых — DataGrip) или веб-сервис. Именно такой веб-сервис мы будем использовать.

Metabase — это бесплатный и удобный инструмент для первичного анализа данных с возможностью передавать запросы.

[ссылка для использования сервиса](http://sql.skillfactory.ru:3000/auth/login?redirect=%2F)

Данные в БД хранятся в таблицах. В этом модуле мы будем работать с таблицей kinopoisk: она содержит данные о 250 лучших фильмах по версии сервиса «Кинопоиск» (рейтинг собран в мае 2020 года).

В БД с помощью запроса
``` sql
select * from sql.kinopoisk
```

Можно получить все данные по таблице:

**position** - номер в базе данных

**movie_title**	- название фильма

**year** - год выпуска

**country** - страна выпуска

**rating** - рейтинг фильма в базе

**overview** - описание фильма

РАЗБИРАЕМ ЗАПРОС

* Оператор SELECT сообщает СУБД, что вы хотите извлечь из неё данные. SELECT лежит в основе любого SQL-запроса к БД.

* FROM sql.kinopoisk сообщает, из какой таблицы извлекаются данные. Сначала указывается название схемы, в которой содержится таблица (в нашем случае — это sql), а после точки — название самой таблицы (kinopoisk).

* Звёздочка * указывает, что вы хотите видеть все столбцы этой таблицы.

``` sql
-- Задание 1.1
-- Столбцы с названием фильма, годом его выпуска и рейтингом
select movie_title, year, rating from sql.kinopoisk
```

Независимо от того, в каком порядке представлены столбцы в таблице, в запросе вы можете указывать их в любой очерёдности.

Порядок столбцов в выводе будет совпадать с их расположением после оператора SELECT.

``` sql
-- Теперь вместо года выхода фильма, вам нужен его «возраст» на 2024 год, c помощью оператора as присваиваем этому столбцу соответствующее название
select movie_title, 
2024 - year as "film_age", 
rating 
from sql.kinopoisk
```

``` sql
-- Выведет из таблицы kinopoisk следующие столбцы:
-- имя режиссёра (director),
-- название фильма (movie_title),
-- разница между максимально возможным рейтингом (10) и рейтингом этого фильма.
select director, 
movie_title, 
10 - rating as "diff_rating"
from sql.kinopoisk
```

Новое имя является просто псевдонимом, или алиасом, — оно временное и не меняет реального имени столбца в базе данных. Алиас влияет только на то, как столбец отображается в выводе конкретного запроса.

Обратите внимание! Если в алиасе используются пробелы, необходимо заключать весь псевдоним в двойные кавычки, например, movie_title AS "Movie Title"

## ПРОСТЫЕ ОПЕРАЦИИ С ДАННЫМИ

Со столбцами, которые содержат числовые данные, можно проводить арифметические операции:

* сложение с помощью + ;

* вычитание с помощью - (этот тип операции вы уже проводили, когда определяли «возраст» фильма);

* умножение с помощью * ;

* деление с помощью / ;

Важно! Если и числитель, и знаменатель — целые числа, результат деления также будет целочисленным, то есть этот оператор произведёт деление нацело!

* получение остатка от деления с помощью %


``` sql
-- Выведет столбцы с именем:
-- режиссёра, 
-- названием фильма, 
-- рейтингом по 100-балльной шкале (столбец rating_100). 
-- Рейтинг по 100-балльной шкале определите как оценку по 10-балльной, умноженную на 10.
select director, 
movie_title,
rating * 10 as "rating_100"
from sql.kinopoisk
```

## WHERE

Eсли мы хотим видеть не все строки, а только некоторые из них, то в таком случае нам пригодится ключевое слово WHERE.

``` sql
-- Например
select * 
from sql.kinopoisk 
where position = 1

```

В запросах выше мы использовали знак равно (=), но никто не запретит нам использовать и условные операторы.

Вы можете применять знаки < (меньше), <= (меньше или равно), > (больше), >= (больше или равно).

```sql
-- Запрос, чтобы вывести все столбцы для фильмов, которые вышли в прокат в 1999 году.

select * 
from sql.kinopoisk
where year = 1999

-- Фильмы, которые вышли в прокат ДО 1984 года.

select position,
movie_title,
year,
director
from sql.kinopoisk
where year < 1984

-- Выведем все столбцы для всех фильмов, кроме тех, что были сняты в 2000 году.

select position,
movie_title,
year,
director
from sql.kinopoisk
where year <> 2000
```

## AND И OR

Допустим, одного условия нам мало.

В таком случае мы можем комбинировать их с помощью AND и OR.

Типичная ситуация: выбираем фильм на вечер. Мы хотим, чтобы фильм был относительно современным и с высоким рейтингом.

```sql
select * 
from sql.kinopoisk
where year >= 2000 and
rating >= 8

-- Теперь, чтобы получить информацию о фильмах, которые вышли между 1975 и 1985 годами включительно. Можно воспользоваться следующим запросом:
select * 
from sql.kinopoisk
where year >= 1975 and
year <= 1985
```

## BETWEEN

``` sql
-- Можем оптимизировать запись выше, сделав ее более элегантной с помощью оператора BETWEEN:
select *
from sql.kinopoisk
where year between 1975 and 1985

-- Запрос, который выведет столбцы с именем режиссёра и названием фильмов, у которых рейтинг больше или равен 8.5. Не забудьте, что в качестве десятичного разделителя используется точка.

select director,
movie_title,
rating
from sql.kinopoisk
where rating >= 8.5
```

Примечание: В PostgreSQL указанные значения включаются в интервал. В других СУБД BETWEEN может работать иначе и не включать указанные значения.

## NOT

В дополнение к другим операторам можно использовать ключевое слово NOT — оно «переворачивает» следующий за ним оператор.

```sql
-- Выведем все фильмы, кроме тех, что вышли с 1965 по 1980 годы.
select
    year,
    movie_title,
    director
from sql.kinopoisk
where (rating > 8.5 and year < 2000)
    or year >= 2000
```

Если включаете в запрос несколько условий AND и OR, используйте скобки: они работают так же, как и с арифметическими операциями.

``` sql
select *
from sql.kinopoisk
where (raiting >= 8.5 and year < 2000) or year >= 2000
```

## IN

Ещё один полезный оператор для фильтрации строк — IN.

Конструкции с IN имеют следующий вид:

``` sql
column IN (value1, value2, value3)
```

Эта запись аналогична следующей: column = value1 OR column = value2 OR column = value3 — но выглядит проще и компактнее.

``` sql
-- Запрос, который выводит названия фильмов, вышедших в прокат в 2000, 1985 и 1939 годах.

select movie_title
from sql.kinopoisk
where year in (2000, 1985, 1939)
```

До этого при работе с WHERE мы использовали только числа, но мы можем проводить манипуляции и c данными типа текст.

Примечание: Текстовые значения обязательно должны заключаться в одинарные кавычки!

Давайте получим информацию о всех фильмах Леонида Гайдая.

``` sql
select *
from sql.kinopoisk
where director = 'Леонид Гайдай'
```

В данном виде поиска важен регистр, т.е. 'ЛЕОНИД ГАЙДАЙ' не найдется, т.к. в БД записано 'Леонид Гайдай'

## LIKE

Предположим, мы не знаем точно, какое текстовое значение ищем.

В таком случае нам поможет оператор LIKE.

Например, чтобы получить все фильмы, название которых начинается на А (кириллическую), мы воспользуемся таким запросом:

``` sql
select *
from sql.kinopoisk
where movie_title like 'А%'
```

Знак процента (%) в примере показывает, что после A встречается ноль и более символов. Вы можете использовать % в любом месте внутри строки.

Например, movie_title LIKE '%а%б%' выведет все фильмы, в названии которых встречается строчная буква а, а где-то после неё — б.

Также в текстовых строках используется знак подчёркивания (_) — он заменяет ровно один любой символ, '%а_%'

``` sql
-- Запрос, чтобы вывести название и год выпуска в прокат тех фильмов, которые были сняты режиссёром по имени Дэвид (то есть значение в поле director начинается с 'Дэвид') и имеют рейтинг больше 8.

select movie_title,
year
from sql.kinopoisk
where director like 'Дэвид%' 
and rating > 8
```

## NULL

В таблице kinopoisk у некоторых строк заполнены не все столбцы.

Для пустых значений есть специальное обозначение — NULL.

Важно! NULL — это специальное значение. Если вы фильтруете столбец, в котором есть пустые значения, по любому условию, кроме IS NULL / IS NOT NULL, такие значения будут исключены из вывода.

``` sql
select *
from sql.kinopoisk
where overview is null

select *
from sql.kinopoisk
where overview is not null
```


## ORDER BY

В каком порядке выводятся строки?

Порядок вывода строк может задаваться в настройках базы данных для каждой таблицы. Более того, этот порядок может быть не задан, и тогда от вывода к выводу он будет разным.

Чтобы задать порядок вывода строк в запросе, применим новое ключевое слово ORDER BY.

Для примера отсортируем фильмы по их названию в алфавитном порядке.

```sql
select * 
from sql.kinopoisk
order by movie_title

-- Напишите запрос, который выведет из таблицы kinopoisk все столбцы и отсортируйте строки по возрастанию рейтинга фильма.

select *
from sql.kinopoisk
order by rating
```

Примечание: Cортировка по возрастанию проводится по умолчанию.

Наш запрос с сортировкой по названию аналогичен такому:

``` sql
select *
from sql.kinopoisk
order by rating asc
```

Здесь ASC — явное указание порядка сортировки по возрастанию (англ. ascending).

Для обратного порядка используется ключевое слово DESC (англ. descending).

``` sql
select *
from sql.kinopoisk
order by rating desc
```

Разумеется, мы можем комбинировать в нашем запросе фильтрацию строк и сортировку вывода, а также выводить только необходимые столбцы.

-- Выведем названия, имена режиссёров и сценаристов, а также год выхода в прокат фильмов, выпущенных в СССР, и отсортируем результат по убыванию рейтинга.

``` sql
select movie_title,
director,
screenwriter,
year
from sql.kinopoisk
where country = 'СССР'
order by rating desc
```

Примечание: Обратите внимание! Ключевое слово ORDER BY идёт после применения всех условий в WHERE.

``` sql
-- Напишите запрос, который выведет столбцы с названием фильма, его описанием и годом выхода в прокат. 
-- Оставьте только те фильмы, у которых рейтинг не ниже 8.2 и страна производства — не США. 
-- Отсортируйте вывод по году выхода фильма в порядке убывания.

select 
movie_title,
overview,
year
from sql.kinopoisk
where rating > 8.2 and country != 'США'
order by year desc
```

Также в ORDER BY можно указывать, где должны идти пустые значения — в начале или в конце.

Такая настройка порядка вывода задаётся с помощью ключевых слов NULLS FIRST / NULLS LAST.

А теперь измените последнюю строку скрипта на ORDER BY overview NULLS FIRST.

Такой запрос выведет первыми строки с пустым описанием.

``` sql
select 
movie_title,
overview,
year
from sql.kinopoisk
order by overview nulls first
```

Можно сортировать вывод по нескольким столбцам, просто указав их через запятую в ORDER BY (порядок сортировки указывается отдельно для каждого столбца).

Кроме того, можно сортировать результат запроса и по тем столбцам, которых нет в выводе.

``` sql
select 
director,
movie_title
from sql.kinopoisk
order by overview, year, movie_title
```

Таким образом получили список всех режиссёров и фильмов из ТОП-250, отсортированных по году выхода в прокат, а внутри года — по рейтингу в порядке убывания.

``` sql
-- Запрос, чтобы вывести названия всех фильмов (столбец Название фильма), у которых рейтинг выше 8.3 и страна производства — Франция. 
-- Отсортируйте по рейтингу в порядке убывания, далее — по году выхода в прокат (также в порядке убывания).

select 
movie_title
from sql.kinopoisk
where rating > 8.3 and country = 'Франция'
order by rating desc, year desc
```

Для упрощения работы с ORDER BY можно использовать не названия столбцов, а их номера из вывода.

``` sql
select
director,
movie_title,
year
from sql.kinopoisk
order by 1, 3 desc
```

Однако, сортировку по номеру столбца стоит использовать с осторожностью, поскольку при изменении вывода в SELECT всё может сбиться.

При добавлении новых столбцов в SELECT нужно проверить и при необходимости поправить номера столбцов в ORDER BY.

## LIMIT

По умолчанию при любом запросе вы получаете в выводе все строки, попадающие под условия запроса.

Чаще всего именно этого вы и ожидаете, но иногда, например, вам нужно просто взглянуть на содержание таблицы, при этом чем она больше, тем дольше будет работать запрос.

Чтобы ограничить вывод первыми десятью строками и сможем легко понять, какие данные хранятся в таблице, не утяжеляя результат.

``` sql
select *
from sql.kinopoisk
limit 5
```

Eщё один типичный случай использования ограничения вывода — вывод ТОПа по какому-то показателю.

Выведем ТОП-5 фильмов по рейтингу, сначала отсортировав их по убыванию, а потом оставив только верхние пять строк с помощью LIMIT.

``` sql
select
movie_title,
rating
from sql.kinopoisk
order by rating desc
limit 5
```
Примечание: Ключевое слово LIMIT используется в самом конце запроса.


## OFFSET

Если LIMIT «оставляет» указанное число первых строк из вывода, то OFFSET, наоборот, «обрезает» указанное число первых строк.

LIMIT и OFFSET можно использовать вместе, их порядок не важен.

Выведем название и рейтинг фильмов с четвёртого по восьмое место.

``` sql
select
movie_title,
rating
from sql.kinopoisk
order by rating desc
offset 3 limit 5

-- Запрос, чтобы вывести названия фильмов, которые вышли в прокат после 1990 года и были сняты не в России. 
-- Из этого списка оставьте только те фильмы, которые занимают с 20 по 47 места в рейтинге. 
-- Отсортируйте результат по убыванию рейтинга фильмов.

select
movie_title
from sql.kinopoisk
where year > 1990 and country != 'Россия'
order by rating desc
offset 19 limit 28 -- (47 - 19 = 28)
```

Напоследок структура простого запроса:

``` sql
SELECT
    столбец1 AS новое_название,
    столбец2,    столбец3
FROM таблица
WHERE (условие1 OR условие2)    AND условие3
ORDER BY сортировка1, сортировка2
OFFSET 1 LIMIT 2
```

``` sql
-- Запрос, который выводит столбцы «Название фильма» (movie_title), «Режиссёр» (director), «Сценарист» (screenwriter), «Актёры» (actors). 
-- Оставьте только те фильмы, у которых:

-- рейтинг между 8 и 8.5 (включительно) ИЛИ год выхода в прокат до 1990;
-- есть описание;
-- название начинается не с буквы 'Т';
-- название состоит ровно из 12 символов.
-- Оставьте только топ-7 фильмов, отсортированных по рейтингу.

select 
movie_title,
director,
screenwriter,
actors
from sql.kinopoisk
where 
(rating between 8 and 8.5 or year < 1990) 
and overview is not null 
and movie_title not like 'T%' 
and length(movie_title) = 12
order by rating desc
limit 7
```