# SQL base functions

###  Содержание <a class="anchor" id=0></a>
- [1. Получаем все данные из таблицы](#1)
- [2. Фильтруем строки](#2)
- [2.1 WHERE](#2-1)
- [2.2 AND OR](#2-2)
- [2.3 BETWEEN](#2-3)
- [2.4 NOT](#2-4)
- [2.5 IN](#2-5)
- [2.6 LIKE](#2-6)
- [2.7 NULL](#2-7)
- [3. Сортировка. ORDER BY](#3)
- [4. Ограничения вывода](#4)
- [5. Итоги](#4)


## Получаем все данные из таблицы <a class="anchor" id=1></a>

[к содержанию](#0)

Данные для модуля [kinopoisk](http://sql.skillfactory.ru:3000/question#eyJkYXRhc2V0X3F1ZXJ5Ijp7ImRhdGFiYXNlIjoyLCJxdWVyeSI6eyJzb3VyY2UtdGFibGUiOjcwfSwidHlwZSI6InF1ZXJ5In0sImRpc3BsYXkiOiJ0YWJsZSIsInZpc3VhbGl6YXRpb25fc2V0dGluZ3MiOnt9fQ==)

В metabase код прямого запросаЖ

>`select *`
>
>`from sql.kinopoisk`

Название поля	Содержимое
* `position` - номер в базе данных
* `movie_title` - название фильма
* `year`	- год выпуска
* `country`	- страна выпуска
* `rating`	- рейтинг фильма в базе
* `overview`	- описание фильма

<img src=sql_1_img1.png>

>Обратите внимание! `Metabase` выводит только первые **2 000 строк**: в нашем случае таблица полностью уместилась в выводе.

При этом отображена только часть вывода, поскольку не все строки и столбцы влезли на экран. Вы можете увидеть всё содержимое таблицы, прокрутив страницу по вертикали и горизонтали.

Что ещё мы видим? Числа отображаются в американском формате (с десятичным разделителем — точкой и разделителем разрядов — запятой).

Теперь давайте разберём запрос, благодаря которому мы получили такой результат.

### РАЗБИРАЕМ ЗАПРОС

→ Оператор `SELECT` сообщает СУБД, что вы хотите извлечь из неё данные. `SELECT` лежит в основе любого `SQL`-запроса к БД.

→ `FROM sql.kinopoisk` сообщает, из какой таблицы извлекаются данные. Сначала указывается название схемы, в которой содержится таблица (в нашем случае — это `sql`), а после точки — название самой таблицы (`kinopoisk`).

→ Звёздочка `*` указывает, что вы хотите видеть все столбцы этой таблицы.

>Допустим, вы хотите написать запрос, аналогичный запросу из задания, только вместо года выхода фильма, вам нужен его «возраст» на 2020 год.
>
>В таком случае наш запрос будет выглядеть так:


In [None]:
SELECT /*выбор столбцов*/
    movie_title, /*столбец movie_title*/
    2020 - year, /*столбец, каждое из значений которого ровно разнице 2020 и соответствующего значения столбца year*/
    rating /*столбец rating*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/

SyntaxError: invalid syntax (933355594.py, line 1)

Напишите запрос, который выведет из таблицы kinopoisk следующие столбцы:

* имя режиссёра (director),
* название фильма (movie_title),
* разница между максимально возможным рейтингом (10) и рейтингом этого фильма.

In [None]:
SELECT 
    director,
    movie_title,
    10 - rating
FROM sql.kinopoisk

Столбец с вычислениями в выводе называется `?column?`, потому что `Metabase` не смог подобрать для него название.

Давайте наведём порядок и переименуем столбец!

In [None]:
SELECT /*выбрать столбцы*/
    director, /*столбец director*/
    movie_title, /*столбец movie_title*/
    10 - rating AS difference /*столбец, значения в котором равны разнице 10 и каждого соответствующего значения столбца rating; присвоить столбцу алиас difference*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/

Новое имя является просто псевдонимом, или **алиасом** (**Алиас** — имя, назначенное источнику данных в запросе при использовании выражения в качестве источника данных или для упрощения ввода и прочтения инструкции `SQL`.), — оно временное и не меняет реального имени столбца в базе данных. Алиас влияет только на то, как столбец отображается в выводе конкретного запроса.

Алиасом может быть как одно слово, так и несколько, а его написание — как латиницей, так и кириллицей.

Обратите внимание! Если в алиасе используется кириллица или пробелы, необходимо заключать его в двойные кавычки: `10 - rating AS "разница"` или `movie_title AS "Movie Title"`.

>Будьте внимательны! При выполнении заданий в рамках курса используйте алиасы аккуратно. Если в задаче не указано, какое имя нужно присвоить столбцу, значит, его нужно выводить под тем же названием, что дано ему в таблице.

### ПРОСТЫЕ ОПЕРАЦИИ С ДАННЫМИ

Со столбцами, которые содержат числовые данные, можно проводить арифметические операции:

* сложение с помощью `+` ;
* вычитание с помощью `-` (этот тип операции вы уже проводили, когда определяли «возраст» фильма);
* умножение с помощью `*` ;
* деление с помощью / `;`
>Важно! Если и числитель, и знаменатель — целые числа, результат деления также будет целочисленным, то есть этот оператор произведёт деление нацело.
* получение остатка от деления с помощью `%` .

### ДОПОЛНИТЕЛЬНО

С полным перечнем доступных арифметических операций вы можете ознакомиться в официальной [документации](https://postgrespro.ru/docs/postgresql/11/functions-math).

Давайте выведем для каждого фильма результат деления года его выпуска на рейтинг (что бы это ни значило :))

In [None]:
SELECT /*выбрать столбцы*/
    movie_title, /*столбец movie_title*/
    year / rating /*столбец, значения которого равны результату деления значений столбца year на соответствующие значения столбца rating*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/

## Фильтруем строки <a class="anchor" id=2></a>

[к содержанию](#0)

### WHERE <a class="anchor" id=2-1></a>


Мы уже знаем, что делать, если нам нужны лишь несколько столбцов из таблицы.

?Но как быть, если мы хотим видеть не все строки, а только некоторые из них?

В таком случае нам пригодится ключевое слово `WHERE`.

Получим для примера всю информации о фильме, занимающем первую позицию.

In [None]:
SELECT * /*выбор всех столбцов*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE position = 1 /*с позицией 1*/

Напишите запрос, чтобы вывести все столбцы для фильмов, которые вышли в прокат в 1999 году.

In [None]:
SELECT *
FROM sql.kinopoisk
WHERE year = 1999

В запросах выше мы использовали знак равно (`=`), но никто не запретит нам использовать и условные операторы.

Вы можете применять знаки `<` (меньше), `<=` (меньше или равно), `>` (больше), `>=` (больше или равно).

Посмотрим на фильмы, которые вышли в прокат до 1984 года.

In [None]:
SELECT /*выбор всех полей*/
    position, /*столбец position*/
    movie_title, /*столбец movie_title*/
    year, /*столбец year*/
    director /*столбец director*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE year < 1984 /*при условии, что год создания меньше 1984*/

При этом вы можете комбинировать вывод конкретных столбцов и условия.

Ещё один условный оператор, который нам доступен, — знак неравенства `!=` или `<>`.

Выведем все столбцы для всех фильмов, кроме тех, что были сняты в 2000 году.

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE year <> 2000 /*если год создания не 2000*/

### AND И OR <a class="anchor" id=2-2></a>

[к содержанию](#0)

Допустим, одного условия нам мало.

В таком случае мы можем комбинировать их с помощью `AND` и `OR`.

Типичная ситуация: выбираем фильм на вечер. Мы хотим, чтобы фильм был относительно современным и с высоким рейтингом.



In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE year >= 2000 /*при условии, что год создания больше или равен 2000*/
AND rating >= 8 /*и с рейтингом от 8 и выше*/

Теперь вы хотите получить информацию о фильмах, которые вышли между 1975 и 1985 годами включительно. Можно воспользоваться следующим запросом:

In [None]:
SELECT *
FROM sql.kinopoisk
WHERE year > 1975
AND year < 1985

### BETWEEN <a class="anchor" id=2-3></a>

[к содержанию](#0)

Мы только что отправили запрос для вывода данных по фильмам с 1975 и 1985 годы. Цели мы достигли, но сама запись оставляет желать лучшего.

Можем оптимизировать её, сделав более элегантной с помощью `BETWEEN`:

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблиц sql.kinopoisk*/
WHERE year BETWEEN 1975 AND 1985 /*при условии, что год создания лежит в промежутке между 1975 и 1985*/

>Обратите внимание! В `PostgreSQL` указанные значения включаются в интервал. В других СУБД `BETWEEN` может работать иначе и не включать указанные значения.

### NOT <a class="anchor" id=2-4></a>

[к содержанию](#0)

В дополнение к другим операторам можно использовать ключевое слово `NOT` — оно «переворачивает» следующий за ним оператор.

Выведем все фильмы, кроме тех, что вышли с 1965 по 1980 годы.

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE year NOT BETWEEN 1965 AND 1980 /*при условии, что год создания не лежит в промежутке между 1965 и 1980*/

>Если включаете в запрос несколько условий `AND` и `OR`, используйте скобки: они работают так же, как и с арифметическими операциями.
>
>**Важно! Условия в скобках имеют больший приоритет.**

### IN <a class="anchor" id=2-5></a>

[к содержанию](#0)

Ещё один полезный оператор для фильтрации строк — `IN`.

Конструкции с `IN` имеют следующий вид:

>`column IN (value1, value2, value3)`

Эта запись аналогична следующей: `column = value1 OR column = value2 OR column = value3` — но выглядит проще и компактнее.

Напишите запрос, который выводит названия фильмов, вышедших в прокат в 2000, 1985 и 1939 годах.

In [None]:
SELECT movie_title
FROM sql.kinopoisk
WHERE year IN (2000, 1985, 1939)

Давайте получим информацию о всех фильмах `Леонида Гайдая`.

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE director = 'Леонид Гайдай' /*где режиссёр Леонид Гайдай*/

Попробуйте изменить условие на `director = 'ЛЕОНИД ГАЙДАЙ'`.

Как видите, ничего не отобразилось, потому что в текстовых полях важен регистр.

### LIKE <a class="anchor" id=2-6></a>

[к содержанию](#0)

Предположим, мы не знаем точно, какое текстовое значение ищем.

В таком случае нам поможет оператор `LIKE`.

Например, чтобы получить все фильмы, название которых начинается на `А` (кириллическую), мы воспользуемся таким запросом:

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE movie_title LIKE 'А%' /*если название фильма начинается на А*/

Знак процента (`%`) в примере показывает, что после `A` встречается ноль и более символов. Вы можете использовать `%` в любом месте внутри строки.

Например, `movie_title LIKE '%а%б%'` выведет все фильмы, в названии которых встречается строчная буква `а`, а где-то после неё — `б`.

Также в текстовых строках используется знак подчёркивания (`_`) — он заменяет ровно один любой символ.

Напишите запрос, чтобы вывести название и год выпуска в прокат тех фильмов, которые были сняты режиссёром по имени Дэвид (то есть значение в поле director начинается с 'Дэвид') и имеют рейтинг больше 8.

In [None]:
SELECT
    movie_title,
    year
FROM sql.kinopoisk
WHERE director LIKE 'Дэвид%' AND rating > 8

### NULL <a class="anchor" id=2-7></a>

[к содержанию](#0)

Вернёмся к просмотру всей таблицы с ТОП-250.

Вы можете заметить, что у некоторых строк заполнены не все столбцы.

<img src=sql_1_img2.png>

Для пустых значений есть специальное обозначение — `NULL`.

При этом вы не можете просто приравнять значение к `NULL`. Проверим это на следующем запросе:

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE overview = NULL /*если у фильма отсутствует описание*/

Как вы заметили, вывод пустой, хотя мы точно видели фильмы с отсутствующим описанием.

А теперь попробуйте изменить условие на `overview IS NULL`.

Если вы всё сделали верно, то получили все фильмы, у которых в таблице отсутствует описание.

Вы можете добавить к условию уже изученное ключевое слово `NOT`, чтобы получилось `overview IS NOT NULL`, тогда в выводе вы увидите только фильмы с заполненным описанием.

>**Важно!** `NULL` — это специальное значение. Если вы фильтруете столбец, в котором есть пустые значения, по любому условию, кроме `IS NULL / IS NOT NULL`, такие значения будут исключены из вывода.

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE overview IS NULL /*если у фильма отсутствует описание*/

## Сортировка <a class="anchor" id=3></a>

[к содержанию](#0)

### ORDER BY <a class="anchor" id=3-1></a>

Когда мы говорили о последовательности столбцов в выводе, вы, вероятно, задались вопросом: «А в каком порядке выводятся строки?»

Порядок вывода строк может задаваться в настройках базы данных для каждой таблицы. Более того, этот порядок может быть не задан, и тогда от вывода к выводу он будет разным.

Чтобы задать порядок вывода строк в запросе, применим новое ключевое слово `ORDER BY`.

Для примера отсортируем фильмы по их названию в алфавитном порядке.

In [None]:
SELECT *
FROM sql.kinopoisk
ORDER BY movie_title

Как видите, сортировка по возрастанию проводится **по умолчанию**.

Наш запрос с сортировкой по названию аналогичен такому:

In [None]:
SELECT *
FROM sql.kinopoisk
ORDER BY rating ASC

Здесь `ASC` — явное указание порядка сортировки по возрастанию (англ. `ascending`).

Для обратного порядка используется ключевое слово `DESC` (англ. `descending`).

Разумеется, мы можем комбинировать в нашем запросе фильтрацию строк и сортировку вывода, а также выводить только необходимые столбцы.

Выведем названия, имена режиссёров и сценаристов, а также год выхода в прокат фильмов, выпущенных в СССР, и отсортируем результат по убыванию рейтинга.

In [None]:
SELECT /*выбор*/
    movie_title, /*столбец movie_title*/
    director, /*столбец director*/
    screenwriter, /*столбец screenwriter*/
    year /*столбец year*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
WHERE country = 'СССР' /*при условии, что страна производства — СССР*/
ORDER BY rating DESC /*сортировка по рейтингу в порядке убывания*/

>**Обратите внимание!** Ключевое слово `ORDER BY` идёт после применения всех условий в `WHERE`.

Напишите запрос, который выведет столбцы с названием фильма, его описанием и годом выхода в прокат. Оставьте только те фильмы, у которых рейтинг не ниже 8.2 и страна производства — не США.

Отсортируйте вывод по году выхода фильма в порядке убывания.

In [None]:
SELECT
    movie_title,
    overview,
    year
FROM sql.kinopoisk
WHERE rating >= 8.2 AND country != 'США'
ORDER BY year DESC

Также в `ORDER BY` можно указывать, где должны идти пустые значения — в начале или в конце.

Такая настройка порядка вывода задаётся с помощью ключевых слов `NULLS FIRST / NULLS LAST`.

In [None]:
SELECT  /*выбор*/
    movie_title,  /*столбец movie_table*/
    rating,  /*столбец rating*/
    overview,  /*столбец overview*/
    year /*столбец year*/
FROM sql.kinopoisk  /*из таблицы sql.kinopoisk*/
ORDER BY overview NULLS FIRST /*сортировка по столбцу overview, сначала без описания, потом по алфаивтному*/

Вы можете сортировать вывод по нескольким столбцам, просто указав их через запятую в `ORDER BY` (порядок сортировки указывается отдельно для каждого столбца).

Кроме того, вы можете сортировать результат запроса и по тем столбцам, которых нет в выводе.

Получили список всех режиссёров и фильмов из ТОП-250, отсортированных по году выхода в прокат, а внутри года — по рейтингу в порядке убывания.

In [None]:
SELECT /*выбор*/
    director, /*столбец director*/
    movie_title /*столбец movie_title*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
ORDER BY year, rating DESC /*сортировка по столбцам year и rating в порядке убывания*/

Напишите запрос, чтобы вывести названия всех фильмов (столбец Название фильма), у которых рейтинг выше 8.3 и страна производства — Франция.

Отсортируйте по рейтингу в порядке убывания, далее — по году выхода в прокат (также в порядке убывания).

In [None]:
SELECT
    movie_title AS "Название фильма"
FROM sql.kinopoisk
WHERE rating > 8.3
    AND country = 'Франция'
ORDER BY rating DESC, year DESC

Для упрощения работы с `ORDER BY` можно использовать не названия столбцов, а их номера из вывода.

In [None]:
SELECT /*выбор*/
    director, /*столбец director*/
    movie_title, /*столбец movie_title*/
    year /*столбец year*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
ORDER BY 1, 3 DESC /*сортировка по первому и третьему столбцам*/

>Сортировку по номеру столбца стоит использовать с осторожностью, поскольку при изменении вывода в `SELECT` всё может сбиться.

При добавлении новых столбцов в `SELECT` нужно проверить и при необходимости поправить номера столбцов в `ORDER BY`.

## Ограничение вывода <a class="anchor" id=4></a>

[к содержанию](#0)

### LIMIT <a class="anchor" id=4-1></a>

По умолчанию при любом запросе вы получаете в выводе все строки, попадающие под условия запроса.

Чаще всего именно этого вы и ожидаете, но иногда, например, вам нужно просто взглянуть на содержание таблицы, при этом чем она она больше, тем дольше будет работать запрос.

Ограничим вывод **первыми десятью строками** и сможем легко понять, какие данные хранятся в таблице, не утяжеляя результат.

In [None]:
SELECT * /*выбор всех полей*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
LIMIT 10 /*ограничить вывод десятью значениями*/

Ещё один типичный случай использования ограничения вывода — вывод ТОПа по какому-то показателю.

Выведем ТОП-5 фильмов по рейтингу, сначала отсортировав их по убыванию, а потом оставив только верхние пять строк с помощью `LIMIT`.

In [None]:
SELECT /*выбор*/
    movie_title, /*столбец movie_title*/
    rating /*столбец rating*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
ORDER BY rating DESC /*сортировка по столбцу rating в порядке убывания*/
LIMIT 5 /*ограничить пятью значениями*/

>**Обратите внимание!** Ключевое слово LIMIT используется в самом конце запроса.

Напишите запрос, который выводит ТОП-20 самых старых (определяем по году выхода в прокат) фильмов из таблицы kinopoisk.

Выведите столбцы `Режиссёр`, `Название фильма`, `Актёры`.

In [None]:
SELECT
    director as "Режиссёр",
    movie_title as "Название фильма",
    actors as "Актёры"
FROM sql.kinopoisk
ORDER BY year
LIMIT 20

### OFFSET <a class="anchor" id=4-2></a>

[к содержанию](#0)

Если `LIMIT` **«оставляет»** указанное число первых строк из вывода, то `OFFSET`, наоборот, **«обрезает»** указанное число первых строк.

`LIMIT` и `OFFSET` можно использовать вместе, их порядок не важен.

Выведем название и рейтинг фильмов с четвёртого по восьмое место.

In [None]:
SELECT /*выбор*/
    movie_title, /*столбец movie_title*/
    rating /*столбец rating*/
FROM sql.kinopoisk /*из таблицы sql.kinopoisk*/
ORDER BY rating DESC /*сортировка по столбцу rating в порядке убывания*/
OFFSET 3 LIMIT 5 /*исключить первые три строки и вывести пять следующих за ними*/

Напишите запрос, чтобы вывести названия фильмов, которые вышли в прокат после 1990 года и были сняты не в России. Из этого списка оставьте только те фильмы, которые занимают с 20 по 47 места в рейтинге.

Отсортируйте результат по убыванию рейтинга фильмов.

In [None]:
SELECT
    movie_title
FROM sql.kinopoisk
WHERE year > 1990 AND country != 'Россия'
ORDER BY rating DESC
OFFSET 19 LIMIT 28

## Итоги <a class="anchor" id=5></a>

[к содержанию](#0)

Структура простого запроса

In [None]:
SELECT
    столбец1 AS новое_название,
    столбец2,
    столбец3
FROM таблица
WHERE (условие1 OR условие2)
    AND условие3
ORDER BY сортировка1, сортировка2
OFFSET 1 LIMIT 2

Напишите запрос, который выводит столбцы «Название фильма» (`movie_title`), «Режиссёр» (`director`), «Сценарист» (`screenwriter`), «Актёры» (`actors`). Оставьте только те фильмы, у которых:

* рейтинг между 8 и 8.5 (включительно) ИЛИ год выхода в прокат до 1990;
* есть описание;
* название начинается не с буквы '`Т`';
* название состоит ровно из 12 символов.
* Оставьте только ТОП-7 по рейтингу.

In [None]:
SELECT
    movie_title as "Название фильма",
    director as Режиссёр,
    screenwriter as Сценарист,
    actors as Актёры
FROM sql.kinopoisk
where
    (rating between 8 and 8.5 or year < 1990)
    and overview is not null
    and movie_title NOT LIKE 'Т%'
    and length(movie_title) = 12
order by rating DESC
limit 7