In [None]:
# порядок команд в запросе
# временная таблица
WITH
-- назначение псевдонимов и формирование подзапросов
псевдоним_1 AS (подзапрос_1),

SELECT 
    DISTINCT поле AS псевдоним,
            
FROM источник AS псевдоним (SELECT FROM)
JOIN  LEFT RIGHT FULL ON
WHERE BETWEEN, LIKE или NOT LIKE, = или in (SELECT FROM)
GROUP BY
HAVING #Псевдонимы нельзя использовать и после HAVING, ведь они ещё не назначены.
ORDER BY DESC
LIMIT
OFFSET; 

UNION и UNION ALL

## ОСНОВНАЯ ЧАСТЬ

Базы данных бывают разных видов в зависимости от способа хранения данных. Если данные в базе представлены в виде связанных таблиц, такую базу данных называют реляционной (англ. relation, «связь»).

В таблице реляционной базы данных не должно быть дубликатов.  
Для этого к каждой записи добавляется уникальный признак — первичный ключ. Такой ключ не позволит создать абсолютно одинаковые записи.

В базе несколько таблиц с информацией об исполнителях, треках, фильмах, счетах и клиентах, но пока вам понадобятся четыре из них:   
 genre — таблица с жанрами кино и музыки;  
 media_type — таблица с используемыми форматами, например MPEG для видео и AAC для аудио;  
 playlist — таблица с плейлистами; 
 invoice — таблица с данными о заказах и выставленных счетах.  

коментрарии в SQL   
-- Так выглядит однострочный комментарий   
/\*В век высоких технологий
Без БД не обойтись,
SQL — язык запросов
Легче делает нам жизнь!\*/ 

Пример запроса SQL:
<pre><code>
SELECT sp.advertising_id,
       sp.install_date,
       sp.session_num,
       sp.payer,
       sp.last_active AS last_date,
       DATE_DIFF(sp.last_active, install_date, DAY) AS max_play,
       CAST(track_id AS varchar) --привести число к строке
FROM players AS sp
LIMIT 3 OFFSET 8
WHERE sp.date = '2021-02-28'
  AND sp.install_date BETWEEN '2021-02-01' AND '2021-02-26';
</code></pre>

| Описание | Тип данных | Псевдоним	| Что входит |
|----------|------------|-----------|------------|
| Числовые типы | integer |	int, int4 |	Целые числа|  
|           | real |	float4 |	Вещественные числа|
|Символьные типы |	character |	char(n) |	Строка фиксированной длины |
|           | character varying	| varchar(n) |	Строка нефиксированной длины |
|           |text |             |	Строка любой длины |
|Типы для работы с датой и временем	| timestamp without timezone |	timestamp |	Дата и время без данных о часовом поясе |
|  | date	|  | Дата в разных форматах |
| | time	|  |	Время 00:00:00 до 24:00:00 |
|   |interval	|   |	Интервал между датами |
| Логические типы	| boolean	| bool |	TRUE и аналоги: 'true', 't', 'yes', 'y', 'on', 1. FALSE и аналоги: 'false', 'f', 'no', 'n', 'off', 0.|

Разобраться в структуре базы поможет ER-диаграмма (от англ. entity-relationship diagram, диаграмма «сущность — связь»). ER-диаграмма графически отображает отношения таблиц в базе данных.

PK - первичный ключ - уникальный признак записи   
FK - внешний ключь - это поле, которое отсылает к первичному ключу другой таблицы

Логические операторы в SQL: AND, OR, NOT.

__Оператор IN__  
<pre><code>
WHERE billing_city NOT IN ('Dublin',
                           'London',
                           'Paris',
                           'Boston',
                           'Berlin',
                           'Stuttgart,
                           3,
                          '23',
                          '36'); 
</pre></code>
Тип данных в условии и в сравниваемом поле может не совпадать. 

__Оператор LIKE__

WHERE quotes  NOT LIKE 'ко%т'  
результат: такие выражения не отберуться 'кот играет' 'консультант'  

Оператор LIKE можно использовать только для строк, а для чисел он не подходит.
<pre><code>
SELECT *
FROM playlist_track
WHERE CAST(track_id AS varchar) LIKE '%43%'; 
</pre></code>

__Оператор BETWEEN__  (диапазон)

<pre><code>
SELECT *
FROM invoice
WHERE customer_id BETWEEN 23 AND 48; 

SELECT last_name
FROM staff
WHERE birth_date BETWEEN '1970-01-01' AND '1970-12-31'; 
</pre></code>

__Указание текущей даты__ 

    CURRENT_DATE вернёт текущую дату,
    CURRENT_TIME выведет текущее время,
    CURRENT_TIMESTAMP вернёт текущие дату и время.

__Функция DATE_TRUNC__  
Функция DATE_TRUNC "усекает" дату и время до необходимого значения: года, месяца или дня.   "01.01.2023"   
Синтаксис функции такой: DATE_TRUNC('отрезок времени', поле).

    Отрезок времени может быть разным, главное, не забыть одинарные кавычки:
    'microseconds' — микросекунды;
    'milliseconds' — миллисекунды;
    'second' — секунда;
    'minute' — минута;
    'hour' — час;
    'day' — день;
    'week' — неделя;
    'month' — месяц;
    'quarter' — квартал;
    'year' — год;
    'decade' — десятилетие;
    'century' — век.


__Функция EXTRACT__  
синтаксис отличается от функции DATE_TRUNC: EXTRACT(отрезок времени FROM поле)  
ункция EXTRACT используется для получения конкретной части даты: год, месяц или минуту 2023 

Отрезок времени может быть представлен следующими значениями:
    
    CENTURY — век;
    DAY — день;
    DOY (от англ. day of the year) — день года, выраженный числом от 1 до 365 или 366, если год високосный;
    DOW (от англ. day of the week) — день недели, выраженный числом от 0 до 6, где понедельник — 1, воскресенье — 0.
    ISODOW (от англ. day of the week и ISO 8601) — день недели, выраженный числом от 1 до 7, где понедельник — 1, воскресенье — 7.
    HOUR — час;
    MILLISECOND — миллисекунда;
    MINUTE — минута;
    MONTH — месяц;
    SECOND — секунда;
    QUARTER — квартал;
    WEEK — неделя в году;
    YEAR — год.

__Функции и типы данных__  
Функции DATE_TRUNC и EXTRACT принимают на вход данные тех типов, которые используют для работы с датой и временем. Но есть особенности. Типы date и time функции автоматически переведут в timestamp with time zone. Будьте осторожны: при автоматическом переводе date в timestamp with time zone время подстроится к часовому поясу пользователя и потому может сместиться.
У этой проблемы есть решение — явно изменить тип данных на timestamp. Напомним, что в SQL так по умолчанию обозначается тип timestamp without time zone. С типом данных без часового пояса время не сместится.  

Другая особенность функций — они возвращают данные разных типов. DATE_TRUNC вернёт данные типов timestamp without timezone, timestamp with timezone или interval (зависит от того, что получит на вход), а EXTRACT — данные типа numeric. 
С типом numeric вы ещё не знакомы. Его используют для вещественных чисел, как и тип real. Отличие в том, что в тип numeric входят числа большего диапазона. Также у типа numeric точность больше, чем у типа real. Это значит, что вещественное число типа numeric может иметь больше цифр после запятой.

![Image.png](Image.png)

Для работы с NULL используются операторы IS NULL и IS NOT NULL.

__Условный аператор__  
<pre><code>
SELECT total,
       CASE
           WHEN total >= 5 AND total < 10 THEN 'средний'
           WHEN total >= 10 THEN 'крупный'
           ELSE 'маленький'
       END
FROM invoice
</code></pre>  

Условия в запросе проверяются по порядку, и если одно из них выполнено, соответствующий результат выводится сразу.

<pre><code>
SELECT *
FROM movie
WHERE release_year > 2010
  AND rental_duration > 4
  OR rental_duration < 5
  AND length > 90; 
</pre></code>

  Условия из запроса можно переписать так: (release_year > 2010 AND rental_duration > 4) OR (rental_duration < 5 AND length > 90). Представьте, что вместо оператора AND стоит знак *, а вместо OR — +. 

## МАТЕМАТИЧЕСКИЕ ОПЕРАЦИИ

__Модуль числа__

SELECT number,
       ABS(number)
FROM table_1; 

Функция FLOOR возвращает число, округлённое до целого в меньшую сторону.

SELECT number,
       FLOOR(number)
FROM table_1; 

| Функция	| Описание	| Пример	| Результат|
|-----------|-----------|------------|---------|
|ABS	|Возвращает модуль числа	|ABS(-14)	|14|
|CEILING	|Возвращает число, округлённое до целого в большую сторону	|CEILING(42.8)	|43|
|FLOOR	|Возвращает число, округлённое до целого в меньшую сторону	|FLOOR(42.8)	|42|
|ROUND	|Округляет значение до ближайшего числа, округляет число до определённого количества знаков после запятой	|ROUND(42.4), ROUND(42.4382, 2)	|42, 42.44|
|POWER	|Возвращает число, возведённое в степень — нужную степень указывают вторым аргументом	|POWER(9, 3)	|729|
|SQRT	|Извлекает квадратный корень из числа	|SQRT(9)	|3|

Основные агрегирующие функции:  
SUM(поле) - сумма значений в поле;  
AVG(поле) - среднее арифметическое значений в поле;  
MIN(поле) - минимальное значение в поле;  
MAX(поле) - максимальное значение в поле;  
COUNT(*) - количество записей в таблице; COUNT(поле) - количество записей в поле.

Ключевые слова DISTINCT и агрегирующие функции могут быть использованы вместе для подсчета уникальных значений, например, 

SELECT COUNT(DISTINCT billing_country)  
FROM invoice;

можно выводить уникальные сочетания 

SELECT DISTINCT customer_id,  
                    billing_country  
FROM invoice  
LIMIT 10;   

## Группировка и сортировка

Для таких задач подойдёт группировка. Чтобы разделить данные на группы по значениям полей, в SQL используют оператор GROUP BY. В запросе GROUP BY всегда располагается после условного оператора WHERE. Если WHERE в запросе нет, оператор GROUP BY нужно указать после FROM.

In [None]:
SELECT 
     CASE
           WHEN total < 1 THEN 'low cost'
           ELSE 'high cost'
     END,
    SUM(total)

FROM invoice
WHERE billing_postal_code IS NOT NULL
GROUP BY 
     CASE
           WHEN total < 1 THEN 'low cost'
           ELSE 'high cost'
     END;

Для сортировки данных в SQL используют оператор ORDER BY. Его пишут в самом конце запроса, после него можно указать только оператор LIMIT. 

Ключевое слово DESC: тогда данные будут отсортированы по убыванию. Если указать ASC, данные будут отсортированы по возрастанию — так же, как и по умолчанию

In [None]:
SELECT EXTRACT(YEAR FROM CAST(invoice_date AS timestamp)),
    MIN(total),
    MAX(total),
    SUM(total),
    COUNT(invoice_id),
    ROUND(SUM(total)/COUNT(DISTINCT customer_id))
FROM invoice
WHERE billing_country IN ('USA','United Kingdom', 'Germany')
    AND CAST(invoice_date AS date) BETWEEN '2011-05-25' AND '2013-09-25'
GROUP BY EXTRACT(YEAR FROM CAST(invoice_date AS timestamp))

ORDER BY EXTRACT(YEAR FROM CAST(invoice_date AS timestamp)) DESC--, customer_id 
LIMIT 5;

__Оператор HAVING__

|Name	|Оператор WHERE	|Оператор HAVING|
|-------|---------------|---------------|
|Когда используют	|Используют, чтобы получить срез данных перед группировкой или отфильтровать записи для агрегирующих функций	|Используют, чтобы получить срез данных после группировки|
|Можно применить без оператора GROUP BY	|Да	|Нет|
|Как сочетается с оператором GROUP BY	|Используют перед оператором GROUP BY	|Используют после оператора GROUP BY|
|Можно сочетать с агрегирующими функциями	|Нет	|Да|

In [None]:
# Премер HAVING
SELECT customer_id,
       SUM(total)
FROM invoice
GROUP BY customer_id
HAVING SUM(total) > 41 AND AVG(total) > 7
ORDER BY SUM(total) DESC; 

## Образ результата и декомпозиция

Связи между таблицами в базах данных бывают трех видов: "один к одному", "один ко многим" и "многие ко многим"

Диаграмма базы данных, или ER-диаграмма (от англ. entity–relationship diagram, диаграмма «сущность — связь»)

__Псевдонимы для полей и таблиц__

В PostgreSQL псевдонимы можно задавать через пробел.

In [None]:
# псевдонимы для полей и таблиц, в посгрей можно не использвать AS
SELECT EXTRACT(YEAR FROM CAST(i.invoice_date AS DATE)) AS year_of_purchase,
       MIN(i.total) AS min_cost,
         MAX(i.total) AS max_cost,
         SUM(i.total) AS total_revenue,
         COUNT(i.total) AS total_purchases,
         ROUND(SUM(i.total)/COUNT(DISTINCT(i.customer_id))) AS average_receipt
FROM invoice AS i
WHERE billing_country IN ('USA', 'United Kingdom', 'Germany')
GROUP BY year_of_purchase
ORDER BY year_of_purchase DESC; 

__!!! К псевдонимам нельзя обратиться в WHERE или HAVING__ (в условиях)

__Объединение таблиц с помощью операторов JOIN.__

Тип INNER JOIN: объединение по общей области между двумя таблицами.  
Тип LEFT OUTER JOIN: включение всех записей из левой таблицы, совпадение с правой таблицей по нужному полю.  
Тип RIGHT OUTER JOIN: приоритет у правой таблицы, совпадение с левой таблицей по нужному полю.  
Тип FULL OUTER JOIN: объединение всех записей из обеих таблиц, NULL вместо отсутствующих данных.  

In [None]:
SELECT c.first_name,
       c.last_name,
       MIN(i.total) AS min_cost,
             MAX(i.total) AS max_cost,
             ROUND(AVG(i.total), 2) AS average_cost,
             COUNT(i.total) AS total_purchases
FROM invoice AS i
INNER JOIN client AS c ON i.customer_id = c.customer_id
WHERE i.billing_country = 'USA'
GROUP BY first_name, last_name
ORDER BY average_cost DESC
LIMIT 10; 

In [None]:
# множественное присоединение в том числе к уже присоединенной 
SELECT t.name,
       SUM(i.quantity),
       pt.playlist_id,
       pl.name
FROM track AS t
INNER JOIN invoice_line AS i ON t.track_id=i.track_id
INNER JOIN playlist_track AS pt ON t.track_id=pt.track_id
INNER JOIN playlist AS pl ON pt.playlist_id=pl.playlist_id
GROUP BY t.name, pt.playlist_id, pl.name
LIMIT 20

__Присоединения: UNION и UNION ALL__

Типы данных в полях должны соответствовать друг другу.  
Оператор UNION устроен так, что абсолютные дубликаты в итоговую таблицу не входят.  
Оператор UNION ALL устроен по-другому, все записи вошли в таблицу.

## Подзапросы

❗ Подзапросу во FROM нужно всегда назначать псевдоним, иначе произойдёт ошибка.

![подзапросы_во_from.png](подзапросы_во_from.png)

подзапросы в WHERE

![подзапросы_в_where.png](подзапросы_в_where.png)

In [None]:
# ПРИМЕР
SELECT billing_country,
MIN(total) min_total, 
max(total) max_total,
AVG(total) avg_total
FROM invoice
WHERE invoice_id IN (SELECT il.invoice_id
            FROM invoice_line AS il
            GROUP BY il.invoice_id
            HAVING COUNT(il.quantity) > 5)
            AND total > (SELECT AVG(unit_price)
            FROM invoice_line)
GROUP BY billing_country
ORDER BY avg_total DESC, billing_country
;

__Сочетание объединения и подзапросы__

![подзапросы.png](подзапросы.png)

In [None]:
# пример
SELECT t_1.month_invoice,
       sum_of_total,
       sum_of_price
FROM
  (SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS month_invoice,
          SUM(total) AS sum_of_total
   FROM invoice
   WHERE EXTRACT(YEAR
                 FROM CAST(invoice_date AS date)) = 2010
   GROUP BY month_invoice) AS t_1
JOIN
  (SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS month_invoice,
          SUM(unit_price*quantity) AS sum_of_price
   FROM invoice AS i
   LEFT JOIN invoice_line AS il ON i.invoice_id = il.invoice_id
   WHERE EXTRACT(YEAR
                 FROM CAST(invoice_date AS date)) = 2010
   GROUP BY month_invoice) AS t_2 ON t_1.month_invoice = t_2.month_invoice; 

## Общие табличные выражения

❗ К общим табличным выражениям нельзя обращаться после оператора WHERE.

In [None]:
WITH
-- назначение псевдонимов и формирование подзапросов
псевдоним_1 AS (подзапрос_1),
псевдоним_2 AS (подзапрос_2),
псевдоним_3 AS (подзапрос_3),
....
псевдоним_n AS (подзапрос_n)

SELECT -- основной запрос
-- внутри основного запроса работают с псевдонимами, которые назначили в WITH
FROM псевдоним_1 INNER JOIN псевдоним_2 ... 
...
... 

## Функции для работы со строками

LENGTH возвращает длину строки,  
INITCAP меняет первую букву каждого слова на заглавную,  
LOWER и UPPER меняют регистр символов.  
LTRIM и RTRIM удаляют символы слева и справа от указанной позиции.  
REPLACE заменяет один символ на другой,  
CONCAT объединяет несколько строк в одну.

|Функция	|Описание	|Пример	|Результат|
|-----------|-----------|-------|---------|
|LENGTH	|Возвращает длину строки	|LENGTH('Привет!')	|7|
|INITCAP	|Меняет первую букву каждого слова в строке на заглавную, а остальные буквы меняет на строчные	|INITCAP('иванов александр')	|Иванов Александр|
|LOWER	|Возвращает строку со всеми символами в нижнем регистре	|LOWER('ПРИвет')	|привет|
|UPPER	|Возвращает строку со всеми символами в верхнем регистре	|UPPER('ПРИвет')	|ПРИВЕТ|
|LTRIM	|Удаляет последние символы слева, которые передают функции	|LTRIM('г. Санкт-Петербург', 'г.')	|Санкт-Петербург|
|RTRIM	|Удаляет последние символы справа, которые передают функции	|RTRIM('Санкт-Петербург г. ', 'г.')	|Санкт-Петербург|
|REPLACE	|Возвращает строку, в которой все совпадения символов заменены на символы, которые передают функции	|REPLACE('Санкт/Петербург', '/', '-')	|Санкт-Петербург|
|CONCAT	|Объединяет несколько значений в одно	|CONCAT('Петров', ' ', 'Александр', ' ', 'Александрович')|	Петров Александр Александрович|
