# SQL Roadmap

### Приоритеты операций:

1. круглые скобки
2. умножение  (*),  деление (/)
3. сложение  (+), вычитание (-)
4. операторы сравнения (=, >, <, >=, <=, <>)
5. NOT
6. AND
7. OR

### Запросы выполняются в таком порядке:
1. **FROM**
На этом же этапе объединяются таблицы операторами JOIN и назначаются для них псевдонимы. Важно учесть, что присоединение предшествует фильтрации и группировке. Это означает, что большие таблицы будут объединяться очень долго. В этом случае выручат временные таблицы.
2. **WHERE**. Остаются только те данные, которые соответствуют условиям.
3. **GROUP BY**
4. **HAVING**  
5. **SELECT**, а полям в итоговой таблице присваиваются псевдонимы. По этой причине псевдонимы нельзя использовать после WHERE и HAVING — они ещё не назначены. В некоторых СУБД псевдонимы нельзя использовать и после GROUP BY. В PostgreSQL есть расширение, которое устраняет эту проблему.
6. После SELECT срабатывает ключевое слово **DISTINCT**, которое отбирает уникальные значения.
7. Оператор **ORDER BY** действует предпоследним.
8. Замыкающим будет оператор **LIMIT**

### Виды JOIN
1. **LEFT OUTER JOIN** — тип объединения, который предполагает, что в результат слияния войдут все записи из левой таблицы. Записи из правой таблицы сохранятся только в том случае, если значения в нужном поле совпадают со значениями в левой таблице.
2. **INNER JOIN** предполагает объединение по «внутренней» области, общей для двух таблиц. Покажем на примере таблиц с фамилией покупателей и числом покупок. Объединить две таблицы можно с помощью общего поля ID_покупателя. Если использовать оператор INNER JOIN, таблица сложится из совпадающих значений в поле ID_покупателя в обеих таблицах.
3. **FULL OUTER JOIN** объединяет все данные из левой и правой таблиц. Если не нашлось совпадения, на месте значения будет NULL.

### Типы данных

1. **Числовые типы**:  
- integer(целые числа)
- real (вещественные числа)
2. **Символьные типы**:
- character или char(n) где n это лимит по количеству символов (Если не указывать n, его значение по умолчанию будет 1)
- character varying или  varchar(n) (Значение n управляет лимитом строки, но его можно не указывать)
3. **Дата и время**:
- timestamp
В PostgreSQL типов **timestamp** два: timestamp with time zone, который включает данные о часовом поясе, и timestamp without time zone, который данных о часовом поясе не содержит. Часовые пояса указывают по стандарту UTC: '2004-10-19 10:23:54+02'
В тип date входит только дата. Дату можно задавать в любом формате, например October 19, 2004, 2004-Oct-19 или даже 20041019.
Тип **time** хранит только время и принимает значения от 00:00:00 до 24:00:00.
Тип **interval** используют для обозначения интервала между датами. Задать нужный интервал можно с помощью условных обозначений или в свободной форме. Например, запись '1 12:59:10' обозначает 1 день 12 часов 59 минут 10 секунд.
4. **Логические типы**:
- Для **TRUE** список аналогий такой: 'true', 't', 'yes', 'y', 'on', '1'
- Вместо **FALSE** можно написать: 'false', 'f', 'no', 'n', 'off', '0'

**Управление типом данных**

In [1]:
SQL = '''SELECT CAST(поле AS тип данных)
FROM table'''

In [2]:
SQL = 'SELECT CAST(birth_date as date) FROM staff'
SQL = 'SELECT CAST(total AS integer) FROM invoice' 
SQL =  '''SELECT 
           CAST(milliseconds AS varchar),
           CAST(bytes AS varchar)
FROM track; '''

### Агрегирующие функции

**Основные агрегирующие функции в SQL**

- **SUM**(поле) возвращает сумму значений в поле;  
- **AVG**(поле) находит среднее арифметическое для значений в поле;  
- **MIN**(поле) возвращает минимальное значение в поле;  
- **МАХ**(поле) возвращает максимальное значение в поле;  
- **COUNT**(*) выводит количество записей в таблице, а COUNT(поле) — количество записей в поле. 

In [3]:
SQL = '''
SELECT MIN(total),
       MAX(total),
       ROUND(AVG(total)),
       COUNT(DISTINCT(customer_id)),
       SUM(total)
FROM invoice
WHERE EXTRACT(MONTH FROM CAST(invoice_date AS timestamp)) = 9
  AND customer_id in (11, 13, 44, 36, 48, 52, 54, 56)'''

**ABS**	Возвращает модуль числа  
**Пример:** ABS(-14) => 14  

**CEILING** Возвращает число, округлённое до целого в большую сторону  
**Пример:** CEILING(42.8) => 43

**FLOOR** Возвращает число, округлённое до целого в меньшую сторону  
**Пример:** FLOOR(42.8) => 42

**ROUND** Округляет значение до ближайшего числа, округляет число до определённого количества знаков после запятой  
**Пример:** ROUND(42.4) ROUND(42.4382, 2) => 42 42.44

**TRUNC** Усекает значение до ближайшего числа, усекает число до указанного количества знаков после запятой, но число при этом не округляет  
**Пример:** TRUNC(42.4) TRUNC(42.4382, 2) => 42 42.43

**POWER** Возвращает число, возведённое в степень, — нужную степень указывают вторым аргументом  
**Пример:** POWER(9, 3) => 729  

**SQRT** Извлекает квадратный корень из числа  
**Пример:** SQRT(9) => 3  

**DISTINCT** - возвращает уникальные значения  
Если перечислить несколько полей после DISTINCT, запрос выведет все уникальные комбинации значений в этих полях.  
C помощью DISTINCT можно вывести именно комбинации уникальных значений: идентификаторов и стран.  
Ключевое слово DISTINCT можно сочетать с агрегирующими функциями. Например, уникальные значения можно посчитать.  
Здесь пригодится функция COUNT.  
DISTINCT с агрегирующими функциями сочетать нельзя

### Работа с датой и временем

В PostgreSQL есть несколько подходящих операторов для такой задачи:
- **CURRENT_DATE** вернёт текущую дату.
- **CURRENT_TIME** выведет текущее время.
- **CURRENT_TIMESTAMP** вернёт текущие дату и время.

Функция **DATE_TRUNC** «усекает» дату и время до необходимого значения: года, месяца или дня.  
Синтаксис функции такой: DATE_TRUNC('отрезок времени', поле).

Отрезок времени может быть разным, главное, не забыть одинарные кавычки:  
**'microseconds'** — микросекунды;  
**'milliseconds'** — миллисекунды;  
**'second'** — секунда;  
**'minute'** — минута;  
**'hour'** — час;  
**'day'** — день;  
**'week'** — неделя;  
**'month'** — месяц;  
**'quarter'** — квартал;  
**'year'** — год;  
**'decade'** — десятилетие;  
**'century'** — век.  
DATE_TRUNC вернёт данные типов timestamp или interval

In [4]:
SQL = '''
SELECT DATE_TRUNC('year', birth_date)
FROM staff
'''
SQL = '''
SELECT DATE_TRUNC('month', birth_date)
FROM staff
LIMIT 5;
'''

Обратите внимание, что дата отображена в том же формате, но теперь она «округлилась» до первого числа года.  
Если поменять значение на 'month', появится первое число месяц.

**EXTRACT** когда нужно получить конкретную часть даты: год, месяц или минуту.  
Cинтаксис  EXTRACT(отрезок времени FROM поле). 

**CENTURY** — век;  
**DAY** — день;  
**DOY (от англ. day of the year)** — день года, выраженный числом от 1 до 365 или 366, если год високосный;  
**DOW (от англ. day of the week)** — день недели, выраженный числом от 0 до 6, где понедельник — 1, воскресенье — 0.  
**ISODOW (от англ. day of the week и ISO 8601)** — день недели, выраженный числом от 1 до 7, где понедельник — 1, воскресенье — 7.  
**HOUR** — час;  
**MILLISECOND** — миллисекунда;  
**MINUTE** — минута;  
**MONTH** — месяц;  
**SECOND** — секунда;  
**QUARTER** — квартал;  
**WEEK** — неделя в году;  
**YEAR** — год.   
EXTRACT — данные типа double precision.

In [5]:
SQL = '''
SELECT EXTRACT(YEAR FROM birth_date)
FROM staff
'''

SQL = '''
SELECT customer_id,
       total,
       invoice_date,
       DATE_TRUNC('month',CAST (invoice_date AS timestamp without time zone)),
       EXTRACT(WEEK FROM CAST (invoice_date AS timestamp without time zone))
FROM invoice
WHERE customer_id BETWEEN 20 AND 50
'''

SQL = '''
SELECT customer_id,
       invoice_date,
       total,
       DATE_TRUNC('month', CAST(invoice_date AS timestamp)),
       EXTRACT(WEEK FROM CAST(invoice_date AS timestamp)) as og
FROM invoice
WHERE customer_id BETWEEN 20 AND 50 AND EXTRACT(WEEK FROM CAST(invoice_date AS timestamp)) IN (5,7,10,33,48);
'''

SQL = 'SELECT * FROM invoice WHERE EXTRACT(DAY FROM CAST(invoice_date AS timestamp)) IN (1)'

SQL = 'SELECT email FROM staff WHERE EXTRACT(YEAR FROM CAST(hire_date AS timestamp)) IN (2002) AND city = "Calgary";'

**Важно:**  
Функции **DATE_TRUNC и EXTRACT** принимают на вход данные тех типов, которые используют для работы с датой и временем. Но есть особенности. Типы date и time функции автоматически переведут в timestamp with time zone. Будьте осторожны: при автоматическом переводе date в timestamp with time zone время подстроится к часовому поясу пользователя и потому может сместиться.

### Простой SELECT

**Выгрузить таблицу полностью**

In [6]:
SQL = "SELECT * FROM table"

**Выгрузить конкретные столбцы из таблицы**

In [7]:
SQL = "SELECT column1, column2, column3 FROM table"

**Ограничить выгрузку**

In [8]:
SQL = "SELECT *  FROM table LIMIT 13"

**Ограничить выгрузку, но выгружать с конкретной строки**

In [9]:
SQL = "SELECT *  FROM table LIMIT 13 OFFSET 21"

**Выгружать с конкретной строки**

In [10]:
SQL = "SELECT *  FROM table OFFSET 21"

### WHERE

Оператор SQL WHERE используется для фильтрации данных в запросах SELECT, UPDATE или DELETE. Он позволяет выбирать только те строки таблицы, которые удовлетворяют определенным критериям.

Например, если вы хотите выбрать все заказы из таблицы "Заказы", сделанные клиентом с идентификатором 1, вы можете написать запрос следующего вида:

**SELECT * FROM Заказы WHERE КлиентID = 1;**


Также оператор WHERE может использоваться в командах UPDATE и DELETE для обновления и удаления только тех строк таблицы, которые соответствуют заданным условиям.

In [11]:
SQL = '''SELECT *
FROM invoice_line
WHERE unit_price > 0.99'''
SQL = '''SELECT billing_address, 
cast(invoice_date as date) 
FROM invoice 
WHERE total >=8'''
SQL = '''SELECT first_name, 
last_name, 
city 
FROM client 
WHERE country ='Brazil'''

Оператор WHERE работает только с изначальной таблицей, но не с результатом агрегирующих функций.

### Логические операторы AND, OR, NOT

Условия с разными логическими операторами различаются приоритетом.   

Первым всегда выполняется условие  
с оператором **NOT**  
за ним **AND**  
и только в последнюю очередь — условие с **OR**   
- AND возвращает TRUE, только если оба логических значения тоже TRUE.  
- OR возвращает TRUE, если хотя бы одно логическое значение тоже TRUE.  
- NOT меняет значение выражения на противоположное: TRUE на FALSE, а FALSE на TRUE.  

In [12]:
SQL = '''
SELECT total,
       customer_id
FROM invoice
WHERE billing_city = 'Paris' OR billing_city = 'London' OR billing_city = 'Dublin';
'''

SQL = '''
SELECT total, 
customer_id 
FROM invoice 
WHERE total >= 5 AND (customer_id = 40 OR customer_id = 46)
'''

SQL = '''
SELECT total,
       customer_id
FROM invoice
WHERE (billing_city = 'Paris' OR billing_city = 'London' OR billing_city = 'Dublin')
AND total >= 5 AND (customer_id = 40 OR customer_id = 46);
'''

SQL = '''
SELECT last_name, 
phone  
FROM client 
WHERE (country = 'USA' OR country = 'France') AND support_rep_id = 3
'''

SQL = '''
SELECT title 
FROM movie 
WHERE rental_rate <= 2 AND rental_duration > 6 
AND (rating != 'PG' AND rating != 'PG-13');
'''

SQL = '''
SELECT billing_address, 
billing_city FROM invoice 
WHERE invoice_date BETWEEN '2009-09-01' AND '2009-10-01' 
AND billing_country NOT IN ('USA', 'Brazil') AND total > 2;
'''

### LIKE, IN, BETWEEN

Оператор **IN**.  
Значения, по которым нужно фильтровать данные, перечисляют в скобках.

In [13]:
SQL = '''SELECT total,
       customer_id
FROM invoice
WHERE billing_city IN ('Dublin',
                       'London',
                       'Paris',
                       'Boston',
                       'Berlin',
                       'Stuttgart');
                       '''

SQL = '''
SELECT billing_address, 
billing_country 
FROM invoice 
WHERE billing_country IN ('USA', 'India', 'Canada', 'Argentina', 'France')
'''

SQL = '''
SELECT billing_address,
       billing_country
FROM invoice
WHERE billing_country IN ('USA',
                          'India',
                          'Canada',
                          'Argentina',
                          'France')
 AND billing_city NOT IN ('Redmond' , 'Lyon', 'Delhi')'''

В SQL можно получить срез не только по конкретному значению, но и по шаблону.  
Для этого используют оператор **LIKE**, а с помощью знака % показывают, какую позицию в строке занимает шаблон.  
Оператор LIKE ищет не слова, а символы в строке.

**'text%'**	Значения, которые начинаются с text **WHERE quotes LIKE 'кот%'**   
**'%text'**	Значения, которые заканчиваются на text **WHERE quotes LIKE '%кот'**  
**'%text%'**	Значения, в которых text занимает любую позицию **WHERE quotes LIKE '%кот%'**  
**'te%xt'**	Значения, которые начинаются на te и заканчиваются на xt **WHERE quotes LIKE 'ко%т'**

In [14]:
SQL = '''
SELECT name F
ROM playlist 
WHERE name LIKE '%Classic%' '''

SQL = '''
SELECT title 
FROM movie 
WHERE description 
LIKE '%Mexico' AND (rental_rate < 2 OR rating !='PG-13')'''

SQL = '''
SELECT name 
FROM track 
WHERE (milliseconds>300000 AND composer LIKE '%Bono%' AND genre_id IN (7,8,9,10)) 
OR bytes > 1000000000'''

Оператор **BETWEEN**   
Границы диапазона указывают так: WHERE [ключевое слово] BETWEEN [начало диапазона] AND [конец диапазона].  
Начало и конец диапазона включены в проверку условием. 

In [15]:
SQL = '''SELECT *
FROM invoice
WHERE customer_id BETWEEN 23 AND 48'''

SQL = '''SELECT last_name
FROM staff
WHERE birth_date BETWEEN "1970-01-01" AND "1970-12-31" '''


SQL = '''SELECT * 
FROM invoice 
WHERE cast(invoice_date as DATE) BETWEEN '2009-03-04' AND '2012-02-09' 
AND total < 5
AND billing_country NOT
IN ('Canada', 'Finland', 'Brazil');'''

### CASE

Так выглядит синтаксис условных конструкций в **SQL**: 
- начало конструкции обозначают оператором **CASE**,
- после оператора **WHEN** пишут условие,
- после оператора **THEN** — возвращаемый результат;
- а в конце указывают оператор **END**.

In [16]:
SQL = '''SELECT last_name, first_name, title,
      CASE 
          WHEN title LIKE '%IT%' THEN 'разработка'
          WHEN title LIKE '%Manager%' AND title NOT LIKE '%IT%' THEN 'отдел продаж'
          WHEN title LIKE '%Support%' THEN 'поддержка'
      END
FROM staff'''

SQL = '''
SELECT total,
       CASE
           WHEN total < 5 THEN 'маленький'
           WHEN total >= 5 AND total < 10 THEN 'средний'
           WHEN total >= 10 THEN 'крупный'
       END
FROM invoice
LIMIT 10'''

SQL = '''
SELECT title, rental_rate,
    CASE
        WHEN rental_rate <1 THEN 'категория 1'
        WHEN rental_rate >=  1 AND rental_rate <3 THEN 'категория 2'
        WHEN rental_rate >=  3 THEN 'категория 3'
    END
FROM movie'''

### GROUP BY

В запросе GROUP BY всегда располагается после условного оператора WHERE.  
Если WHERE в запросе нет, оператор GROUP BY нужно указать после FROM.

*-- нужно указать поля и необходимые вычисления  
SELECT billing_city,   
       ROUND(AVG(total))  
FROM invoice -- не забыть таблицу  
GROUP BY billing_city -- здесь указывают поле, по которому группируют данные  
LIMIT 5;*

In [17]:
SQL = '''
SELECT billing_city, 
SUM(total), 
COUNT(total), 
AVG(total)
FROM invoice
WHERE billing_country = 'USA'
GROUP BY billing_city
'''

SQL = '''
SELECT SUM(total), 
COUNT(DISTINCT(customer_id)), 
SUM(total)/COUNT(DISTINCT(customer_id))
FROM invoice
WHERE billing_country = 'USA' '''

SQL = '''
SELECT DATE_TRUNC('week', CAST(invoice_date AS timestamp)),
       SUM(total),
       COUNT(DISTINCT customer_id),
       SUM(total)/COUNT(DISTINCT customer_id)
FROM invoice
WHERE billing_country = 'USA'
GROUP BY DATE_TRUNC('week', CAST(invoice_date AS timestamp))
'''

SQL = '''
SELECT support_rep_id, 
COUNT(customer_id)
FROM client
WHERE cast(email as varchar) LIKE '%yahoo%' OR cast(email as varchar) LIKE '%gmail%'
GROUP BY support_rep_id
'''

SQL = '''
SELECT 
       CASE 
           WHEN total < 1 THEN 'low cost'
           WHEN total >= 1 THEN 'high cost'
       END AS cost_cat,
       SUM(total)
FROM invoice
WHERE billing_postal_code IS NOT NULL
GROUP BY cost_cat
'''

**Группировка и сортировка по нескольким полям** 

Сортировать можно не только числа, но и строки: страна заказа будет отсортирована в лексикографическом порядке. Идентификатор пользователя будет отсортирован по возрастанию, а сумма заказа — по убыванию. 

In [18]:
SQL = '''SELECT billing_country,
       customer_id,
       total
FROM invoice
WHERE billing_country = 'India' or billing_country = 'Portugal'
ORDER BY billing_country, 
         customer_id,
         total DESC'''

### HAVING

Если нужно получить срез данных после группировки, используют оператор **HAVING**. **HAVING** похож на оператор **WHERE**, но с отличием: **HAVING** всегда идёт после **GROUP BY**.

**WHERE**  
- используют чтобы получить срез данных перед группировкой или отфильтровать записи для агрегирующих функций
- можно применить без оператора GROUP BY
- используют перед оператором GROUP BY
- нельзя сочитать с агрегирующими функциями

**HAVING**  
- используют чтобы получить срез данных после группировки
- нельзя применить без оператора GROUP BY
- используют после оператора GROUP BY
- можно сочитать с агрегирующими функциями

In [19]:
#Сравните фильмы разных возрастных рейтингов. Найдите среднее значение цены аренды фильма в поле rental_rate для каждого рейтинга (поле rating). Оставьте в таблице только те записи, в которых среднее значение rental_rate больше 3.
SQL = '''SELECT rating, AVG(rental_rate)
FROM movie
GROUP BY rating
HAVING AVG(rental_rate) > 3'''

#Изучите заказы, которые оформили в сентябре 2011 года. Сравните общую сумму выручки (поле total) за каждый день этого месяца: выведите день в формате '2011-09-01'  и сумму. Информацию о дате заказа хранит поле invoice_date. Не забудьте изменить тип данных в этом поле, чтобы использовать операторы для работы с датой. Оставьте в таблице только те значения суммы, которые больше 1 и меньше 10.
SQL = '''SELECT CAST(invoice_date AS date), SUM(total)
FROM invoice
WHERE CAST(invoice_date AS date) BETWEEN '2011-09-01' AND '2011-10-01'
GROUP BY CAST(invoice_date AS date)
HAVING SUM(total) BETWEEN 2 AND 9'''

#Посчитайте пропуски в поле с почтовым индексом billing_postal_code для каждой страны (поле billing_country). Получите срез: в таблицу должны войти только те записи, в которых поле billing_address не содержит слов Street, Way, Road или Drive. Отобразите в таблице страну и число пропусков, если их больше 10.
SQL = '''
SELECT COUNT(*),
       billing_country -- укажите нужные поля
FROM invoice
WHERE billing_postal_code IS NULL AND billing_address NOT LIKE '%Street%' AND billing_address NOT LIKE '%Way%' AND billing_address NOT LIKE '%Road%' AND billing_address NOT LIKE '%Drive%' -- сгруппируйте данные
GROUP BY billing_country
HAVING COUNT(*) > 10
'''

SQL = '''SELECT customer_id,
       SUM(total)
FROM invoice
GROUP BY customer_id
HAVING SUM(total) > 41
ORDER BY SUM(total) DESC'''

### ORDER BY

Для сортировки данных в SQL используют оператор ORDER BY.  
Его пишут в самом конце запроса, после него можно указать только оператор LIMIT. 

In [20]:
SQL = '''
SELECT *
FROM invoice
ORDER BY total DESC
LIMIT 5
'''

SQL = '''
SELECT billing_city,
       SUM(total),
       COUNT(total),
       AVG(total)
FROM invoice
WHERE billing_country = 'USA'
GROUP BY billing_city
ORDER BY AVG(total)'''

SQL = '''
SELECT billing_city,
       AVG(total)
FROM invoice
WHERE billing_country = 'USA'
GROUP BY billing_city
ORDER BY AVG(total) DESC
LIMIT 5 
'''

#Отберите пятерых самых активных клиентов в США с 25 мая 2011 по 25 сентября 2011. Дату хранит поле invoice_date, тип данных поля — varchar. Выведите два поля: идентификатор клиента и количество заказов. Расположите записи по убыванию количества заказов. 
#В выдаче встретятся записи с одинаковым числом заказов. Их нужно отсортировать по возрастанию идентификаторов клиентов. Таким образом, получится двойная сортировка. 

SQL = '''
SELECT customer_id,
       COUNT(customer_id)
FROM invoice
WHERE cast(invoice_date AS date) BETWEEN '25.05.2011' AND '25.09.2011' AND billing_country = 'USA'
GROUP BY customer_id
ORDER BY COUNT(customer_id) DESC
LIMIT 5
'''

# Отсортируйте таблицу по году от большего к меньшему. Отберите только те записи, в которых в поле billing_country указаны страны: США (англ. USA), Великобритания (англ. United Kingdom) и Германия (англ. Germany).
SQL = '''
SELECT EXTRACT(YEAR FROM CAST (invoice_date AS timestamp without time zone)),
       MIN(total),
       MAX(total),
              SUM(total),
       COUNT(total),
       ROUND(SUM(total)/COUNT(DISTINCT(customer_id)))
       
FROM invoice
WHERE billing_country IN ('USA', 'United Kingdom', 'Germany')
GROUP BY EXTRACT(YEAR FROM CAST (invoice_date AS timestamp without time zone))
ORDER BY EXTRACT(YEAR FROM CAST (invoice_date AS timestamp without time zone)) DESC; '''

### Подзапросы FROM

Подзапросу во FROM нужно всегда назначать псевдоним, иначе произойдёт ошибка.

Проанализируйте данные о возрастных рейтингах отобранных фильмов. 
Выгрузите в итоговую таблицу следующие поля:  
возрастной рейтинг (поле rating);  
минимальное и максимальное значения длительности (поле length); назовите поля min_length и max_length соответственно;  
среднее значение длительности (поле length); назовите поле avg_length;  
минимум, максимум и среднее для цены просмотра (поле rental_rate); назовите поля min_rental_rate, max_rental_rate, avg_rental_rate соответственно.  
Отсортируйте среднюю длительность фильма по возрастанию.

In [21]:
SQL = '''SELECT rating,
    MIN(length) AS min_length,
    MAX(length) AS max_length,
    AVG(length) AS avg_length,
    MIN(rental_rate) AS min_rental_rate,
    MAX(rental_rate) AS max_rental_rate,
    AVG(rental_rate) AS avg_rental_rate
FROM (
SELECT *
FROM movie AS mov
WHERE rental_rate > 2
ORDER BY mov.length DESC
LIMIT 40)
AS lim
GROUP BY lim.rating
ORDER BY avg_length'''


Найдите средние значения полей, в которых указаны минимальная и максимальная длительность отобранных фильмов. Отобразите только два этих поля. Назовите их avg_min_length и avg_max_length соответственно.

In [22]:
SQL = '''SELECT
    AVG(min_length) AS avg_min_length,
    AVG(max_length) AS avg_max_length

FROM (SELECT top.rating,
       MIN(top.length) AS min_length,
       MAX(top.length) AS max_length,
       AVG(top.length) AS avg_length,
       MIN(top.rental_rate) AS min_rental_rate,
       MAX(top.rental_rate) AS max_rental_rate,
       AVG(top.rental_rate) AS avg_rental_rate

FROM
  (SELECT title,
          rental_rate,
          length,
          rating
   FROM movie
   WHERE rental_rate > 2
   ORDER BY length DESC
   LIMIT 40) AS top

GROUP BY top.rating
ORDER BY avg_length) AS xyz
'''

Отберите альбомы, названия которых содержат слово 'Rock' и его производные. В этих альбомах должно быть восемь или более треков. Выведите на экран одно число — среднее количество композиций в отобранных альбомах.

In [23]:
SQL = '''SELECT AVG(count)
FROM
(SELECT album.title, COUNT(track.name) AS count
FROM album
INNER JOIN track ON album.album_id = track.album_id
WHERE album.title LIKE '%Rock%'
GROUP BY album.title
HAVING COUNT(track.name)>=8) AS xyz'''

Для каждой страны посчитайте среднюю стоимость заказов в 2009 году по месяцам. Отберите данные за 2, 5, 7 и 10 месяцы и сложите средние значения стоимости заказов. Выведите названия стран, у которых это число превышает 10 долларов.

In [24]:
SQL = '''SELECT x.country
FROM
(SELECT 
billing_country AS country, 
EXTRACT(YEAR FROM CAST(invoice_date AS date)) AS year, EXTRACT(MONTH FROM CAST  (invoice_date AS date)) AS month,
AVG(total) AS avg_total
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2009
GROUP BY billing_country, EXTRACT(YEAR FROM CAST(invoice_date AS date)), EXTRACT    (MONTH FROM CAST(invoice_date AS date))) AS x
WHERE x.month IN (2,5,7,10)
GROUP BY x.country
HAVING SUM(x.avg_total)>10'''

### Подзапросы в WHERE

У способа с подзапросами есть преимущество: данные сначала отбирают, а потом объединяют в итоговую таблицу. Если отбор данных следует за объединением, как в запросах с JOIN, выгрузка занимает больше времени.

In [25]:
SQL = '''SELECT *
FROM client
WHERE customer_id IN (SELECT customer_id
                      FROM invoice
                      GROUP BY customer_id
                      ORDER BY SUM(total) DESC
                      LIMIT 10)'''

Для каждой страны (поле billing_country) посчитайте минимальное, максимальное и среднее значение выручки из поля total. Назовите поля так: min_total, max_total и avg_total. Нужные поля для выгрузки хранит таблица invoice. 
При подсчёте учитывайте только те заказы, которые включают более пяти треков. Стоимость заказа должна превышать среднюю цену одного трека. Используйте код, написанный в предыдущих заданиях. 
Отсортируйте итоговую таблицу по значению в поле avg_total от большего к меньшему.

In [26]:
SQL = '''SELECT billing_country,
MIN(total) AS min_total,
MAX(total) AS max_total,
AVG(total) AS avg_total
FROM invoice
WHERE invoice_id IN (
    SELECT invoice_id
    FROM invoice_line
    GROUP BY invoice_id
    HAVING COUNT(invoice_id)>5
    ) 

AND total > (
    SELECT AVG(unit_price)
    FROM invoice_line)

GROUP BY billing_country
ORDER BY avg_total DESC'''

Отберите десять самых коротких по продолжительности треков и выгрузите названия их жанров.

In [27]:
SQL = '''SELECT name
FROM genre
WHERE genre_id IN 
(SELECT DISTINCT(genre_id) 
FROM
(SELECT genre_id
FROM track
ORDER BY milliseconds
LIMIT 10) AS xyz);'''

Выгрузите уникальные названия городов, в которых стоимость заказов превышает среднее значение за 2009 год.

In [28]:
SQL = '''
SELECT billing_city
FROM invoice
WHERE total > (SELECT AVG(total)
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2009)
GROUP BY billing_city'''

Посчитайте среднюю стоимость аренды фильма каждого возрастного рейтинга. Среди них найдите рейтинг с самыми дорогими для аренды фильмами.
Выведите на экран названия категорий фильмов с этим рейтингом. Добавьте второе поле со средним значением продолжительности фильмов категории.

In [29]:
SQL = '''SELECT category.name, AVG(movie.length)
FROM movie
INNER JOIN film_category ON movie.film_id = film_category.film_id
INNER JOIN category ON  film_category.category_id = category.category_id
WHERE rating IN (SELECT rating
FROM movie 
GROUP BY rating
ORDER BY AVG(rental_rate) DESC
LIMIT 1)
GROUP BY category.name'''

### Как сочетать объединения и подзапросы

Чаще всего таблицы объединяют уже после того, как получили срез и сгруппировали данные. Причина проста: объединение больших таблиц занимает много времени. Таблицу лучше предварительно обработать, а уже потом объединять данные.  
**Напомним правила объединения таблиц:**  
после оператора FROM назначают первую таблицу;  
затем следует оператор присоединения для выбранного типа — LEFT OUTER JOIN;  
после оператора указывают вторую таблицу и поля, по которым объединяют данные.

In [30]:
SQL  = '''SELECT i.country,
       i.total_invoice,
       c.total_clients
FROM
  (SELECT billing_country AS country,
          COUNT(total) AS total_invoice
   FROM invoice
   GROUP BY billing_country
   ORDER BY total_invoice DESC
   LIMIT 5) AS i
LEFT OUTER JOIN
  (SELECT country AS country,
          COUNT(customer_id) AS total_clients
   FROM client
   GROUP BY country) AS c ON i.country = c.country
ORDER BY i.total_invoice DESC'''


Составьте сводную таблицу. Посчитайте заказы, оформленные за каждый месяц в течение нескольких лет: с 2011 по 2013 год. Итоговая таблица должна включать четыре поля: invoice_month, year_2011, year_2012, year_2013. Поле invoice_month должно хранить месяц в виде числа от 1 до 12. 
Если в какой-либо месяц заказы не оформляли, номер такого месяца всё равно должен попасть в таблицу.

In [31]:
SQL = '''
SELECT iM.invoice_month, i2011.year_2011, i2012.year_2012, i2013.year_2013
FROM 
(SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month
FROM invoice
GROUP BY invoice_month
ORDER BY invoice_month) AS iM
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2011
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2011
GROUP BY invoice_month
) AS i2011
ON iM.invoice_month = i2011.invoice_month
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2012
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2012
GROUP BY invoice_month
) AS i2012
ON iM.invoice_month = i2012.invoice_month
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2013
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2013
GROUP BY invoice_month
) AS i2013
ON iM.invoice_month = i2013.invoice_month'''

Отберите фамилии пользователей, которые:
оформили хотя бы один заказ в январе 2013 года,
а также сделали хотя бы один заказ в остальные месяцы того же года.
Пользователей, которые оформили заказы только в январе, а в остальное время ничего не заказывали, в таблицу включать не нужно.

In [32]:
SQL = '''
SELECT  last_name
FROM client
WHERE customer_id IN 
(SELECT notjanyary.customer_id FROM
(SELECT DISTINCT(customer_id)
FROM invoice
WHERE (CAST(invoice_date AS date) BETWEEN '2013-01-01' AND '2013-01-31'))
AS janyary
INNER JOIN
(SELECT DISTINCT(customer_id)
FROM invoice
WHERE (CAST(invoice_date AS date) BETWEEN '2013-02-01' AND '2013-12-31'))
AS notjanyary
ON janyary.customer_id = notjanyary.customer_id)'''

Сформируйте статистику по категориям фильмов. Отобразите в итоговой таблице два поля:
название категории;
число фильмов из этой категории.
Фильмы для второго поля нужно отобрать по условию. Посчитайте фильмы только с теми актёрами и актрисами, которые больше семи раз снимались в фильмах, вышедших после 2013 года. 
Назовите поля name_category и total_films соответственно. Отсортируйте таблицу по количеству фильмов от большего к меньшему, а затем по полю с названием категории в лексикографическом порядке.

In [33]:
SQL = '''SELECT
category.name AS name_category, 
COUNT(movie.film_id) AS total_films
FROM movie
INNER JOIN film_category 
ON movie.film_id = film_category.film_id
INNER JOIN category
ON category.category_id = film_category.category_id
WHERE movie.film_id IN (SELECT movie.film_id
FROM movie
INNER JOIN film_actor 
ON movie.film_id = film_actor.film_id
WHERE film_actor.actor_id IN 
(SELECT actor_id
FROM film_actor
INNER JOIN movie
ON movie.film_id = film_actor.film_id
WHERE movie.release_year > 2013
GROUP BY actor_id
HAVING COUNT(actor_id)>7)
GROUP BY movie.film_id)
GROUP BY category.name
ORDER BY COUNT(movie.film_id) DESC, category.name'''

Определите, летом какого года общая выручка в магазине была максимальной. Затем проанализируйте данные за этот год по странам. Выгрузите таблицу с полями:
country — название страны;
total_invoice — число заказов, оформленных в этой стране в тот год, когда общая выручка за лето была максимальной;
total_customer — число клиентов, зарегистрированных в этой стране.
Отсортируйте таблицу по убыванию значений в поле total_invoice, а затем добавьте сортировку по названию страны в лексикографическом порядке.

In [34]:
SQL = '''
SELECT one.country, one.total_invoice, two.total_customer
FROM 
(SELECT invoice.billing_country AS country,
      COUNT(invoice.total) AS total_invoice
      FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2011
GROUP BY country) AS one
LEFT JOIN
(SELECT country, COUNT(customer_id) AS total_customer
FROM client
GROUP BY country) AS two
ON one.country = two.country
ORDER BY total_invoice DESC, country'''

### Временные таблицы WITH

Временные таблицы помогают структурировать подзапросы, указывать их вне основного запроса. 
Создание временных таблиц напоминает назначение переменных: псевдониму назначается таблица, сформированная подзапросом. Затем пишут общий запрос, в котором работают с временной таблицей.

После ключевого слова WITH указывают подзапросы. Порядок здесь другой, чем в обычном запросе: сначала пишут псевдоним, затем ключевое слово AS, а затем в скобках указывают подзапрос.  
Все конструкции перечисляют через запятую. После последнего подзапроса запятую не ставят — это означает начало основного запроса.  

*WITH   
-- первый подзапрос с псевдонимом i  
i AS (SELECT billing_country AS country,  
             COUNT(total) AS total_invoice  
      FROM invoice  
      GROUP BY billing_country  
      ORDER BY total_invoice DESC  
      LIMIT 5), -- подзапросы разделяют запятыми  
-- второй подзапрос с псевдонимом c  
 c AS (SELECT country AS country,  
              COUNT(customer_id) AS total_clients  
              FROM client  
              GROUP BY country)*  

*-- основной запрос, в котором указаны псевдонимы для подзапросов  
SELECT i.country,  
       i.total_invoice,  
       c.total_clients  
FROM i LEFT OUTER JOIN c ON i.country=c.country  
ORDER BY i.total_invoice DESC;*   

Перепишите один из своих прошлых запросов с использованием оператора WITH. 
Выведите топ-40 самых длинных фильмов, аренда которых составляет больше 2 долларов. Проанализируйте данные о возрастных рейтингах отобранных фильмов. Выгрузите в итоговую таблицу следующие поля:
возрастной рейтинг (поле rating);
минимальное и максимальное значения длительности (поле length), назовите поля min_length и max_length соответственно;
среднее значение длительности (поле length), назовите поле avg_length;
минимум, максимум и среднее для цены просмотра (поле rental_rate), назовите поля min_rental_rate, max_rental_rate, avg_rental_rate соответственно.
Отсортируйте среднюю длительность фильма по возрастанию.

In [35]:
SQL = '''WITH
top40 AS (
SELECT film_id
FROM movie
WHERE rental_rate >2
ORDER BY length DESC
LIMIT 40
)
SELECT rating,
MIN(length) AS min_length,
MAX(length) AS max_length,
AVG(length) AS avg_length,
MIN(rental_rate) AS min_rental_rate,
MAX(rental_rate) AS max_rental_rate,
AVG(rental_rate) AS avg_rental_rate
FROM
movie INNER JOIN top40 ON
movie.film_id = top40.film_id
GROUP BY rating
ORDER BY AVG(length)'''

Перепишите один из своих прошлых запросов, используя оператор WITH. 
Составьте сводную таблицу. Посчитайте заказы, оформленные за каждый месяц в течение нескольких лет: с 2011 по 2013 год. Итоговая таблица должна включать четыре поля: invoice_month, year_2011, year_2012, year_2013. Поле month должно хранить месяц в виде числа от 1 до 12. 
Если в какой-либо месяц заказы не оформляли, номер такого месяца всё равно должен попасть в таблицу.

In [36]:
SQL = '''SELECT iM.invoice_month, i2011.year_2011, i2012.year_2012, i2013.year_2013
FROM 
(SELECT EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month
FROM invoice
GROUP BY invoice_month
ORDER BY invoice_month) AS iM
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2011
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2011
GROUP BY invoice_month
) AS i2011
ON iM.invoice_month = i2011.invoice_month
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2012
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2012
GROUP BY invoice_month
) AS i2012
ON iM.invoice_month = i2012.invoice_month
LEFT JOIN
(SELECT
EXTRACT(MONTH FROM CAST(invoice_date AS date)) AS invoice_month, COUNT(invoice_id) AS   year_2013
FROM invoice
WHERE EXTRACT(YEAR FROM CAST(invoice_date AS date)) = 2013
GROUP BY invoice_month
) AS i2013
ON iM.invoice_month = i2013.invoice_month'''

Проанализируйте данные из таблицы invoice за 2012 и 2013 годы. В итоговую таблицу должны войти поля:
month — номер месяца;
sum_total_2012 — выручка за этот месяц в 2012 году;
sum_total_2013 — выручка за этот месяц в 2013 году;
perc — процент, который отображает, насколько изменилась месячная выручка в 2013 году по сравнению с 2012 годом.
Округлите значение в поле perc до ближайшего целого числа. Отсортируйте таблицу по значению в поле month от меньшего к большему.

In [37]:
SQL = '''
with 
    t12 as (select extract(month from cast(invoice_date as date)) as month, sum(total)
    from invoice
    where extract(year from cast(invoice_date as date)) = 2012
    group by extract(month from cast(invoice_date as date))),
    t13 as (select extract(month from cast(invoice_date as date)) as month, sum(total)
    from invoice
    where extract(year from cast(invoice_date as date)) = 2013
    group by extract(month from cast(invoice_date as date)))
select t12.month as month,
    t12.sum as sum_total_2012,
    t13.sum as sum_total_2013,
    round(100 * cast((t13.sum - t12.sum) as real)/t12.sum) as perc
from t12 full outer join t13 on t12.month=t13.month;
'''

### Оконные функции

Оконные функции выполняют вычисления для набора записей, объединённых по какому-либо признаку. Такой набор называют окном — отсюда и название функций.

Вместе с текущей записью оконная функция обрабатывает остальные записи, которые входят в то же окно. Для каждой записи функция выводит одно значение. Этим оконная функция отличается от агрегирующей: и та и другая вычисляются для набора записей, но оконная функция не объединяет записи в одну, как агрегирующая, сохраняя независимость записей. Проще говоря, оконные функции возвращают столько же значений, сколько получили на вход. 

Окна, по которым будет рассчитана оконная функция, можно задать внутри выражения OVER — его содержат все оконные функции. 

In [38]:
SQL = '''
SELECT *,
       AVG(revenue) OVER (PARTITION BY user_id) AS user_avg
FROM online_store.orders
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id'''

Внутри выражения OVER находится оператор PARTITION BY. Он разделяет записи на группы, или разделы, в зависимости от значения в поле user_id.
Записи с одинаковым user_id окажутся в одном окне. Для каждого из окон будет рассчитан результат оконной функции.  
Для каждого раздела, который выделит оператор PARTITION BY, будет рассчитан результат оконной функции.  

**Выражение OVER может быть пустым. В таком случае оконная функция будет равнозначна агрегирующей функции.**


В качестве оконных можно использовать и другие агрегирующие функции. Например, функция MIN(event_dt) OVER (PARTITION BY user_id) вернёт минимальное значение event_dt для каждого окна с идентификатором пользователя.

In [39]:
SQL = '''SELECT *,
       MIN(event_dt) OVER (PARTITION BY user_id) AS user_min
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id;''' 

Если все значения в поле, по которому формируют окна, будут уникальными, оконная функция будет рассчитана в каждой записи отдельно. 

Напишите запрос, который выведет все поля таблицы tools_shop.orders и отдельным полем суммарную стоимость всех заказов.

In [40]:
SQL = '''
SELECT * , 
SUM(total_amt) OVER() AS sum
FROM tools_shop.orders'''

#2.Напишите запрос, который выведет все поля таблицы tools_shop.users и отдельным полем количество пользователей в этой таблице.
SQL = '''SELECT *, COUNT(user_id) OVER()
FROM tools_shop.users 
'''

**Оператор PARTITION BY**, который может входить в выражение OVER, объединяет записи в разделы. Этим он похож на оператор GROUP BY, который группирует записи, объединённые одним признаком или несколькими. 

После PARTITION BY, как и после GROUP BY, можно указать несколько полей, и тогда окно будет сформировано по нескольким полям сразу. Если в запросе после PARTITION BY указать два поля: user_id и event_dt, — в одно окно войдёт каждая уникальная комбинация значений из этих полей.
Как и в случае с GROUP BY, порядок, в котором указывают поля после PARTITION BY, не важен: он не влияет на формирование окна.

In [41]:
SQL = '''
SELECT *,
       AVG(revenue) OVER (PARTITION BY user_id, event_dt)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id; '''

Напишите запрос, который выведет все поля таблицы tools_shop.orders и отдельным полем суммарную стоимость заказов для каждого пользователя.

In [42]:
SQL = '''
SELECT *, SUM(total_amt) OVER(PARTITION BY user_id)
FROM tools_shop.orders'''

Напишите запрос, который выведет все поля таблицы tools_shop.orders и отдельным полем суммарную стоимость заказов за каждый месяц.

In [43]:
SQL = '''SELECT *, 
SUM(total_amt) OVER (PARTITION BY CAST(DATE_TRUNC('month', paid_at) AS date))  
FROM tools_shop.orders'''

С помощью оконных функций можно ранжировать записи, то есть нумеровать их по определённому правилу. Для ранжирования в SQL используют функцию **ROW_NUMBER(). Эта функция возвращает порядковый номер записи в окне.**  
Обратите внимание, что функция ROW_NUMBER() не требует аргумента. 

In [44]:
SQL = '''SELECT *,
       ROW_NUMBER() OVER ()
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)'''

 Если добавить в запрос оператор ORDER BY, который изменит порядок записей, каждая запись сохранит первоначальный ранг

In [45]:
SQL = '''SELECT *,
       ROW_NUMBER() OVER ()
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id; '''

Выведите все поля таблицы tools_shop.items, добавив поле с рангом записи.

In [46]:
SQL = '''SELECT *, ROW_NUMBER() OVER ()
FROM tools_shop.items'''

Функция ROW_NUMBER() пронумеровала записи в зависимости от позиции в таблице, но порядком ранжирования можно управлять. Чтобы задать другой порядок, в выражение OVER можно добавить оператор ORDER BY вместе с полем, по которому ранжировать записи. 

In [47]:
SQL = '''SELECT *, 
       ROW_NUMBER() OVER (ORDER BY user_id)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id;''' 

Ранжировать записи можно не только по возрастанию значений в поле, но и по убыванию. Для этого можно использовать ключевое слово DESC. Если указать ASC, записи будут проранжированы по возрастанию — так же, как и по умолчанию. 

Вы уже знаете, что сортировать записи можно по нескольким полям сразу. Так же и в оконных функциях: выражение с оператором ORDER BY может содержать сразу несколько полей. Порядок, в котором указаны поля, определяет приоритет ранжирования.

С помощью оконной функции ROW_NUMBER() и оператора ORDER BY можно выбрать запись с определённым рангом. Например, из таблицы online_store.sessions можно выбрать запись с рангом 100 в зависимости от даты сессии. Проранжированные записи можно поместить во временную таблицу и из неё уже выбрать запись с нужным рангом. 

In [48]:
SQL = '''WITH sessions AS
  (SELECT *,
          ROW_NUMBER() OVER (ORDER BY session_start) AS rn
   FROM online_store.sessions)
SELECT *
FROM sessions
WHERE rn = 100; '''

Проранжируйте записи в таблице tools_shop.users по дате регистрации — от меньшей к большей. Напишите запрос, который выведет идентификатор пользователя с рангом 2021.

In [49]:
SQL = '''WITH dr AS
  (SELECT *,
          ROW_NUMBER() OVER (ORDER BY created_at) AS dr
   FROM tools_shop.users)
SELECT user_id
FROM dr
WHERE dr = 2021'''

**Функции RANK() и DENSE_RANK() отличаются от ROW_NUMBER() логикой ранжирования повторяющихся значений.** В случае повтора функция ROW_NUMBER() присваивает такой записи следующий ранг, как в уже знакомом вам запросе.
В случае повтора функция ROW_NUMBER() присваивает такой записи следующий ранг.

Функция **RANK()** присваивает одинаковым значениям одинаковый ранг. 

In [50]:
SQL = '''SELECT *, 
       RANK() OVER (ORDER BY user_id)
FROM online_store.orders
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id; '''

Обратите внимание, что у записи с user_id, равным 840452722, ранг 4. Функция RANK() присваивает один ранг одинаковым записям, но, чтобы вычислить каждый следующий ранг, к текущему номеру ранга прибавляется количество записей этого ранга. Именно поэтому ранги получились непоследовательными: 1, 2, 4. Записям со следующим user_id был бы назначен ранг 7.

В отличие от функции RANK(), **DENSE_RANK() не учитывает количество записей и назначает ранги последовательно**. 

In [51]:
SQL = '''SELECT *, 
       DENSE_RANK() OVER (ORDER BY user_id)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id; '''

Проранжируйте записи в таблице tools_shop.order_x_item в зависимости от значения item_id — от меньшего к большему. Записи с одинаковым item_id должны получить один ранг. Ранги можно указать непоследовательно.

In [52]:
SQL = '''SELECT *, RANK() OVER (ORDER BY item_id)
FROM tools_shop.order_x_item'''

Проранжируйте записи в таблице tools_shop.users в зависимости от значения в поле created_at — от большего к меньшему. Записи с одинаковым значением created_at должны получить один ранг. Ранги должны быть указаны последовательно.

In [53]:
SQL = '''SELECT *, DENSE_RANK() OVER (ORDER BY created_at DESC) FROM tools_shop.users'''

**NTILE()** — ещё одна функция ранжирования, которую используют в SQL. Она позволяет назначать записям фиксированное количество рангов — в зависимости от аргумента, который передают функции.  
Функция NTILE() с аргументом 3 разделит записи на три группы в зависимости от значения revenue:

In [54]:
SQL = '''SELECT *,
         NTILE(3) OVER (ORDER BY revenue)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY revenue; '''

Посмотрите внимательно на запрос: в выражении OVER находится оператор ORDER BY, который сортирует записи по значению revenue. Функция NTILE() присваивает отсортированным записям ранг от 1 до 3 так, чтобы количество записей в группах было максимально близким.
Синтаксис NTILE() похож на синтаксис других функций ранжирования, но, в отличие от них, NTILE() принимает в качестве аргумента количество рангов, или групп, на которые будут разбиты записи: NTILE(<количество групп>) OVER (<определение окна>). Без этого аргумента функция вызовет ошибку. 
Если записи не получается разбить на группы поровну, предпочтение отдаётся первым группам — в них войдёт больше записей. В запросе ниже NTILE() передали аргумент 4, и записи не удастся разделить поровну. В группы с рангом 1 и 2 попадут по две записи, а в группы с рангом 3 и 4 — по одной.

In [55]:
SQL = '''SELECT *,
         NTILE(4) OVER (ORDER BY revenue)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY revenue'''

В запросе ниже функции NTILE() передали аргумент 5, и в группу с рангом 1 попадут две записи, а в остальные — по одной.

In [56]:
SQL = '''SELECT *,
       NTILE(5) OVER (ORDER BY revenue)
FROM online_store.orders 
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY revenue; '''

Разбейте пользователей в таблице tools_shop.users на пять групп так, чтобы в первую группу попали пользователи, которые недавно зарегистрировались. 

In [57]:
SQL = '''SELECT user_id, created_at, NTILE(5) OVER (ORDER BY created_at DESC)
FROM tools_shop.users'''

Операторы PARTITION BY и ORDER BY влияют на результат работы оконной функции. В выражении OVER их можно использовать вместе. Комбинация операторов позволит разделить строки на группы и одновременно отсортировать значения внутри групп. 
Порядок, в котором указывают операторы, всегда одинаковый: сначала указывают PARTITION BY, затем ORDER BY. Чтобы запомнить, ориентируйтесь на порядок в о

Сочетание с ROW_NUMBER()
Сочетая PARTITION BY и ORDER BY с функциями ранжирования, значения можно проранжировать внутри групп. Например, можно отобрать данные о втором по счёту заказе для каждого пользователя:

In [58]:
SQL = '''WITH orders AS
  (SELECT *,
          ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY event_dt) AS rn
   FROM online_store.orders)
SELECT *
FROM orders
WHERE rn = 2; '''


Выведите все поля таблицы tools_shop.orders и проранжируйте заказы для каждого клиента в зависимости от даты оплаты заказа — от меньшей к большей.

In [59]:
SQL = '''SELECT *, 
RANK() OVER (PARTITION BY user_id ORDER BY paid_at)
FROM tools_shop.orders'''


Выведите все поля таблицы tools_shop.events и проранжируйте события для каждого клиента в зависимости от его даты — от большей к меньшей.

In [60]:
SQL = '''SELECT *,
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY CAST(event_time AS timestamp) DESC) 
FROM tools_shop.events'''

Чтобы использовать агрегирующие функции в качестве оконных, после функции указывают выражение OVER и передают функции аргумент — поле, по которому нужно рассчитать значение. Также в выражении OVER можно указать операторы PARTITION BY и ORDER BY.  
Объединив данные в окно по дате заказа, можно найти средний чек по дням.

In [61]:
SQL = '''SELECT *,
       AVG(revenue) OVER (PARTITION BY event_dt) AS avg_rev
FROM online_store.orders; '''

Как и в случае с обычными агрегирующими функциями, результат можно округлить. Обратите внимание на аргумент, который передают функции ROUND:

In [62]:
SQL = '''SELECT *,
       ROUND(AVG(revenue) OVER (PARTITION BY event_dt), 2) AS avg_rev
FROM online_store.orders; '''

Для каждого пользователя можно найти дату последнего заказа. Данные объединены в окно по user_id.

In [63]:
SQL = '''SELECT *,
       MAX(event_dt) OVER (PARTITION BY user_id) AS last_order_dt
FROM online_store.orders'''

Сформировав окна по event_dt, можно посчитать сумму выручки за каждый день. 

In [64]:
SQL = '''SELECT *,
       SUM(revenue) OVER (PARTITION BY event_dt) AS daily_rev
FROM online_store.orders; '''

Объединив данные по пользователям, можно посчитать, сколько у каждого из них заказов.

In [65]:
SQL = '''SELECT *,
       COUNT(*) OVER (PARTITION BY user_id) AS orders_cnt
FROM online_store.orders; '''

Рассчитайте общее количество заказов в таблице tools_shop.orders по дням. Выведите все поля таблицы и новое поле с количеством заказов.

In [66]:
SQL = '''SELECT *, COUNT(created_at) OVER (PARTITION BY created_at::date)
FROM tools_shop.orders'''

Оператор ORDER BY в выражении OVER позволяет не только сортировать значения. Если сочетать оператор с агрегирующими функциями, можно производить вычисления кумулятивно, то есть с накоплением.   
Сумма с накоплением  
Чаще всего считают сумму с накоплением: она показывает сумму всех чисел в наборе данных до текущего значения.  
Покажем, как сделать такие расчёты в SQL. Можно рассчитать сумму затрат на рекламу для канала Yandex с накоплением.  

In [67]:
SQL = '''SELECT *,
       SUM(costs) OVER (ORDER BY dt) AS costs_cum
FROM online_store.costs
WHERE channel = 'Yandex'; '''

Запрос отсортировал данные по возрастанию значения в поле dt — это поле указано после оператора ORDER BY в выражении OVER. Сумма с накоплением считается так: к значению предыдущей записи прибавляется значение текущей — и так с каждой записью до конца таблицы.
Посмотрите, как выглядит итоговая таблица, которую выведет запрос без фильтра channel = 'Yandex'. В поле dt, по которому сортируют данные, встречается несколько одинаковых значений, и в таком случае значения costs в записях с одинаковой датой будут складываться. При этом сумма будет также рассчитана кумулятивно. 

Сумму с накоплением можно рассчитать и для каждого окна отдельно. Для этого нужно добавить оператор PARTITION BY и указать нужное поле. Этот запрос рассчитает общее время сессий с накоплением для каждого пользователя:

In [68]:
SQL = '''SELECT user_id,
       session_duration,
       session_start,
       SUM(session_duration) OVER (PARTITION BY user_id ORDER BY session_start)
FROM online_store.sessions; '''

Если вы хотите проранжировать записи, используйте функцию ROW_NUMBER() — так ваш код будет логичнее и понятнее другим. 
Функции MIN(), MAX(), AVG() тоже используют для расчёта кумулятивных значений. Если сочетать эти функции с оператором ORDER BY в выражении OVER, при каждом новом расчёте минимума или среднего будет учитываться текущая запись вместе с предыдущими. 
Взгляните на результаты следующих запросов:

In [69]:
SQL = '''SELECT *,
       MIN(costs) OVER (ORDER BY dt) AS costs_cum
FROM online_store.costs
WHERE channel = 'Yandex'; '''
SQL = '''SELECT *,
       MAX(costs) OVER (ORDER BY dt) AS costs_cum
FROM online_store.costs
WHERE channel = 'Yandex'; '''
SQL = '''SELECT *,
       AVG(costs) OVER (ORDER BY dt) AS costs_cum
FROM online_store.costs
WHERE channel = 'Yandex' '''

hапишите запрос к таблице tools_shop.orders, который выведет:
дату и время заказа created_at;
сумму заказа total_amt;
сумму заказа с накоплением, отсортированную по возрастанию даты и времени заказа.

In [70]:
SQL = '''SELECT created_at, total_amt,
SUM(total_amt) OVER (ORDER BY created_at)
FROM tools_shop.orders'''


Напишите запрос к таблице tools_shop.orders, который выведет:
дату и время заказа created_at;
сумму заказа total_amt;
сумму заказа с накоплением, отсортированную по возрастанию даты и времени заказа.

In [71]:
SQL = '''SELECT created_at, total_amt,
SUM(total_amt) OVER (ORDER BY created_at)
FROM tools_shop.orders'''

Функции LEAD() и LAG() относятся к третьему типу оконных функций — функциям смещения. Функции смещения возвращают данные из других записей в зависимости от их расстояния от текущей записи. 
С помощью функций смещения можно для каждой записи с заказом пользователя вернуть дату прошлого или следующего заказа — previous_order_dt и next_order_dt соответственно. Функция LAG() позволяет возвращать предыдущие записи, а LEAD() — следующие.

In [72]:
SQL = '''SELECT user_id,
       event_dt,
       LAG(event_dt) OVER (PARTITION BY user_id ORDER BY event_dt) AS previous_order_dt,
       LEAD(event_dt) OVER (PARTITION BY user_id ORDER BY event_dt) AS next_order_dt
FROM online_store.orders
WHERE user_id IN (300768196,
                  840452722,
                  59432616)
ORDER BY user_id; '''

Pазберём синтаксис подробнее. У функций есть несколько аргументов:
LEAD(<поле>, <смещение>, <значение по умолчанию>) OVER (<определение окна>);
LAG(<поле>, <смещение>, <значение по умолчанию>) OVER (<определение окна>).
Аргумент <поле> указывает, из какого поля нужно вернуть значения. 
Аргумент <смещение> показывает, на какое количество строк относительно текущей должно произойти смещение. 
Аргумент <значение по умолчанию> указывает, какое значение нужно вернуть в случае, если нужной строки в таблице нет. 
В запросе выше функциям LEAD() и LAG() передали всего один аргумент — поле event_dt. Дело в том, что у двух других аргументов есть значения по умолчанию. Если не указать аргумент для смещения, он будет составлять 1. В таком случае функции будут возвращать записи, которые находятся либо сразу за текущей записью, либо перед ней. 
Третий аргумент тоже можно не указывать — в этом случае функции по умолчанию вернут NULL в тех случаях, если нужного значения в поле нет.
К запросам