# SQL UNION

###  Содержание <a class="anchor" id=0></a>
- [1. Знакомимся с данными](#1)
- [2. UNION](#2)
- [2.1 Виды UNION](#2-1)
- [3. UNION и ограничение типов данных](#3)
- [4. UNION ALL и промежуточные итоги](#4)
- [5. UNION и дополнительные условия](#5)
- [6. UNION и ручная генерация](#6)
- [7. EXCEPT](#6)
- [8. INTERSECT](#6)
- [9. Итоги. Закрепление знаний](#6)
- [10. Дополнительные задачи по SQL](#6)


## Знакомимся с данными <a class="anchor" id=1></a>

[к содержанию](#0)

В данном блоке мы будем работать с данными о компании, организующей перевозки грузов.

Интересующие нас данные хранятся в таблицах `city`, `customer`, `driver`, `shipment`, `truck`. Давайте внимательно их изучим.

Ниже представлена `ER`-диаграмма (от англ. `entity-relation`, дословно — «сущность-связь»), которая отображает существующие связи между отдельными таблицами.

<img src=sql_4_img1.jpg>

Таблица `city` — это справочник городов. Структура справочника представлена ниже.

<img src=sql_4_img2.png>

Таблица `customer` — это справочник клиентов. У компании, с данными которой мы работаем, только корпоративные клиенты, поэтому в таблице нет привычных данных о возрасте и поле. Справочник содержит следующие поля:

<img src=sql_4_img3.png>

Следующая таблица — `driver` — справочник водителей. Перечень сведений, содержащихся в таблице, представлен ниже.

<img src=sql_4_img4.png>

В таблице `truck` хранится информация о грузовиках, на которых осуществляются перевозки. Данные о них представлены в следующем виде:

<img src=sql_4_img5.png>

Последняя таблица в датасете, `shipment`, — таблица с данными непосредственно о доставках. Она описывает взаимодействие всех перечисленных сущностей, а потому содержит наибольшее количество ссылок на другие таблицы.

<img src=sql_4_img6.png>

In [None]:
/* Укажите название города с максимальным весом единичной доставки. */
select
    c.city_name,
    s.weight
from
    sql.city c
join sql.shipment s on s.city_id = c.city_id
order by 2 desc

/* Сколько различных производителей грузовиков перечислено в таблице truck? */
select
    count(distinct make)
from
    sql.truck

/* Как зовут водителя (first_name), который совершил наибольшее количество доставок одному клиенту? */
select
    d.first_name,
    count(distinct(s.cust_id))
from
    sql.driver d 
join sql.shipment s on d.driver_id = s.driver_id
group by d.first_name
order by 2 desc

/* Укажите даты первой и последней по времени доставок в таблице shipment. */
select
    min(ship_date),
    max(ship_date)
from
    sql.shipment

/* Укажите имя клиента, получившего наибольшее количество доставок за 2017 год. */
select
    cus.cust_name,
    count(s.ship_id),
    extract(year from s.ship_date)
from
    sql.customer cus
join sql.shipment s on cus.cust_id = s.cust_id
group by 1,3
having extract(year from s.ship_date) = 2017
order by 2 desc


## UNION <a class="anchor" id=2></a>

[к содержанию](#0)

Допустим, мы хотим собрать из справочников по книгам и фильмам один, так чтобы в нём содержались названия произведений, а также их описание — книга или фильм.

Для этого напишем простой запрос:

In [None]:
SELECT book_name object_name, 'книга' object_descritption /*выбираем столбец с названием book_name, задаём алиас для столбца object_name, задаём во второй колонке объект ‘книга’ с алиасом для столбца object_descritption*/
FROM public.books /*из схемы public и таблицы books*/
UNION ALL /*оператор присоединения*/
SELECT movie_title, 'фильм' /*выбираем столбец movie_title, сами задаём во второй колонке объект ‘фильм’*/
FROM sql.kinopoisk /*из схемы sql и таблицы kinopoisk*/

Визуально произведённое нами действие можно представить следующим образом:

<img src=sql_4_img7.png>

Общий принцип мы поняли, разберёмся в деталях:

В запросе мы использовали оператор `UNION ALL` — он присоединяет любой результат запроса к другому «снизу» при условии, что у них одинаковая структура, а именно:

#### одинаковый тип данных

<img src=sql_4_img8.png>

#### одинаковое количество столбцов

<img src=sql_4_img9.png>

#### одинаковый порядок столбцов согласно типу данных

<img src=sql_4_img10.png>

## ВИДЫ UNION <a class="anchor" id=2-1></a>

[к содержанию](#0)

Оператор присоединения существует в двух вариантах:

* `UNION` выводит только **уникальные записи**;

* `UNION ALL` присоединяет **все строки** последующих таблиц к предыдущим, без ограничений по уникальности.

>**Важно!** `UNION` оставляет только уникальные значения, а потому требует дополнительных вычислительных мощностей и памяти (в данном случае можно провести аналогию с `DISTINCT`). Поэтому если вы уверены в отсутствии дубликатов в данных или они вам не важны, предпочтительнее использовать `UNION ALL`.

### СИНТАКСИС

Запрос строится таким образом:

In [None]:
SELECT
    n columns
FROM 
    table_1

UNION ALL

SELECT 
    n columns
FROM 
    table_2
...

UNION ALL

SELECT 
    n columns
FROM 
    table_n

Результатом выполнения такого запроса будут строки `table_1`, `table_2`, `...`, `table_n`, соединённые одни под другими и выведенные в единой выдаче.

>**Важно!** Названия итоговых колонок в выводе будут такие же, как в первом блоке `SELECT`, даже если они отличаются в других блоках подзапросов.
Пришла пора испытать функцию `UNION(ALL)` на практике.

Обратимся к нашему датасету о транспортной компании и посмотрим, как сформировать справочник с `ID` всех таблиц и указанием объекта, к которому он относится

In [None]:
SELECT
    c.city_id object_name, 'id города' object_type
FROM 
    sql.city c
UNION ALL
SELECT
    d.driver_id other_name, 'id водителя' other_type
FROM 
    sql.driver d
UNION ALL
SELECT
    s.ship_id, 'id доставки'
FROM 
    sql.shipment s
UNION ALL
SELECT
    c.cust_id, 'id клиента'
FROM 
    sql.customer c
UNION ALL
SELECT
    t.truck_id, 'id грузовика'
FROM 
    sql.truck t
ORDER BY 1

>**Обратите внимание!** Несмотря на исходные названия колонок `other_name` и `other_type` во втором подзапросе, в выводе мы получим названия, которые дали в первом блоке: `object_name` и `object_type`.

Другая особенность — в применении сортировки `ORDER BY`: она всегда будет относиться **к итоговому результату** всего запроса с `UNION ALL`.

В случаях, когда необходимо применить команду `ORDER BY` или `LIMIT` не к итоговому результату, а к каждой части запроса, можно **обернуть подзапросы в скобки**.

Чтобы посмотреть, как это работает, вернёмся к нашему примеру с общим справочником по фильмам и книгам.

Мы уже знаем, что можно легко и непринуждённо применить операторы `ORDER BY` и `LIMIT` ко всему результату запроса.

In [None]:
SELECT book_name object_name, 'книга' object_descritption 
FROM public.books
UNION ALL
SELECT movie_title, 'фильм' 
FROM sql.kinopoisk
ORDER BY 1
LIMIT 1

Всё бы хорошо, только в таком случае отсортирован будет весь общий справочник, а в выводе останется одна строка с названием объекта, идущим первым по алфавиту.

А если мы не хотим общую сортировку? Может, нам нужны строки с названием как фильма, так и книги, идущих первыми по алфавиту.

Нет ничего проще — отсортируем каждую часть запроса **по отдельности и объединим результаты!**

In [None]:
(SELECT book_name object_name, 'книга' object_descritption 
FROM public.books
ORDER BY 1
LIMIT 1)
UNION ALL
(SELECT movie_title, 'фильм' 
FROM sql.kinopoisk
ORDER BY 1
LIMIT 1)

Напишите запрос, который создаёт уникальный алфавитный справочник всех городов, штатов, имён водителей и производителей грузовиков.
Результатом запроса должны быть два столбца: название и тип объекта (city, state, driver, truck).
Отсортируйте список по названию объекта, а затем — по типу.

In [None]:
SELECT c.city_name "название", 'city' "тип объекта"
FROM sql.city c
UNION
SELECT c.state, 'state'
FROM sql.city c
UNION
SELECT d.first_name, 'driver'
FROM sql.driver d
UNION
SELECT t.make, 'truck'
FROM sql.truck t
ORDER BY 1,2


Напишите запрос, который соберёт имена всех упомянутых городов и штатов с таблицы `city`.
Результатом запроса должен быть один столбец `object_name`, отсортированный в алфавитном порядке.

In [None]:
SELECT
    c.city_name object_name
FROM 
    sql.city c
UNION ALL
SELECT
    c.state
FROM 
    sql.city c
ORDER BY 1

Выполнив предыдущий запрос, мы получили города с одинаковыми названиями, но находящиеся в разных штатах, а также большое количество дублирующихся названий штатов.
Перепишите предыдущий запрос так, чтобы остались только уникальные названия городов и штатов.
Результатом запроса должен быть один столбец object_name, отсортированный в алфавитном порядке.

In [None]:
SELECT
    c.city_name object_name
FROM 
    sql.city c
UNION
SELECT
    c.state
FROM 
    sql.city c
ORDER BY 1

## UNION и ограничение типов данных <a class="anchor" id=3></a>

[к содержанию](#0)

### ПОЧЕМУ ТАК ВАЖЕН ТИП ДАННЫХ?

Как мы уже знаем, `UNION` может быть использован только в случае полного соответствия столбцов и их типов в объединяемых запросах.

Допустим, мы хотим вывести список всех `id` городов и их названий в одном столбце.

In [None]:
/* ебанем в лоб */
SELECT 
    c.city_id
FROM
    sql.city c
UNION ALL
SELECT 
    cc.city_name
FROM
    sql.city cc


**"ERROR: UNION types integer and text cannot be matched"**

>Если мы всё же хотим выполнить поставленную задачу, придётся привести оба столбца к одному типу данных. Не каждый текст может быть приведён к числу, зато каждое число может быть представлено в текстовом формате.

Забегая вперёд, скажем пару слов о типизации столбцов. Для типизации в Postgres составляется запрос по модели `column_name::column_type`.

Таким образом, чтобы перевести `city_id` в текст, нам потребуется написать `city_id::text`.

>**Важно!** Любой тип данных может быть приведён к текстовому формату — эту возможность целесообразно использовать для соединения разнородных сущностей. Главное — помнить, что сортировка текста отличается от сортировки чисел и дат.

In [None]:
SELECT 
    c.city_id::text
FROM
    sql.city c
UNION ALL
SELECT 
    cc.city_name
FROM
    sql.city cc

Напишите запрос, который объединит в себе все почтовые индексы водителей и их телефоны в единый столбец-справочник. Также добавьте столбец с именем водителя и столбец с типом контакта (`phone` или `zip` в зависимости от типа). Столбцы к выводу: `contact`, `first_name`, `contact_type`.
Отсортируйте список по столбцу с контактными данными в порядке возрастания, а затем — по имени водителя.

In [None]:
SELECT
    d.phone "contact",
    d.first_name,
    'phone' "contact_type"
FROM sql.driver d
union all
SELECT
    d.zip_code::text "contact",
    d.first_name,
    'zip' "contact_type"
FROM sql.driver d
ORDER BY 1, 2

## UNION ALL и промежуточные итоги<a class="anchor" id=4></a>

[к содержанию](#0)

Кроме **агрегатных функций**, в запросах с `UNION` могут использоваться функции **группировки и выборки**.

Попробуем вывести обобщённые данные о населении по всем городам, с детализацией до конкретного города.

In [None]:
SELECT
    c.city_name,
    c.population
FROM
    sql.city c

UNION ALL

SELECT
    'total',
    SUM(c.population)
FROM
    sql.city c
ORDER BY 2 DESC

Визуально это действие можно представить так:

<img src=sql_4_img11.png>

Выполнив запрос в Metabase, вы заметите, что сначала выведен итоговый результат с суммой населения всех городов в таблице, а затем по каждому городу в отдельности.

Напишите запрос, который выводит общее число доставок `total_shipments`, а также количество доставок в каждый день. Необходимые столбцы: `date_period`, `cnt_shipping`.
Не забывайте о единой типизации.
Упорядочьте по убыванию столбца `date_period`.

In [None]:
SELECT
    s.ship_date::text, /* приведем к тексту иначе UNION развыёбывается соединять "дату" с "текстом"*/ 
    COUNT(s.ship_id)
FROM
    sql.shipment s
GROUP BY 1

UNION ALL

SELECT
    'total_shipments',
    COUNT(s.ship_id)
FROM
    sql.shipment s
ORDER BY 1 DESC

## UNION и дополнительные условия <a class="anchor" id=5></a>

[к содержанию](#0)

`UNION` также может быть использован для разделения существующей выборки по критерию **«выполнение определённого условия»**.

Например, с помощью UNION можно отобразить, у кого из водителей заполнен столбец с номером телефона.

In [None]:
SELECT
    d.first_name,
    d.last_name,
    'телефон заполнен' phone_info
FROM
    sql.driver d
WHERE d.phone IS NOT NULL

UNION

SELECT
    d.first_name,
    d.last_name,
    'телефон не заполнен' phone_info
FROM
    sql.driver d
WHERE d.phone IS NULL

Напишите запрос, который выведет все города и штаты, в которых они расположены, а также информацию о том, была ли осуществлена доставка в этот город:

* если в город была осуществлена доставка, то выводим 'доставка осуществлялась';
* если нет — выводим 'доставка не осуществлялась'.

Столбцы к выводу: `city_name`, `state`, `shipping_status`.

Отсортируйте в алфавитном порядке по городу, а затем — по штату.

In [None]:
SELECT
    c.city_name,
    c.state,
    'доставка не осуществлялась' shipping_status
FROM
    sql.city c 
LEFT JOIN sql.shipment s ON c.city_id = s.city_id 
WHERE s.ship_id IS NULL
UNION /* выводи без дублей блять */
SELECT
    c.city_name,
    c.state,
    'доставка осуществлялась' shipping_status
FROM
    sql.city c 
LEFT JOIN sql.shipment s ON c.city_id = s.city_id 
WHERE s.ship_id IS NOT NULL
ORDER BY 1,2

Напишите запрос, который выводит два столбца: `city_name` и `shippings_fake`. Выведите города, куда совершались доставки.

Пусть первый столбец содержит название города, а второй формируется так:

* если в городе было более десяти доставок, вывести количество доставок в этот город как есть;
* иначе — вывести количество доставок, увеличенное на пять.

Отсортируйте по убыванию получившегося «нечестного» количества доставок, а затем — по имени в алфавитном порядке.

In [None]:
SELECT
    c.city_name,
    COUNT(s.ship_id) shipping_fake
FROM
    sql.city c 
LEFT JOIN sql.shipment s ON c.city_id = s.city_id
GROUP BY 1
HAVING COUNT(s.ship_id) > 10
UNION /* Без дублей */ 
SELECT
    c.city_name,
    COUNT(s.ship_id)+5 shipping_fake
FROM
    sql.city c 
LEFT JOIN sql.shipment s ON c.city_id = s.city_id
GROUP BY 1
HAVING COUNT(s.ship_id) BETWEEN 1 AND 10 /* Только те города куда была хотябы одна доствка*/ 
ORDER BY 2 DESC, 1


## UNION и ручная генерация <a class="anchor" id=6></a>

[к содержанию](#0)

`UNION` можно использовать для создания **справочников прямо в коде запроса**. К примеру, если мы хотим вручную ввести какие-то значения и произвести с ними некоторые манипуляции или дополнить существующую выдачу своими значениями.

Составим запрос, который позволит вывести первые **три буквы алфавита** и их порядковые номера.

In [None]:
SELECT 
    'a' letter, /* зададим первое значение первого столбца и положим его в столбец 'letter' */
    '1' ordinal_position /* зададим первое значение второго столбца и положим его в столбец 'ordinal_position' */
UNION 
SELECT 
    'b','2' /* обогощаем полученную в первом шаге таблицу новыми значениями */ 
UNION 
SELECT
    'c','3' /* и так можно до безконечности */

Существуют сложные алгоритмы сравнения текстовых значений, но главный смысл сводится к одному: сравнение производится на основе таблицы unicode и позиции элемента в ней с учётом определённых условий.

Напишите запрос, который выберет наибольшее из значений:

* 1000000;
* 541;
* -500;
* 100.

In [None]:
SELECT  1000000::text
UNION ALL
SELECT  541::text
UNION ALL
SELECT  -500::text
UNION ALL
SELECT  100::text
ORDER BY 1 DESC 
LIMIT 1

То же самое только для текствого типа данных:

In [None]:
SELECT  '1000000'
UNION ALL
SELECT  '541'
UNION ALL
SELECT  '-500'
UNION ALL
SELECT  '100'
ORDER BY 1 DESC 
LIMIT 1

Совсем охуеем и сравним операторы:

In [None]:
SELECT  '+'
UNION ALL
SELECT  '-'
UNION ALL
SELECT  '='
UNION ALL
SELECT  '/'
ORDER BY 1 DESC 
LIMIT 1


## EXCEPT <a class="anchor" id=7></a>

[к содержанию](#0)

### ИСКЛЮЧАЕМ ПОВТОРЯЮЩИЕСЯ ДАННЫЕ

Предположим, нам нужно узнать, в какие города осуществлялась доставка, **за исключением** тех, в которых проживают водители.

In [None]:
SELECT
    c.city_name /*выбираем столбец city_name*/
FROM
    sql.shipment s /*из схемы sql и таблицы shipment, задаём таблице алиас s*/
JOIN sql.city c ON s.city_id = c.city_id /*внутреннее присоединение из схемы sql таблицы city, задав ей алиас c, по ключам city_id*/

EXCEPT /*оператор присоединения*/

SELECT
    cc.city_name  /*выбираем столбец city_name*/
FROM
    sql.driver d /*из схемы sql и таблицы driver, задаём таблице алиас d*/
JOIN sql.city cc ON d.city_id=cc.city_id /*внутреннее присоединение из схемы sql таблицы city, задав ей алияс cc, по ключам city_id*/
ORDER BY 1 /*сортировка по первому столбцу*/

Все водители проживают в городе Memphis, и мы видим, что он не выводится в результате запроса.

Как вы, должно быть, заметили, для решения этой задачи мы использовали оператор `EXCEPT`.

Чтобы лучше понять данный тип присоединения, предлагаем ознакомиться с **диаграммой Венна** — математическим инструментом, представляющим возможные логические связи между соединёнными наборами данных.

<img src=sql_4_img12.png>

Синтаксические правила для оператора `EXCEPT` такие же, как и для `UNION`:

* одинаковый тип данных;
* одинаковое количество столбцов;
* одинаковый порядок столбцов согласно типу данных.

Синтаксис выглядит следующим образом:

In [None]:
SELECT 
    n columns
FROM 
    table_1

EXCEPT

SELECT 
    n columns
FROM 
    table_2

>Мы уже знаем, как решить такую задачу с использованием `LEFT JOIN`. Вариант с `EXCEPT` будет полезен в тех случаях, когда у вас много столбцов и вам не хочется прописывать их равенство в условии для `JOIN`.

Предположим, у нас есть информация о продажах канцелярского магазина за май и июнь.

Какие-то позиции продавались и в том, и в другом месяце, а какие-то — только в одном. Использовав `EXCEPT`, мы можем оставить только те товары, которые есть в первом запросе (например, за май), но отсутствуют во втором запросе (например, за июнь).

Графически действие оператора можно представить следующим образом:

<img src=sql_4_img13.png>

Таким образом, при присоединении с помощью `EXCEPT` мы вывели только те товары, которые были проданы в мае, но не в июне. Чтобы найти продажи по тем позициям, что были реализованы в июне, а в мае — нет, необходимо поменять запросы местами.

Выведите список `zip`-кодов, которые есть в таблице `sql.driver`, но отсутствуют в таблице `sql.customer`. Отсортируйте по возрастанию, столбец к выводу — `zip`.

In [None]:
SELECT
    d.zip_code zip 
FROM
    sql.driver d 
EXCEPT
SELECT 
    c.zip zip 
FROM
    sql.customer c 
ORDER BY 1 

## INTERSECT <a class="anchor" id=8></a>

[к содержанию](#0)

## Итоги. Закрепление знаний <a class="anchor" id=9></a>

[к содержанию](#0)

## Дополнительные задачи по SQL <a class="anchor" id=10></a>

[к содержанию](#0)