# Знакомимся с данными

### В данном блоке мы будем работать с данными о компании, организующей перевозки грузов.

### Интересующие нас данные хранятся в таблицах **city**, **customer**, **driver**, **shipment**, **truck**. Давайте внимательно их изучим.

### Ниже представлена ER-диаграмма (от англ. entity-relation, дословно — «сущность-связь»), которая отображает существующие связи между отдельными таблицами.

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/5903f8fada18b9da7c7c31ce8477feb6/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/dst3-u2-md4_1_1.jpg)

### Таблица **city** — это справочник городов. Структура справочника представлена ниже.

|НАЗВАНИЕ ПОЛЯ|	ТИП ДАННЫХ|	ОПИСАНИЕ|
|------------|------------|---------|
|city_id	|integer	|уникальный идентификатор города, первичный ключ|
|city_name	|text	|название города|
|state|	text|	штат, к которому относится город|
|population|	integer	|население города|
|area	|numeric	|площадь города|

### Таблица **customer** — это справочник клиентов. У компании, с данными которой мы работаем, только корпоративные клиенты, поэтому в таблице нет привычных данных о возрасте и поле. Справочник содержит следующие поля:

|НАЗВАНИЕ ПОЛЯ|	ТИП ДАННЫХ|	ОПИСАНИЕ|
|------------|------------|---------|
|cust_id	|integer|	уникальный идентификатор клиента, первичный ключ|
|cust_name	|text|	название клиента|
|annual_revenue	|numeric|	ежегодная выручка|
|cust_type|	text	|тип пользователя|
|address|	text	|адрес|
|zip	|integer	|почтовый индекс|
|phone	|text	|телефон|
|city_id|	integer|	идентификатор города, внешний ключ к таблице city|

### Следующая таблица  **driver** — справочник водителей. Перечень сведений, содержащихся в таблице, представлен ниже.

|НАЗВАНИЕ ПОЛЯ|	ТИП ДАННЫХ|	ОПИСАНИЕ|
|------------|------------|---------|
|driver_id	|integer|	уникальный идентификатор водителя, первичный ключ|
|first_name|	text|	имя водителя|
|last_name|	text|	фамилия водителя|
|address|	text|	адрес водителя|
|zip_code|	integer|	почтовый индекс водителя|
|phone	|text	|телефон водителя|
|city_id|	integer|	идентификатор города водителя, внешний ключ к таблице city|

### В таблице **truck** хранится информация о грузовиках, на которых осуществляются перевозки. Данные о них представлены в следующем виде:

|НАЗВАНИЕ ПОЛЯ|	ТИП ДАННЫХ|	ОПИСАНИЕ|
|------------|------------|---------|
|truck_id|	integer|	Уникальный идентификатор грузовика, первичный ключ|
|make	|text|	Производитель грузовика|
|model_year|	integer|	Дата выпуска грузовика|

### Последняя таблица в датасете, **shipment**, — таблица с данными непосредственно о доставках. Она описывает взаимодействие всех перечисленных сущностей, а потому содержит наибольшее количество ссылок на другие таблицы.

|НАЗВАНИЕ ПОЛЯ|	ТИП ДАННЫХ|	ОПИСАНИЕ|
|------------|------------|---------|
|ship_id|	integer|	уникальный идентификатор доставки, первичный ключ|
|cust_id	|integer	|идентификатор клиента, которому отправлена доставка, внешний ключ к таблице customer|
|weight	|numeric|	вес посылки|
|truck_id|	integer|	идентификатор грузовика, на котором отправлена доставка, внешний ключ к таблице truck|
|driver_id|	integer	|идентификатор водителя, который осуществлял доставку, внешний ключ к таблице driver|
|city_id	|integer|	идентификатор города в который совершена доставка, внешний ключ к таблице city|
|ship_date	|date|	дата доставки|



In [None]:
'''
select
    d.first_name,
    count(c.cust_id)
from sql.shipment s
    join sql.customer c on s.cust_id = c.cust_id
    join sql.driver d on s.driver_id = d.driver_id
group by 1 
order by 2 desc
'''

In [None]:
# Так и не разобрался как добавить условие по 2017 году
'''
select
    c.cust_name,
    count(s.ship_id)
from sql.shipment s
    join sql.customer c on s.cust_id = c.cust_id

group by 1
order by 2 desc
'''

# UNION

## ПРИНЦИП И УСЛОВИЯ РАБОТЫ UNION

### ✍ Вернёмся к центральному вопросу модуля: как соединить несколько результатов, чтобы получить в выводе один общий?

### Чтобы разобраться в этом вопросе, смоделируем ситуацию.

### Допустим, мы хотим собрать из справочников по книгам и фильмам один, так чтобы в нём содержались названия произведений, а также их описание — книга или фильм.

### Для этого напишем простой запрос:

In [None]:
'''
SELECT book_name object_name, 'книга' object_descritption /*выбираем столбец с названием book_name, задаём алиас для столбца object_name, задаём во второй колонке объект ‘книга’ с алиасом для столбца object_descritption*/
FROM public.books /*из схемы public и таблицы books*/
UNION ALL /*оператор присоединения*/
SELECT movie_title, 'фильм' /*выбираем столбец movie_title, сами задаём во второй колонке объект ‘фильм’*/
FROM sql.kinopoisk /*из схемы sql и таблицы kinopoisk*/
'''

### Визуально произведённое нами действие можно представить следующим образом:

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/7e7950b737303d748fd0b38616e377d8/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/dst3-u2-md4_2_1.png)

### Общий принцип мы поняли, разберёмся в деталях:

### В запросе мы использовали оператор UNION ALL — он присоединяет любой результат запроса к другому «снизу» при условии, что у них одинаковая структура, а именно:

* ### одинаковый тип данных;

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/7408e0f709fc45c5fa51281cffc79071/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/dst3-u2-md4_2_2.png)

* ### одинаковое количество столбцов;

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4473f5eb49bd6b26056f6d645db3be3a/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/dst3-u2-md4_2_3.png)

* ### одинаковый порядок столбцов согласно типу данных.

![Alt text](https://lms-cdn.skillfactory.ru/assets/courseware/v1/5296aeca924ef441d7b54a4383879885/asset-v1%3ASkillFactory%2BDSPR-2.0%2B14JULY2021%2Btype%40asset%2Bblock/dst3-u2-md4_2_4.png)

## ВИДЫ UNION

### Оператор присоединения существует в двух вариантах:

* ### UNION выводит только уникальные записи;
* ### UNION ALL присоединяет все строки последующих таблиц к предыдущим, без ограничений по уникальности.
### Важно! UNION оставляет только уникальные значения, а потому требует дополнительных вычислительных мощностей и памяти (в данном случае можно провести аналогию с DISTINCT). Поэтому если вы уверены в отсутствии дубликатов в данных или они вам не важны, предпочтительнее использовать UNION ALL.

## СИНТАКСИС

### Запрос строится таким образом:

### SELECT         n columns
### FROM 
###          table_1
### UNION ALL
### SELECT 
###          n columns
### FROM 
###          table_2
### ...
### UNION ALL
### SELECT 
###          n columns
### FROM 
###          table_n
### Результатом выполнения такого запроса будут строки table_1, table_2, ..., table_n, соединённые одни под другими и выведенные в единой выдаче.

### Важно! Названия итоговых колонок в выводе будут такие же, как в первом блоке SELECT, даже если они отличаются в других блоках подзапросов.
### Пришла пора испытать функцию UNION(ALL) на практике.

### Обратимся к нашему датасету о транспортной компании и посмотрим, как сформировать справочник с ID всех таблиц и указанием объекта, к которому он относится.

In [None]:
'''
SELECT
         c.city_id object_name,  'id города' object_type /*выбираем колонку city_id и задаём ей алиас object_name, сами задаём объект 'id города' и название столбца object_type*/
FROM 
         sql.city c /*из схемы sql и таблицы city, задаём алиас таблице — с*/
UNION ALL /*оператор присоединения*/
SELECT
         d.driver_id other_name,  'id водителя' other_type /*выбираем колонку driver_id и задаём ей алиас other_name, сами задаём объект 'id водителя' и название столбца other_type*/
FROM 
         sql.driver d  /*из схемы sql и таблицы driver, задаём алиас таблице — d*/
UNION ALL /*оператор присоединения*/
SELECT
         s.ship_id,  'id доставки' /*выбираем колонку ship_id, сами задаём объект 'id доставки'*/
FROM 
         sql.shipment s /*из схемы sql и таблицы shipment, задаём алиас таблице — s*/
UNION ALL /*оператор присоединения*/
SELECT
         c.cust_id,  'id клиента' /*выбираем колонку cust_id, сами задаём объект 'id клиента'*/
FROM 
         sql.customer c /*из схемы sql и таблицы customer, задаём алиас таблице — c*/
UNION ALL /*оператор присоединения*/
SELECT
         t.truck_id,  'id грузовика' /*выбираем колонку truck_id, сами задаём объект 'id грузовика'*/
FROM 
         sql.truck t /*из схемы sql и таблицы truck, задаём алиас таблице — t*/
ORDER BY 1 /*сортировка по первому столбцу*/
'''

### Обратите внимание! Несмотря на исходные названия колонок other_name и other_type во втором подзапросе, в выводе мы получим названия, которые дали в первом блоке: object_name и object_type.

### Другая особенность — в применении сортировки ORDER BY: она всегда будет относиться к итоговому результату всего запроса с UNION ALL.

### В случаях, когда необходимо применить команду ORDER BY или LIMIT не к итоговому результату, а к каждой части запроса, можно обернуть подзапросы в скобки.

### Чтобы посмотреть, как это работает, вернёмся к нашему примеру с общим справочником по фильмам и книгам.

### Мы уже знаем, что можно легко и непринуждённо применить операторы ORDER BY и LIMIT ко всему результату запроса.

In [None]:
'''
SELECT book_name object_name, 'книга' object_descritption 
FROM public.books
UNION ALL
SELECT movie_title, 'фильм' 
FROM sql.kinopoisk
ORDER BY 1
LIMIT 1
'''

### Всё бы хорошо, только в таком случае отсортирован будет весь общий справочник, а в выводе останется одна строка с названием объекта, идущим первым по алфавиту.

### А если мы не хотим общую сортировку? Может, нам нужны строки с названием как фильма, так и книги, идущих первыми по алфавиту.

### Нет ничего проще — отсортируем каждую часть запроса по отдельности и объединим результаты!

### Просто добавим ORDER BY и LIMIT ещё и в первую часть запроса:

In [None]:
'''
SELECT book_name object_name, 'книга' object_descritption 
FROM public.books
ORDER BY 1
LIMIT 1
UNION ALL
SELECT movie_title, 'фильм' 
FROM sql.kinopoisk
ORDER BY 1
LIMIT 1
'''

### Вместо результата получим сообщение о синтаксической ошибке: "...syntax error at or near "UNION"..." Очевидно, этот фокус не удался.

### Не стоит огорчаться, ведь проблему можно решить одним (ну, почти) движением руки — просто добавив скобки вокруг каждой из частей запроса.

In [None]:
'''
(SELECT book_name object_name, 'книга' object_descritption 
FROM public.books
ORDER BY 1
LIMIT 1)
UNION ALL
(SELECT movie_title, 'фильм' 
FROM sql.kinopoisk
ORDER BY 1
LIMIT 1)
'''

In [None]:
# 2.1
'''
select
  c.city_name, 'city'
from sql.city c
union
select
  ci.state, 'state'
from sql.city ci
union
select
  d.first_name, 'driver'
from sql.driver d
union
select
  t.make, 'truck'
from sql.truck t
order by 1, 2
'''

In [None]:
# 2.2
'''
select
  c.city_name object_name
from sql.city c
union all
select
  ci.state
from sql.city ci
order by 1
'''

In [None]:
# 2.3
'''
select
  c.city_name object_name
from sql.city c
union
select
  ci.state
from sql.city ci
order by 1
'''