# Подзапросы 
## Юнит 5. РАБОТА С БАЗАМИ ДАННЫХ. SQL
### Skillfactory: DSPR-19

### 5.1. EXISTS

Вы уже научились фильтровать одну таблицу по данным другой, используя оператор JOIN. Однако синтаксис SQL позволяет непосредственно в разделе where обращаться к полям другой таблицы. Для этого существует несколько основных способов.

Первый из них — ключевое слово EXISTS. EXISTS возвращает true, если результатом запроса является хотя бы одна строка, и false, если не существует ни одной.

Давайте разберем на примере. Предположим, нам нужно найти все штаты, в которых была совершена хотя бы одна доставка. Для начала выполните это задание, используя JOIN.  

### Задание 5.1.1
Напишите запрос, который в алфавитном порядке выводит названия штатов, где были совершены доставки.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select distinct c.state 
from shipment s 
left join city c on c.city_id = s.city_id 
order by 1

/* select distinct state
from shipping.city c
where exists (
select *
from shipping.shipment s
where s.city_id = c.city_id )
order by 1 */

**Как работает EXISTS?**  
Чтобы превратить наш запрос в противоположный, то есть вывести штаты, в которых есть города без доставок, нужно написать перед словом EXISTS слово NOT, которое позволит отфильтровать города без доставок: 

In [None]:
SELECT 
        distinct state
from 
        shipping.city c
where 
        exists 
                (
                    select 
                        *
                    from 
                        shipping.shipment s 
                    where 
                        s.city_id = c.city_id
                    )
order by 1


Давайте разберем этот код по частям.

Все части первого SELECT выглядят как обычно, кроме того, что в разделе WHERE после EXISTS идет другой запрос. Внутри этого запроса неважен список полей: в нем будет считаться только количество строк в результате, с учетом условия s.city_id = c.city_id, т. е. в таблице доставок будет проверяться наличие доставок в конкретный город.

Условие, как обычно, необязательно должно быть равенством, главное — чтобы результат его имел логический тип. Функция проверки условия выполняется для каждой строки и, как и в случае с INNER JOIN, остаются только те города, в которых были доставки. Из них мы и выбираем уникальные названия штатов.

При этом выносить условие поиска из подзапроса нельзя, т. к. таблица shipment не видна в рамках основного select. Следующий запрос не будет работать и вернет ошибку "SQL Error [42P01]: ERROR: missing FROM-clause entry for table "s"".

### Задание 5.1.2
Напишите запрос, который выводит все схемы и названия таблиц в базе, в которых нет первичных ключей. Отсортируйте оба столбца в алфавитном порядке (по возрастанию).

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select
    t.table_schema,
    t.table_name
from information_schema.tables t
where
    not exists(
select *
from information_schema.table_constraints c
where c.table_schema = t.table_schema
    and c.table_name = t.table_name
    and c.constraint_type IN ('PRIMARY KEY')
    )
order by 1, 2

**Преимущества EXISTS**  
Помимо использования EXISTS в WHERE, его результат также можно вывести в самом результате запроса. Это позволит нам использовать результат позже.

Попробуйте в Metabase! Например, мы можем разметить все города по наличию в них заказов следующим образом:

In [None]:
SELECT 
        city_name,
        exists 
            (
                select 
                    *
                from 
                    shipping.shipment s 
                where 
                    s.city_id = c.city_id
                ) has_shipments
from 
        shipping.city c
order by 1

Столбец has_shipments содержит логическое поле с результатом проверки наличия в конкретном городе доставок. Столбцы, содержащие подобные логические значения, старайтесь именовать понятно и согласно правилам английского языка: либо has_<свойство>, либо is_<свойство>.

EXISTS синтаксически более понятен в случае фильтрации. Помимо этого он часто работает быстрее JOIN, т. к. не требуется проверять все записи вложенного запроса на соответствие условию: при встрече хотя бы одной удовлетворяющей строки он возвращает true  и далее не сканирует таблицы.

Это очень удобно в случае поиска каких-то свойств для маленького справочника на основе большой таблицы с событиями. Например, EXISTS будет удобен для таблицы с партнерами, содержащей немного записей. Проверить наличие заходов на вебсайт конкретным партнером будет быстрее через EXISTS, чем через LEFT JOIN.

### Задание 5.1.3
Напишите запрос, который выводит названия всех городов и булевы поля, показывающие наличие клиентов, наличие водителей и наличие доставок в этом городе. Добавьте сортировку по названию городов.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select 
c.city_name
, exists(
select * 
from customer c2 
where c2.city_id  = c.city_id 
) has_customer
, exists(
select * 
from driver d2 
where d2.city_id  = c.city_id 
) has_driver
, exists(
select * 
from shipment s2 
where s2.city_id  = c.city_id 
) has_customer
from city c 
order by 1


### 5.2. IN

Используя подзапросы, можно также фильтровать значения в конкретном столбце, используя предикат IN.

Следующий запрос выведет все штаты, в которых есть водители с указанным номером телефона.

In [None]:
SELECT 
        distinct state
from 
        shipping.city c
where 
        c.city_id in  
            (
                select 
                    d.city_id
                from 
                    shipping.driver d
                where d.phone is not null
                )
order by 1

После указания названия поля пишется предикат IN. За ним — запрос, возвращающий любое количество строк, но обязательно только один столбец того же типа, что и фильтруемый. В нашем случае city_id может быть отфильтрован только другим целочисленным подзапросом. Если бы в SELECT после IN был текст или логический тип, вернулась бы ошибка несоответствия типов.

Попробуйте в Metabase! Замените d.city_id на "*" и увидите в результате ошибку о том, что в подзапросе слишком много колонок. Для отрицания IN перед ним добавляется NOT. 

В остальном синтаксис схож с EXISTS. Оператор IN удобно использовать, когда есть несколько мест, из которых вы собрали перечень нужных значений и хотите отфильтровать целевую таблицу.

Попробуйте в Metabase! В следующем примере мы подзапросом собрали таблицы с внешними ключами и numeric столбцами и вытащили информацию об этих таблицах. Также в подзапросах можно использовать все изученные ранее конструкции — агрегаты, JOIN и другие типы соединений.

In [None]:
select 
        *
from 
        information_schema."tables" t
where t.table_name in (
                            select 
                                c.table_name
                            from 
                                information_schema.columns c
                            where 
                                c.data_type = 'numeric'
                                and c.table_schema = 'shipping'
                            union  
                            select 
                                cc.table_name
                            from 
                                information_schema.table_constraints cc
                            where 
                                cc.constraint_type = 'FOREIGN KEY'
                                and cc.constraint_schema = 'shipping'
                            )

### Задание 5.2.1
Напишите запрос, который выводит все поля из таблицы доставок по водителям, совершившим более 90 доставок. Отсортируйте запрос по первому и второму столбцу.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select 
        s.*
from shipment s
where 
        driver_id in (
            select driver_id
                --, count(ship_id) 
            from shipment 
            group by driver_id 
            having count(ship_id) > 90 
            )
order by 1, 2

### 5.3. SELECT FROM SELECT
**SELECT FROM SELECT**  

Помимо разделов WHERE и SELECT, подзапросы часто используют в разделе FROM для многоступенчатых вычислений.

Попробуйте в Metabase! Следующий запрос выводит среднее по средним массам груза доставки на каждого водителя.



In [None]:
select 
        avg(a.avg_weight) avg_avg_weight
from 
        (
        select 
            s.driver_id,
            avg(s.weight)avg_weight
        from 
            shipping.shipment s
        group by 1
        ) a


В разделе FROM в скобках может быть записан любой запрос (в нашем случае запрос, считающий среднюю массу доставки на водителя). У этого запроса должно быть название (в нашем случае «а»), после чего в разделе SELECT можно обращаться ко всем его полям, как будто «а» — это таблица, существующая в базе.

К таким подзапросам можно присоединять другие таблицы и использовать все уже изученные синтаксические операторы, например JOIN.

Следующий запрос выводит идентификатор доставки, ее дату, массу груза, среднюю массу доставленных в этот день грузов и признак того, что масса груза больше средней в этот день на сто кг.

In [None]:
select 
        s.ship_id,
        s.ship_date,
        s.weight,
        a.avg_weight avg_weight_this_day,
        s.weight>a.avg_weight + 100 is_heavyweighted
from 
        (
        select 
            s.ship_date,
            avg(s.weight)avg_weight
        from 
            shipping.shipment s
        group by 1
        ) a 
        join  shipping.shipment s 
            on a.ship_date = s.ship_date

### Задание 5.3.1
Напишите запрос, который найдет водителя, совершившего наибольшее количество доставок одному клиенту. В выводе должна быть одна строка, которая содержит имя водителя (first_name), имя клиента и количество доставок водителя этому клиенту.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select 
    -- d.driver_id,
        d2.first_name
        , c.cust_name 
        , d.count_customer_shipment
from 
        (select 
            driver_id 
            , cust_id 
            , count(ship_id) count_customer_shipment
        from shipment
        group by driver_id , cust_id 
        order by count(ship_id) desc 
        limit 1
                ) d
join driver d2 on d2.driver_id = d.driver_id
join customer c on c.cust_id = d.cust_id



-- проверочный вывод данных
select * 
from shipment s 
where driver_id  = 27 and cust_id = 1775

### Задание 5.3.2
Используя конструкцию select from select, преобразуйте предыдущий запрос таким образом, чтобы он вывел:

- имя водителя (first_name)  
- имя клиента  
- количество доставок этому клиенту  
- общее количество доставок водителя  

Подсказка: нам понадобятся данные из таблицы shipping.shipment. Объедините ее с таблицей из предыдущего запроса по полю driver_id.
(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
select
    d.first_name driver,
    c.cust_name customer,
    a.cnt,
    a.cnt_all
from
    (
    select
        s.driver_id,
        s.cust_id,
        count(s.*) cnt,
        gr.cnt_all
    from
        (select
            ss.driver_id,
            count(*) cnt_all
        from
            shipping.shipment ss
        group by
            ss.driver_id) gr 
        join shipping.shipment s on s.driver_id = gr.driver_id
    group by 1,2,4
    order by 1,2) a 
    join shipping.driver d on a.driver_id = d.driver_id
    join shipping.customer c on a.cust_id = c.cust_id
order by a.cnt desc
limit 1

### Задание 5.3.3
Преобразовав запрос из предыдущего задания, напишите такой запрос, который найдет водителя, совершившего наибольшее число доставок одному клиенту. По этому водителю выведите следующие поля:

- имя водителя  
- имя самого частого для него клиента  
- дату последней доставки этому клиенту  
- общее число доставок этого водителя  
- количество различных грузовиков (грузовиков с различными truck_id), на которых он совершал доставку грузов  

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
# ответ не принят платформой
select
    d.first_name driver,
    c.cust_name customer,
    a.last_date_ship,
    a.cnt_all,
    a.cnt_truck
from
    (
    select
        s.driver_id,
        count(s.cust_id),
        max(s.ship_date) last_date_ship,
        count(s.*) cnt,
        gr.cnt_all,
        count(distinct s.truck_id) cnt_truck
    from
        (select
            ss.driver_id,
            count(*) cnt_all
        from
            shipping.shipment ss
        group by
            ss.driver_id) gr 
        join 
            shipping.shipment s on s.driver_id = gr.driver_id
        group by 1,2,5
        order by 1,2) a 
    join shipping.driver d on a.driver_id = d.driver_id
    join shipping.customer c on a.cust_id = c.cust_id
order by a.cnt desc
limit 1

### Задание 5.3.4
Напишите запрос, который найдет водителей, совершивших наибольшее число доставок и наименьшее число доставок. Выведите их имена (сначала больший, потом меньший) и разницу между их числом доставок (наибольший — наименьший). В выводе должна быть одна строка.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
# не решила

### 5.4. Common Table Expressions (CTE)

Вместо больших ступенчатых запросов в большинстве СУБД часто используются CTE — Common Table Expressions. Это такой вид подзапросов, который позволяет переиспользовать запросы несколько раз, делает вычисления более понятными, а код — более читаемым.

Давайте разберем синтаксис этих выражений. Вернемся к задаче поиска среднего по среднему для массы доставок на водителя.

In [None]:
with a as 
(
select 
s.driver_id,
avg(s.weight)avg_weight
from 
shipping.shipment s
group by 1
) 
select 
avg(a.avg_weight) avg_avg_weight
from a 

В начале запроса появляется раздел WITH, после которого идет имя CTE (подзапроса) «а», далее сам подзапрос в скобках. После блока с подзапросом идет обычный SELECT с использованием уже описанного CTE «а».

Количество подзапросов и их вложенность неограниченны: после объявления CTE можно использовать его в других CTE и SELECT любое число раз, но рекомендуется придерживаться одного стиля в рамках запроса. Если делаете вложенность, то сохраняйте ее, не пишите WITH-блок. И наоборот, использование WITH-блока делает неудобным использование вложенных запросов. Это связано с тем, что WITH мы читаем сверху вниз,  а вложенность — справа налево. При наличии обоих стилей понять, что происходит, становится проблематичным.

Попробуйте в Metabase! Следующий запрос выводит идентификатор доставки, ее дату, массу груза, среднюю массу доставленных в этот день грузов и признак того, что масса груза больше средней в этот день на сто кг. Все как в предыдущем блоке, но с использованием CTE.

In [None]:
with a as 
( 
select 
       s.ship_date, 
       avg(s.weight)avg_weight 
   from shipping.shipment s group by 1 
)
select 
 s.ship_id,
 s.ship_date,
 s.weight,
 a.avg_weight avg_weight_this_day,
 s.weight>a.avg_weight + 100 is_heavyweighted
from 
 a 
 join  shipping.shipment s 
   on a.ship_date = s.ship_date

Следующий запрос выводит первый день, в котором число тяжеловесных заказов больше двух, и последний день, но в разных строках и с указанием типа дня.

In [None]:
with a as 
(
        select 
            s.ship_date,
            avg(s.weight)avg_weight
        from 
            shipping.shipment s
        group by 1
),
d as
(
select 
        s.ship_date,
        s.weight>a.avg_weight + 100  is_heavyweighted, 
        count(*) qty
    from 
        a join  shipping.shipment s 
            on a.ship_date = s.ship_date
    group by 1,2
)
select 
    'first_heavy_date' date_type,
    min(d.ship_date) date
from 
d
where 
    d.is_heavyweighted 
    and d.qty>2
union 
select 
    'last_heavy_date' date_type,
    max(d.ship_date) date
from 
d
where 
    d.is_heavyweighted 
    and d.qty>2

Здесь мы видим, что несколько CTE разделяются запятыми, а каждый следующий CTE указывается с названием и запросом и повторяется необходимое количество раз.

Также видно, что в CTE «d» мы использовали результат CTE «a», а результат «d» использовали дважды. В случае вложенных запросов нам пришлось бы повторять два раза этот кусок кода и в случае изменений запроса поддерживать их оба.

### CTE + UNION
CTE, как и вложенные запросы, часто используются с UNION, чтобы в них описать какую-то логику, отсутствующую в базе, и применить ее к существующим там данным. Операция UNION объединяет два набора строк, возвращаемых SQL-запросами (при этом оба запроса должны возвращать одинаковое число столбцов, а в столбцах с одинаковыми порядковыми номерами должны быть совместимые типы данных).

Предположим, нам надо решить задачу сравнения производительности мужчин и женщин-водителей. Для этого мы можем разметить их имена следующим образом.

In [None]:
select 
			'Maria' name_orig,
			'F' gender
		 union
select 
			'Kristie' name_orig,
			'F' gender
		 union
select 
			'Gale' name_orig,
			'M' gender
		 union
select 
			'Holger' name_orig,
			'M' gender
		 union
select 
			'Leszek' name_orig,
			'M' gender
		 union
select 
			'Adel' name_orig,
			'M' gender
		 union
select 
			'Zachery' name_orig,
			'M' gender
		 union
select 
			'Roger' name_orig,
			'M' gender
		 union
select 
			'Andrea' name_orig,
			'F' gender
		 union
select 
			'Sue' name_orig,
			'F' gender
		 union
select 
			'Alina' name_orig,
			'F' gender

Далее, используя CTE, можно посчитать число водителей разного пола, число их заказов и среднее число заказов на человека.



In [None]:
with gender as 
(
select 
			'Maria' name_orig,
			'F' gender
		 union
select 
			'Kristie' name_orig,
			'F' gender
		 union
select 
			'Gale' name_orig,
			'M' gender
		 union
select 
			'Holger' name_orig,
			'M' gender
		 union
select 
			'Leszek' name_orig,
			'M' gender
		 union
select 
			'Adel' name_orig,
			'M' gender
		 union
select 
			'Zachery' name_orig,
			'M' gender
		 union
select 
			'Roger' name_orig,
			'M' gender
		 union
select 
			'Andrea' name_orig,
			'F' gender
		 union
select 
			'Sue' name_orig,
			'F' gender
		 union
select 
			'Alina' name_orig,
			'F' gender
)
select 
	g.gender,
	count(*) ship_qty,
	count(distinct s.driver_id) drivers,
	count(*)/count(distinct s.driver_id) avg_ship_per_person
from 
	gender g 
	join shipping.driver d on g.name_orig = d.first_name
	join shipping.shipment s on d.driver_id = s.driver_id
group by 1

Обратите внимание на поле avg_ship_per_person, оно имеет целый тип, несмотря на то, что это результат деления. По умолчанию Postgres делит одно целое число на другое целочисленным делением, отбрасывая остаток от него. Чтобы получить вещественное значение, достаточно делимое умножить на 1.0 или принудительно перевести его в numeric (::numeric). 

Попробуйте оба варианта и сравните результаты.

### Задание 5.4.1
Представим, что в компании было два директора: Paolo Lorenzo и его сын Nicco Lorenzo. Первый руководил компанией с начала и до 2017-02-01 невключительно, второй — с 2017-02-01 включительно и до конца периода. Напишите запрос, который даст следующий отчет: имя и фамилия директора в одном поле, далее поля со сводной статистикой по доставкам (кол-во доставок, кол-во совершивших доставки водителей, кол-во клиентов, которым была оказана услуга доставки, и общая масса перевезенных грузов). Отсортируйте по имени директора.

(Не забывайте перед отправкой кода проверять его работоспособность и соответствие условиям в Metabase!)

In [None]:
with paolo as (
 
    select
        s.*
    from
        shipping.shipment s
    where
       s.ship_date::date < '2017-02-01'::date
),
nicco as (

    select
        s.*
    from
       shipping.shipment s
    where
        s.ship_date::date >= '2017-02-01'::date
)

select
   'Paolo Lorenzo',
    count(distinct p.ship_id) count_ship,
    count(distinct p.driver_id) count_driver,
    count(distinct p.cust_id) count_cust,
    sum(p.weight) sum_all_weight
from
    paolo p 
union
select
    'Nicco Lorenzo',
    count(distinct n.ship_id) count_ship,
    count(distinct n.driver_id) count_driver,
    count(distinct n.cust_id) count_cust,
    sum(n.weight) sum_all_weight
from
    nicco n