# Задачи с сайта sql-ex.ru


In [2]:
# !wget https://sql-ex.ru/download/sql-ex-pg.sql

# utf-8-sig - разновидность UTF-8, автоматически удаляющая BOM (Byte Order Mark) из начала файла.
with open("sql-ex-pg.sql", "r", encoding="utf-8-sig") as file:
    sql = file.read()

In [3]:
import pandas as pd
from sqlalchemy import create_engine, text

engine = create_engine("postgresql+psycopg2://postgres:root@localhost:5432/sql_ex")

# SQLAlchemy в режиме engine.connect() работает внутри транзакции, которая не коммитится автоматически,
# если не использовать begin().
with engine.begin() as con:  # Решение: engine.begin() - транзакция автокоммитятся
    for statement in sql.split(";"):
        stmt = statement.strip()
        if stmt:
            con.execute(text(stmt))

In [4]:
def select(sql):
    with engine.connect() as con:
        return pd.read_sql(sql, con)

## Краткая информация о базе данных "Компьютерная фирма"

Схема БД состоит из четырех таблиц:
Product(maker, model, type)
PC(code, model, speed, ram, hd, cd, price)
Laptop(code, model, speed, ram, hd, price, screen)
Printer(code, model, color, type, price)
Таблица Product представляет производителя (maker), номер модели (model) и тип ('PC' - ПК, 'Laptop' - ПК-блокнот или 'Printer' - принтер). Предполагается, что номера моделей в таблице Product уникальны для всех производителей и типов продуктов. В таблице PC для каждого ПК, однозначно определяемого уникальным кодом – code, указаны модель – model (внешний ключ к таблице Product), скорость - speed (процессора в мегагерцах), объем памяти - ram (в мегабайтах), размер диска - hd (в гигабайтах), скорость считывающего устройства - cd (например, '4x') и цена - price (в долларах). Таблица Laptop аналогична таблице РС за исключением того, что вместо скорости CD содержит размер экрана -screen (в дюймах). В таблице Printer для каждой модели принтера указывается, является ли он цветным - color ('y', если цветной), тип принтера - type (лазерный – 'Laser', струйный – 'Jet' или матричный – 'Matrix') и цена - price.


### Задание 1 (1)

Найдите номер модели, скорость и размер жесткого диска для всех ПК стоимостью менее 500 дол. Вывести: model, speed и hd


In [5]:
sql = """--sql
SELECT
    pc.model,
    pc.speed,
    pc.hd
FROM
    pc
WHERE
    price < 500
ORDER BY
    pc.model,
    pc.speed,
    pc.hd;
"""
select(sql)

Unnamed: 0,model,speed,hd
0,1232,450,8.0
1,1232,450,10.0
2,1232,500,10.0
3,1260,500,10.0


### Задание 2 (1)

Найдите производителей принтеров. Вывести: maker


In [6]:
sql = """--sql
SELECT DISTINCT
    p.maker
FROM
    product p
WHERE
TYPE LIKE 'Printer'
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,A
1,D
2,E


### Задание 3 (1)

Найдите номер модели, объем памяти и размеры экранов ПК-блокнотов, цена которых превышает 1000 дол.


In [7]:
sql = """--sql
SELECT
    l.model,
    l.ram,
    l.screen
FROM
    laptop l
WHERE
    l.price > 1000
ORDER BY
    l.model,
    l.ram,
    l.screen;
"""
select(sql)

Unnamed: 0,model,ram,screen
0,1298,64,15
1,1750,128,14
2,1752,128,14


### Задание 4 (1)

Найдите все записи таблицы Printer для цветных принтеров.


In [8]:
sql = """--sql
SELECT
    p.*
FROM
    printer p
WHERE
    color = 'y';
"""
select(sql)

Unnamed: 0,code,model,color,type,price
0,2,1433,y,Jet,270.0
1,3,1434,y,Jet,290.0


### Задание 5 (1)

Найдите номер модели, скорость и размер жесткого диска ПК, имеющих 12x или 24x CD и цену менее 600 дол.


In [9]:
sql = """--sql
SELECT
    pc.model,
    pc.speed,
    pc.hd
FROM
    pc
WHERE
    pc.cd IN ('12x', '24x')
    AND pc.price < 600
ORDER BY
    pc.model,
    pc.speed,
    pc.hd;
"""
select(sql)

Unnamed: 0,model,speed,hd
0,1232,450,8.0
1,1232,450,10.0
2,1232,500,10.0
3,1260,500,10.0


### Задание 6 (2)

Для каждого производителя, выпускающего ПК-блокноты c объёмом жесткого диска не менее 10 Гбайт, найти скорости таких ПК-блокнотов. Вывод: производитель, скорость.


In [10]:
sql = """--sql
SELECT DISTINCT
    p.maker,
    l.speed
FROM
    product p
    INNER JOIN laptop l ON p.model = l.model
WHERE
    l.hd >= 10
ORDER BY
    p.maker,
    l.speed;
"""
select(sql)

Unnamed: 0,maker,speed
0,A,450
1,A,600
2,A,750
3,B,750


### Задание 7 (2)

Найдите номера моделей и цены всех имеющихся в продаже продуктов (любого типа) производителя B (латинская буква).


In [11]:
sql = """--sql
SELECT
    ap.*
FROM
    (
        SELECT
            pc.model,
            pc.price
        FROM
            pc
        UNION
        SELECT
            l.model,
            l.price
        FROM
            laptop l
        UNION
        SELECT
            pr.model,
            pr.price
        FROM
            printer pr
    ) ap
WHERE
    ap.model IN (
        SELECT
            p.model
        FROM
            product p
        WHERE
            p.maker = 'B'
    )
ORDER BY
    ap.model,
    ap.price DESC;
"""
select(sql)

Unnamed: 0,model,price
0,1121,850.0
1,1750,1200.0


### Задание 8 (2)

Найдите производителя, выпускающего ПК, но не ПК-блокноты.


In [12]:
sql = """--sql
SELECT DISTINCT
    p.maker
FROM
    product p
WHERE
    p.maker NOT IN (
        SELECT
            p1.maker
        FROM
            product p1
        WHERE
            p1.type = 'Laptop'
    )
    AND p.maker IN (
        SELECT
            p2.maker
        FROM
            product p2
        WHERE
            p2.type = 'PC'
    )
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,E


### Задание 9 (1)

Найдите производителей ПК с процессором не менее 450 Мгц. Вывести: Maker


In [13]:
sql = """--sql
SELECT DISTINCT
    p.maker
FROM
    product p
    RIGHT JOIN pc ON p.model = pc.model
WHERE
    pc.speed >= 450
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,A
1,B
2,E


### Задание 10 (1)

Найдите модели принтеров, имеющих самую высокую цену. Вывести: model, price


In [14]:
sql = """--sql
SELECT
    p.model,
    p.price
FROM
    printer p
WHERE
    p.price = (
        SELECT
            MAX(p.price)
        FROM
            printer p
    )
ORDER BY
    p.model;
"""
select(sql)

Unnamed: 0,model,price
0,1276,400.0
1,1288,400.0


### Задание 11 (1)

Найдите среднюю скорость ПК.


In [15]:
sql = """--sql
SELECT
    ROUND(AVG(pc.speed), 2) AS avg_speed
FROM
    pc;
"""
select(sql)

Unnamed: 0,avg_speed
0,608.33


### Задание 12 (1)

Найдите среднюю скорость ПК-блокнотов, цена которых превышает 1000 дол.


In [16]:
sql = """--sql
SELECT
    AVG(l.speed) AS avg_speed
FROM
    laptop l
WHERE
    l.price > 1000;
"""
select(sql)

Unnamed: 0,avg_speed
0,700.0


### Задание 13 (1)

Найдите среднюю скорость ПК, выпущенных производителем A.


In [17]:
sql = """--sql
SELECT
    AVG(pc.speed) AS avg_speed
FROM
    pc
    LEFT JOIN product p ON pc.model = p.model
WHERE
    p.maker = 'A';
"""
select(sql)

Unnamed: 0,avg_speed
0,606.25


### Задание 15 (2)

Найдите размеры жестких дисков, совпадающих у двух и более PC. Вывести: HD


In [18]:
sql = """--sql
SELECT
    cnt.hd
FROM
    (
        SELECT
            pc.hd,
            COUNT(*)
        FROM
            pc
        GROUP BY
            pc.hd
    ) cnt
WHERE
    cnt.count > 1
ORDER BY
    cnt.hd;
"""
select(sql)

Unnamed: 0,hd
0,5.0
1,8.0
2,10.0
3,14.0
4,20.0


### Задание 16 (2)

Найдите пары моделей PC, имеющих одинаковые скорость и RAM. В результате каждая пара указывается только один раз, т.е. (i,j), но не (j,i), Порядок вывода: модель с большим номером, модель с меньшим номером, скорость и RAM.


In [19]:
sql = """--sql
SELECT DISTINCT
    f.model AS top_mode,
    s.model AS low_model,
    f.speed,
    f.ram
FROM
    pc f
    INNER JOIN (
        SELECT
            pc.model,
            pc.speed,
            pc.ram
        FROM
            pc
    ) s ON f.speed = s.speed
    AND f.ram = s.ram
    AND f.model > s.model
ORDER BY
    f.model,
    s.model;
"""
select(sql)

Unnamed: 0,top_mode,low_model,speed,ram
0,1233,1121,750,128
1,1233,1232,500,64
2,1260,1232,500,32


### Задание 17 (2)

Найдите модели ПК-блокнотов, скорость которых меньше скорости каждого из ПК.
Вывести: type, model, speed


In [20]:
sql = """--sql
SELECT DISTINCT
    p.type,
    l.model,
    l.speed
FROM
    laptop l
    LEFT JOIN product p ON l.model = p.model
WHERE
    l.speed < (
        SELECT
            MIN(pc.speed) AS min_speed_pc
        FROM
            pc
    )
ORDER BY
    l.model,
    l.speed;
"""
select(sql)

Unnamed: 0,type,model,speed
0,Laptop,1298,350


### Задание 18 (2)

Найдите производителей самых дешевых цветных принтеров. Вывести: maker, price


In [21]:
sql = """--sql
SELECT DISTINCT
    pd.maker,
    pr.price
FROM
    printer pr
    LEFT JOIN product pd ON pr.model = pd.model
WHERE
    pr.price = (
        SELECT
            MIN(pr.price) AS min_price
        FROM
            printer pr
        WHERE
            pr.color = 'y'
    )
    AND pr.color = 'y'
ORDER BY
    pd.maker,
    pr.price DESC;
"""
select(sql)

Unnamed: 0,maker,price
0,D,270.0


### Задание 19 (1)

Для каждого производителя, имеющего модели в таблице Laptop, найдите средний размер экрана выпускаемых им ПК-блокнотов.
Вывести: maker, средний размер экрана.


In [22]:
sql = """--sql
SELECT
    p.maker,
    AVG(l.screen) AS avg_screen
FROM
    laptop l
    LEFT JOIN product p ON l.model = p.model
GROUP BY
    p.maker
ORDER BY
    avg_screen DESC;
"""
select(sql)

Unnamed: 0,maker,avg_screen
0,B,14.0
1,A,13.0
2,C,12.0


### Задание 20 (2)

Найдите производителей, выпускающих по меньшей мере три различных модели ПК. Вывести: Maker, число моделей ПК.


In [23]:
sql = """--sql
SELECT
    p.maker,
    COUNT(*) AS num_models
FROM
    product p
WHERE
    p.type = 'PC'
GROUP BY
    p.maker
HAVING
    COUNT(*) >= 3
ORDER BY
    num_models DESC;
"""
select(sql)

Unnamed: 0,maker,num_models
0,E,3


### Задание 21 (1)

Найдите максимальную цену ПК, выпускаемых каждым производителем, у которого есть модели в таблице PC.
Вывести: maker, максимальная цена.


In [24]:
sql = """--sql
SELECT
    p.maker,
    MAX(pc.price) AS max_price
FROM
    pc
    LEFT JOIN product p ON pc.model = p.model
GROUP BY
    p.maker
ORDER BY
    max_price DESC;
"""
select(sql)

Unnamed: 0,maker,max_price
0,A,980.0
1,B,850.0
2,E,350.0


### Задание 22 (1)

Для каждого значения скорости ПК, превышающего 600 МГц, определите среднюю цену ПК с такой же скоростью. Вывести: speed, средняя цена.


In [25]:
sql = """--sql
SELECT
    pc.speed,
    AVG(pc.price) AS avg_price
FROM
    pc
WHERE
    pc.speed > 600
GROUP BY
    pc.speed
ORDER BY
    avg_price DESC;
"""
select(sql)

Unnamed: 0,speed,avg_price
0,900,980.0
1,800,970.0
2,750,900.0


### Задание 23 (2)

Найдите производителей, которые производили бы как ПК
со скоростью не менее 750 МГц, так и ПК-блокноты со скоростью не менее 750 МГц.
Вывести: Maker


In [26]:
# Запро через последовательные JOIN работает быстрее, чем резез повторяющиеся SELECTы с DISTINCT и IN.
sql = """--sql
SELECT DISTINCT
    p.maker
FROM
    product p
    INNER JOIN pc ON p.model = pc.model
WHERE
    pc.speed >= 750
    AND p.maker IN (
        SELECT
            p2.maker
        FROM
            product p2
            INNER JOIN laptop l ON p2.model = l.model
        WHERE
            l.speed >= 750
    )
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,A
1,B


### Задание 24 (2)

Перечислите номера моделей любых типов, имеющих самую высокую цену по всей имеющейся в базе данных продукции.


In [27]:
sql = """--sql
WITH
    all_model AS (
        SELECT
            pc.model,
            pc.price
        FROM
            pc
        UNION
        SELECT
            p.model,
            p.price
        FROM
            printer p
        UNION
        SELECT
            l.model,
            l.price
        FROM
            laptop l
    )
SELECT
    am.model
FROM
    all_model am
WHERE
    am.price IN (
        SELECT
            MAX(price)
        FROM
            all_model
    )
ORDER BY
    am.model;
"""
select(sql)

Unnamed: 0,model
0,1750


### Задание 25 (2)

Найдите производителей принтеров, которые производят ПК с наименьшим объемом RAM и с самым быстрым процессором среди всех ПК, имеющих наименьший объем RAM. Вывести: Maker


In [28]:
# В основном запросе SELECT DISTINCT можно заменить на SELECT с INNER JOIN и GROUP BY вместо AND ... IN
# в WHERE - оптимизатор СУБД быстрее работает с DISTINCT, особенно с проиндексированными данными.
sql = """--sql
WITH
    pc_makers AS (
        SELECT DISTINCT
            p.maker
        FROM
            product p
            INNER JOIN (
                SELECT
                    pc.model,
                    pc.ram,
                    pc.speed,
                    RANK() OVER (
                        ORDER BY
                            pc.ram,
                            pc.speed DESC
                    ) AS rnk
                FROM
                    pc
            ) m ON p.model = m.model
        WHERE
            m.rnk = 1
    )
SELECT
    p.maker
FROM
    product p
    INNER JOIN pc_makers pm ON p.maker = pm.maker
WHERE
    p.type = 'Printer'
GROUP BY
    p.maker
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,A
1,E


### Задание 26 (2)

Найдите среднюю цену ПК и ПК-блокнотов, выпущенных производителем A (латинская буква). Вывести: одна общая средняя цена.


In [29]:
# Зачастую лучше использовать INNER вместо RIGHT JOIN (если это возможно), т.к. он работает быстрее.
# GROUP BY в данном случае не нужен, т.к. и так выбран один производитель в WHERE.
sql = """--sql
SELECT
    AVG(m.price)
FROM
    product p
    INNER JOIN (
        SELECT
            pc.model,
            pc.price
        FROM
            pc
        UNION ALL
        SELECT
            l.model,
            l.price
        FROM
            laptop l
    ) m ON p.model = m.model
WHERE
    p.maker = 'A';
"""
select(sql)

Unnamed: 0,avg
0,754.166667


### Задание 27 (2)

Найдите средний размер диска ПК каждого из тех производителей, которые выпускают и принтеры. Вывести: maker, средний размер HD.


In [30]:
sql = """--sql
SELECT
    p.maker,
    AVG(pc.hd) AS avg_hd
FROM
    pc
    LEFT JOIN product p ON pc.model = p.model
WHERE
    p.maker IN (
        SELECT DISTINCT
            p.maker
        FROM
            product p
        WHERE
            p.type = 'Printer'
    )
GROUP BY
    p.maker
ORDER BY
    avg_hd DESC;
"""
select(sql)

Unnamed: 0,maker,avg_hd
0,A,14.75
1,E,10.0


### Задание 28 (2)

Используя таблицу Product, определить количество производителей, выпускающих по одной модели.


In [31]:
sql = """--sql
SELECT
    SUM(cnt) AS count_makers
FROM
    (
        SELECT
            COUNT(p.maker) AS cnt
        FROM
            product p
        GROUP BY
            p.maker
        HAVING
            COUNT(p.maker) = 1
    ) AS makers;
"""
select(sql)

Unnamed: 0,count_makers
0,1.0


### Задание 35 (2)

В таблице Product найти модели, которые состоят только из цифр или только из латинских букв (A-Z, без учета регистра).
Вывод: номер модели, тип модели.


In [32]:
# `~` - ОПЕРАТОР для применения регулярного выражения (`~*` - без учета регистра, например `p.model ~* '^[A-Z]$'`)
sql = """--sql
SELECT
    p.model,
    p.type
FROM
    product p
WHERE
    p.model ~ '^[\d]+$'
    OR p.model ~ '^[A-Za-z]+$';
"""
select(sql)

Unnamed: 0,model,type
0,1121,PC
1,1232,PC
2,1233,PC
3,1260,PC
4,1276,Printer
5,1288,Printer
6,1298,Laptop
7,1321,Laptop
8,1401,Printer
9,1408,Printer


### Задание 40 (2)

Найти производителей, которые выпускают более одной модели, при этом все выпускаемые производителем модели являются продуктами одного типа.
Вывести: maker, type


In [33]:
# В SELECT для type можно использовать как MIN, так и MAX, т.к. значение и так одно. Она здесь нужна
# в первую очередь просто для работы GROUP BY. в HAVING COUNT(DISTINCT p.type) DISTINCT-ом проверяем,
# что все модели относятся к одному типу.
sql = """--sql
SELECT
    p.maker,
    MAX(p.type) AS type
FROM
    product p
GROUP BY
    p.maker
HAVING
    COUNT(p.model) > 1
    AND COUNT(DISTINCT p.type) = 1;
"""
select(sql)

Unnamed: 0,maker,type
0,D,Printer


### Задание 41 (2)

Для каждого производителя, у которого присутствуют модели хотя бы в одной из таблиц PC, Laptop или Printer,
определить максимальную цену на его продукцию.
Вывод: имя производителя, если среди цен на продукцию данного производителя присутствует NULL, то выводить для этого производителя NULL, иначе максимальную цену.


In [34]:
# Наличие нал можно посчитать и так: CASE WHEN COUNT(*) FILTER (WHERE ... IS NULL) > 0 THEN NULL ELSE MAX(...),
# но быстрее без лишней фильтрации.
# Чтобы строки с NULL отображались в конце добавить в ORDER BY ... NULLS LAST
sql = """--sql
SELECT
    p.maker,
    CASE
        WHEN COUNT(c.price) < COUNT(*) THEN NULL
        ELSE MAX(c.price)
    END AS max_price
FROM
    product p
    INNER JOIN (
        SELECT
            pc.model,
            pc.price
        FROM
            pc
        UNION ALL
        SELECT
            l.model,
            l.price
        FROM
            laptop l
        UNION ALL
        SELECT
            pr.model,
            pr.price
        FROM
            printer pr
    ) c ON p.model = c.model
GROUP BY
    p.maker
ORDER BY
    max_price DESC NULLS LAST;
"""
select(sql)

Unnamed: 0,maker,max_price
0,B,1200.0
1,A,1150.0
2,C,970.0
3,D,400.0
4,E,350.0


### Задание 58 (3)

Для каждого типа продукции и каждого производителя из таблицы Product c точностью до двух десятичных знаков найти процентное отношение числа моделей данного типа данного производителя к общему числу моделей этого производителя.

Вывод: maker, type, процентное отношение числа моделей данного типа к общему числу моделей производителя.


In [35]:
sql = """--sql
WITH
    reporting_form AS (
        SELECT DISTINCT
            m.maker,
            t.type
        FROM
            product m
            CROSS JOIN (
                SELECT DISTINCT
                TYPE
                FROM
                    product
            ) t
    )
SELECT
    rf.maker,
    rf.type,
    ROUND(
        COUNT(p.model) * 100.0 / SUM(COUNT(p.model)) OVER (
            PARTITION BY
                rf.maker
        ),
        2
    ) AS per_of_all_model
FROM
    reporting_form AS rf
    LEFT JOIN product p ON rf.maker = p.maker
    AND rf.type = p.type
GROUP BY
    rf.maker,
    rf.type
ORDER BY
    rf.maker,
    rf.type;
"""
select(sql)

Unnamed: 0,maker,type,per_of_all_model
0,A,Laptop,28.57
1,A,PC,28.57
2,A,Printer,42.86
3,B,Laptop,50.0
4,B,PC,50.0
5,B,Printer,0.0
6,C,Laptop,100.0
7,C,PC,0.0
8,C,Printer,0.0
9,D,Laptop,0.0


### Задание 65 (2)

Пронумеровать уникальные пары {maker, type} из Product, упорядочив их следующим образом:

- имя производителя (maker) по возрастанию;
- тип продукта (type) в порядке PC, Laptop, Printer.
  Если некий производитель выпускает несколько типов продукции, то выводить его имя только в первой строке;
  остальные строки для ЭТОГО производителя должны содержать пустую строку символов ('').


In [36]:
sql = """--sql
SELECT
    ROW_NUMBER() OVER () AS num,
    CASE
        WHEN ROW_NUMBER() OVER (
            PARTITION BY
                u.maker
            ORDER BY
                u.sorting
        ) = 1 THEN u.maker
        ELSE ''
    END AS maker,
    u.type
FROM
    (
        SELECT DISTINCT
            p.maker,
            p.type,
            CASE p.type
                WHEN 'PC' THEN 1
                WHEN 'Laptop' THEN 2
                WHEN 'Printer' THEN 3
                ELSE 4
            END AS sorting
        FROM
            product p
    ) u;
"""
select(sql)

Unnamed: 0,num,maker,type
0,1,A,PC
1,2,,Laptop
2,3,,Printer
3,4,B,PC
4,5,,Laptop
5,6,C,Laptop
6,7,D,Printer
7,8,E,PC
8,9,,Printer


### Задание 71 (1)

Найти тех производителей ПК, все модели ПК которых имеются в таблице PC.


In [37]:
# Вариант с NOT IN () в WHERE иногда может вернуть пустой результат, если хотябы одно значение из
# подзапроса будет NULL (например в изначальных данных не все значения искомого поля заполнены)
# Поэтому надежнее использовать WHERE c  NOT EXISTS.
sql = """--sql
SELECT DISTINCT
    pr.maker -- 1) мы ищем pr.maker
FROM
    product pr
WHERE
    pr.type = 'PC'
    AND NOT EXISTS ( -- 4) а pr.maker NOT IN заменяем на просто NOT EXISTS (IN, на EXISTS)
        SELECT
            1 -- 2) в p.maker 
        FROM
            product p
            LEFT JOIN pc ON p.model = pc.model
        WHERE
            pr.maker = p.maker -- 3) поэтому переносим это сюда, тем самым говорим pr.maker IN p.maker
            AND p.type = 'PC'
            AND pc.model IS NULL
    );
"""
select(sql)

Unnamed: 0,maker
0,A
1,B


### Задание 75 (2)

Для тех производителей, у которых есть продукты с известной ценой хотя бы в одной из таблиц Laptop, PC, Printer найти максимальные цены на каждый из типов продукции.
Вывод: maker, максимальная цена на ноутбуки, максимальная цена на ПК, максимальная цена на принтеры.
Для отсутствующих продуктов/цен использовать NULL.


In [38]:
sql = """--sql
SELECT
    p.maker,
    MAX(l.price) AS max_price_laptop,
    MAX(pc.price) AS max_price_pc,
    MAX(pr.price) AS max_price_printer
FROM
    product p
    LEFT JOIN laptop l ON p.model = l.model
    LEFT JOIN pc ON p.model = pc.model
    LEFT JOIN printer pr ON p.model = pr.model
WHERE
    l.price IS NOT NULL
    OR pc.price IS NOT NULL
    OR pr.price IS NOT NULL
GROUP BY
    p.maker
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker,max_price_laptop,max_price_pc,max_price_printer
0,A,1150.0,980.0,400.0
1,B,1200.0,850.0,
2,C,970.0,,
3,D,,,400.0
4,E,,350.0,290.0


### Задание 80 (1)

Найти производителей любой компьютерной техники, у которых нет моделей ПК, не представленных в таблице PC.


In [39]:
# Пересмотреть - простой, но интерестный/локаничный вариант решения.
sql = """--sql
SELECT DISTINCT
    p.maker
FROM
    product p
WHERE
    NOT EXISTS (
        SELECT
            p2.model
        FROM
            product p2
        WHERE
            p2.type = 'PC'
            AND p2.maker = p.maker -- таким образом привязали к основному запросу и фильтруем его
        EXCEPT
        SELECT
            pc.model
        FROM
            pc
    )
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,A
1,B
2,C
3,D


### Задание 82 (2)

В наборе записей из таблицы PC, отсортированном по столбцу code (по возрастанию) найти среднее значение цены для каждой шестерки подряд идущих ПК.
Вывод: значение code, которое является первым в наборе из шести строк, среднее значение цены в наборе.


In [40]:
# Первый раз не так понял условие, но тоже интерестный вариант задачи получился.
# 0 / 6 = 0
# 1 / 6 = 0
# 2 / 6 = 0
# 3 / 6 = 0
# 4 / 6 = 0
# 5 / 6 = 0
# 6 / 6 = 1
# 7 / 6 = 1
# ...
# Без -1 первая группа включала бы 5 строк
sql = """--sql
WITH
    grp_data AS (
        SELECT
            pc.code,
            pc.price,
            (
                ROW_NUMBER() OVER (
                    ORDER BY
                        pc.code
                ) -1 -- нужно чтобы первая группа начиналась с 0 и включала 6 делений на 6 до 1-цы
            ) / 6 AS grp
        FROM
            pc
    )
SELECT
    MIN(gd.code) AS code,
    AVG(gd.price) AS avg_price
FROM
    grp_data gd
GROUP BY
    gd.grp;
"""
select(sql)

Unnamed: 0,code,avg_price
0,1,783.333333
1,7,566.666667


In [41]:
# Решение в соответствии с условием задачи.
# P.S. еще неплохой вариант через:
# ...
# LEAD(pc.code, 5) OVER (
#     ORDER BY
#         pc.code
# ) AS lead_5
# ...
# WHERE
#     t.lead_5 IS NOT NULL
# ...
sql = """--sql
SELECT
    t.code,
    t.avg_price
FROM
    (
        SELECT
            pc.code,
            AVG(pc.price) OVER (
                ORDER BY
                    pc.code ROWS BETWEEN CURRENT ROW
                    AND 5 FOLLOWING
            ) AS avg_price,
            COUNT(*) OVER (
                ORDER BY
                    pc.code ROWS BETWEEN CURRENT ROW
                    AND 5 FOLLOWING
            ) AS grp_6
        FROM
            pc
    ) t
WHERE
    t.grp_6 = 6
ORDER BY
    t.code;
"""
select(sql)

Unnamed: 0,code,avg_price
0,1,783.333333
1,2,750.0
2,3,666.666667
3,4,625.0
4,5,541.666667
5,6,563.333333
6,7,566.666667


### Задание 85 (1)

Найти производителей, которые выпускают только принтеры или только PC.
При этом искомые производители PC должны выпускать не менее 3 моделей.


In [42]:
sql = """--sql
SELECT
    p.maker
FROM
    product p
GROUP BY
    p.maker
HAVING
    COUNT(DISTINCT p.type) = 1
    AND (
        MIN(p.type) = 'Printer'
        OR (
            MIN(p.type) = 'PC'
            AND COUNT(p.model) >= 3
        )
    )
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker
0,D


### Задание 86 (1)

Для каждого производителя перечислить в алфавитном порядке с разделителем "/" все типы выпускаемой им продукции.
Вывод: maker, список типов продукции.


In [43]:
# В MySQL: GROUP_CONCAT(DISTINCT p.type SEPARATOR '/') - ПЕРЕД SEPARATOR можно ORDER BY p.type DESC
# В SQLite: GROUP_CONCAT(DISTINCT p.type, '/')
sql = """--sql
SELECT
    p.maker,
    STRING_AGG(DISTINCT p.type, '/') AS type_list -- ПОСЛЕ сепаратора можно ORDER BY p.type DESC
FROM
    product p
GROUP BY
    p.maker
ORDER BY
    p.maker;
"""
select(sql)

Unnamed: 0,maker,type_list
0,A,Laptop/PC/Printer
1,B,Laptop/PC
2,C,Laptop
3,D,Printer
4,E,PC/Printer


### Задание 89 (1)

Найти производителей, у которых больше всего моделей в таблице Product, а также тех, у которых меньше всего моделей.
Вывод: maker, число моделей


In [44]:
sql = """--sql
SELECT
    t.maker,
    t.cnt_models
FROM
    (
        SELECT
            p.maker,
            COUNT(*) AS cnt_models,
            MAX(COUNT(*)) OVER () AS max_cnt,
            MIN(COUNT(*)) OVER () AS min_cnt
        FROM
            product p
        GROUP BY
            p.maker
    ) t
WHERE
    t.cnt_models IN (t.max_cnt, t.min_cnt)
ORDER BY
    t.maker;
"""
select(sql)

Unnamed: 0,maker,cnt_models
0,A,7
1,C,1


### Задание 90 (1)

Вывести все строки из таблицы Product, кроме трех строк с наименьшими номерами моделей и трех строк с наибольшими номерами моделей.


## Краткая информация о базе данных "Корабли"

Рассматривается БД кораблей, участвовавших во второй мировой войне. Имеются следующие отношения:
Classes (class, type, country, numGuns, bore, displacement)
Ships (name, class, launched)
Battles (name, date)
Outcomes (ship, battle, result)
Корабли в «классах» построены по одному и тому же проекту, и классу присваивается либо имя первого корабля, построенного по данному проекту, либо названию класса дается имя проекта, которое не совпадает ни с одним из кораблей в БД. Корабль, давший название классу, называется головным.
Отношение Classes содержит имя класса, тип (bb для боевого (линейного) корабля или bc для боевого крейсера), страну, в которой построен корабль, число главных орудий, калибр орудий (диаметр ствола орудия в дюймах) и водоизмещение ( вес в тоннах). В отношении Ships записаны название корабля, имя его класса и год спуска на воду. В отношение Battles включены название и дата битвы, в которой участвовали корабли, а в отношении Outcomes – результат участия данного корабля в битве (потоплен-sunk, поврежден - damaged или невредим - OK).
Замечания. 1) В отношение Outcomes могут входить корабли, отсутствующие в отношении Ships. 2) Потопленный корабль в последующих битвах участия не принимает.


### Задание 14 (2)

Найдите класс, имя и страну для кораблей из таблицы Ships, имеющих не менее 10 орудий.


In [45]:
sql = """--sql
SELECT
    s.class,
    s.name,
    c.country
FROM
    ships s
    LEFT JOIN classes c ON s.class = c.class
WHERE
    c.numguns >= 10;
"""
select(sql)

Unnamed: 0,class,name,country
0,Tennessee,California,USA
1,North Carolina,North Carolina,USA
2,Tennessee,Tennessee,USA
3,North Carolina,Washington,USA
4,North Carolina,South Dakota,USA


### Задание 31 (1)

Для классов кораблей, калибр орудий которых не менее 16 дюймов, укажите класс и страну.


In [46]:
sql = """--sql
SELECT
    c.class,
    c.country
FROM
    classes c
WHERE
    c.bore >= 16;
"""
select(sql)

Unnamed: 0,class,country
0,Iowa,USA
1,North Carolina,USA
2,Yamato,Japan


### Задание 32 (3)

Одной из характеристик корабля является половина куба калибра его главных орудий (mw). С точностью до 2 десятичных знаков определите среднее значение mw для кораблей каждой страны, у которой есть корабли в базе данных.


In [47]:
# AVG() хранит результат в double precision, а ROUND() в numeric (он же decimal, более точный формат с
# фиксированной точностью и маштабом) - привести результат AVG() к numeric для корректной работы ROUND()
sql = """--sql
SELECT
    al.country,
    ROUND(AVG(POWER(al.bore, 3) / 2)::NUMERIC, 2) AS mw
FROM
    (
        SELECT
            s.name,
            c.country,
            c.bore
        FROM
            ships s
            INNER JOIN classes c ON s.class = c.class
        UNION
        SELECT
            o.ship,
            c.country,
            c.bore
        FROM
            outcomes o
            INNER JOIN classes c ON o.ship = c.class
    ) al
GROUP BY
    al.country
ORDER BY
    mw DESC;
"""
select(sql)

Unnamed: 0,country,mw
0,USA,1897.78
1,Japan,1886.67
2,Germany,1687.5
3,Gt.Britain,1687.5


### Задание 33 (1)

Укажите корабли, потопленные в сражениях в Северной Атлантике (North Atlantic). Вывод: ship.


In [48]:
sql = """--sql
SELECT
    o.ship
FROM
    outcomes o
WHERE
    o.battle = 'North Atlantic'
    AND o.result = 'sunk';
"""
select(sql)

Unnamed: 0,ship
0,Bismarck
1,Hood


### Задание 34 (2)

По Вашингтонскому международному договору от начала 1922 г. запрещалось строить линейные корабли водоизмещением более 35 тыс.тонн. Укажите корабли, нарушившие этот договор (учитывать только корабли c известным годом спуска на воду). Вывести названия кораблей.


In [49]:
sql = """--sql
SELECT
    s.name
FROM
    ships s
    LEFT JOIN classes c ON s.class = c.class
WHERE
    s.launched >= 1922
    AND c.type = 'bb'
    AND c.displacement > 35000
ORDER BY
    s.name;
"""
select(sql)

Unnamed: 0,name
0,Iowa
1,Missouri
2,Musashi
3,New Jersey
4,North Carolina
5,South Dakota
6,Washington
7,Wisconsin
8,Yamato


### Задание 36 (2)

Перечислите названия головных кораблей, имеющихся в базе данных (учесть корабли в Outcomes).


In [50]:
sql = """--sql
SELECT
    lead_ships
FROM
    (
        SELECT
            s.name AS lead_ships
        FROM
            ships s
        UNION
        SELECT
            o.ship
        FROM
            outcomes o
    ) ls
WHERE
    ls.lead_ships IN (
        SELECT
            c.class
        FROM
            classes c
    )
ORDER BY
    ls.lead_ships;
"""
select(sql)

Unnamed: 0,lead_ships
0,Bismarck
1,Iowa
2,Kongo
3,North Carolina
4,Renown
5,Revenge
6,Tennessee
7,Yamato


### Задание 37 (2)

Найдите классы, в которые входит только один корабль из базы данных (учесть также корабли в Outcomes).


In [51]:
sql = """--sql
SELECT
    a.class
FROM
    (
        SELECT
            o.ship,
            c.class
        FROM
            outcomes o
            INNER JOIN classes c ON o.ship = c.class
        UNION
        SELECT
            s.name,
            s.class
        FROM
            ships s
    ) a
GROUP BY
    a.class
HAVING
    COUNT(a.*) = 1
ORDER BY
    a.class;
"""
select(sql)

Unnamed: 0,class
0,Bismarck


### Задание 38 (1)

Найдите страны, имевшие когда-либо классы обычных боевых кораблей ('bb') и имевшие когда-либо классы крейсеров ('bc').


In [52]:
sql = """--sql
SELECT DISTINCT
    c1.country
FROM
    classes c1
    INNER JOIN (
        SELECT DISTINCT
            c.country
        FROM
            classes c
        WHERE
            c.type = 'bc'
    ) c2 ON c1.country = c2.country
WHERE
    c1.type = 'bb'
ORDER BY
    c1.country;
"""
select(sql)

Unnamed: 0,country
0,Gt.Britain
1,Japan


### Задание 39 (2)

Найдите корабли, `сохранившиеся для будущих сражений`; т.е. выведенные из строя в одной битве (damaged), они участвовали в другой, произошедшей позже.


In [53]:
sql = """--sql
WITH
    result_battle AS (
        SELECT
            o.ship,
            o.result,
            b.date
        FROM
            outcomes o
            LEFT JOIN battles b ON o.battle = b.name
    )
SELECT DISTINCT
    r1.ship
FROM
    result_battle r1
    INNER JOIN result_battle r2 ON r1.ship = r2.ship
    AND r2.date > r1.date
WHERE
    r1.result = 'damaged';
"""
select(sql)

Unnamed: 0,ship
0,California


### Задание 42 (1)

Найдите названия кораблей, потопленных в сражениях, и название сражения, в котором они были потоплены.


In [54]:
sql = """--sql
SELECT
    o.ship,
    o.battle
FROM
    outcomes o
WHERE
    o.result = 'sunk'
ORDER BY
    o.battle,
    o.ship;
"""
select(sql)

Unnamed: 0,ship,battle
0,Kirishima,Guadalcanal
1,Bismarck,North Atlantic
2,Hood,North Atlantic
3,Schamhorst,North Cape
4,Fuso,Surigao Strait
5,Yamashiro,Surigao Strait


### Задание 43 (2)

Укажите сражения, которые произошли в годы, не совпадающие ни с одним из годов спуска кораблей на воду.


In [55]:
# Если в ships.launched будет хотя бы один NULL, то NOT IN может отработать некоректно и исключить
# больше запросов чем нужно. Решение - использовать EXISTS (коректно обрабатывает NULL). Так же EXISTS
# не использует возвращаемые значения, ему важен сам факт наличия непустой строки, поэтому в бодзапросе
# можно возвращать просто 1. Для исключения ошибок явно привести год к int, т.к. ship.launched int.
sql = """--sql
SELECT
    b.name
FROM
    battles b
WHERE
    NOT EXISTS (
        SELECT
            1
        FROM
            ships s
        WHERE
            s.launched = EXTRACT(
                YEAR
                FROM
                    b.date
            )::INT
    );
"""
select(sql)

Unnamed: 0,name
0,#Cuba62a
1,#Cuba62b


### Задание 44 (1)

Найдите названия всех кораблей в базе данных, начинающихся с буквы R.


In [56]:
sql = """--sql
SELECT
    a.name
FROM
    (
        SELECT
            s.name
        FROM
            ships s
        UNION
        SELECT
            o.ship
        FROM
            outcomes o
    ) a
WHERE
    a.name LIKE 'R%'
ORDER BY
    a.name;
"""
# Почему-то pandas.read_sql() + SQLAlchemy не смог корректно обработать этот запрос (видимо из-за '%'), без
# явного указания что передается чистый SQL в виде текста, а не параметризованный запрос. Вместо select(sql):

# connect() - не begin(), потому что не нужно коммититься (SELECT - не запись в БД)
with engine.connect() as con:
    # возвращаем результат выполниние SQL запроса в виде объекта Result, по которому можно итерироваться
    result = con.execute(text(sql))
    df = pd.DataFrame(result.fetchall(), columns=result.keys())
    # fetchall() - получить сразу все строки
    # fetchone() - по одной строке
    # keys() - первая строка как название колонок

print(df)

              name
0        Ramillies
1           Renown
2          Repulse
3       Resolution
4          Revenge
5           Rodney
6        Royal Oak
7  Royal Sovereign


### Задание 45 (1)

Найдите названия всех кораблей в базе данных, состоящие из трех и более слов (например, King George V).
Считать, что слова в названиях разделяются единичными пробелами, и нет концевых пробелов.


In [57]:
# В MySQL для регулярных выражений используется REGEXP вместо ~.
# Быстрее будет работать LIKE '% % %', чем ~ '^(?:\S+\s+){2,}\S+$'.
sql = """--sql
SELECT
    s.ship
FROM
    (
        SELECT
            o.ship
        FROM
            outcomes o
        UNION
        SELECT
            s.name
        FROM
            ships s
    ) s
WHERE
    s.ship ~ '^(?:\S+\s+){2,}\S+$'
ORDER BY
    s.ship;
"""
select(sql)

Unnamed: 0,ship
0,Duke of York
1,King George V
2,Prince of Wales


### Задание 46 (2)

Для каждого корабля, участвовавшего в сражении при Гвадалканале (Guadalcanal), вывести название, водоизмещение и число орудий.


In [58]:
sql = """--sql
SELECT
    g.ship,
    c.displacement,
    c.numguns
FROM
    classes c
    RIGHT JOIN (
        SELECT
            COALESCE(s.class, n.ship) AS CLASS,
            n.ship
        FROM
            ships s
            RIGHT JOIN (
                SELECT
                    o.ship
                FROM
                    outcomes o
                WHERE
                    o.battle = 'Guadalcanal'
            ) n ON s.name = n.ship
    ) g ON c.class = g.class
ORDER BY
    g.ship;
"""
select(sql)

Unnamed: 0,ship,displacement,numguns
0,California,32000,12
1,Kirishima,32000,8
2,South Dakota,37000,12
3,Washington,37000,12


### Задание 47 (3)

Определить страны, которые потеряли в сражениях все свои корабли.


In [59]:
# для EXISTS нужно следить чтоб в подзапросе не было NULL, иначе вернет UNKNOWN и условие не будет выполнено.
# Но лучше использовать NOT EXISTS вместо NOT IN - работает быстрее, особенно на больших данных.
# GROUP BY обычно eщё быстрее чем двойной/вложеный EXISTS (особенно если данные проиндексированы).
sql = """--sql
WITH
    all_ships_country AS (
        SELECT DISTINCT
            COALESCE(s.name, o.ship) AS ship,
            c.country
        FROM
            ships s
            FULL JOIN outcomes o ON s.name = o.ship
            LEFT JOIN classes c ON COALESCE(s.class, o.ship) = c.class
        WHERE
            c.country IS NOT NULL
    )
SELECT
    c.country
FROM
    all_ships_country c
    LEFT JOIN outcomes o ON c.ship = o.ship
    AND o.result = 'sunk'
GROUP BY
    c.country
HAVING
    COUNT(c.ship) = COUNT(o.ship)
ORDER BY
    c.country;
"""
select(sql)

Unnamed: 0,country
0,Germany


### Задание 48 (2)

Найдите классы кораблей, в которых хотя бы один корабль был потоплен в сражении.


In [60]:
# Обычно EXISTS работает быстрее чем IN (...) + тогда не нужно использовать DISTINCT в подзапросе, т.к.
# EXISTS остановиться при первом совпадении, что так же улучшит производительность на больших объемах.
sql = """--sql
SELECT
    c.class
FROM
    classes c
WHERE
    EXISTS (
        SELECT
            1
        FROM
            outcomes o
            LEFT JOIN ships s ON o.ship = s.name
        WHERE
            o.result = 'sunk'
            AND c.class = COALESCE(s.class, o.ship)
    )
ORDER BY
    c.class;
"""
select(sql)

Unnamed: 0,class
0,Bismarck
1,Kongo


### Задание 49 (1)

Найдите названия кораблей с орудиями калибра 16 дюймов (учесть корабли из таблицы Outcomes).


In [61]:
sql = """--sql
SELECT DISTINCT
    COALESCE(s.name, o.ship) AS ship
FROM
    ships s
    FULL JOIN outcomes o ON s.name = o.ship
    LEFT JOIN classes c ON COALESCE(s.class, o.ship) = c.class
WHERE
    c.bore = 16
ORDER BY
    ship;
"""
select(sql)

Unnamed: 0,ship
0,Iowa
1,Missouri
2,New Jersey
3,North Carolina
4,South Dakota
5,Washington
6,Wisconsin


### Задание 50 (1)

Найдите сражения, в которых участвовали корабли класса Kongo из таблицы Ships.


In [62]:
# JOIN обычно работает быстрее, чем EXISTS или IN, когда нужна именно связь таблиц
sql = """--sql
SELECT DISTINCT
    o.battle
FROM
    outcomes o
    INNER JOIN ships s ON o.ship = s.name
WHERE
    s.class = 'Kongo';
"""
select(sql)

Unnamed: 0,battle
0,Guadalcanal


### Задание 51 (3)

Найдите названия кораблей, имеющих наибольшее число орудий среди всех имеющихся кораблей такого же водоизмещения (учесть корабли из таблицы Outcomes).


In [63]:
# Чтобы не создавать вторую CTE и не использовать еще один JOIN в ней и с итоговом запросе, лучше
# превратить max_numguns в оконную функцию - запрос будет короче и работать быстрее.
sql = """--sql
WITH
    all_ships AS (
        SELECT DISTINCT
            COALESCE(s.name, o.ship) AS ship,
            c.numguns,
            c.displacement,
            MAX(c.numguns) OVER (
                PARTITION BY
                    c.displacement
            ) AS max_numguns
        FROM
            ships s
            FULL JOIN outcomes o ON s.name = o.ship
            LEFT JOIN classes c ON COALESCE(s.class, o.ship) = c.class
        WHERE
            c.displacement IS NOT NULL
    )
SELECT
    a.ship
FROM
    all_ships a
WHERE
    a.numguns = a.max_numguns
ORDER BY
    a.ship;
"""
select(sql)

Unnamed: 0,ship
0,Bismarck
1,California
2,Iowa
3,Missouri
4,Musashi
5,New Jersey
6,North Carolina
7,Ramillies
8,Revenge
9,Royal Oak


### Задание 52 (2)

Определить названия всех кораблей из таблицы Ships, которые могут быть линейным японским кораблем,
имеющим число главных орудий не менее девяти, калибр орудий менее 19 дюймов и водоизмещение не более 65 тыс.тонн


In [64]:
# Эффективнее в данном случае использовать LEFT JOIN, чем INNER JOIN c дополнительным условием
# ... OR s.class IS NULL. Т.к. в таком случае INNER JOIN по сути в случае NULL превтатиться в CROSE JOIN.
sql = """--sql
SELECT
    s.name
FROM
    ships s
    LEFT JOIN classes c ON s.class = c.class
WHERE
    (
        c.type = 'bb'
        OR c.type IS NULL
    )
    AND (
        c.country = 'Japan'
        OR c.country IS NULL
    )
    AND (
        c.numguns >= 9
        OR c.numguns IS NULL
    )
    AND (
        c.bore < 19
        OR c.bore IS NULL
    )
    AND (
        c.displacement <= 65000
        OR c.displacement IS NULL
    )
ORDER BY
    s.name;
"""
select(sql)

Unnamed: 0,name
0,Musashi
1,Yamato


### Задание 53 (2)

Определите среднее число орудий для классов линейных кораблей.
Получить результат с точностью до 2-х десятичных знаков.


In [65]:
sql = """--sql
SELECT
    ROUND(AVG(c.numguns), 2) AS avg_class_numguns
FROM
    classes c
WHERE
    c.type = 'bb';
"""
select(sql)

Unnamed: 0,avg_class_numguns
0,9.67


### Задание 54 (2)

С точностью до 2-х десятичных знаков определите среднее число орудий всех линейных кораблей (учесть корабли из таблицы Outcomes).


In [66]:
# Локаничный вариант для небольших данных: FULL JOIN создает промежуточную таблицу размером ships * outcomes,
# а COALESCE и DISTINCT сортировки/хэширования (CPU).
sql = """--sql
WITH
    all_bb_ships AS (
        SELECT DISTINCT
            COALESCE(s.name, o.ship) AS ship,
            c.numguns
        FROM
            ships s
            FULL JOIN outcomes o ON s.name = o.ship
            INNER JOIN classes c ON COALESCE(s.class, o.ship) = c.class
        WHERE
            c.type = 'bb'
    )
SELECT
    ROUND(AVG(b.numguns), 2) AS avg_ship_numguns
FROM
    all_bb_ships b;
"""
select(sql)

Unnamed: 0,avg_ship_numguns
0,9.63


In [67]:
# Однако вариант с UNION на больших данных имеет мельшую цену: каждый INNER JOIN работает на относительно
# небольшом наборе строк, а UNION убирает дубликаты без сложных join'ов и как правило оптимизирован в СУБД.
sql = """--sql
WITH
    all_bb_ships AS (
        SELECT
            s.name AS ship,
            c.numguns
        FROM
            ships s
            INNER JOIN classes c ON s.class = c.class
        WHERE
            c.type = 'bb'
        UNION
        SELECT
            o.ship,
            c.numguns
        FROM
            outcomes o
            INNER JOIN classes c ON o.ship = c.class
        WHERE
            c.type = 'bb'
    )
SELECT
    ROUND(AVG(b.numguns), 2) AS avg_ship_numguns
FROM
    all_bb_ships b;
"""
select(sql)

Unnamed: 0,avg_ship_numguns
0,9.63


### Задание 55 (2)

Для каждого класса определите год, когда был спущен на воду первый корабль этого класса. Если год спуска на воду головного корабля неизвестен, определите минимальный год спуска на воду кораблей этого класса. Вывести: класс, год.


In [68]:
# Все оказалось куда проще и изящнее, чем запрос в лоб: просто берем все классы и минимальные года в каждом
# классе (через GROUP BY), без непосредственного сравнения совпадает ли имя с названием класса, т.к.
# по определению корабль с минимальным годом спуска и будет головным (или минорный но с минимальным годом).
sql = """--sql
SELECT
    c.class,
    m.launched
FROM
    classes c
    LEFT JOIN (
        SELECT
            s.class,
            MIN(s.launched) AS launched
        FROM
            ships s
        GROUP BY
            s.class
    ) m ON c.class = m.class
ORDER BY
    m.launched;
"""
select(sql)

Unnamed: 0,class,launched
0,Kongo,1913.0
1,Renown,1916.0
2,Revenge,1916.0
3,Tennessee,1920.0
4,Yamato,1941.0
5,North Carolina,1941.0
6,Iowa,1943.0
7,Bismarck,


### Задание 56 (2)

Для каждого класса определите число кораблей этого класса, потопленных в сражениях. Вывести: класс и число потопленных кораблей.


In [69]:
# Особенность PostgreSQL - возможность WHERE использовать непосредственно в SELECT через FILTER вместо HAVING.
sql = """--sql
SELECT
    c.class,
    COUNT(DISTINCT o.ship) FILTER (
        WHERE
            o.result = 'sunk'
    ) AS sunken
FROM
    classes c
    LEFT JOIN ships s ON c.class = s.class
    LEFT JOIN outcomes o ON o.ship = c.class
    OR o.ship = s.name
GROUP BY
    c.class
ORDER BY
    c.class;
"""
select(sql)

Unnamed: 0,class,sunken
0,Bismarck,1
1,Iowa,0
2,Kongo,1
3,North Carolina,0
4,Renown,0
5,Revenge,0
6,Tennessee,0
7,Yamato,0


### Задание 57 (2)

Для классов, имеющих потери в виде потопленных кораблей и не менее 3 кораблей в базе данных, вывести имя класса и число потопленных кораблей.


In [70]:
# Вариант с UNION более легковесный и НАДЕЖНЫЙ для отбора уникальных значений, чем DISTINCT через LEFT JOIN,
# но запрос получает немного более громоздким. Также для LEFT JOIN достаточно взять из Outcomes только
# DISTINCT o.ship, без o.result, а указать o.result в WHERE - тогда DISTINCT будет отрабатывать только по
# одному полю, что экономичнее и быстрее.
sql = """--sql
SELECT
    al.class,
    COUNT(snk.ship) AS sunken
FROM
    (
        SELECT
            s.class,
            s.name AS ship
        FROM
            ships s
        UNION
        SELECT
            c.class,
            c.class AS ship
        FROM
            classes c
        WHERE
            c.class IN (
                SELECT
                    ship
                FROM
                    outcomes
            )
    ) al
    LEFT JOIN (
        SELECT DISTINCT
            o.ship
        FROM
            outcomes o
        WHERE
            o.result = 'sunk'
    ) snk ON al.ship = snk.ship
GROUP BY
    al.class
HAVING
    COUNT(*) >= 3
    AND COUNT(snk.ship) > 0;
"""
select(sql)

Unnamed: 0,class,sunken
0,Kongo,1


### Задание 70 (2)

Укажите сражения, в которых участвовало по меньшей мере три корабля одной и той же страны.


In [71]:
sql = """--sql
SELECT DISTINCT
    o.battle
FROM
    outcomes o
    LEFT JOIN ships s ON o.ship = s.name
    LEFT JOIN classes c ON COALESCE(s.class, o.ship) = c.class
GROUP BY
    o.battle,
    c.country
HAVING
    COUNT(c.country) >= 3;
"""
select(sql)

Unnamed: 0,battle
0,Guadalcanal


### Задание 73 (2)

Для каждой страны определить сражения, в которых не участвовали корабли данной страны.
Вывод: страна, сражение


In [72]:
# И как всегда используем NOT EXISTS вместо NOT IN, т.к. на больших данных его цена меньше.
sql = """--sql
SELECT DISTINCT -- так как здесь используем DISTINCT
    c2.country,
    b.name AS bottle
FROM
    classes c2
    CROSS JOIN battles b -- на этом этапе получаем каждую комбинацию (страна, битва) по разу
WHERE
    NOT EXISTS (
        SELECT -- тут DISTINCT после CROSS JOIN уже не нужен (как в варианте через NOT IN)
            1
        FROM
            outcomes o
            LEFT JOIN ships s ON o.ship = s.name
            LEFT JOIN classes c1 ON o.ship = c1.class
            OR s.class = c1.class
        WHERE
            c2.country = c1.country
            AND b.name = o.battle
            -- c1.country IS NOT NULL - использовался в варианте с NOT IN, теперь не важен
    )
ORDER BY
    c2.country,
    b.name;
"""
select(sql)

Unnamed: 0,country,bottle
0,Germany,#Cuba62a
1,Germany,#Cuba62b
2,Germany,Guadalcanal
3,Germany,North Cape
4,Germany,Surigao Strait
5,Gt.Britain,#Cuba62a
6,Gt.Britain,#Cuba62b
7,Gt.Britain,Guadalcanal
8,Gt.Britain,North Atlantic
9,Gt.Britain,North Cape


### Задание 74 (1)

Вывести все классы кораблей России (Russia). Если в базе данных нет классов кораблей России, вывести классы для всех имеющихся в БД стран.
Вывод: страна, класс


In [73]:
sql = """--sql
SELECT
    c.country,
    c.class
FROM
    classes c
WHERE -- если нет кораблей России, превращается в c.country = 'Russia'  OR  TRUE
    c.country = 'Russia'
    OR NOT EXISTS (
        SELECT
            1
        FROM
            classes
        WHERE
            country = 'Russia'
    )
ORDER BY
    country,
    class;
"""
select(sql)

Unnamed: 0,country,class
0,Germany,Bismarck
1,Gt.Britain,Renown
2,Gt.Britain,Revenge
3,Japan,Kongo
4,Japan,Yamato
5,USA,Iowa
6,USA,North Carolina
7,USA,Tennessee


### Задание 78 (1)

Для каждого сражения определить первый и последний день
месяца,
в котором оно состоялось.
Вывод: сражение, первый день месяца, последний
день месяца.

Замечание: даты представить без времени в формате "yyyy-mm-dd".


In [74]:
sql = """--sql
SELECT
    b.name,
    DATE_TRUNC('month', b.date)::date AS firts_day,
    (
        DATE_TRUNC('month', b.date) + INTERVAL '1 month - 1 day'
    )::date AS last_day
FROM
    battles b
ORDER BY
    b.date;
"""
select(sql)

Unnamed: 0,name,firts_day,last_day
0,North Atlantic,1941-05-01,1941-05-31
1,Guadalcanal,1942-11-01,1942-11-30
2,North Cape,1943-12-01,1943-12-31
3,Surigao Strait,1944-10-01,1944-10-31
4,#Cuba62a,1962-10-01,1962-10-31
5,#Cuba62b,1962-10-01,1962-10-31


### Задание 83 (1)

Определить названия всех кораблей из таблицы Ships, которые удовлетворяют, по крайней мере, комбинации любых четырёх критериев из следующего списка:

- numGuns = 8
- bore = 15
- displacement = 32000
- type = bb
- launched = 1915
- class=Kongo
- country=USA


In [75]:
sql = """--sql
SELECT
    s.name
FROM
    ships s
    INNER JOIN classes c ON s.class = c.class
WHERE
    (
        CASE
            WHEN s.class = 'Kongo' THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN s.launched = 1915 THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN c.type = 'bb' THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN c.country = 'USA' THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN c.numguns = 8 THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN c.bore = 15 THEN 1
            ELSE 0
        END
    ) + (
        CASE
            WHEN c.displacement = 32000 THEN 1
            ELSE 0
        END
    ) >= 4
ORDER BY
    s.name;
"""
select(sql)

Unnamed: 0,name
0,Kirishima


## Краткая информация о базе данных "Фирма вторсырья"

Фирма имеет несколько пунктов приема вторсырья. Каждый пункт получает деньги для их выдачи сдатчикам вторсырья. Сведения о получении денег на пунктах приема записываются в таблицу:
Income_o(point, date, inc)
Первичным ключом является (point, date). При этом в столбец date записывается только дата (без времени), т.е. прием денег (inc) на каждом пункте производится не чаще одного раза в день. Сведения о выдаче денег сдатчикам вторсырья записываются в таблицу:
Outcome_o(point, date, out)
В этой таблице также первичный ключ (point, date) гарантирует отчетность каждого пункта о выданных деньгах (out) не чаще одного раза в день.
В случае, когда приход и расход денег может фиксироваться несколько раз в день, используется другая схема с таблицами, имеющими первичный ключ code:
Income(code, point, date, inc)
Outcome(code, point, date, out)
Здесь также значения столбца date не содержат времени.


### Задание 29 (2)

В предположении, что приход и расход денег на каждом пункте приема фиксируется не чаще одного раза в день [т.е. первичный ключ (пункт, дата)], написать запрос с выходными данными (пункт, дата, приход, расход). Использовать таблицы Income_o и Outcome_o.


In [76]:
sql = """--sql
WITH
    all_date AS (
        SELECT
            i.point,
            i.date
        FROM
            income_o i
        UNION
        SELECT
            o.point,
            o.date
        FROM
            outcome_o o
    )
SELECT
    a.*,
    i.inc,
    o.out
FROM
    all_date a
    LEFT JOIN income_o i ON a.point = i.point
    AND a.date = i.date
    LEFT JOIN outcome_o o ON a.point = o.point
    AND a.date = o.date
ORDER BY
    a.point,
    a.date;
"""
select(sql)

Unnamed: 0,point,date,inc,out
0,1,2001-03-14,,15348.0
1,1,2001-03-22,15000.0,
2,1,2001-03-23,15000.0,
3,1,2001-03-24,3400.0,3663.0
4,1,2001-03-26,,1221.0
5,1,2001-03-28,,2075.0
6,1,2001-03-29,,2004.0
7,1,2001-04-11,,3195.04
8,1,2001-04-13,5000.0,4490.0
9,1,2001-04-27,,3110.0


### Задание 30 (2)

В предположении, что приход и расход денег на каждом пункте приема фиксируется произвольное число раз (первичным ключом в таблицах является столбец code), требуется получить таблицу, в которой каждому пункту за каждую дату выполнения операций будет соответствовать одна строка.
Вывод: point, date, суммарный расход пункта за день (out), суммарный приход пункта за день (inc). Отсутствующие значения считать неопределенными (NULL).


In [77]:
sql = """--sql
WITH
    outcome_day AS (
        SELECT
            o.point,
            o.date,
            SUM(o.out) AS OUT
        FROM
            outcome o
        GROUP BY
            o.point,
            o.date
    ),
    income_day AS (
        SELECT
            i.point,
            i.date,
            SUM(i.inc) AS inc
        FROM
            income i
        GROUP BY
            i.point,
            i.date
    )
SELECT
    COALESCE(o.point, i.point) AS POINT,
    COALESCE(o.date, i.date) AS date,
    o.out,
    i.inc
FROM
    outcome_day o
    FULL JOIN income_day i ON o.point = i.point
    AND o.date = i.date
ORDER BY
    POINT,
    date;
"""
select(sql)

Unnamed: 0,point,date,out,inc
0,1,2001-03-14,15348.0,
1,1,2001-03-22,,30000.0
2,1,2001-03-23,,15000.0
3,1,2001-03-24,7163.0,7000.0
4,1,2001-03-26,1221.0,
5,1,2001-03-28,2075.0,
6,1,2001-03-29,4010.0,
7,1,2001-04-11,3195.04,
8,1,2001-04-13,4490.0,10000.0
9,1,2001-04-27,3110.0,


### Задание 59 (2)

Посчитать остаток денежных средств на каждом пункте приема для базы данных с отчетностью не чаще одного раза в день. Вывод: пункт, остаток.


In [78]:
# Вариан через JOIN:

# SELECT
#     COALESCE(i.point, o.point) AS point,
#     SUM(COALESCE(i.inc, 0)) - SUM(COALESCE(o.out, 0)) AS remains
# FROM
#     income_o i
#     FULL JOIN outcome_o o ON i.point = o.point
#     AND i.date = o.date
# GROUP BY
#     COALESCE(i.point, o.point)
# ORDER BY
#     point;

# Однако, опять же, вариант через UNION работает быстрее и логика более прямоинейная:
sql = """--sql
SELECT
    t.point,
    SUM(t.amount) AS remains
FROM
    (
        SELECT
            i.point,
            i.inc AS amount
        FROM
            income_o i
        UNION ALL
        SELECT
            o.point,
            - o.out AS amount
        FROM
            outcome_o o
    ) t
GROUP BY
    t.point
ORDER BY
    t.point;
"""
select(sql)

Unnamed: 0,point,remains
0,1,5263.96
1,2,172.0
2,3,23550.0


### Задание 60 (2)

Посчитать остаток денежных средств на начало дня 15/04/2001 на каждом пункте приема для базы данных с отчетностью не чаще одного раза в день. Вывод: пункт, остаток.
Замечание. Не учитывать пункты, информации о которых нет до указанной даты.


In [79]:
sql = """--sql
SELECT
    t.point,
    SUM(t.amount) AS balance_for_15th
FROM
    (
        SELECT
            i.point,
            i.inc AS amount
        FROM
            income_o i
        WHERE
            i.date < '2001-04-15'
        UNION ALL
        SELECT
            o.point,
            - o.out AS amount
        FROM
            outcome_o o
        WHERE
            o.date < '2001-04-15'
    ) t
GROUP BY
    t.point
ORDER BY
    t.point;
"""
select(sql)

Unnamed: 0,point,balance_for_15th
0,1,6403.96
1,2,172.0


### Задание 61 (1)

Посчитать остаток денежных средств на всех пунктах приема для базы данных с отчетностью не чаще одного раза в день.


In [80]:
sql = """--sql
SELECT
    SUM(t.amount) AS remains
FROM
    (
        SELECT
            i.inc AS amount
        FROM
            income_o i
        UNION ALL
        SELECT
            - o.out AS amount
        FROM
            outcome_o o
    ) t;
"""
select(sql)

Unnamed: 0,remains
0,28985.96


### Задание 62 (1)

Посчитать остаток денежных средств на всех пунктах приема на начало дня 15/04/2001 для базы данных с отчетностью не чаще одного раза в день.


In [81]:
sql = """--sql
SELECT
    SUM(t.amount) AS remains_for_15th
FROM
    (
        SELECT
            i.inc AS amount
        FROM
            income_o i
        WHERE
            i.date < '2001-04-15'
        UNION ALL
        SELECT
            - o.out AS amount
        FROM
            outcome_o o
        WHERE
            o.date < '2001-04-15'
    ) t;
"""
select(sql)

Unnamed: 0,remains_for_15th
0,6575.96


### Задание 64 (2)

Используя таблицы Income и Outcome, для каждого пункта приема определить дни, когда был приход, но не было расхода и наоборот.
Вывод: пункт, дата, тип операции (inc/out), денежная сумма за день.


In [96]:
# На больших данных FULL JOIN будет заметно быстрее чем вариант через UNION ALL с WHERE NOT EXISTS (в реальном
# анализе плана выполнения стоимость 7 против 13)
sql = """--sql
WITH
    inc AS (
        SELECT
            i.point,
            i.date,
            'inc' AS "inc/out",
            SUM(i.inc) AS "sum"
        FROM
            income i
        GROUP BY
            i.point,
            i.date
    ),
    otc AS (
        SELECT
            o.point,
            o.date,
            'out' AS "inc/out",
            SUM(o.out) AS "sum"
        FROM
            outcome o
        GROUP BY
            o.point,
            o.date
    )
SELECT
    COALESCE(inc.point, otc.point) AS POINT,
    COALESCE(inc.date, otc.date) AS date,
    COALESCE(inc."inc/out", otc."inc/out") AS "inc/out",
    COALESCE(inc.sum, otc.sum) AS "sum"
FROM
    inc
    FULL JOIN otc ON inc.point = otc.point
    AND inc.date = otc.date
WHERE
    inc.point IS NULL
    OR otc.point IS NULL
ORDER BY
    inc.point,
    inc.date;
"""
select(sql)

Unnamed: 0,point,date,inc/out,sum
0,1,2001-03-22,inc,30000.0
1,1,2001-03-23,inc,15000.0
2,2,2001-03-24,inc,3000.0
3,1,2001-03-29,out,4010.0
4,1,2001-04-11,out,3195.04
5,2,2001-04-02,out,2040.0
6,1,2001-03-26,out,1221.0
7,2,2001-03-29,out,7848.0
8,1,2001-03-28,out,2075.0
9,1,2001-04-27,out,3110.0


### Задание 69 (2)

По таблицам Income и Outcome для каждого пункта приема найти остатки денежных средств на конец каждого дня,
в который выполнялись операции по приходу и/или расходу на данном пункте.
Учесть при этом, что деньги не изымаются, а остатки/задолженность переходят на следующий день.
Вывод: пункт приема, день в формате "dd/mm/yyyy", остатки/задолженность на конец этого дня.


In [83]:
sql = """--sql
WITH
    daily_balance AS (
        SELECT
            t.point,
            t.date,
            SUM(t.amount) AS cash
        FROM
            (
                SELECT
                    i.point,
                    i.date,
                    i.inc AS amount
                FROM
                    income i
                UNION ALL
                SELECT
                    o.point,
                    o.date,
                    - o.out AS amount
                FROM
                    outcome o
            ) t
        GROUP BY
            t.point,
            t.date
    )
SELECT
    d.point,
    TO_CHAR(d.date, 'DD/MM/YYYY') AS date,
    SUM(d.cash) OVER (
        PARTITION BY
            d.point
        ORDER BY
            d.date ROWS UNBOUNDED PRECEDING
    ) AS balance
FROM
    daily_balance d
ORDER BY
    d.point,
    d.date;
"""
select(sql)

Unnamed: 0,point,date,balance
0,1,14/03/2001,-15348.0
1,1,22/03/2001,14652.0
2,1,23/03/2001,29652.0
3,1,24/03/2001,29489.0
4,1,26/03/2001,28268.0
5,1,28/03/2001,26193.0
6,1,29/03/2001,22183.0
7,1,11/04/2001,18987.96
8,1,13/04/2001,24497.96
9,1,27/04/2001,21387.96


### Задание 81 (2)

Из таблицы Outcome получить все записи за тот месяц (месяцы), с учетом года, в котором суммарное значение расхода (out) было максимальным.


In [84]:
# Вариант через `JOIN max_months m ON DATE_TRUNC('month', o.date) = m.month` лучше - дает оптимизатору
# больше свободы и стабильнее на больших данных чем вариант через:
# WHERE
#     DATE_TRUNC('month', o2.date) IN (
#         SELECT
#             *
#         FROM
#             max_month
#     ), хотя их стоимость почти одинакова (WHERE даже чуть-чуть дешевле).
sql = """--sql
WITH
    month_total AS (
        SELECT
            DATE_TRUNC('month', date) AS "month",
            SUM(out) AS total_out
        FROM
            outcome
        GROUP BY
            DATE_TRUNC('month', date)
    ),
    max_month AS (
        SELECT
            month
        FROM
            month_total
        WHERE
            total_out = (
                SELECT
                    MAX(total_out)
                FROM
                    month_total
            )
    )
SELECT
    o.*
FROM
    outcome o
    INNER JOIN max_month m ON DATE_TRUNC('month', o.date) = m.month; -- так предпочтительнее чем WHERE
"""
select(sql)

Unnamed: 0,code,point,date,out
0,1,1,2001-03-14,15348.0
1,2,1,2001-03-24,3663.0
2,3,1,2001-03-26,1221.0
3,4,1,2001-03-28,2075.0
4,5,1,2001-03-29,2004.0
5,10,2,2001-03-22,1440.0
6,11,2,2001-03-29,7848.0
7,13,1,2001-03-24,3500.0
8,14,2,2001-03-22,1440.0
9,15,1,2001-03-29,2006.0


## Краткая информация о базе данных "Аэрофлот"

Схема БД состоит из четырех отношений:
Company (ID_comp, name)
Trip(trip_no, ID_comp, plane, town_from, town_to, time_out, time_in)
Passenger(ID_psg, name)
Pass_in_trip(trip_no, date, ID_psg, place)
Таблица Company содержит идентификатор и название компании, осуществляющей перевозку пассажиров. Таблица Trip содержит информацию о рейсах: номер рейса, идентификатор компании, тип самолета, город отправления, город прибытия, время отправления и время прибытия. Таблица Passenger содержит идентификатор и имя пассажира. Таблица Pass_in_trip содержит информацию о полетах: номер рейса, дата вылета (день), идентификатор пассажира и место, на котором он сидел во время полета. При этом следует иметь в виду, что

- рейсы выполняются ежедневно, а длительность полета любого рейса менее суток; town_from <> town_to;
- время и дата учитывается относительно одного часового пояса;
- время отправления и прибытия указывается с точностью до минуты;
- среди пассажиров могут быть однофамильцы (одинаковые значения поля name, например, Bruce Willis);
- номер места в салоне – это число с буквой; число определяет номер ряда, буква (a – d) – место в ряду слева направо в алфавитном порядке;
- связи и ограничения показаны на схеме данных.


### Задание 63 (2)

Определить имена разных пассажиров, когда-либо летевших на одном и том же месте более одного раза.


In [85]:
# COUNT со * работает быстрее чем, например COUNT(pt.id_psg) - если логически коректно, лучше использовать его.
sql = """--sql
SELECT
    p.name
FROM
    passenger p
WHERE
    p.id_psg IN (
        SELECT
            pt.id_psg
        FROM
            pass_in_trip pt
        GROUP BY
            pt.place,
            pt.id_psg
        HAVING
            COUNT(*) > 1
    )
ORDER BY
    p.name;
"""
select(sql)

Unnamed: 0,name
0,Bruce Willis
1,Mullah Omar
2,Nikole Kidman


### Задание 66 (2)

Для всех дней в интервале с 01/04/2003 по 07/04/2003 определить число рейсов из Rostov с пассажирами на борту.
Вывод: дата, количество рейсов.


In [86]:
# Если имена столбцов для связи таблиц совпадают то можно использовать USING (date), вместо
# ON a.date = f.date. В результирующей таблице при таком воединении будет один общий столбец date.
# Запись и итоговая таблица более локаничны.
sql = """--sql
WITH
    flight_dates AS (
        SELECT
            p.date,
            COUNT(DISTINCT p.trip_no) AS num_flights
        FROM
            pass_in_trip p
            INNER JOIN trip t ON p.trip_no = t.trip_no
        WHERE
            t.town_from = 'Rostov'
            AND p.date BETWEEN '2003-04-01' AND '2003-04-07'
        GROUP BY
            p.date
    ),
    all_date AS (
        SELECT
            GENERATE_SERIES(
                TIMESTAMP '2003-04-01 00:00:00',
                TIMESTAMP '2003-04-07 00:00:00',
                INTERVAL '1 day'
            ) AS date
    )
SELECT
    a.date,
    COALESCE(f.num_flights, 0) AS num_flights
FROM
    all_date a
    LEFT JOIN flight_dates f USING (date)
ORDER BY
    a.date;
"""
select(sql)

Unnamed: 0,date,num_flights
0,2003-04-01,1
1,2003-04-02,0
2,2003-04-03,0
3,2003-04-04,0
4,2003-04-05,1
5,2003-04-06,0
6,2003-04-07,0


### Задание 67 (1)

Найти количество маршрутов, которые обслуживаются наибольшим числом рейсов.
Замечания.

1. A - B и B - A считать РАЗНЫМИ маршрутами.
2. Использовать только таблицу Trip


In [87]:
# Вариант для относительно небольших данных:
sql = """--sql
SELECT
    COUNT(*) AS num_flights
FROM
    (
        SELECT
            t.town_from,
            t.town_to,
            COUNT(*) AS num_trip,
            MAX(COUNT(*)) OVER () AS max_num_trip
        FROM
            trip t
        GROUP BY
            t.town_from,
            t.town_to
    ) nf
WHERE
    nf.num_trip = nf.max_num_trip;
"""
select(sql)

Unnamed: 0,num_flights
0,4


### Задание 68 (1)

Найти количество маршрутов, которые обслуживаются наибольшим числом рейсов.
Замечания.

1. A - B и B - A считать ОДНИМ И ТЕМ ЖЕ маршрутом.
2. Использовать только таблицу Trip


In [88]:
# На больших данных вариант с выносом MAX(num_trip) в отдельную CTE будет эффективнее, т.к. создается
# меньше промежуточных данных в сравнении с MAX(COUNT(*)) OVER () из предъидущей задачи. Так же WHERE
# в итоговом запросе сравнивает значение fs.num_trip только с одним скалярным значением, а не выполняет
# ппроверку по всем строкам.
# P.S. Вместо блоков CASE WHEN можно использовать LEAST(town_from, town_to) и GREATEST(town_from, town_to),
# но CASE универсальный метод для большинства СУБД:
# CASE
#     WHEN t.town_from > t.town_to THEN t.town_from
#     ELSE t.town_to
# END AS town_a,
# CASE
#     WHEN t.town_to < t.town_from THEN t.town_to
#     ELSE t.town_from
# END AS town_b
sql = """--sql
WITH
    flight_statistics AS (
        SELECT
            GREATEST(t.town_from, t.town_to) AS town_a,
            LEAST(t.town_to, t.town_from) AS town_b,
            COUNT(*) AS num_trip
        FROM
            trip t
        GROUP BY
            town_a,
            town_b
    ),
    max_flights AS (
        SELECT
            MAX(num_trip) AS max_num_trip
        FROM
            flight_statistics
    )
SELECT
    COUNT(*) AS num_flights
FROM
    flight_statistics fs
WHERE
    fs.num_trip = (
        SELECT
            max_num_trip
        FROM
            max_flights
    );
"""
select(sql)

Unnamed: 0,num_flights
0,2


### Задание 72 (2)

Среди тех, кто пользуется услугами только какой-нибудь одной компании, определить имена разных пассажиров, летавших чаще других.
Вывести: имя пассажира и число полетов.


In [89]:
# Интерестная задача в плане вариантов решения (посмотреть варианты решений на формуме - SELECT
# в виде единичного/самосоятельного поля в основном запросе, помимо основного подзапроса -
# выглядит менее читаемо, но оптимизатор выполняет за меньшую цену и количество операций).
# P.S. В данном случае выбран INNER JOIN для отсеивания неполных данных (NULL) - зависит от
# поставленной задачи/условий анализа.
sql = """--sql
WITH
    pass_stat AS (
        SELECT
            MIN(p.name) AS "name",
            COUNT(*) AS count_trip
        FROM
            pass_in_trip pt
            INNER JOIN trip t ON pt.trip_no = t.trip_no
            INNER JOIN passenger p ON pt.id_psg = p.id_psg
        GROUP BY
            pt.id_psg
        HAVING
            MIN(t.id_comp) = MAX(t.id_comp)
    )
SELECT
    ps.name,
    ps.count_trip
FROM
    pass_stat ps
WHERE
    ps.count_trip = (
        SELECT
            MAX(count_trip)
        FROM
            pass_stat
    )
ORDER BY
    ps.name;
"""
select(sql)

Unnamed: 0,name,count_trip
0,Michael Caine,4
1,Mullah Omar,4


### Задание 76 (2)

Определить время, проведенное в полетах, для пассажиров, летавших всегда на разных местах. Вывод: имя пассажира, время в минутах.


In [90]:
# Вариант через
# SELECT
#     pit.id_psg
# FROM
#     pass_in_trip pit
# GROUP BY
#     pit.id_psg,
#     pit.place
# HAVING
#     COUNT(*) = 1G
# будет работаь медленее из-за большего количества создоаемых групп.
#
# EXTRACT позволяет достать год, месяц, день, час, минуту и т.д. из даты или интервала:
# EXTRACT(YEAR/DAY/MINUTE/EPOCH FROM TIMESTAMP/INTERVAL)
sql = """--sql
WITH
    unique_place AS (
        SELECT
            id_psg
        FROM
            pass_in_trip
        GROUP BY
            id_psg
        HAVING
            COUNT(DISTINCT place) = COUNT(*) -- так будет быстрее
    )
SELECT
    MIN(p.name) AS "name",
    SUM(
        EXTRACT(
            EPOCH
            FROM
                CASE
                    WHEN t.time_in > t.time_out THEN t.time_in - t.time_out
                    ELSE t.time_in + INTERVAL '1 day' - t.time_out -- т.к. данные некорректные
                END
        ) / 60
    ) AS minutes_in_flight
FROM
    pass_in_trip pit
    INNER JOIN unique_place u ON pit.id_psg = u.id_psg -- первым, чтобы не выгружать лишние данные
    INNER JOIN passenger p ON pit.id_psg = p.id_psg
    INNER JOIN trip t ON pit.trip_no = t.trip_no
GROUP BY
    p.id_psg -- НЕ по имени, т.к. есть полные тески
ORDER BY
    SUM(
        EXTRACT(
            EPOCH
            FROM
                CASE
                    WHEN t.time_in > t.time_out THEN t.time_in - t.time_out
                    ELSE t.time_in + INTERVAL '1 day' - t.time_out
                END
        ) / 60
    ) DESC;
"""
select(sql)

Unnamed: 0,name,minutes_in_flight
0,Michael Caine,2100.0
1,Harrison Ford,1800.0
2,Kurt Russell,1797.0
3,Steve Martin,1440.0
4,Russell Crowe,840.0
5,Ray Liotta,789.0
6,Kevin Costner,788.0
7,George Clooney,650.0
8,Jennifer Lopez,332.0
9,Alan Rickman,115.0


### Задание 77 (2)

Определить дни, когда было выполнено максимальное число рейсов из
Ростова ('Rostov'). Вывод: число рейсов, дата.


In [91]:
# Оконные функции позволяют использовать вложенные агрегатные функции, например:
# MAX(COUNT(DISTINCT pit.trip_no)) OVER () AS max_flights
sql = """--sql
SELECT
    n.num_flights,
    n.date
FROM
    (
        SELECT
            COUNT(DISTINCT pit.trip_no) AS num_flights,
            pit.date,
            MAX(COUNT(DISTINCT pit.trip_no)) OVER () AS max_flights
        FROM
            pass_in_trip pit
            INNER JOIN trip t ON pit.trip_no = t.trip_no
            AND t.town_from = 'Rostov'
        GROUP BY
            pit.date
    ) n
WHERE
    n.num_flights = n.max_flights
ORDER BY
    n.date;
"""
select(sql)

Unnamed: 0,num_flights,date
0,1,2003-04-01
1,1,2003-04-05
2,1,2003-04-08
3,1,2003-04-13
4,1,2003-04-14
5,1,2003-04-29


### Задание 79 (2)

Определить пассажиров, которые больше других времени провели в полетах.
Вывод: имя пассажира, общее время в минутах, проведенное в полетах


In [92]:
# На больших данных, обычно, выгоднее использовать вариант с оконной функцией, чем с дополнительным
# подзавросом в WHERE:
# WHERE
#     m.mins_flight = (
#         SELECT
#             MAX(mins_flight)
#         FROM
#             minutes_in_flight
#     )
# Хотя такой вариант был бы проще для чтения (без дополнительного поля MAX(SUM(EXTRACT(...))) AS max_mins).
sql = """--sql
WITH
    minutes_in_flight AS (
        SELECT
            MIN(p.name) AS "name",
            SUM(
                EXTRACT(
                    EPOCH
                    FROM
                        CASE
                            WHEN t.time_in > t.time_out THEN t.time_in - t.time_out
                            ELSE t.time_in + INTERVAL '1 day' - t.time_out
                        END
                ) / 60
            ) AS mins_flight,
            MAX(
                SUM(
                    EXTRACT(
                        EPOCH
                        FROM
                            CASE
                                WHEN t.time_in > t.time_out THEN t.time_in - t.time_out
                                ELSE t.time_in + INTERVAL '1 day' - t.time_out
                            END
                    ) / 60
                )
            ) OVER () AS max_mins -- OVER () позволяет использовать фложенные агрегатные функции
        FROM
            passenger p
            INNER JOIN pass_in_trip pit ON p.id_psg = pit.id_psg
            INNER JOIN trip t ON pit.trip_no = t.trip_no
        GROUP BY
            p.id_psg
    )
SELECT
    m.name,
    m.mins_flight
FROM
    minutes_in_flight m
WHERE
    m.mins_flight = m.max_mins
ORDER BY
    m.name;
"""
select(sql)

Unnamed: 0,name,mins_flight
0,Michael Caine,2100.0


### Задание 84 (2)

Для каждой компании подсчитать количество перевезенных пассажиров (если они были в этом месяце) по декадам апреля 2003. При этом учитывать только дату вылета.

Вывод: название компании, количество пассажиров за каждую декаду


In [93]:
# Универсальнее/безопаснее использовать `pit.date >= '2003-04-01 AND pit < '2003-05-01'` вместо
# `pit.date BETWEEN '2003-04-01' AND '2003-04-30'`, чтобы в случае TIMESTAMP небыло потери дня при
# `2003-04-30 23:59:59`, а не `2003-04-30 00:00:00`.
# Также запроc можно отвязать от конкретного месяца (сделать универсальным для любого месяца), заменив
# `COUNT(CASE WHEN pit.date >= '2003-04-01' AND pit.date < '2003-04-11' THEN 1 END) AS first_dacate` на
# `COUNT(CASE WHEN EXTRACT(day FROM pit.date) BETWEEN 1 AND 10 THEN 1 END) AS first_decade`, но тогда
# появляется привязка к конкретной СУБД.
sql = """--sql
SELECT
    MIN(c.name) AS company,
    COUNT(
        CASE
            WHEN pit.date >= '2003-04-01'
            AND pit.date < '2003-04-11' THEN 1
        END
    ) AS num_psg_1_dec,
    COUNT(
        CASE
            WHEN pit.date >= '2003-04-11'
            AND pit.date < '2003-04-21' THEN 1
        END
    ) AS num_psg_2_dec,
    COUNT(
        CASE
            WHEN pit.date >= '2003-04-21'
            AND pit.date < '2003-05-01' THEN 1
        END
    ) AS num_psg_3_dec
FROM
    pass_in_trip pit
    INNER JOIN trip t ON pit.trip_no = t.trip_no
    INNER JOIN company c ON t.id_comp = c.id_comp
WHERE
    pit.date >= '2003-04-01'
    AND pit.date < '2003-05-01' -- корректно для TIMESTAMP '2003-04-30 23:59:59'
GROUP BY
    t.id_comp -- надежнее чем c.name при наличии "тесок"
ORDER BY
    company;
"""
select(sql)

Unnamed: 0,company,num_psg_1_dec,num_psg_2_dec,num_psg_3_dec
0,Aeroflot,1,0,1
1,air_France,0,0,1
2,Dale_avia,4,0,0
3,Don_avia,4,5,0


### Задание 87 (2)

Считая, что пункт самого первого вылета пассажира является местом жительства, найти не москвичей, которые прилетали в Москву более одного раза.
Вывод: имя пассажира, количество полетов в Москву


In [94]:
# N.B.! На заметку:
# Концепция данного варианта решинея взаимствована с форума- более изящно, чем решение "в лоб".
# Вариант с одним уровнем вложенности резоннее реализовать без CTE, т.к. в старых версиях СУБД они
# матеариализуются.
sql = """--sql
SELECT
    tmp.name,
    tmp.num_flights_moscow
FROM
    (
        SELECT
            p.id_psg,
            p.name,
            t.town_from,
            ROW_NUMBER() OVER (
                PARTITION BY
                    p.id_psg
                ORDER BY
                    pit.date,
                    t.time_out
            ) AS flight_num,
            COUNT(*) FILTER (
                WHERE
                    t.town_to = 'Moscow'
            ) OVER (
                PARTITION BY
                    p.id_psg
            ) AS num_flights_moscow
        FROM
            passenger p
            INNER JOIN pass_in_trip pit ON p.id_psg = pit.id_psg
            INNER JOIN trip t ON pit.trip_no = t.trip_no
    ) tmp
WHERE
    tmp.flight_num = 1
    AND tmp.town_from != 'Moscow'
    AND tmp.num_flights_moscow > 1
ORDER BY
    tmp.num_flights_moscow DESC;
"""
select(sql)

Unnamed: 0,name,num_flights_moscow
0,Nikole Kidman,2


### Задание 88 (2)

Среди тех, кто пользуется услугами только одной компании, определить имена разных пассажиров, летавших чаще других.
Вывести: имя пассажира, число полетов и название компании.


In [95]:
sql = """--sql
WITH
    psg_one_cmp AS (
        SELECT
            MIN(p.name) AS passenger,
            COUNT(*) AS num_flight,
            MIN(c.name) AS company
        FROM
            passenger p
            INNER JOIN pass_in_trip pit ON p.id_psg = pit.id_psg
            INNER JOIN trip t ON pit.trip_no = t.trip_no
            INNER JOIN company c ON t.id_comp = c.id_comp
        GROUP BY
            p.id_psg
        HAVING
            COUNT(DISTINCT t.id_comp) = 1
    )
SELECT
    tmp.passenger,
    tmp.num_flight,
    tmp.company
FROM
    (
        SELECT
            *,
            MAX(num_flight) OVER () AS max_flight -- на больших данных так дешевле, чем в WHERE
        FROM
            psg_one_cmp
    ) tmp
WHERE
    tmp.num_flight = tmp.max_flight -- здесь бы выпонялся реальный второй проход по данным
ORDER BY
    tmp.num_flight DESC;
"""
select(sql)

Unnamed: 0,passenger,num_flight,company
0,Michael Caine,4,British_AW
1,Mullah Omar,4,British_AW
