# Работа с демонстрационной БД  «Авиаперевозки» в PostGre

Вам предоставляется демонстрационная БД, развернутая в СУБД PostGre. 
Режим доступа - только на чтение.


In [2]:
import os
import json
import psycopg2
from psycopg2.extras import DictCursor

In [3]:
POSTGRESQL_HOST = '10.129.0.25'

In [4]:
!env | grep POST

POSTGRESQL_USER=reader
POSTGRESQL_PASSWORD=Miba2021


Создание подключения к БД

In [5]:
conn = psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
)
cur = conn.cursor()

Получение параметров подключения (в будущем вам это пригодится)

In [6]:
conn.get_dsn_parameters()

{'user': 'reader',
 'channel_binding': 'prefer',
 'dbname': 'demo',
 'host': '10.129.0.25',
 'port': '5432',
 'options': '',
 'sslmode': 'prefer',
 'sslcompression': '0',
 'sslcertmode': 'allow',
 'sslsni': '1',
 'ssl_min_protocol_version': 'TLSv1.2',
 'gssencmode': 'prefer',
 'krbsrvname': 'postgres',
 'gssdelegation': '0',
 'target_session_attrs': 'any',
 'load_balance_hosts': 'disable'}

Подготовка SQL запроса на вывод первых 5 записей из таблицы seats

In [7]:
query = 'SELECT * FROM seats LIMIT 5'

In [8]:
cur.execute(query)
records = cur.fetchall()
cur.close()
conn.close()

In [9]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business')]

Через конструкцию  with as реализуем соединение с БД и выполним SQL запрос

In [10]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute('SELECT * FROM seats LIMIT 10')
        records = cur.fetchall()

In [11]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business'),
 ('319', '3C', 'Business'),
 ('319', '3D', 'Business'),
 ('319', '3F', 'Business'),
 ('319', '4A', 'Business'),
 ('319', '4C', 'Business')]

Подготовим словарь с тремя запросам  на получение информации о БД

In [12]:
queries = {
    '___DATABASES___': 'SELECT * FROM pg_database',
    '___TABLES___': "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';",
    '\n___COLUMNS___': "SELECT column_name FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'seats';"
}

In [13]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    for name, query in queries.items():
        print('\n', name)
        with conn.cursor() as cur:
            cur.execute(query)
            for row in cur.fetchall():
                print(row)


 ___DATABASES___
(13760, 'postgres', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, None)
(1, 'template1', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, True, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(13759, 'template0', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, False, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(16384, 'demo', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, '{=Tc/postgres,postgres=CTc/postgres,reader=c/postgres}')

 ___TABLES___
('boarding_passes',)
('aircrafts_data',)
('flights',)
('airports_data',)
('seats',)
('tickets',)
('ticket_flights',)
('bookings',)
('employees',)
('departments',)
('department',)
('employee',)

 
___COLUMNS___
('aircraft_code',)
('seat_no',)
('fare_conditions',)


In [14]:
tables_db = []
query = "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';"
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        for row in cur.fetchall():
            tables_db.append(row[0])

In [15]:
print(tables_db)

['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 'department', 'employee']


## Задание 1:
Для каждой таблицы БД выведите ее структуру (название колонок). 

В текстовой ячейке представьте описание каждой таблицы - ее назначение и структуру.  


Пример использования магической команды sql

In [16]:
%load_ext sql

In [17]:
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

Получим информацию по типу каждого столбца таблицы boarding_passes

In [18]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'boarding_passes'

4 rows affected.


column_name,udt_name
flight_id,int4
boarding_no,int4
ticket_no,bpchar
seat_no,varchar


In [22]:
%%sql $CONNECT_DATA
SELECT table_name, column_name, udt_name
FROM INFORMATION_SCHEMA.COLUMNS
WHERE table_name IN ('boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 
                     'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 
                     'department', 'employee')
ORDER BY table_name, column_name;

57 rows affected.


table_name,column_name,udt_name
aircrafts_data,aircraft_code,bpchar
aircrafts_data,model,jsonb
aircrafts_data,range,int4
airports_data,airport_code,bpchar
airports_data,airport_name,jsonb
airports_data,city,jsonb
airports_data,coordinates,point
airports_data,timezone,text
boarding_passes,boarding_no,int4
boarding_passes,flight_id,int4


## Задание 2:
Для каждой таблицы выведите информацию о типах ее столбцов (полей) и количестве записей.

Создайте словарь с названием таблиц и количеством записей в них.

Найти и вывести название таблицы с максимальным количеством записей, количество записей также вывести.



In [25]:
%%sql $CONNECT_DATA
SELECT 
    table_name, 
    column_name, 
    udt_name 
FROM INFORMATION_SCHEMA.COLUMNS 
WHERE table_name IN ('boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 
                     'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 
                     'department', 'employee')
ORDER BY table_name, column_name;

-- Количество записей в каждой таблице
SELECT 
    table_name, 
    (SELECT COUNT(*) FROM information_schema.tables t2 WHERE t2.table_name = t1.table_name) AS row_count
FROM information_schema.tables t1
WHERE table_name IN ('boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 
                     'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 
                     'department', 'employee');

57 rows affected.
12 rows affected.


table_name,row_count
boarding_passes,1
aircrafts_data,1
flights,1
airports_data,1
seats,1
tickets,1
ticket_flights,1
bookings,1
employees,1
departments,1


In [26]:
tables_db = ['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 
             'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 
             'department', 'employee']

table_counts = {}
with psycopg2.connect(dbname='demo', user=os.environ['POSTGRESQL_USER'], 
                     password=os.environ['POSTGRESQL_PASSWORD'], host='10.129.0.25') as conn:
    with conn.cursor() as cur:
        for table in tables_db:
            cur.execute(f"SELECT COUNT(*) FROM {table};")
            table_counts[table] = cur.fetchone()[0]

print(table_counts)

{'boarding_passes': 7925812, 'aircrafts_data': 9, 'flights': 214867, 'airports_data': 104, 'seats': 1339, 'tickets': 2949857, 'ticket_flights': 8391852, 'bookings': 2111110, 'employees': 12, 'departments': 10, 'department': 10, 'employee': 12}


In [27]:
max_table = max(table_counts, key=table_counts.get)
print(f"Таблица с максимальным количеством записей: {max_table}, записей: {table_counts[max_table]}")

Таблица с максимальным количеством записей: ticket_flights, записей: 8391852


## Задание 3:

Вывести названия тарифов, которые предлагают авиаперевозчики пассажирам. 

In [29]:
%%sql $CONNECT_DATA
SELECT DISTINCT fare_conditions
FROM seats;

3 rows affected.


fare_conditions
Business
Comfort
Economy


## Задание 4:

По каждому тарифу найти общую сумму выручки за продажу билетов.


In [30]:
%%sql $CONNECT_DATA
SELECT 
    tf.fare_conditions, 
    SUM(tf.amount) AS total_revenue
FROM ticket_flights tf
GROUP BY tf.fare_conditions
ORDER BY total_revenue DESC;

3 rows affected.


fare_conditions,total_revenue
Economy,118507139900.0
Business,44321628100.0
Comfort,4580291100.0


## Задание 5:

Какой тариф приносит максимальный доход? (написать SQL запрос)




In [31]:
%%sql $CONNECT_DATA
SELECT 
    tf.fare_conditions, 
    SUM(tf.amount) AS total_revenue
FROM ticket_flights tf
GROUP BY tf.fare_conditions
ORDER BY total_revenue DESC
LIMIT 1;

1 rows affected.


fare_conditions,total_revenue
Economy,118507139900.0


# Время выполнения запросов. 

Разные запросы требуют разное время на выполнение. Часто нужно оптимизировать запрос, либо находить и использовать другой инструмент для анализа данных.

Приведем пример подчета времени выполнения запроса. 


In [40]:
%time result =  %sql SELECT * from departments;

 * postgresql://reader:***@10.129.0.25/demo
10 rows affected.
CPU times: user 1.63 ms, sys: 322 μs, total: 1.95 ms
Wall time: 2.14 ms


In [41]:
result

department_id,department_name,manager_id
10,Administration,200
30,Purchasing,114
40,HumanResources,203
50,Shipping,121
60,IT,103
70,PublicRelations,204
80,Sales,145
90,Executive,100
100,Finance,108
110,Accounting,205


## Задание 5:
Реализуйте 2 способами поиск модели самолета, у которого среди всех моделей минимальное значение максимальной дальности полета.

Выведите время выполнения первого запроса и второго запроса, оцените какой запрос быстрее выполняется, объясните - почему?

In [33]:
%%sql $CONNECT_DATA
SELECT 
    aircraft_code, 
    model, 
    range
FROM aircrafts_data
ORDER BY range ASC
LIMIT 1;

1 rows affected.


aircraft_code,model,range
CN1,"{'en': 'Cessna 208 Caravan', 'ru': 'Сессна 208 Караван'}",1200


In [34]:
%%sql $CONNECT_DATA
SELECT 
    aircraft_code, 
    model, 
    range
FROM aircrafts_data
WHERE range = (SELECT MIN(range) FROM aircrafts_data);

1 rows affected.


aircraft_code,model,range
CN1,"{'en': 'Cessna 208 Caravan', 'ru': 'Сессна 208 Караван'}",1200


## Задание 6:

Выведите сколько всего рейсов в БД имеют максимальную длительность полета.

Какова максимальная длительность полета?


In [35]:
%%sql $CONNECT_DATA
WITH flight_durations AS (
    SELECT 
        flight_id,
        (scheduled_arrival - scheduled_departure) AS duration
    FROM flights
)
SELECT 
    COUNT(*) AS max_duration_flights,
    MAX(duration) AS max_duration
FROM flight_durations
WHERE duration = (SELECT MAX(scheduled_arrival - scheduled_departure) FROM flights);

1 rows affected.


max_duration_flights,max_duration
1132,8:50:00


## Задание 7: 
Выведите уникальные маршруты рейсов (по аэропортам отправления и прибытия) с максимальной длительностью полета, включая следующие данные: 
- Код и название аэропорта отправления.
- Город отправления.
- Код и название аэропорта прибытия.
- Город прибытия.
- Длительность рейса (максимальная среди всех рейсов для данного маршрута).


Например:
| Duration   | Departure Airport Name         | Departure City  | Arrival Airport Name          | Arrival City          |
|------------|--------------------------------|-----------------|-------------------------------|-----------------------|
| 10:15:00   | John F. Kennedy Airport       | New York        | Los Angeles International     | Los Angeles          |
| 10:15:00    | Heathrow Airport              | London          | Dubai International Airport   | Dubai                |
| 10:15:00    | Tokyo Haneda Airport          | Tokyo           | Sydney Kingsford Smith        | Sydney               |
| 10:15:00    | Frankfurt Airport             | Frankfurt       | Changi Airport                | Singapore            |



In [37]:
%%sql $CONNECT_DATA
WITH flight_durations AS (
    SELECT 
        flight_id,
        departure_airport,
        arrival_airport,
        (scheduled_arrival - scheduled_departure) AS duration
    FROM flights
),
max_durations AS (
    SELECT 
        departure_airport,
        arrival_airport,
        MAX(duration) AS max_duration
    FROM flight_durations
    GROUP BY departure_airport, arrival_airport
)
SELECT DISTINCT
    md.max_duration AS "Duration",
    dep.airport_name AS "Departure Airport Name",
    dep.city AS "Departure City",
    arr.airport_name AS "Arrival Airport Name",
    arr.city AS "Arrival City"
FROM max_durations md
JOIN airports_data dep ON md.departure_airport = dep.airport_code
JOIN airports_data arr ON md.arrival_airport = arr.airport_code
WHERE md.max_duration = (SELECT MAX(scheduled_arrival - scheduled_departure) FROM flights);

4 rows affected.


Duration,Departure Airport Name,Departure City,Arrival Airport Name,Arrival City
8:50:00,"{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}","{'en': 'Yelizovo Airport', 'ru': 'Елизово'}","{'en': 'Petropavlovsk', 'ru': 'Петропавловск-Камчатский'}"
8:50:00,"{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}","{'en': 'Yuzhno-Sakhalinsk Airport', 'ru': 'Хомутово'}","{'en': 'Yuzhno-Sakhalinsk', 'ru': 'Южно-Сахалинск'}"
8:50:00,"{'en': 'Yelizovo Airport', 'ru': 'Елизово'}","{'en': 'Petropavlovsk', 'ru': 'Петропавловск-Камчатский'}","{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}"
8:50:00,"{'en': 'Yuzhno-Sakhalinsk Airport', 'ru': 'Хомутово'}","{'en': 'Yuzhno-Sakhalinsk', 'ru': 'Южно-Сахалинск'}","{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}"


## Задание 8:
Определить, на какой аэропорт лежит максимальная нагрузка по обслуживанию отправлений и прибытий самолетов?

Вывести название аэропорта и город, где он находится.

In [38]:
%%sql $CONNECT_DATA
SELECT 
    a.airport_name,
    a.city,
    COUNT(*) AS total_flights
FROM (
    SELECT departure_airport AS airport_code FROM flights
    UNION ALL
    SELECT arrival_airport AS airport_code FROM flights
) f
JOIN airports_data a ON f.airport_code = a.airport_code
GROUP BY a.airport_name, a.city
ORDER BY total_flights DESC
LIMIT 1;

1 rows affected.


airport_name,city,total_flights
"{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}",41753


## Задание 9:

Вывести среднее количество мест в самолетах по кажому классу обслуживания. Требования к формату вывода - две цифры после запятой. 

Пример:

| fare_conditions | avg_seat_count |
|----------------|---------------|
| Business       | 100.01         |
| Comfort        | 558.23         |
| Economy        | 15.52        |

In [42]:
%%sql $CONNECT_DATA
SELECT 
    s.fare_conditions,
    ROUND(AVG(seat_count), 2) AS avg_seat_count
FROM (
    SELECT 
        aircraft_code,
        fare_conditions,
        COUNT(*) AS seat_count
    FROM seats
    GROUP BY aircraft_code, fare_conditions
) s
GROUP BY s.fare_conditions
ORDER BY s.fare_conditions;

3 rows affected.


fare_conditions,avg_seat_count
Business,21.71
Comfort,48.0
Economy,126.56


## Задание 10:

Найти и вывести на экран информацию о самом дорогом перелете. Вывести следующую информацию:
- flight_id	(id рейса)
- final_amount (общая выручка за данный рейс = сумма выручки за все проданные билеты)
- departure_airport	(название аэропорта отправки самолета)
- departure_city (название города аэропорта отправки)
- arrival_airport	(название аэропорта прибытия самолета)
- arrival_city (город прибытия)

Выведите статистику выполнения запроса с использованием команды EXPLAIN ANALYZE. Проанализуйте полученный отчет. Какие рекомендации даются по оптимизации запроса? Попробуйте применить рекомендации.

Сколько всего рейсов с максимальной суммой выручки?

In [43]:
%%sql $CONNECT_DATA
WITH flight_revenue AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount
    FROM ticket_flights tf
    GROUP BY tf.flight_id
)
SELECT 
    fr.flight_id,
    fr.final_amount,
    dep.airport_name AS departure_airport,
    dep.city AS departure_city,
    arr.airport_name AS arrival_airport,
    arr.city AS arrival_city
FROM flight_revenue fr
JOIN flights f ON fr.flight_id = f.flight_id
JOIN airports_data dep ON f.departure_airport = dep.airport_code
JOIN airports_data arr ON f.arrival_airport = arr.airport_code
WHERE fr.final_amount = (SELECT MAX(final_amount) FROM flight_revenue)
LIMIT 1;

1 rows affected.


flight_id,final_amount,departure_airport,departure_city,arrival_airport,arrival_city
15328,17269600.0,"{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}","{'en': 'Moscow', 'ru': 'Москва'}","{'en': 'Khabarovsk-Novy Airport', 'ru': 'Хабаровск-Новый'}","{'en': 'Khabarovsk', 'ru': 'Хабаровск'}"


In [50]:
%%sql $CONNECT_DATA
EXPLAIN ANALYZE
WITH flight_revenue AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount
    FROM ticket_flights tf
    GROUP BY tf.flight_id
)
SELECT 
    fr.flight_id,
    fr.final_amount,
    dep.airport_name AS departure_airport,
    dep.city AS departure_city,
    arr.airport_name AS arrival_airport,
    arr.city AS arrival_city
FROM flight_revenue fr
JOIN flights f ON fr.flight_id = f.flight_id
JOIN airports_data dep ON f.departure_airport = dep.airport_code
JOIN airports_data arr ON f.arrival_airport = arr.airport_code
WHERE fr.final_amount = (SELECT MAX(final_amount) FROM flight_revenue);

43 rows affected.


QUERY PLAN
Nested Loop (cost=397257.34..402054.01 rows=410 width=256) (actual time=3564.008..3641.229 rows=1 loops=1)
CTE flight_revenue
-> Finalize GroupAggregate (cost=374006.55..395405.61 rows=82036 width=36) (actual time=3160.200..3555.316 rows=150588 loops=1)
Group Key: tf.flight_id
-> Gather Merge (cost=374006.55..393149.62 rows=164072 width=36) (actual time=3160.172..3319.019 rows=437619 loops=1)
Workers Planned: 2
Workers Launched: 2
-> Sort (cost=373006.53..373211.62 rows=82036 width=36) (actual time=3027.209..3051.110 rows=145873 loops=3)
Sort Key: tf.flight_id
Sort Method: external merge Disk: 10312kB


In [47]:
%%sql $CONNECT_DATA
WITH flight_revenue AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount
    FROM ticket_flights tf
    GROUP BY tf.flight_id
)
SELECT COUNT(*) AS max_revenue_flights
FROM flight_revenue
WHERE final_amount = (SELECT MAX(final_amount) FROM flight_revenue);

1 rows affected.


max_revenue_flights
1


## Дополнительное задание:

Реализуйте 3 запроса, которые позволят узнать, выявить узкие места работы авиаперевозчика. 

In [55]:
%%sql $CONNECT_DATA
-- Рейсы с высоким процентом отмен
SELECT 
    status,
    COUNT(*) AS flight_count,
    ROUND(COUNT(*) * 100.0 / (SELECT COUNT(*) FROM flights), 2) AS percentage
FROM flights
WHERE status = 'Cancelled'
GROUP BY status;

1 rows affected.


status,flight_count,percentage
Cancelled,437,0.2


In [57]:
%%sql $CONNECT_DATA
-- Аэропорты с частыми задержками
SELECT 
    a.airport_name,
    COUNT(*) AS delayed_flights
FROM flights f
JOIN airports_data a ON f.departure_airport = a.airport_code
WHERE status = 'Delayed'
GROUP BY a.airport_name
ORDER BY delayed_flights DESC
LIMIT 5;

5 rows affected.


airport_name,delayed_flights
"{'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}",6
"{'en': 'Sheremetyevo International Airport', 'ru': 'Шереметьево'}",6
"{'en': 'Pulkovo Airport', 'ru': 'Пулково'}",3
"{'en': 'Kazan International Airport', 'ru': 'Казань'}",2
"{'en': 'Kurumoch International Airport', 'ru': 'Курумоч'}",2


In [59]:
%%sql $CONNECT_DATA
-- Самолеты с низкой загрузкой
SELECT 
    f.aircraft_code,
    ad.model,
    AVG((SELECT COUNT(*) FROM boarding_passes bp WHERE bp.flight_id = f.flight_id)::float / 
        (SELECT COUNT(*) FROM seats s WHERE s.aircraft_code = f.aircraft_code)) AS load_factor
FROM flights f
JOIN aircrafts_data ad ON f.aircraft_code = ad.aircraft_code
GROUP BY f.aircraft_code, ad.model
ORDER BY load_factor ASC
LIMIT 5;

5 rows affected.


aircraft_code,model,load_factor
CN1,"{'en': 'Cessna 208 Caravan', 'ru': 'Сессна 208 Караван'}",0.1537975945245537
321,"{'en': 'Airbus A321-200', 'ru': 'Аэробус A321-200'}",0.3608558006536145
CR2,"{'en': 'Bombardier CRJ-200', 'ru': 'Бомбардье CRJ-200'}",0.3943570319564438
319,"{'en': 'Airbus A319-100', 'ru': 'Аэробус A319-100'}",0.4372177239318596
SU9,"{'en': 'Sukhoi Superjet-100', 'ru': 'Сухой Суперджет-100'}",0.5167349090989894
