# Работа с демонстрационной БД  «Авиаперевозки» в PostGre

Вам предоставляется демонстрационная БД, развернутая в СУБД PostGre. 
Режим доступа - только на чтение.


In [1]:
import os
import json
import psycopg2
from psycopg2.extras import DictCursor

In [2]:
POSTGRESQL_HOST = '10.129.0.25'

In [3]:
!env | grep POST

POSTGRESQL_USER=reader
POSTGRESQL_PASSWORD=Miba2021


Создание подключения к БД

In [4]:
conn = psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
)
cur = conn.cursor()

Получение параметров подключения (в будущем вам это пригодится)

In [5]:
conn.get_dsn_parameters()

{'user': 'reader',
 'channel_binding': 'prefer',
 'dbname': 'demo',
 'host': '10.129.0.25',
 'port': '5432',
 'options': '',
 'sslmode': 'prefer',
 'sslcompression': '0',
 'sslcertmode': 'allow',
 'sslsni': '1',
 'ssl_min_protocol_version': 'TLSv1.2',
 'gssencmode': 'prefer',
 'krbsrvname': 'postgres',
 'gssdelegation': '0',
 'target_session_attrs': 'any',
 'load_balance_hosts': 'disable'}

Подготовка SQL запроса на вывод первых 5 записей из таблицы seats

In [6]:
query = 'SELECT * FROM seats LIMIT 5'

In [7]:
cur.execute(query)
records = cur.fetchall()
cur.close()
conn.close()

In [8]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business')]

Через конструкцию  with as реализуем соединение с БД и выполним SQL запрос

In [9]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute('SELECT * FROM seats LIMIT 10')
        records = cur.fetchall()

In [10]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business'),
 ('319', '3C', 'Business'),
 ('319', '3D', 'Business'),
 ('319', '3F', 'Business'),
 ('319', '4A', 'Business'),
 ('319', '4C', 'Business')]

Подготовим словарь с тремя запросам  на получение информации о БД

In [11]:
queries = {
    '___DATABASES___': 'SELECT * FROM pg_database',
    '___TABLES___': "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';",
    '\n___COLUMNS___': "SELECT column_name FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'seats';"
}

In [12]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    for name, query in queries.items():
        print('\n', name)
        with conn.cursor() as cur:
            cur.execute(query)
            for row in cur.fetchall():
                print(row)


 ___DATABASES___
(13760, 'postgres', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, None)
(1, 'template1', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, True, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(13759, 'template0', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, False, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(16384, 'demo', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, '{=Tc/postgres,postgres=CTc/postgres,reader=c/postgres}')

 ___TABLES___
('boarding_passes',)
('aircrafts_data',)
('flights',)
('airports_data',)
('seats',)
('tickets',)
('ticket_flights',)
('bookings',)
('employees',)
('departments',)
('department',)
('employee',)

 
___COLUMNS___
('aircraft_code',)
('seat_no',)
('fare_conditions',)


In [13]:
tables_db = []
query = "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';"
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        for row in cur.fetchall():
            tables_db.append(row[0])

In [14]:
print(tables_db)

['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 'department', 'employee']


## Задание 1:
Для каждой таблицы БД выведите ее структуру (название колонок). 

В текстовой ячейке представьте описание каждой таблицы - ее назначение и структуру.  


Пример использования магической команды sql

In [15]:
%load_ext sql

In [16]:
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

Получим информацию по типу каждого столбца таблицы boarding_passes

In [17]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'boarding_passes'

4 rows affected.


column_name,udt_name
flight_id,int4
boarding_no,int4
ticket_no,bpchar
seat_no,varchar


In [18]:
import os
import psycopg2

CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Список таблиц
tables_db = ['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 'department', 'employee']

# Подключение к базе данных
with psycopg2.connect(CONNECT_DATA) as conn:
    with conn.cursor() as cur:
        for table in tables_db:
            print(f"\nТаблица: {table}")
            query = """
                SELECT column_name, udt_name 
                FROM information_schema.columns 
                WHERE table_name = %s;
            """
            cur.execute(query, (table,))
            columns = cur.fetchall()
            for col in columns:
                print(f"  - Колонка: {col[0]}, Тип: {col[1]}")


Таблица: boarding_passes
  - Колонка: flight_id, Тип: int4
  - Колонка: boarding_no, Тип: int4
  - Колонка: ticket_no, Тип: bpchar
  - Колонка: seat_no, Тип: varchar

Таблица: aircrafts_data
  - Колонка: model, Тип: jsonb
  - Колонка: range, Тип: int4
  - Колонка: aircraft_code, Тип: bpchar

Таблица: flights
  - Колонка: flight_id, Тип: int4
  - Колонка: scheduled_departure, Тип: timestamptz
  - Колонка: scheduled_arrival, Тип: timestamptz
  - Колонка: actual_departure, Тип: timestamptz
  - Колонка: actual_arrival, Тип: timestamptz
  - Колонка: arrival_airport, Тип: bpchar
  - Колонка: flight_no, Тип: bpchar
  - Колонка: status, Тип: varchar
  - Колонка: aircraft_code, Тип: bpchar
  - Колонка: departure_airport, Тип: bpchar

Таблица: airports_data
  - Колонка: airport_name, Тип: jsonb
  - Колонка: city, Тип: jsonb
  - Колонка: coordinates, Тип: point
  - Колонка: airport_code, Тип: bpchar
  - Колонка: timezone, Тип: text

Таблица: seats
  - Колонка: aircraft_code, Тип: bpchar
  - Коло

1. boarding_passes
- Назначение : Хранит информацию о посадочных талонах пассажиров.
- Структура :
    1). ticket_no: Уникальный номер билета (varchar).
    2). flight_id: Идентификатор рейса (integer).
    3). boarding_no: Номер посадки (integer).
    4). seat_no: Номер места (varchar).
2. aircrafts_data
- Назначение : Хранит данные об авиалайнерах.
- Структура :
    1). aircraft_code: Код самолета (varchar).
    2). model: Модель самолета (varchar).
    3). range: Дальность полета (integer).
3. flights
- Назначение : Хранит информацию о рейсах.
- Структура :
    1). flight_id: Идентификатор рейса (integer).
    2). flight_no: Номер рейса (varchar).
    3). scheduled_departure: Планируемое время вылета (timestamp).
    4). scheduled_arrival: Планируемое время прибытия (timestamp).
    5). departure_airport: Аэропорт отправления (varchar).
    6). arrival_airport: Аэропорт назначения (varchar).
    7). status: Статус рейса (varchar).
4. airports_data
- Назначение : Хранит информацию об аэропортах.
- Структура :
    1). airport_code: Код аэропорта (varchar).
    2). airport_name: Название аэропорта (varchar).
    3). city: Город (varchar).
    4). coordinates: Координаты (point).
5. seats
- Назначение : Хранит информацию о местах в самолетах.
- Структура :
    1). aircraft_code: Код самолета (varchar).
    2). seat_no: Номер места (varchar).
    3). fare_conditions: Условия оплаты (varchar).
6. tickets
- Назначение : Хранит информацию о билетах.
- Структура :
    1). ticket_no: Уникальный номер билета (varchar).
    2). book_ref: Идентификатор бронирования (varchar).
    3). passenger_id: Идентификатор пассажира (varchar).
    4). passenger_name: Имя пассажира (varchar).
7. ticket_flights
- Назначение : Связывает билеты с рейсами.
- Структура :
    1). ticket_no: Уникальный номер билета (varchar).
    2). flight_id: Идентификатор рейса (integer).
    3). fare_conditions: Условия оплаты (varchar).
    4). amount: Стоимость (numeric).
8. bookings
- Назначение : Хранит информацию о бронированиях.
- Структура :
    1). book_ref: Идентификатор бронирования (varchar).
    2). book_date: Дата бронирования (date).
    3). total_amount: Общая стоимость (numeric).
9. employees
- Назначение : Хранит информацию о сотрудниках.
- Структура :
    1). employee_id: Идентификатор сотрудника (integer).
    2). name: Имя сотрудника (varchar).
    3). position: Должность (varchar).
    4). department_id: Идентификатор отдела (integer).
10. departments
- Назначение : Хранит информацию о отделах.
- Структура :
    department_id: Идентификатор отдела (integer).
    name: Название отдела (varchar).
11. department
- Назначение : Дублирует информацию из таблицы departments.
12. employee
- Назначение : Дублирует информацию из таблицы employees.

## Задание 2:
Для каждой таблицы выведите информацию о типах ее столбцов (полей) и количестве записей.

Создайте словарь с названием таблиц и количеством записей в них.

Найти и вывести название таблицы с максимальным количеством записей, количество записей также вывести.



In [19]:
import os
import psycopg2

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Список таблиц
tables_db = ['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 'department', 'employee']

# Инициализация словаря для хранения количества записей
table_sizes = {}

# Подключение к базе данных
with psycopg2.connect(CONNECT_DATA) as conn:
    with conn.cursor() as cur:
        # Для каждой таблицы выводим типы столбцов и считаем количество записей
        for table in tables_db:
            print(f"\nТаблица: {table}")
            
            # Вывод типов столбцов
            query_columns = """
                SELECT column_name, udt_name 
                FROM information_schema.columns 
                WHERE table_name = %s;
            """
            cur.execute(query_columns, (table,))
            columns = cur.fetchall()
            print("Структура:")
            for col in columns:
                print(f"  - Колонка: {col[0]}, Тип: {col[1]}")
            
            # Подсчет количества записей
            query_count = f"SELECT COUNT(*) FROM {table};"
            cur.execute(query_count)
            count = cur.fetchone()[0]
            table_sizes[table] = count
            print(f"Количество записей: {count}")

# Вывод словаря с количеством записей
print("\nСловарь с количеством записей в таблицах:")
for table, count in table_sizes.items():
    print(f"  {table}: {count}")

# Поиск таблицы с максимальным количеством записей
max_table = max(table_sizes, key=table_sizes.get)
max_count = table_sizes[max_table]

print(f"\nТаблица с максимальным количеством записей: {max_table} ({max_count} записей)")


Таблица: boarding_passes
Структура:
  - Колонка: flight_id, Тип: int4
  - Колонка: boarding_no, Тип: int4
  - Колонка: ticket_no, Тип: bpchar
  - Колонка: seat_no, Тип: varchar
Количество записей: 7925812

Таблица: aircrafts_data
Структура:
  - Колонка: model, Тип: jsonb
  - Колонка: range, Тип: int4
  - Колонка: aircraft_code, Тип: bpchar
Количество записей: 9

Таблица: flights
Структура:
  - Колонка: flight_id, Тип: int4
  - Колонка: scheduled_departure, Тип: timestamptz
  - Колонка: scheduled_arrival, Тип: timestamptz
  - Колонка: actual_departure, Тип: timestamptz
  - Колонка: actual_arrival, Тип: timestamptz
  - Колонка: arrival_airport, Тип: bpchar
  - Колонка: flight_no, Тип: bpchar
  - Колонка: status, Тип: varchar
  - Колонка: aircraft_code, Тип: bpchar
  - Колонка: departure_airport, Тип: bpchar
Количество записей: 214867

Таблица: airports_data
Структура:
  - Колонка: airport_name, Тип: jsonb
  - Колонка: city, Тип: jsonb
  - Колонка: coordinates, Тип: point
  - Колонка: ai

## Задание 3:

Вывести названия тарифов, которые предлагают авиаперевозчики пассажирам. 

In [20]:
import os
import psycopg2

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Запрос для получения уникальных тарифов
query = """
    SELECT DISTINCT fare_conditions
    FROM ticket_flights;
"""

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        fare_conditions = cur.fetchall()

# Вывод результатов
print("Названия тарифов:")
for condition in fare_conditions:
    print(condition[0])

Названия тарифов:
Business
Comfort
Economy


## Задание 4:

По каждому тарифу найти общую сумму выручки за продажу билетов.


In [21]:
import os
import psycopg2

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Запрос для расчета общей суммы выручки по каждому тарифу
query = """
    SELECT fare_conditions, SUM(amount) AS total_revenue
    FROM ticket_flights
    GROUP BY fare_conditions;
"""

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        revenue_by_fare = cur.fetchall()

# Вывод результатов
print("Выручка по каждому тарифу:")
for fare, revenue in revenue_by_fare:
    print(f"Тариф: {fare}, Выручка: {revenue}")

Выручка по каждому тарифу:
Тариф: Business, Выручка: 44321628100.00
Тариф: Comfort, Выручка: 4580291100.00
Тариф: Economy, Выручка: 118507139900.00


## Задание 5:

Какой тариф приносит максимальный доход? (написать SQL запрос)




In [22]:
import os
import psycopg2

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# SQL-запрос для поиска тарифа с максимальной выручкой
query = """
    SELECT fare_conditions, SUM(amount) AS total_revenue
    FROM ticket_flights
    GROUP BY fare_conditions
    ORDER BY total_revenue DESC
    LIMIT 1;
"""

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        result = cur.fetchone()  # Получаем первую строку результата

# Вывод результата
if result:
    fare_conditions, total_revenue = result
    print(f"Тариф с максимальной выручкой: {fare_conditions}")
    print(f"Максимальная выручка: {total_revenue}")
else:
    print("Нет данных о тарифах.")

Тариф с максимальной выручкой: Economy
Максимальная выручка: 118507139900.00


# Время выполнения запросов. 

Разные запросы требуют разное время на выполнение. Часто нужно оптимизировать запрос, либо находить и использовать другой инструмент для анализа данных.

Приведем пример подчета времени выполнения запроса. 


In [40]:
%time result =  %sql SELECT * from departments;

 * postgresql://reader:***@10.129.0.25/demo
10 rows affected.
CPU times: user 1.63 ms, sys: 322 μs, total: 1.95 ms
Wall time: 2.14 ms


In [41]:
result

department_id,department_name,manager_id
10,Administration,200
30,Purchasing,114
40,HumanResources,203
50,Shipping,121
60,IT,103
70,PublicRelations,204
80,Sales,145
90,Executive,100
100,Finance,108
110,Accounting,205


## Задание 5:
Реализуйте 2 способами поиск модели самолета, у которого среди всех моделей минимальное значение максимальной дальности полета.

Выведите время выполнения первого запроса и второго запроса, оцените какой запрос быстрее выполняется, объясните - почему?

In [23]:
import os
import psycopg2
import time

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Метод 1: Использование подзапроса
query1 = """
    SELECT model
    FROM aircrafts_data
    WHERE range = (
        SELECT MIN(range)
        FROM aircrafts_data
    );
"""

# Метод 2: Использование оконной функции
query2 = """
    SELECT model
    FROM (
        SELECT model, range, MIN(range) OVER () AS min_range
        FROM aircrafts_data
    ) subquery
    WHERE range = min_range;
"""

# Функция для выполнения запроса и измерения времени
def execute_query(query, conn):
    start_time = time.time()
    with conn.cursor() as cur:
        cur.execute(query)
        result = cur.fetchall()
    elapsed_time = time.time() - start_time
    return result, elapsed_time

# Подключение к базе данных и выполнение запросов
with psycopg2.connect(CONNECT_DATA) as conn:
    # Выполнение первого запроса
    result1, time1 = execute_query(query1, conn)
    print("Результат первого запроса (подзапрос):", result1)
    print(f"Время выполнения первого запроса: {time1:.6f} секунд")

    # Выполнение второго запроса
    result2, time2 = execute_query(query2, conn)
    print("Результат второго запроса (оконная функция):", result2)
    print(f"Время выполнения второго запроса: {time2:.6f} секунд")

# Сравнение времени выполнения
if time1 < time2:
    print("Первый запрос (подзапрос) выполняется быстрее.")
else:
    print("Второй запрос (оконная функция) выполняется быстрее.")

Результат первого запроса (подзапрос): [({'en': 'Cessna 208 Caravan', 'ru': 'Сессна 208 Караван'},)]
Время выполнения первого запроса: 0.049834 секунд
Результат второго запроса (оконная функция): [({'en': 'Cessna 208 Caravan', 'ru': 'Сессна 208 Караван'},)]
Время выполнения второго запроса: 0.000508 секунд
Второй запрос (оконная функция) выполняется быстрее.


Оконная функция может быть выполнена за один проход по таблице, тогда как подзапрос требует дополнительного этапа для вычисления минимального значения и его использования в основном запросе.

## Задание 6:

Выведите сколько всего рейсов в БД имеют максимальную длительность полета.

Какова максимальная длительность полета?


In [24]:
import os
import psycopg2

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Запрос для нахождения максимальной длительности полета
query_max_duration = """
    SELECT MAX(AGE(scheduled_arrival, scheduled_departure)) AS max_duration
    FROM flights;
"""

# Запрос для подсчета количества рейсов с максимальной длительностью
query_flight_count = """
    SELECT COUNT(*) AS flight_count
    FROM flights
    WHERE AGE(scheduled_arrival, scheduled_departure) = (
        SELECT MAX(AGE(scheduled_arrival, scheduled_departure))
        FROM flights
    );
"""

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        return cur.fetchone()[0]

# Подключение к базе данных и выполнение запросов
with psycopg2.connect(CONNECT_DATA) as conn:
    # Выполнение первого запроса (максимальная длительность)
    max_duration = execute_query(query_max_duration, conn)
    print(f"Максимальная длительность полета: {max_duration}")

    # Выполнение второго запроса (количество рейсов)
    flight_count = execute_query(query_flight_count, conn)
    print(f"Количество рейсов с максимальной длительностью: {flight_count}")

Максимальная длительность полета: 8:50:00
Количество рейсов с максимальной длительностью: 1132


## Задание 7: 
Выведите уникальные маршруты рейсов (по аэропортам отправления и прибытия) с максимальной длительностью полета, включая следующие данные: 
- Код и название аэропорта отправления.
- Город отправления.
- Код и название аэропорта прибытия.
- Город прибытия.
- Длительность рейса (максимальная среди всех рейсов для данного маршрута).


Например:
| Duration   | Departure Airport Name         | Departure City  | Arrival Airport Name          | Arrival City          |
|------------|--------------------------------|-----------------|-------------------------------|-----------------------|
| 10:15:00   | John F. Kennedy Airport       | New York        | Los Angeles International     | Los Angeles          |
| 10:15:00    | Heathrow Airport              | London          | Dubai International Airport   | Dubai                |
| 10:15:00    | Tokyo Haneda Airport          | Tokyo           | Sydney Kingsford Smith        | Sydney               |
| 10:15:00    | Frankfurt Airport             | Frankfurt       | Changi Airport                | Singapore            |



In [30]:
import os
import psycopg2
from tabulate import tabulate  # Импортируем tabulate для форматирования таблицы

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# SQL-запрос
query = """
WITH flight_durations AS (
    SELECT 
        departure_airport,
        arrival_airport,
        AGE(scheduled_arrival, scheduled_departure) AS duration
    FROM flights
),
max_duration_global AS (
    SELECT MAX(duration) AS max_duration
    FROM flight_durations
),
flight_details AS (
    SELECT 
        fd.departure_airport,
        fd.arrival_airport,
        fd.duration,
        ad1.airport_name AS departure_airport_name,
        ad1.city AS departure_city,
        ad2.airport_name AS arrival_airport_name,
        ad2.city AS arrival_city
    FROM flight_durations fd
    JOIN airports_data ad1 ON fd.departure_airport = ad1.airport_code
    JOIN airports_data ad2 ON fd.arrival_airport = ad2.airport_code
)
SELECT 
    mdg.max_duration AS Duration,
    fd.departure_airport_name AS "Departure Airport Name",
    fd.departure_city AS "Departure City",
    fd.arrival_airport_name AS "Arrival Airport Name",
    fd.arrival_city AS "Arrival City"
FROM max_duration_global mdg
JOIN flight_details fd ON fd.duration = mdg.max_duration;
"""

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        colnames = [desc[0] for desc in cur.description]  # Получаем названия столбцов
        return colnames, cur.fetchall()

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    colnames, results = execute_query(query, conn)

# Форматирование таблицы с помощью tabulate
if results:
    print(tabulate(results, headers=colnames, tablefmt="grid"))
else:
    print("Нет данных.")

+------------+----------------------------------------------------------------+-----------------------------------------------------------+----------------------------------------------------------------+-----------------------------------------------------------+
| duration   | Departure Airport Name                                         | Departure City                                            | Arrival Airport Name                                           | Arrival City                                              |
| 8:50:00    | {'en': 'Domodedovo International Airport', 'ru': 'Домодедово'} | {'en': 'Moscow', 'ru': 'Москва'}                          | {'en': 'Yuzhno-Sakhalinsk Airport', 'ru': 'Хомутово'}          | {'en': 'Yuzhno-Sakhalinsk', 'ru': 'Южно-Сахалинск'}       |
+------------+----------------------------------------------------------------+-----------------------------------------------------------+----------------------------------------------------------------+-

## Задание 8:
Определить, на какой аэропорт лежит максимальная нагрузка по обслуживанию отправлений и прибытий самолетов?

Вывести название аэропорта и город, где он находится.

In [32]:
import os
import psycopg2
from tabulate import tabulate

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# SQL-запрос
query = """
WITH airport_flights AS (
    -- Подсчитываем рейсы для каждого аэропорта как отправной точки
    SELECT 
        departure_airport AS airport_code,
        COUNT(*) AS flight_count
    FROM flights
    GROUP BY departure_airport

    UNION ALL

    -- Подсчитываем рейсы для каждого аэропорта как пункта назначения
    SELECT 
        arrival_airport AS airport_code,
        COUNT(*) AS flight_count
    FROM flights
    GROUP BY arrival_airport
),
total_flights AS (
    -- Суммируем общее количество рейсов для каждого аэропорта
    SELECT 
        airport_code,
        SUM(flight_count) AS total_count
    FROM airport_flights
    GROUP BY airport_code
),
max_load AS (
    -- Находим максимальное значение нагрузки
    SELECT 
        airport_code,
        total_count
    FROM total_flights
    WHERE total_count = (SELECT MAX(total_count) FROM total_flights)
)
-- Выводим название аэропорта и город
SELECT 
    ad.airport_name AS "Airport Name",
    ad.city AS "City"
FROM max_load ml
JOIN airports_data ad ON ml.airport_code = ad.airport_code;
"""

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        colnames = [desc[0] for desc in cur.description]  # Получаем названия столбцов
        return colnames, cur.fetchall()

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    colnames, results = execute_query(query, conn)

# Форматирование таблицы с помощью tabulate
if results:
    print(tabulate(results, headers=colnames, tablefmt="grid"))
else:
    print("Нет данных.")

+----------------------------------------------------------------+----------------------------------+
| Airport Name                                                   | City                             |
| {'en': 'Domodedovo International Airport', 'ru': 'Домодедово'} | {'en': 'Moscow', 'ru': 'Москва'} |
+----------------------------------------------------------------+----------------------------------+


## Задание 9:

Вывести среднее количество мест в самолетах по кажому классу обслуживания. Требования к формату вывода - две цифры после запятой. 

Пример:

| fare_conditions | avg_seat_count |
|----------------|---------------|
| Business       | 100.01         |
| Comfort        | 558.23         |
| Economy        | 15.52        |

In [36]:
import os
import psycopg2
from tabulate import tabulate

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# SQL-запрос
query = """
WITH seat_counts AS (
    SELECT 
        aircraft_code,
        fare_conditions,
        COUNT(*) AS seat_count
    FROM seats
    GROUP BY aircraft_code, fare_conditions
)
SELECT 
    fare_conditions,
    ROUND(AVG(seat_count)::numeric, 2) AS avg_seat_count
FROM seat_counts
GROUP BY fare_conditions;
"""

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        colnames = [desc[0] for desc in cur.description]  # Получаем названия столбцов
        return colnames, cur.fetchall()

# Подключение к базе данных и выполнение запроса
with psycopg2.connect(CONNECT_DATA) as conn:
    colnames, results = execute_query(query, conn)

# Форматирование таблицы с помощью tabulate
if results:
    print(tabulate(results, headers=colnames, tablefmt="grid"))
else:
    print("Нет данных.")

+-------------------+------------------+
| fare_conditions   |   avg_seat_count |
| Business          |            21.71 |
+-------------------+------------------+
| Comfort           |            48    |
+-------------------+------------------+
| Economy           |           126.56 |
+-------------------+------------------+


## Задание 10:

Найти и вывести на экран информацию о самом дорогом перелете. Вывести следующую информацию:
- flight_id	(id рейса)
- final_amount (общая выручка за данный рейс = сумма выручки за все проданные билеты)
- departure_airport	(название аэропорта отправки самолета)
- departure_city (название города аэропорта отправки)
- arrival_airport	(название аэропорта прибытия самолета)
- arrival_city (город прибытия)

Выведите статистику выполнения запроса с использованием команды EXPLAIN ANALYZE. Проанализуйте полученный отчет. Какие рекомендации даются по оптимизации запроса? Попробуйте применить рекомендации.

Сколько всего рейсов с максимальной суммой выручки?

In [38]:
import os
import psycopg2
from tabulate import tabulate

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# SQL-запрос для поиска самого дорогого перелета
query = """
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        f.arrival_airport
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY tf.flight_id, f.departure_airport, f.arrival_airport
),
max_revenue_flight AS (
    SELECT 
        fr.flight_id,
        fr.final_amount,
        fr.departure_airport,
        fr.arrival_airport
    FROM flight_revenues fr
    WHERE fr.final_amount = (SELECT MAX(final_amount) FROM flight_revenues)
),
flight_details AS (
    SELECT 
        mrf.flight_id,
        mrf.final_amount,
        ad1.airport_name AS departure_airport,
        ad1.city AS departure_city,
        ad2.airport_name AS arrival_airport,
        ad2.city AS arrival_city
    FROM max_revenue_flight mrf
    JOIN airports_data ad1 ON mrf.departure_airport = ad1.airport_code
    JOIN airports_data ad2 ON mrf.arrival_airport = ad2.airport_code
)
SELECT * FROM flight_details;
"""

# SQL-запрос для EXPLAIN ANALYZE
explain_query = """
EXPLAIN ANALYZE
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        f.arrival_airport
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY tf.flight_id, f.departure_airport, f.arrival_airport
),
max_revenue_flight AS (
    SELECT 
        fr.flight_id,
        fr.final_amount,
        fr.departure_airport,
        fr.arrival_airport
    FROM flight_revenues fr
    WHERE fr.final_amount = (SELECT MAX(final_amount) FROM flight_revenues)
),
flight_details AS (
    SELECT 
        mrf.flight_id,
        mrf.final_amount,
        ad1.airport_name AS departure_airport,
        ad1.city AS departure_city,
        ad2.airport_name AS arrival_airport,
        ad2.city AS arrival_city
    FROM max_revenue_flight mrf
    JOIN airports_data ad1 ON mrf.departure_airport = ad1.airport_code
    JOIN airports_data ad2 ON mrf.arrival_airport = ad2.airport_code
)
SELECT * FROM flight_details;
"""

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        colnames = [desc[0] for desc in cur.description]  # Получаем названия столбцов
        return colnames, cur.fetchall()

# Функция для выполнения EXPLAIN ANALYZE
def execute_explain_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        return cur.fetchall()

# Подключение к базе данных и выполнение запросов
with psycopg2.connect(CONNECT_DATA) as conn:
    # Выполнение основного запроса
    colnames, results = execute_query(query, conn)
    
    # Вывод результатов основного запроса
    if results:
        print("Самый дорогой перелет:")
        print(tabulate(results, headers=colnames, tablefmt="grid"))
    else:
        print("Нет данных о рейсах.")

    # Выполнение EXPLAIN ANALYZE
    explain_results = execute_explain_query(explain_query, conn)
    
    # Вывод результатов EXPLAIN ANALYZE
    print("\nСтатистика выполнения запроса (EXPLAIN ANALYZE):")
    for row in explain_results:
        print(row[0])

Самый дорогой перелет:
+-------------+----------------+----------------------------------------------------------------+----------------------------------+------------------------------------------------------------+-----------------------------------------+
|   flight_id |   final_amount | departure_airport                                              | departure_city                   | arrival_airport                                            | arrival_city                            |
|       15328 |    1.72696e+07 | {'en': 'Domodedovo International Airport', 'ru': 'Домодедово'} | {'en': 'Moscow', 'ru': 'Москва'} | {'en': 'Khabarovsk-Novy Airport', 'ru': 'Хабаровск-Новый'} | {'en': 'Khabarovsk', 'ru': 'Хабаровск'} |
+-------------+----------------+----------------------------------------------------------------+----------------------------------+------------------------------------------------------------+-----------------------------------------+

Статистика выполнения запроса (E

1. Сортировка (Sort) :
- Sort Method: external merge Disk: 92504kB — сортировка данных занимает значительное время (около 2 секунд на каждого рабочего процесса). Это связано с тем, что объем данных слишком велик для памяти, и PostgreSQL вынужден использовать внешнюю сортировку на диске.
2. Группировка (GroupAggregate) :
- Группировка данных (Finalize GroupAggregate) также требует много времени (около 1.8 секунд).
3. Последовательные сканирования (Seq Scan) :
- Таблицы ticket_flights, flights и airports_data сканируются последовательно, что может быть медленным при работе с большими таблицами.

Вместо подзапроса для нахождения максимальной выручки - оконная функция RANK() 

In [41]:
import os
import psycopg2
from tabulate import tabulate

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Оптимизированный SQL-запрос
query = """
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        f.arrival_airport,
        RANK() OVER (ORDER BY SUM(tf.amount) DESC) AS revenue_rank
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY tf.flight_id, f.departure_airport, f.arrival_airport
),
max_revenue_flight AS (
    SELECT 
        fr.flight_id,
        fr.final_amount,
        fr.departure_airport,
        fr.arrival_airport
    FROM flight_revenues fr
    WHERE fr.revenue_rank = 1
),
flight_details AS (
    SELECT 
        mrf.flight_id,
        mrf.final_amount,
        ad1.airport_name AS departure_airport,
        ad1.city AS departure_city,
        ad2.airport_name AS arrival_airport,
        ad2.city AS arrival_city
    FROM max_revenue_flight mrf
    JOIN airports_data ad1 ON mrf.departure_airport = ad1.airport_code
    JOIN airports_data ad2 ON mrf.arrival_airport = ad2.airport_code
)
SELECT * FROM flight_details;
"""

# SQL-запрос для EXPLAIN ANALYZE
explain_query = """
EXPLAIN ANALYZE
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        f.arrival_airport
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY tf.flight_id, f.departure_airport, f.arrival_airport
),
max_revenue_flight AS (
    SELECT 
        fr.flight_id,
        fr.final_amount,
        fr.departure_airport,
        fr.arrival_airport
    FROM flight_revenues fr
    WHERE fr.final_amount = (SELECT MAX(final_amount) FROM flight_revenues)
),
flight_details AS (
    SELECT 
        mrf.flight_id,
        mrf.final_amount,
        ad1.airport_name AS departure_airport,
        ad1.city AS departure_city,
        ad2.airport_name AS arrival_airport,
        ad2.city AS arrival_city
    FROM max_revenue_flight mrf
    JOIN airports_data ad1 ON mrf.departure_airport = ad1.airport_code
    JOIN airports_data ad2 ON mrf.arrival_airport = ad2.airport_code
)
SELECT * FROM flight_details;
"""

# Функция для выполнения EXPLAIN ANALYZE
def execute_explain_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        return cur.fetchall()

# Подключение к базе данных и выполнение запросов
with psycopg2.connect(CONNECT_DATA) as conn:
    # Выполнение основного запроса
    colnames, results = execute_query(query, conn)
    
    # Вывод результатов основного запроса
    if results:
        print("Самый дорогой перелет:")
        print(tabulate(results, headers=colnames, tablefmt="grid"))
    else:
        print("Нет данных о рейсах.")

    # Выполнение EXPLAIN ANALYZE
    explain_results = execute_explain_query(explain_query, conn)
    
    # Вывод результатов EXPLAIN ANALYZE
    print("\nСтатистика выполнения запроса (EXPLAIN ANALYZE):")
    for row in explain_results:
        print(row[0])

Самый дорогой перелет:
+-------------+----------------+----------------------------------------------------------------+----------------------------------+------------------------------------------------------------+-----------------------------------------+
|   flight_id |   final_amount | departure_airport                                              | departure_city                   | arrival_airport                                            | arrival_city                            |
|       15328 |    1.72696e+07 | {'en': 'Domodedovo International Airport', 'ru': 'Домодедово'} | {'en': 'Moscow', 'ru': 'Москва'} | {'en': 'Khabarovsk-Novy Airport', 'ru': 'Хабаровск-Новый'} | {'en': 'Khabarovsk', 'ru': 'Хабаровск'} |
+-------------+----------------+----------------------------------------------------------------+----------------------------------+------------------------------------------------------------+-----------------------------------------+

Статистика выполнения запроса (E

In [39]:
# SQL-запрос для подсчета количества рейсов с максимальной суммой выручки
count_query = """
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount
    FROM ticket_flights tf
    GROUP BY tf.flight_id
),
max_revenue AS (
    SELECT MAX(final_amount) AS max_final_amount
    FROM flight_revenues
)
SELECT COUNT(*) AS flight_count
FROM flight_revenues fr
JOIN max_revenue mr ON fr.final_amount = mr.max_final_amount;
"""

# Подсчет количества рейсов с максимальной суммой выручки
with psycopg2.connect(CONNECT_DATA) as conn:
    colnames, count_result = execute_query(count_query, conn)
    if count_result:
        print(f"\nКоличество рейсов с максимальной суммой выручки: {count_result[0][0]}")
    else:
        print("Нет данных о рейсах.")


Количество рейсов с максимальной суммой выручки: 1


## Дополнительное задание:

Реализуйте 3 запроса, которые позволят узнать, выявить узкие места работы авиаперевозчика. 

In [43]:
import os
import psycopg2
from tabulate import tabulate

# Подключение к базе данных
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

# Функция для выполнения запроса
def execute_query(query, conn):
    with conn.cursor() as cur:
        cur.execute(query)
        colnames = [desc[0] for desc in cur.description]
        return colnames, cur.fetchall()

# Запрос 1: Загруженность аэропортов
query1 = """
WITH airport_flights AS (
    -- Подсчитываем количество рейсов для каждого аэропорта как отправной точки
    SELECT 
        departure_airport AS airport_code,
        COUNT(*) AS flight_count
    FROM flights
    GROUP BY departure_airport

    UNION ALL

    -- Подсчитываем количество рейсов для каждого аэропорта как пункта назначения
    SELECT 
        arrival_airport AS airport_code,
        COUNT(*) AS flight_count
    FROM flights
    GROUP BY arrival_airport
),
total_flights AS (
    -- Суммируем общее количество рейсов для каждого аэропорта
    SELECT 
        airport_code,
        SUM(flight_count) AS total_count
    FROM airport_flights
    GROUP BY airport_code
)
-- Находим топ-10 самых загруженных аэропортов
SELECT 
    ad.airport_name AS "Airport Name",
    ad.city AS "City",
    tf.total_count AS "Total Flights"
FROM total_flights tf
JOIN airports_data ad ON tf.airport_code = ad.airport_code
ORDER BY tf.total_count DESC
LIMIT 10;
"""

# Запрос 2: Самые нерентабельные рейсы
query2 = """
WITH flight_revenues AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        f.arrival_airport
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY tf.flight_id, f.departure_airport, f.arrival_airport
),
min_revenue_flights AS (
    SELECT 
        fr.flight_id,
        fr.final_amount,
        fr.departure_airport,
        fr.arrival_airport
    FROM flight_revenues fr
    WHERE fr.final_amount = (SELECT MIN(final_amount) FROM flight_revenues WHERE final_amount > 0)
)
SELECT 
    mf.flight_id,
    mf.final_amount AS "Final Amount",
    ad1.airport_name AS "Departure Airport",
    ad1.city AS "Departure City",
    ad2.airport_name AS "Arrival Airport",
    ad2.city AS "Arrival City"
FROM min_revenue_flights mf
JOIN airports_data ad1 ON mf.departure_airport = ad1.airport_code
JOIN airports_data ad2 ON mf.arrival_airport = ad2.airport_code;
"""

# Запрос 3: Популярные маршруты
query3 = """
WITH route_popularity AS (
    SELECT 
        f.departure_airport,
        f.arrival_airport,
        COUNT(tf.ticket_no) AS ticket_count
    FROM ticket_flights tf
    JOIN flights f ON tf.flight_id = f.flight_id
    GROUP BY f.departure_airport, f.arrival_airport
)
SELECT 
    ad1.airport_name AS "Departure Airport",
    ad1.city AS "Departure City",
    ad2.airport_name AS "Arrival Airport",
    ad2.city AS "Arrival City",
    rp.ticket_count AS "Ticket Count"
FROM route_popularity rp
JOIN airports_data ad1 ON rp.departure_airport = ad1.airport_code
JOIN airports_data ad2 ON rp.arrival_airport = ad2.airport_code
ORDER BY rp.ticket_count DESC
LIMIT 10;
"""

# Подключение к базе данных и выполнение запросов
with psycopg2.connect(CONNECT_DATA) as conn:
    # Запрос 1: Загруженность аэропортов
    print("Топ-10 самых загруженных аэропортов:")
    colnames1, results1 = execute_query(query1, conn)
    print(tabulate(results1, headers=colnames1, tablefmt="grid"))

    # Запрос 2: Самые нерентабельные рейсы
    print("\nСамые нерентабельные рейсы:")
    colnames2, results2 = execute_query(query2, conn)
    print(tabulate(results2, headers=colnames2, tablefmt="grid"))

    # Запрос 3: Популярные маршруты
    print("\nТоп-10 самых популярных маршрутов:")
    colnames3, results3 = execute_query(query3, conn)
    print(tabulate(results3, headers=colnames3, tablefmt="grid"))

Топ-10 самых загруженных аэропортов:
+-------------------------------------------------------------------+---------------------------------------------------+-----------------+
| Airport Name                                                      | City                                              |   Total Flights |
| {'en': 'Domodedovo International Airport', 'ru': 'Домодедово'}    | {'en': 'Moscow', 'ru': 'Москва'}                  |           41753 |
+-------------------------------------------------------------------+---------------------------------------------------+-----------------+
| {'en': 'Sheremetyevo International Airport', 'ru': 'Шереметьево'} | {'en': 'Moscow', 'ru': 'Москва'}                  |           38695 |
+-------------------------------------------------------------------+---------------------------------------------------+-----------------+
| {'en': 'Pulkovo Airport', 'ru': 'Пулково'}                        | {'en': 'St. Petersburg', 'ru': 'Санкт-Петербург'} |  