# Работа с демонстрационной БД  «Авиаперевозки» в PostGre

Вам предоставляется демонстрационная БД, развернутая в СУБД PostGre. 
Режим доступа - только на чтение.


In [1]:
import os
import json
import psycopg2
from psycopg2.extras import DictCursor

In [2]:
POSTGRESQL_HOST = '10.129.0.25'

In [3]:
!env | grep POST

POSTGRESQL_USER=reader
POSTGRESQL_PASSWORD=Miba2021


Создание подключения к БД

In [4]:
conn = psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
)
cur = conn.cursor()

Получение параметров подключения (в будущем вам это пригодится)

In [5]:
conn.get_dsn_parameters()

{'user': 'reader',
 'channel_binding': 'prefer',
 'dbname': 'demo',
 'host': '10.129.0.25',
 'port': '5432',
 'options': '',
 'sslmode': 'prefer',
 'sslcompression': '0',
 'sslcertmode': 'allow',
 'sslsni': '1',
 'ssl_min_protocol_version': 'TLSv1.2',
 'gssencmode': 'prefer',
 'krbsrvname': 'postgres',
 'gssdelegation': '0',
 'target_session_attrs': 'any',
 'load_balance_hosts': 'disable'}

Подготовка SQL запроса на вывод первых 5 записей из таблицы seats

In [6]:
query = 'SELECT * FROM seats LIMIT 5'

In [7]:
cur.execute(query)
records = cur.fetchall()
cur.close()
conn.close()

In [8]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business')]

Через конструкцию  with as реализуем соединение с БД и выполним SQL запрос

In [9]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute('SELECT * FROM seats LIMIT 10')
        records = cur.fetchall()

In [10]:
records

[('319', '2A', 'Business'),
 ('319', '2C', 'Business'),
 ('319', '2D', 'Business'),
 ('319', '2F', 'Business'),
 ('319', '3A', 'Business'),
 ('319', '3C', 'Business'),
 ('319', '3D', 'Business'),
 ('319', '3F', 'Business'),
 ('319', '4A', 'Business'),
 ('319', '4C', 'Business')]

Подготовим словарь с тремя запросам  на получение информации о БД

In [11]:
queries = {
    '___DATABASES___': 'SELECT * FROM pg_database',
    '___TABLES___': "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';",
    '\n___COLUMNS___': "SELECT column_name FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'seats';"
}

In [12]:
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    for name, query in queries.items():
        print('\n', name)
        with conn.cursor() as cur:
            cur.execute(query)
            for row in cur.fetchall():
                print(row)


 ___DATABASES___
(13760, 'postgres', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, None)
(1, 'template1', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, True, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(13759, 'template0', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', True, False, -1, 13759, '726', '1', 1663, '{=c/postgres,postgres=CTc/postgres}')
(16384, 'demo', 10, 6, 'en_US.UTF-8', 'en_US.UTF-8', False, True, -1, 13759, '726', '1', 1663, '{=Tc/postgres,postgres=CTc/postgres,reader=c/postgres}')

 ___TABLES___
('boarding_passes',)
('aircrafts_data',)
('flights',)
('airports_data',)
('seats',)
('tickets',)
('ticket_flights',)
('bookings',)
('employees',)
('departments',)
('department',)
('employee',)

 
___COLUMNS___
('aircraft_code',)
('seat_no',)
('fare_conditions',)


In [13]:
tables_db = []
query = "SELECT relname FROM pg_class WHERE relkind='r' AND relname !~ '^(pg_|sql_)';"
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        for row in cur.fetchall():
            tables_db.append(row[0])

In [14]:
print(tables_db)

['boarding_passes', 'aircrafts_data', 'flights', 'airports_data', 'seats', 'tickets', 'ticket_flights', 'bookings', 'employees', 'departments', 'department', 'employee']


## Задание 1:
Для каждой таблицы БД выведите ее структуру (название колонок). 

В текстовой ячейке представьте описание каждой таблицы - ее назначение и структуру.  


Пример использования магической команды sql

In [15]:
%load_ext sql

In [16]:
CONNECT_DATA = 'postgresql://{}:{}@{}/{}'.format(
    os.environ['POSTGRESQL_USER'],
    os.environ['POSTGRESQL_PASSWORD'],
    POSTGRESQL_HOST,
    'demo'
)

Получим информацию по типу каждого столбца таблицы boarding_passes

In [17]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'boarding_passes'

4 rows affected.


column_name,udt_name
flight_id,int4
boarding_no,int4
ticket_no,bpchar
seat_no,varchar


In [40]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'aircrafts_data'

3 rows affected.


column_name,udt_name
model,jsonb
range,int4
aircraft_code,bpchar


In [41]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'flights'

10 rows affected.


column_name,udt_name
flight_id,int4
scheduled_departure,timestamptz
scheduled_arrival,timestamptz
actual_departure,timestamptz
actual_arrival,timestamptz
arrival_airport,bpchar
flight_no,bpchar
status,varchar
aircraft_code,bpchar
departure_airport,bpchar


In [42]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'airports_data'

5 rows affected.


column_name,udt_name
airport_name,jsonb
city,jsonb
coordinates,point
airport_code,bpchar
timezone,text


In [43]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'seats'

3 rows affected.


column_name,udt_name
aircraft_code,bpchar
seat_no,varchar
fare_conditions,varchar


In [44]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'tickets'

5 rows affected.


column_name,udt_name
contact_data,jsonb
ticket_no,bpchar
book_ref,bpchar
passenger_id,varchar
passenger_name,text


In [45]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'ticket_flights'

4 rows affected.


column_name,udt_name
flight_id,int4
amount,numeric
ticket_no,bpchar
fare_conditions,varchar


In [46]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'bookings'

3 rows affected.


column_name,udt_name
book_date,timestamptz
total_amount,numeric
book_ref,bpchar


In [47]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'employees'

7 rows affected.


column_name,udt_name
hire_date,date
employee_id,int4
manager_id,int4
department_id,int4
first_name,varchar
last_name,varchar
job_id,varchar


In [50]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'employee'

7 rows affected.


column_name,udt_name
hire_date,date
employee_id,int4
manager_id,int4
department_id,int4
first_name,varchar
last_name,varchar
job_id,varchar


In [48]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'departments'

3 rows affected.


column_name,udt_name
department_id,int4
manager_id,int4
department_name,varchar


In [49]:
%%sql $CONNECT_DATA
SELECT column_name, udt_name 
FROM information_schema.columns 
WHERE table_name = 'department'

3 rows affected.


column_name,udt_name
department_id,int4
manager_id,int4
department_name,varchar


boarding_passes - таблица посадочных талонов

Назначение: Содержит информацию о посадочных талонах пассажиров

Структура:

flight_id (int4) - идентификатор рейса

boarding_no (int4) - номер посадки

ticket_no (bpchar) - номер билета

seat_no (varchar) - номер места

aircrafts_data - таблица данных о воздушных судах

Назначение: Хранит информацию о моделях самолетов и их характеристиках

Структура:

model (jsonb) - модель самолета в формате JSON

range (int4) - дальность полета в км

aircraft_code (bpchar) - код воздушного судна

flights - таблица рейсов

Назначение: Содержит расписание и статусы всех рейсов

Структура:

flight_id (int4) - идентификатор рейса

scheduled_departure (timestamptz) - запланированное время вылета

scheduled_arrival (timestamptz) - запланированное время прилета

actual_departure (timestamptz) - фактическое время вылета

actual_arrival (timestamptz) - фактическое время прилета

arrival_airport (bpchar) - аэропорт прибытия

flight_no (bpchar) - номер рейса

status (varchar) - статус рейса

aircraft_code (bpchar) - код воздушного судна

departure_airport (bpchar) - аэропорт вылета

airports_data - таблица данных об аэропортах

Назначение: Содержит информацию об аэропортах

Структура:

airport_name (jsonb) - название аэропорта в формате JSON

city (jsonb) - город расположения в формате JSON

coordinates (point) - географические координаты

airport_code (bpchar) - код аэропорта

timezone (text) - временная зона

seats - таблица мест в самолетах

Назначение: Хранит информацию о местах в салонах воздушных судов

Структура:

aircraft_code (bpchar) - код воздушного судна

seat_no (varchar) - номер места

fare_conditions (varchar) - класс обслуживания

tickets - таблица билетов

Назначение: Содержит информацию о билетах пассажиров

Структура:

ticket_no (bpchar) - номер билета (первичный ключ)

book_ref (bpchar) - ссылка на бронирование

passenger_id (varchar) - идентификатор пассажира (документ)

passenger_name (text) - имя пассажира

contact_data (jsonb) - контактные данные в формате JSON

ticket_flights - таблица перелетов по билетам

Назначение: Связывает билеты с конкретными рейсами и содержит информацию о стоимости

Структура:

ticket_no (bpchar) - номер билета (внешний ключ)

flight_id (int4) - идентификатор рейса (внешний ключ)

fare_conditions (varchar) - класс обслуживания

amount (numeric) - стоимость перелета

bookings - таблица бронирований

Назначение: Хранит информацию о бронированиях билетов

Структура:

book_ref (bpchar) - номер бронирования (первичный ключ)

book_date (timestamptz) - дата и время бронирования

total_amount (numeric) - общая сумма бронирования

employees и employee - таблицы сотрудников

Назначение: Содержит данные о сотрудниках авиакомпании

Структура:

employee_id (int4) - идентификатор сотрудника (первичный ключ)

first_name (varchar) - имя сотрудника

last_name (varchar) - фамилия сотрудника

hire_date (date) - дата приема на работу

job_id (varchar) - идентификатор должности

department_id (int4) - идентификатор отдела (внешний ключ)

manager_id (int4) - идентификатор руководителя

departments и department - таблицы отделов компании

Назначение: Хранит информацию об организационных подразделениях

Структура:

department_id (int4) - идентификатор отдела (первичный ключ)

department_name (varchar) - название отдела

manager_id (int4) - идентификатор руководителя отдела

## Задание 2:
Для каждой таблицы выведите информацию о типах ее столбцов (полей) и количестве записей.

Создайте словарь с названием таблиц и количеством записей в них.

Найти и вывести название таблицы с максимальным количеством записей, количество записей также вывести.



In [18]:
table_counts = {}
for table in tables_db:
    query = f"SELECT COUNT(*) FROM {table};"
    with psycopg2.connect(
        dbname='demo', 
        user=os.environ['POSTGRESQL_USER'],
        password=os.environ['POSTGRESQL_PASSWORD'], 
        host=POSTGRESQL_HOST
    ) as conn:
        with conn.cursor() as cur:
            cur.execute(query)
            count = cur.fetchone()[0]
            table_counts[table] = count
            print(f"Table: {table}, Records: {count}, Data Type: {type(count)}")

Table: boarding_passes, Records: 7925812, Data Type: <class 'int'>
Table: aircrafts_data, Records: 9, Data Type: <class 'int'>
Table: flights, Records: 214867, Data Type: <class 'int'>
Table: airports_data, Records: 104, Data Type: <class 'int'>
Table: seats, Records: 1339, Data Type: <class 'int'>
Table: tickets, Records: 2949857, Data Type: <class 'int'>
Table: ticket_flights, Records: 8391852, Data Type: <class 'int'>
Table: bookings, Records: 2111110, Data Type: <class 'int'>
Table: employees, Records: 12, Data Type: <class 'int'>
Table: departments, Records: 10, Data Type: <class 'int'>
Table: department, Records: 10, Data Type: <class 'int'>
Table: employee, Records: 12, Data Type: <class 'int'>


## Задание 3:

Вывести названия тарифов, которые предлагают авиаперевозчики пассажирам. 

In [19]:
cur = conn.cursor()
query = "SELECT DISTINCT fare_conditions FROM seats;"
cur.execute(query)
fare_conditions = cur.fetchall()
for fare in fare_conditions:
    print(fare[0])

Business
Comfort
Economy


## Задание 4:

По каждому тарифу найти общую сумму выручки за продажу билетов.


In [20]:
query = """
SELECT fare_conditions, SUM(amount) AS total_revenue
FROM ticket_flights
GROUP BY fare_conditions;
"""
cur.execute(query)
revenues = cur.fetchall()
for revenue in revenues:
    print(f"Fare Condition: {revenue[0]}, Total Revenue: {revenue[1]}")

Fare Condition: Business, Total Revenue: 44321628100.00
Fare Condition: Comfort, Total Revenue: 4580291100.00
Fare Condition: Economy, Total Revenue: 118507139900.00


## Задание 5:

Какой тариф приносит максимальный доход? (написать SQL запрос)




In [22]:
query = """
SELECT fare_conditions, SUM(amount) AS total_revenue
FROM ticket_flights
GROUP BY fare_conditions
ORDER BY total_revenue DESC
LIMIT 1;
"""
cur.execute(query)
max_revenue = cur.fetchone()
print(f"Fare Condition with max revenue: {max_revenue[0]}, Revenue: {max_revenue[1]}")

Fare Condition with max revenue: Economy, Revenue: 118507139900.00


# Время выполнения запросов. 

Разные запросы требуют разное время на выполнение. Часто нужно оптимизировать запрос, либо находить и использовать другой инструмент для анализа данных.

Приведем пример подчета времени выполнения запроса. 


In [23]:
%time result =  %sql SELECT * from departments;

 * postgresql://reader:***@10.129.0.25/demo
10 rows affected.
CPU times: user 2.04 ms, sys: 0 ns, total: 2.04 ms
Wall time: 2.46 ms


In [24]:
result

department_id,department_name,manager_id
10,Administration,200
30,Purchasing,114
40,HumanResources,203
50,Shipping,121
60,IT,103
70,PublicRelations,204
80,Sales,145
90,Executive,100
100,Finance,108
110,Accounting,205


## Задание 6:

Выведите сколько всего рейсов в БД имеют максимальную длительность полета.

Какова максимальная длительность полета?


In [27]:
query = """
WITH max_duration AS (
    SELECT MAX(scheduled_arrival - scheduled_departure) AS max_duration
    FROM flights
)
SELECT 
    COUNT(*) AS flights_with_max_duration,
    (SELECT max_duration FROM max_duration) AS max_duration
FROM 
    flights
WHERE 
    scheduled_arrival - scheduled_departure = (SELECT max_duration FROM max_duration);
"""

with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        result = cur.fetchone()
        flights_with_max_duration, max_duration = result
        print(f"Количество рейсов с максимальной длительностью: {flights_with_max_duration}")
        print(f"Максимальная длительность полета: {max_duration}")

Количество рейсов с максимальной длительностью: 1132
Максимальная длительность полета: 8:50:00


## Задание 7: 
Выведите уникальные маршруты рейсов (по аэропортам отправления и прибытия) с максимальной длительностью полета, включая следующие данные: 
- Код и название аэропорта отправления.
- Город отправления.
- Код и название аэропорта прибытия.
- Город прибытия.
- Длительность рейса (максимальная среди всех рейсов для данного маршрута).


Например:
| Duration   | Departure Airport Name         | Departure City  | Arrival Airport Name          | Arrival City          |
|------------|--------------------------------|-----------------|-------------------------------|-----------------------|
| 10:15:00   | John F. Kennedy Airport       | New York        | Los Angeles International     | Los Angeles          |
| 10:15:00    | Heathrow Airport              | London          | Dubai International Airport   | Dubai                |
| 10:15:00    | Tokyo Haneda Airport          | Tokyo           | Sydney Kingsford Smith        | Sydney               |
| 10:15:00    | Frankfurt Airport             | Frankfurt       | Changi Airport                | Singapore            |



In [28]:
import os
import psycopg2
from datetime import timedelta

# Функция для форматирования timedelta в строку HH:MM:SS
def format_timedelta(td):
    total_seconds = int(td.total_seconds())
    hours, remainder = divmod(total_seconds, 3600)
    minutes, seconds = divmod(remainder, 60)
    return f"{hours:02d}:{minutes:02d}:{seconds:02d}"

# SQL-запрос
query = """
WITH max_duration AS (
    SELECT MAX(scheduled_arrival - scheduled_departure) AS max_duration
    FROM flights
),
flight_durations AS (
    SELECT 
        f.flight_id,
        f.departure_airport,
        f.arrival_airport,
        (f.scheduled_arrival - f.scheduled_departure) AS duration,
        ad.airport_name AS departure_airport_name,
        ad.city AS departure_city,
        aa.airport_name AS arrival_airport_name,
        aa.city AS arrival_city
    FROM 
        flights f
    JOIN 
        airports_data ad ON f.departure_airport = ad.airport_code
    JOIN 
        airports_data aa ON f.arrival_airport = aa.airport_code
)
SELECT DISTINCT
    fd.duration,
    fd.departure_airport,
    fd.departure_airport_name,
    fd.departure_city,
    fd.arrival_airport,
    fd.arrival_airport_name,
    fd.arrival_city
FROM 
    flight_durations fd, max_duration md
WHERE 
    fd.duration = md.max_duration
ORDER BY 
    fd.departure_airport, fd.arrival_airport;
"""

# Подключение к базе данных и выполнение запроса
POSTGRESQL_HOST = '10.129.0.25'
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        results = cur.fetchall()
        
        # Вывод заголовков таблицы
        print(f"{'Duration':<10} | {'Departure Airport Name':<30} | {'Departure City':<15} | {'Arrival Airport Name':<30} | {'Arrival City':<15}")
        print("-" * 100)
        
        # Вывод данных
        for row in results:
            duration, dep_code, dep_name, dep_city, arr_code, arr_name, arr_city = row
            
            # Извлекаем строковые значения из JSON, если они в формате словаря
            dep_name = dep_name['en'] if isinstance(dep_name, dict) else dep_name
            dep_city = dep_city['en'] if isinstance(dep_city, dict) else dep_city
            arr_name = arr_name['en'] if isinstance(arr_name, dict) else arr_name
            arr_city = arr_city['en'] if isinstance(arr_city, dict) else arr_city
            
            # Форматируем duration
            duration_str = format_timedelta(duration)
            print(f"{duration_str:<10} | {dep_name:<30} | {dep_city:<15} | {arr_name:<30} | {arr_city:<15}")


Duration   | Departure Airport Name         | Departure City  | Arrival Airport Name           | Arrival City   
----------------------------------------------------------------------------------------------------
08:50:00   | Domodedovo International Airport | Moscow          | Yelizovo Airport               | Petropavlovsk  
08:50:00   | Domodedovo International Airport | Moscow          | Yuzhno-Sakhalinsk Airport      | Yuzhno-Sakhalinsk
08:50:00   | Yelizovo Airport               | Petropavlovsk   | Domodedovo International Airport | Moscow         
08:50:00   | Yuzhno-Sakhalinsk Airport      | Yuzhno-Sakhalinsk | Domodedovo International Airport | Moscow         


## Задание 8:
Определить, на какой аэропорт лежит максимальная нагрузка по обслуживанию отправлений и прибытий самолетов?

Вывести название аэропорта и город, где он находится.

In [52]:
query = """
WITH airport_load AS (
    SELECT 
        departure_airport AS airport_code,
        COUNT(*) AS departure_count
    FROM flights
    GROUP BY departure_airport
    UNION ALL
    SELECT 
        arrival_airport AS airport_code,
        COUNT(*) AS arrival_count
    FROM flights
    GROUP BY arrival_airport
)
SELECT 
    a.airport_code,
    ad.airport_name->>'en' AS airport_name,
    ad.city->>'en' AS city,
    SUM(a.departure_count) AS total_operations
FROM 
    airport_load a
JOIN 
    airports_data ad ON a.airport_code = ad.airport_code
GROUP BY 
    a.airport_code, ad.airport_name, ad.city
ORDER BY 
    total_operations DESC
LIMIT 1;
"""

with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        result = cur.fetchone()
        airport_code, airport_name, city, total_operations = result
        print(f"Код аэропорта: {airport_code}")
        print(f"Название аэропорта: {airport_name}")
        print(f"Город: {city}")
        print(f"Общее количество операций: {total_operations}")

Код аэропорта: DME
Название аэропорта: Domodedovo International Airport
Город: Moscow
Общее количество операций: 41753


## Задание 9:

Вывести среднее количество мест в самолетах по кажому классу обслуживания. Требования к формату вывода - две цифры после запятой. 

Пример:

| fare_conditions | avg_seat_count |
|----------------|---------------|
| Business       | 100.01         |
| Comfort        | 558.23         |
| Economy        | 15.52        |

In [30]:
import os
import psycopg2

# SQL-запрос с использованием CTE
query = """
WITH seat_counts AS (
    SELECT 
        s.aircraft_code,
        s.fare_conditions,
        COUNT(*) AS seat_count
    FROM 
        seats s
    GROUP BY 
        s.aircraft_code, s.fare_conditions
)
SELECT 
    fare_conditions,
    ROUND(AVG(seat_count), 2) AS avg_seat_count
FROM 
    seat_counts
GROUP BY 
    fare_conditions
ORDER BY 
    fare_conditions;
"""

# Подключение к базе данных и выполнение запроса
POSTGRESQL_HOST = '10.129.0.25'
with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        results = cur.fetchall()
        
        # Вывод заголовков таблицы
        print(f"{'fare_conditions':<15} | {'avg_seat_count':<15}")
        print("-" * 32)
        
        # Вывод данных
        for row in results:
            fare_conditions, avg_seat_count = row
            print(f"{fare_conditions:<15} | {avg_seat_count:<15}")

fare_conditions | avg_seat_count 
--------------------------------
Business        | 21.71          
Comfort         | 48.00          
Economy         | 126.56         


## Задание 10:

Найти и вывести на экран информацию о самом дорогом перелете. Вывести следующую информацию:
- flight_id	(id рейса)
- final_amount (общая выручка за данный рейс = сумма выручки за все проданные билеты)
- departure_airport	(название аэропорта отправки самолета)
- departure_city (название города аэропорта отправки)
- arrival_airport	(название аэропорта прибытия самолета)
- arrival_city (город прибытия)

Выведите статистику выполнения запроса с использованием команды EXPLAIN ANALYZE. Проанализуйте полученный отчет. Какие рекомендации даются по оптимизации запроса? Попробуйте применить рекомендации.

Сколько всего рейсов с максимальной суммой выручки?

In [32]:
query = """
EXPLAIN ANALYZE
WITH flight_revenue AS (
    SELECT 
        tf.flight_id,
        SUM(tf.amount) AS final_amount,
        f.departure_airport,
        ad.airport_name->>'en' AS departure_airport_name,
        ad.city->>'en' AS departure_city,
        f.arrival_airport,
        aa.airport_name->>'en' AS arrival_airport_name,
        aa.city->>'en' AS arrival_city
    FROM 
        ticket_flights tf
    JOIN 
        flights f ON tf.flight_id = f.flight_id
    JOIN 
        airports_data ad ON f.departure_airport = ad.airport_code
    JOIN 
        airports_data aa ON f.arrival_airport = aa.airport_code
    GROUP BY 
        tf.flight_id, f.departure_airport, f.arrival_airport, 
        ad.airport_name, ad.city, aa.airport_name, aa.city
)
SELECT 
    flight_id,
    final_amount,
    departure_airport_name,
    departure_city,
    arrival_airport_name,
    arrival_city,
    COUNT(*) OVER () AS flights_with_max_revenue
FROM 
    flight_revenue
WHERE 
    final_amount = (SELECT MAX(final_amount) FROM flight_revenue);
"""

with psycopg2.connect(
    dbname='demo', 
    user=os.environ['POSTGRESQL_USER'],
    password=os.environ['POSTGRESQL_PASSWORD'], 
    host=POSTGRESQL_HOST
) as conn:
    with conn.cursor() as cur:
        cur.execute(query)
        explain_result = cur.fetchall()
        print("Статистика выполнения запроса (EXPLAIN ANALYZE):")
        for row in explain_result:
            print(row[0])

        # Выполняем запрос без EXPLAIN для получения данных
        query_data = query.replace("EXPLAIN ANALYZE", "")
        cur.execute(query_data)
        result = cur.fetchone()
        flight_id, final_amount, dep_airport, dep_city, arr_airport, arr_city, count = result
        print("\nИнформация о самом дорогом перелете:")
        print(f"ID рейса: {flight_id}")
        print(f"Общая выручка: {final_amount}")
        print(f"Аэропорт отправления: {dep_airport}")
        print(f"Город отправления: {dep_city}")
        print(f"Аэропорт прибытия: {arr_airport}")
        print(f"Город прибытия: {arr_city}")
        print(f"Количество рейсов с максимальной выручкой: {count}")

Статистика выполнения запроса (EXPLAIN ANALYZE):
WindowAgg  (cost=2141951.20..2331289.12 rows=41959 width=172) (actual time=19144.148..19144.242 rows=1 loops=1)
  CTE flight_revenue
    ->  GroupAggregate  (cost=1406755.97..1953137.76 rows=8391708 width=392) (actual time=4766.794..18875.714 rows=150588 loops=1)
          Group Key: tf.flight_id, f.departure_airport, f.arrival_airport, ad.airport_name, ad.city, aa.airport_name, aa.city
          ->  Merge Join  (cost=1406755.97..1596490.17 rows=8391708 width=238) (actual time=4766.605..8143.620 rows=8391852 loops=1)
                Merge Cond: (f.flight_id = tf.flight_id)
                ->  Gather Merge  (cost=1000.92..43353.53 rows=214867 width=232) (actual time=400.831..614.198 rows=214867 loops=1)
                      Workers Planned: 1
                      Workers Launched: 1
                      ->  Incremental Sort  (cost=0.91..18180.99 rows=126392 width=232) (actual time=284.936..452.542 rows=107434 loops=2)
                 

## Дополнительное задание:

Реализуйте 3 запроса, которые позволят узнать, выявить узкие места работы авиаперевозчика. 

In [38]:
# Отмененные рейсы
def get_top_cancelled_airports():
    query = """
    SELECT 
        f.departure_airport,
        ad.airport_name->>'en' AS airport_name,
        COUNT(CASE WHEN f.status = 'Cancelled' THEN 1 END) * 100.0 / COUNT(*) AS cancel_percentage
    FROM 
        flights f
    JOIN 
        airports_data ad ON f.departure_airport = ad.airport_code
    GROUP BY 
        f.departure_airport, ad.airport_name
    HAVING 
        COUNT(CASE WHEN f.status = 'Cancelled' THEN 1 END) > 0
    ORDER BY 
        cancel_percentage DESC
    LIMIT 5;
    """
    
    with connect_to_db() as conn:
        with conn.cursor() as cur:
            cur.execute(query)
            results = cur.fetchall()
            
            print("\n2. Аэропорты с высоким процентом отмененных рейсов:")
            print(f"{'Airport Code':<12} | {'Airport Name':<30} | {'Cancel %':<10}")
            print("-" * 55)
            for row in results:
                airport_code, airport_name, cancel_percentage = row
                print(f"{airport_code:<12} | {airport_name:<30} | {cancel_percentage:.2f}%")

# Выполнение запроса
try:
    get_top_cancelled_airports()
except Exception as e:
    print(f"Произошла ошибка: {e}")


2. Аэропорты с высоким процентом отмененных рейсов:
Airport Code | Airport Name                   | Cancel %  
-------------------------------------------------------
PYJ          | Polyarny Airport               | 1.76%
USK          | Usinsk Airport                 | 1.75%
DYR          | Ugolny Airport                 | 1.32%
IWA          | Ivanovo South Airport          | 0.88%
KXK          | Komsomolsk-on-Amur Airport     | 0.88%


In [37]:
# Функция для форматирования timedelta в строку HH:MM:SS
def format_timedelta(td):
    if td is None:
        return "N/A"
    total_seconds = int(td.total_seconds())
    hours, remainder = divmod(total_seconds, 3600)
    minutes, seconds = divmod(remainder, 60)
    return f"{hours:02d}:{minutes:02d}:{seconds:02d}"

# Рейсы с максимальной задержкой вылета
def get_top_delayed_flights():
    query = """
    SELECT 
        f.flight_id,
        f.departure_airport,
        ad.airport_name->>'en' AS airport_name,
        (f.actual_departure - f.scheduled_departure) AS delay
    FROM 
        flights f
    JOIN 
        airports_data ad ON f.departure_airport = ad.airport_code
    WHERE 
        f.actual_departure IS NOT NULL 
        AND f.scheduled_departure IS NOT NULL
        AND f.actual_departure > f.scheduled_departure
    ORDER BY 
        delay DESC
    LIMIT 5;
    """
    
    with connect_to_db() as conn:
        with conn.cursor() as cur:
            cur.execute(query)
            results = cur.fetchall()
            
            print("\n1. Рейсы с максимальной задержкой вылета:")
            print(f"{'Flight ID':<10} | {'Airport Code':<12} | {'Airport Name':<30} | {'Delay':<10}")
            print("-" * 65)
            for row in results:
                flight_id, airport_code, airport_name, delay = row
                delay_str = format_timedelta(delay)
                print(f"{flight_id:<10} | {airport_code:<12} | {airport_name:<30} | {delay_str:<10}")

# Выполнение запроса
try:
    get_top_delayed_flights()
except Exception as e:
    print(f"Произошла ошибка: {e}")


1. Рейсы с максимальной задержкой вылета:
Flight ID  | Airport Code | Airport Name                   | Delay     
-----------------------------------------------------------------
157571     | KRR          | Krasnodar Pashkovsky International Airport | 05:03:00  
186524     | KVX          | Pobedilovo Airport             | 04:44:00  
126166     | ESL          | Elista Airport                 | 04:42:00  
102938     | YKS          | Yakutsk Airport                | 04:41:00  
56731      | LED          | Pulkovo Airport                | 04:41:00  


In [39]:
def get_least_seats_aircrafts():
    query = """
    SELECT 
        a.aircraft_code,
        a.model->>'en' AS model,
        COUNT(s.seat_no) AS seat_count
    FROM 
        aircrafts_data a
    JOIN 
        seats s ON a.aircraft_code = s.aircraft_code
    GROUP BY 
        a.aircraft_code, a.model
    ORDER BY 
        seat_count ASC
    LIMIT 5;
    """
    
    with connect_to_db() as conn:
        with conn.cursor() as cur:
            cur.execute(query)
            results = cur.fetchall()
            
            print("\n3. Самолеты с наименьшим количеством мест:")
            print(f"{'Aircraft Code':<13} | {'Model':<30} | {'Seat Count':<10}")
            print("-" * 55)
            for row in results:
                aircraft_code, model, seat_count = row
                print(f"{aircraft_code:<13} | {model:<30} | {seat_count:<10}")

# Выполнение запроса
try:
    get_least_seats_aircrafts()
except Exception as e:
    print(f"Произошла ошибка: {e}")


3. Самолеты с наименьшим количеством мест:
Aircraft Code | Model                          | Seat Count
-------------------------------------------------------
CN1           | Cessna 208 Caravan             | 12        
CR2           | Bombardier CRJ-200             | 50        
SU9           | Sukhoi Superjet-100            | 97        
319           | Airbus A319-100                | 116       
733           | Boeing 737-300                 | 130       
