# Практическая работа 3: Анализ данных авиакомпаний

## Задание 30
**Цель:** Рассчитать общую выручку для каждой авиакомпании на основе консолидации данных из трех источников:
- **Файл 1 (CSV):** Авиакомпании (airline_id, name)
- **Файл 2 (Excel):** Рейсы (flight_id, airline_id, passengers_count)
- **Файл 3 (JSON):** Билеты (flight_id, avg_ticket_price)

## Библиотеки и подключения


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import json
import warnings
warnings.filterwarnings('ignore')

# Настройка стиля графиков
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("✓ Библиотеки загружены")


## 1. Загрузка данных из различных источников


In [None]:
# Загрузка данных об авиакомпаниях (CSV)
df_airlines = pd.read_csv('data/airlines.csv')
print("Данные об авиакомпаниях (CSV):")
print(f"Форма данных: {df_airlines.shape}")
print(df_airlines.head())
print("\n" + "="*50 + "\n")


In [None]:
# Загрузка данных о рейсах (Excel)
df_flights = pd.read_excel('data/flights.xlsx')
print("Данные о рейсах (Excel):")
print(f"Форма данных: {df_flights.shape}")
print(df_flights.head())
print("\n" + "="*50 + "\n")


In [None]:
# Загрузка данных о билетах (JSON)
with open('data/tickets.json', 'r', encoding='utf-8') as f:
    tickets_data = json.load(f)

df_tickets = pd.DataFrame(tickets_data)
print("Данные о билетах (JSON):")
print(f"Форма данных: {df_tickets.shape}")
print(df_tickets.head())
print("\n" + "="*50 + "\n")


## 2. Консолидация данных и расчет выручки


In [None]:
# Объединение всех данных
# Шаг 1: Объединение рейсов с билетами
df_flights_tickets = pd.merge(df_flights, df_tickets, on='flight_id', how='inner')

# Шаг 2: Объединение с данными авиакомпаний
df_consolidated = pd.merge(df_flights_tickets, df_airlines, on='airline_id', how='inner')

# Расчет выручки за каждый рейс
df_consolidated['flight_revenue'] = df_consolidated['passengers_count'] * df_consolidated['avg_ticket_price']

print("Консолидированные данные:")
print(f"Форма данных: {df_consolidated.shape}")
print(df_consolidated[['name', 'flight_id', 'passengers_count', 'avg_ticket_price', 'flight_revenue']].head())

# Расчет общей выручки для каждой авиакомпании
airline_revenue = df_consolidated.groupby(['airline_id', 'name']).agg({
    'flight_revenue': 'sum',
    'flight_id': 'nunique',
    'passengers_count': 'sum',
    'avg_ticket_price': 'mean'
}).round(2)

airline_revenue.columns = ['total_revenue', 'total_flights', 'total_passengers', 'avg_price']
airline_revenue = airline_revenue.sort_values('total_revenue', ascending=False)

print("\n" + "="*60)
print("ОБЩАЯ ВЫРУЧКА ПО АВИАКОМПАНИЯМ")
print("="*60)
print(airline_revenue)


## 3. Визуализация результатов


In [None]:
# График 1: Общая выручка авиакомпаний
plt.figure(figsize=(14, 8))
bars = plt.bar(range(len(airline_revenue)), airline_revenue['total_revenue'], 
               color=sns.color_palette("husl", len(airline_revenue)))
plt.title('Общая выручка авиакомпаний', fontsize=16, fontweight='bold')
plt.xlabel('Авиакомпании', fontsize=12)
plt.ylabel('Выручка (руб.)', fontsize=12)
plt.xticks(range(len(airline_revenue)), airline_revenue.index.get_level_values('name'), 
           rotation=45, ha='right')

# Добавление значений на столбцы
for i, bar in enumerate(bars):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + height*0.01,
             f'{height:,.0f}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.grid(axis='y', alpha=0.3)
plt.show()


In [None]:
# График 2: Круговая диаграмма доли выручки
plt.figure(figsize=(12, 8))
colors = sns.color_palette("husl", len(airline_revenue))
wedges, texts, autotexts = plt.pie(airline_revenue['total_revenue'], 
                                   labels=airline_revenue.index.get_level_values('name'),
                                   autopct='%1.1f%%', colors=colors, startangle=90)

plt.title('Доля выручки авиакомпаний', fontsize=16, fontweight='bold')

# Улучшение читаемости
for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

plt.axis('equal')
plt.show()


In [None]:
# График 3: Интерактивная визуализация с Plotly
fig = go.Figure()

# Добавляем столбцы выручки
fig.add_trace(go.Bar(
    x=airline_revenue.index.get_level_values('name'),
    y=airline_revenue['total_revenue'],
    name='Выручка',
    marker_color='lightblue',
    text=[f'{x:,.0f} руб.' for x in airline_revenue['total_revenue']],
    textposition='auto'
))

fig.update_layout(
    title='Интерактивная диаграмма выручки авиакомпаний',
    xaxis_title='Авиакомпании',
    yaxis_title='Выручка (руб.)',
    showlegend=False,
    height=600
)

fig.show()


## 4. Выводы и сохранение результатов


In [None]:
# Формирование выводов и сохранение результатов
print("ОСНОВНЫЕ ВЫВОДЫ АНАЛИЗА")
print("=" * 50)

top_airline = airline_revenue.index[0][1]
top_revenue = airline_revenue.iloc[0]['total_revenue']
total_market_revenue = airline_revenue['total_revenue'].sum()
market_share = (top_revenue / total_market_revenue) * 100

print(f"1. Лидер рынка: {top_airline}")
print(f"   - Выручка: {top_revenue:,.0f} руб.")
print(f"   - Доля рынка: {market_share:.1f}%")

print(f"\n2. Общая выручка рынка: {total_market_revenue:,.0f} руб.")
print(f"3. Количество авиакомпаний: {len(airline_revenue)}")
print(f"4. Средняя выручка на авиакомпанию: {airline_revenue['total_revenue'].mean():,.0f} руб.")

# Топ-3 авиакомпании
print("\n5. ТОП-3 авиакомпании по выручке:")
for i, (idx, row) in enumerate(airline_revenue.head(3).iterrows(), 1):
    airline_name = idx[1]
    revenue = row['total_revenue']
    flights = row['total_flights']
    print(f"   {i}. {airline_name}: {revenue:,.0f} руб. ({flights} рейсов)")

# Сохранение результатов
df_consolidated.to_csv('data/consolidated_airline_data.csv', index=False)
airline_revenue.to_csv('data/airline_revenue_summary.csv')

print("\n" + "=" * 50)
print("✓ Результаты сохранены в папке 'data/'")
print("✓ Анализ завершен успешно!")
