# Анализ данных по рейсам в авиакомпании

## Описание проекта:
В данном проекте было проанализировано среднее ежедневное количество рейсов, прибывающих в различные города России, по данным за август 2018 г., а также был выделен топ-10 городов РФ по числу принимаемых рейсов. Кроме того, было рассмотрено распределение количества рейсов по различным моделям самолетов.

## Главные выводы:

* По данным за август 2018, в среднем больше всего рейсов в день принимала Москва (130 рейсов). На втором месте Санкт-Петербург (31 рейсов). Третье место - Новосибирск (17 рейсов).


* Медианное значение по всем городам - 3 рейса в день.


* В сентябре 2018, больше всего рейсов было выполнено на самолёте Cessna 208 Caravan (28%), на втором месте Bombardier CRJ-200 (27.3%), третье место - Sukhoi SuperJet-100 (25.7%).


* Топ-3 модели осуществили 81% всех рейсов за сентябрь 2018 г.

## Содержание проекта: <a name="introduction"></a>

#### 1. [Общая информация о данных](#paragraph1)

#### 2. [Предобработка данных](#paragraph2)

* 2.1 [Проверка на дубликаты](#subparagraph2_1)
* 2.2 [Проверка корректности типов данных](#subparagraph2_2)

#### 3. [Исследовательский анализ данных](#paragraph3)

* 3.1 [Топ-10 городов по количеству принимаемых рейсов](#subparagraph3_1)
* 3.2 [Все города по количеству принимаемых рейсов](#subparagraph3_2)
* 3.3 [Количество рейсов на различных моделях самолетов](#subparagraph3_3)

#### 4. [Общий вывод](#paragraph4)

## 1. Общая информация о данных <a name="paragraph1"></a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
!pip install plotly
import plotly
import plotly.express as px
import plotly.io as pio
pio.renderers.default = 'notebook_connected'



In [2]:
query_1 = pd.read_csv('query_1.csv')
query_3 = pd.read_csv('query_3.csv')

In [3]:
query_1

Unnamed: 0,model,flights_amount
0,Airbus A319-100,607
1,Airbus A321-200,960
2,Boeing 737-300,630
3,Boeing 767-300,600
4,Boeing 777-300,300
5,Bombardier CRJ-200,4446
6,Cessna 208 Caravan,4557
7,Sukhoi SuperJet-100,4185


In [4]:
query_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   model           8 non-null      object
 1   flights_amount  8 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


In [5]:
query_3

Unnamed: 0,city,average_flights
0,Абакан,3.870968
1,Анадырь,1.000000
2,Анапа,2.161290
3,Архангельск,5.354839
4,Астрахань,2.451613
...,...,...
96,Чита,1.580645
97,Элиста,4.870968
98,Южно-Сахалинск,4.290323
99,Якутск,2.741935


In [6]:
query_3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101 entries, 0 to 100
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   city             101 non-null    object 
 1   average_flights  101 non-null    float64
dtypes: float64(1), object(1)
memory usage: 1.7+ KB


**Вывод:** 

* В датафрейме `query_1` содержатся данные о моделях самолетов (`model`) и количестве рейсов, выполненных на каждой из моделей в сентябре 2018 г. (`flights_amount`). Пропущенных значений нет. 


* В датафрейме `query_3` содержатся данные о городах (`city`) и среднем количестве рейсов, прибывающих в эти города, за день в августе 2018 г. (`average_flights`). Пропущенных значений нет.

[Вернуться к оглавлению](#introduction)

## 2. Предобработка данных <a name="paragraph2"></a>

### 2.1 Проверка на дубликаты<a name="subparagraph2_1"></a>

In [7]:
print(query_1.duplicated().sum(), query_3.duplicated().sum())

0 0


**Вывод:** Дубликаты отсутствуют в обоих датафреймах.

### 2.2 Проверка корректности типов данных<a name="subparagraph2_2"></a>

В `query_1` столбец `model` определен как object, а `flights_amount` как int64 - переназначение не требуется.

В `query_3` столбец `city` определен, как object, а `average_flights` имеет вещественный тип float64. Так как рейсы не могут быть дробными числами, необходимо округлить значения до целых и привести столбец к целочисленному типу.

In [8]:
query_3['average_flights'] = query_3['average_flights'].round().astype('int')

**Вывод:** данные были успешно предобработаны.

[Вернуться к оглавлению](#introduction)

## 3. Исследовательский анализ данных <a name="paragraph3"></a>

### 3.1 Топ-10 городов по количеству принимаемых рейсов<a name="subparagraph3_1"></a>

In [9]:
top_cities = query_3.sort_values(by='average_flights', ascending=False).head(10).reset_index(drop=True)
top_cities

Unnamed: 0,city,average_flights
0,Москва,130
1,Санкт-Петербург,31
2,Новосибирск,17
3,Красноярск,12
4,Екатеринбург,11
5,Ростов-на-Дону,10
6,Сочи,10
7,Ульяновск,10
8,Пермь,10
9,Брянск,10


In [10]:
fig = px.bar(top_cities.sort_values(by='average_flights'), 
       y='city', x='average_flights', orientation='h', text='average_flights',
      labels={'city':'Город прилета','average_flights':'Среднее количество рейсов в день'},
       title='Топ-10 городов по среднему количеству принимаемых рейсов в день (август 2018 г.)')
fig.update_traces(textposition='outside')
fig.show()

**Вывод:** Самым популярным городом ожидаемо оказалась **Москва**, которая в среднем принимает **130** рейсов в день (по данным за август 2018 г.). На втором месте, с отрывом более чем в 4 раза, **Санкт-Петербург** (**31** рейсов). Третье место - **Новосибирск** (**17** рейсов) - отстает от Москвы более чем в 7 раз, а от Санкт-Петербурга почти в 2 раза. Места с 4 по 10 принимают приблизительно одинаковое количество рейсов: **Красноярск** (**12**), **Екатеринбург** (**11**), **Ростов-на-Дону** (**10**), **Сочи** (**10**), **Ульяновск** (**10**), **Пермь** (**10**), **Брянск** (**10**). Все города, возглавляющие рейтинг, за исключением Сочи, являются либо городами федерального значения (Москва, к тому же, столица РФ), либо административными центрами своих регионов. Сочи - курортный город, поэтому неудивительно, что в августе он принял довольно много рейсов по сравнению с другими российскими городами, не вошедшими в топ.

### 3.2 Все города по количеству принимаемых рейсов<a name="subparagraph3_2"></a>

In [11]:
fig = px.bar(query_3.sort_values(by='average_flights', ascending=False), 
       x='city', y='average_flights',
      labels={'city':'Город прилета','average_flights':'Среднее количество рейсов в день'},
       title='Общий рейтинг городов по среднему количеству принимаемых рейсов в день (август 2018 г.)')
fig.update_xaxes(tickangle = 45)
fig.show()

In [12]:
query_3['average_flights'].describe()

count    101.000000
mean       5.485149
std       13.141243
min        1.000000
25%        2.000000
50%        3.000000
75%        6.000000
max      130.000000
Name: average_flights, dtype: float64

**Вывод:** Всего имеются данные по **101** городу. **Минимальное** значение среди городов: **1** рейс в день. **Максимум**, как мы уже выявили, **130** рейсов (у Москвы). Поскольку Москва, а также Санкт-Петербург сильно искажают выборку, будем опираться на медианное значение, устойчивое к выбросам. **Медиана**: **3** рейса в день.

### 3.3 Количество рейсов на различных моделях самолетов<a name="subparagraph3_3"></a>

In [13]:
fig = px.pie(query_1.sort_values(by='model', ascending=False), 
       names='model', values='flights_amount',
       labels={'model':'Модель самолета','flights_amount':'Общее количество рейсов'},
       title='Количество рейсов на различных моделях самолетов', color='model',
       color_discrete_map={'Boeing 777-300':'red',
                           'Boeing 767-300':'red',
                           'Airbus A319-100':'royalblue',
                           'Boeing 737-300':'red', 
                           'Airbus A321-200':'royalblue',
                           'Sukhoi SuperJet-100':'orange',
                           'Bombardier CRJ-200':'purple',
                           'Cessna 208 Caravan':'green'})
fig.update_traces(marker=dict(line=dict(color='#000000', width=1)))
fig.show()

**Вывод:** Больше всего рейсов было выполнено на самолёте **Cessna 208 Caravan** (**28%** от общего количества рейсов за сентябрь 2018 г.). На втором месте идет модель **Bombardier CRJ-200** (**27.3%**). Третье место занимает **Sukhoi SuperJet-100** (**25.7%**). Таким образом топ-3 модели осуществили 81% всех рейсов за сентябрь 2018 г. 

В совокупности самолеты **Airbus** выполнили **9.62%** всех рейсов за исследуемый период: **Airbus A321-200** (**5.89%**), **Airbus A319-100** (**3.73%**),

В совокупности самолеты **Boeing** совершили **9.39%** всех рейсов: **Boeing 737-300** (**3.87%**), **Boeing 767-300** (**3.68%**), **Boeing 777-300** (**1.84%**).

[Вернуться к оглавлению](#introduction)

## 4. Общий вывод <a name="paragraph4"></a>

В данном проекте мы проанализировали данные о рейсах авиакомпании и пришли к следующим выводам:
- По данным за август 2018, в среднем больше всего рейсов в день принимала Москва (130 рейсов). На втором месте Санкт-Петербург (31 рейсов). Третье место - Новосибирск (17 рейсов).
- Медианное значение по всем городам - 3 рейса в день.
- В сентябре 2018, больше всего рейсов было выполнено на самолёте Cessna 208 Caravan (28%), на втором месте Bombardier CRJ-200 (27.3%), третье место - Sukhoi SuperJet-100 (25.7%).
- Топ-3 модели осуществили 81% всех рейсов за сентябрь 2018 г.

[Вернуться к оглавлению](#introduction)