# Аналитика в авиакомпании

---

## Описание проекта

У нас есть файлы, в которых содержатся результаты запросов из предыдущих заданий.<br>
`/datasets/query_1.csv` — результат первого запроса. <br>

**В нём содержится информация о:** <br>
- `model` — модели самолета<br>
- `flights_amount` — количество рейсов для каждой модели самолетов model в сентябре 2018 года<br>

`/datasets/query_3.csv` — результат третьего запроса. <br>

**В нём содержится информация о:**<br>
- `city` — городах<br>
- `average_flights` — среднем количестве рейсов, прибывающих в город city за день в августе 2018 года<br>

**Для этих двух наборов данных нужно:**<br>
- импортировать файлы;<br>
- изучить данные в них;<br>
- проверить типы данных на корректность;<br>
- выбрать топ-10 городов по количеству рейсов;<br>

**построить графики:**<br>
- модели самолетов и количество рейсов;<br>
- города и количество рейсов;<br>
- топ-10 городов и количество рейсов;<br>

**Cделать выводы по каждому из графиков, пояснить результат.**

---

## Описание данных

**База данных об авиаперевозках:**<br>

**Таблица `airports` — информация об аэропортах:<br>**

- `airport_code` — трёхбуквенный код аэропорта<br>
- `airport_name` — название аэропорта<br>
- `city` — город<br>
- `timezone` — временная зона<br>

**Таблица `aircrafts` — информация об самолётах:<br>**

- `aircraft_code` — код модели самолёта<br>
- `model` — модель самолёта<br>
- `range` — количество самолётов<br>

**Таблица `tickets` — информация о билетах:<br>**

- `ticket_no` — уникальный номер билета<br>
- `passenger_id` — персональный идентификатор пассажира<br>
- `passenger_name` — имя и фамилия пассажира<br>

**Таблица `flights` — информация о рейсах:<br>**

- `flight_id` — уникальный идентификатор рейса<br>
- `departure_airport` — аэропорт вылета<br>
- `departure_time` — дата и время вылета<br>
- `arrival_airport` — аэропорт прилёта<br>
- `arrival_time` — дата и время прилёта<br>
- `aircraft_code` – id самолёта<br>

**Таблица `ticket_flights` — стыковая таблица «рейсы-билеты»<br>**

- `ticket_no` — номер билета<br>
- `flight_id` — идентификатор рейса<br>

**Таблица `festivals` — информация о фестивалях<br>**

- `festival_id` — уникальный номер фестиваля<br>
- `festival_date` — дата проведения фестиваля<br>
- `festival_city` — город проведения фестиваля<br>
- `festival_name` — название фестиваля<br>

---

## Оглавление

* [1. Открываем файлы с данными и изучаем общую информацию.](#one)
* [2. Предобработка данных.](#two)
* [3. Топ-10 городов по количеству рейсов](#three)
* [4. Графики.](#four)
* [5. Выводы.](#five)

---

## Открываем файлы с данными и изучаем общую информацию <a class="anchor" id="one"></a>

Импортируем необходимые библиотеки

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Прочитаем результаты первого запроса

In [None]:
query_1 = pd.read_csv('datasets/5_query_1.csv')

In [None]:
query_1

In [None]:
query_1.info()

Первый запрос состоит из 8 строк и в нем содержится информация какое количество рейсов совершила каждая модель самолета.<br>
- Значения в столбце `model` имеют тип `object`.
- Значения в столбце `flights_amount` имеют тип `int64`.

In [None]:
query_3 = pd.read_csv('datasets/5_query_3.csv')

In [None]:
query_3

In [None]:
query_3.info()

В третьем запросе 101 строка и в нем содержится информация о среднем количестве рейсов в день для каждого города.
- значения в столбце `city` имеют тип `object`
- значения в столбце `average_flights` имеют тип `float64`

### Выводы

- Мы прочитали данные и преобразовали их в датафрейм.
- Первый запрос содержит 8 строк и 2 столбца
- Третий запрос содержит 101 строку и 2 столбца.

---

## Предобработка данных <a class="anchor" id="two"></a>

Преобразуем `float64` в `float16` для уменьшение используемой памяти.

In [None]:
query_3['average_flights'] = query_3['average_flights'].astype('float16')

In [None]:
query_3.info()

---

## Топ-10 городов по количеству рейсов <a class="anchor" id="three"></a>

In [None]:
top_10 = query_3.sort_values(by='average_flights', ascending=False).head(10)

In [None]:
top_10

### Выводы

Получили топ-10 городов в столицах максимум - чего и стоило ожидать. Также в список вошли города миллионики и город курорт Сочи. А как тут оказались Ульяновск и Брянск?)

---

## Графики <a class="anchor" id="four"></a>

### Модели самолетов и количество рейсов

In [None]:
plt.figure(figsize=(15, 5))
sns.barplot(x='model', y='flights_amount', data=query_1)
plt.xticks(rotation=45) 
plt.title('График зависимости количества рейсов от модели самолетов')
plt.xlabel('Модель')
plt.ylabel('Количество рейсов')

### Выводы

В лидерах остались Сухой Суперджет и самолеты больше напоминающие частные.

Почему такие показатели?

Наиболее мелкие модели очень часто совершали рейсы.

Большие модели вроде Боинга оказались в аутсайдерах.

Наиболее очевидный вывод:

- Наиболее популярные рейсы - местные до 100 человек

---

### Города и количество рейсов

In [None]:
plt.figure(figsize=(10, 20))
sns.barplot(x='average_flights', y='city', data=query_3.sort_values(by='average_flights', ascending=False))
plt.title('График зависимости среднего количества рейсов от города')
plt.xlabel('Среднее количество рейсов в день')
plt.ylabel('Город')

### Выводы

Топ-10 мы уже вычислили, остальные города очень похожи по среднему количеству рейсов в день.

### Топ-10 городов и количество рейсов

In [None]:
plt.figure(figsize=(10, 15))
sns.barplot(x='average_flights', y='city', data=top_10)
plt.title('График зависимости среднего количества рейсов от города')
plt.xlabel('Среднее количество рейсов в день')
plt.ylabel('Город')

### Выводы

Наши расчеты Топ-10 городов подтвердились на графике.

- Москва - рекордсмен, это столица России, поэтому и число рейсов  здесь максимально.
- Санкт-Петербург - Северная столица и второй по численности город.
- Новосибирск - столица Сибири и хаб для всех студентов в Сибири, поэтому честно занимает третье место.
- Большинство остальных городов - города миллионики нашей страны и промышленные центры.
- Сочи - самый популярный город курорт РФ.
- Наличие тут Брянска и Ульяновска удивило))

---

## Общие выводы <a class="anchor" id="five"></a>

- Мы прочитали данные из запросов и преобразовали их в датафрейм
- Мы вычислили топ-10 городов по среднему количеству рейсов в день в число которых вошли преимущественно города миллионики России
- Среди лидеров по количеству рейсов оказался наш родной Сухой Суперджет и пару небольших самолетов больше направленных на частные перевозки.