## <center>Анализ данных о бронировании отелей</center>

### Описание данных

Имеются следующие переменные:

* **Hotel** – тип отеля (City Hotel или Resort Hotel)  
* **Is canceled** – бронирование было отменено (1) или нет (0); не отмененное считается успешным
* **Lead time** – количество дней, прошедших между датой бронирования и датой прибытия  
* **Arrival full date** – полная дата прибытия
* **Arrival date year** – год прибытия  
* **Arrival date month** – месяц прибытия  
* **Arrival date week number** – номер недели прибытия
* **Arrival date day of month** – день прибытия
* **Stays in weekend nights** – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле
* **Stays in week nights** – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле
* **Stays total nights** – общее число забронированных ночей (сумма двух предыдущих колонок)
* **Adults** – число взрослых
* **Children** – число детей
* **Babies** – число младенцев 
* **Meal** – выбранный тип питания
* **Country** – страна происхождения клиента
* **Reserved room type** – тип зарезервированного номера
* **Assigned room type** – тип полученного номера (может отличаться от забронированного)
* **Customer type** – тип бронирования
* **Reservation status** – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент     зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину
* **Reservation status date** – дата обновления статуса

In [1]:
# Импорт библиотек
import pandas as pd

In [2]:
# Считаем данные и отобразим первые 5 строк
bookings = pd.read_csv('bookings.csv', sep=';')
bookings.head()

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [3]:
# Посмотрим на размерность данных
bookings.shape

(119390, 21)

In [4]:
# Посмотрим на типы данных в датасете
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [5]:
# Посмотрим, есть ли в датасете пропущенные значения
missing = bookings.isnull().sum().sort_values(ascending=False)
print(missing[missing > 0])

Country     488
Children      4
dtype: int64


In [6]:
# Приведем названия столбцов к нижнему регистру и заменим пробелы на знак нижнего подчеркивания
new_col_names = {i: i.lower().replace(' ', '_') for i in bookings.columns}
bookings = bookings.rename(columns=new_col_names)
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


## Задания

#### 1) Перейдем к исследованию данных! Пользователи из каких стран совершили наибольшее число успешных бронирований? Бронирование считается успешным, если в дальнейшем не было отменено (переменная is_canceled). В качестве ответа выберите страны, входящие в топ-5.

In [7]:
# Сделаем выборку только по тем заказам, которые не были отменены и посчитаем количество уникальных значений по странам
not_canceled = bookings.query('is_canceled != 1')
most_visits = not_canceled.value_counts('country')[:5]

# Отобразим результат
pd.DataFrame({'Counrty': list(most_visits.keys()), 'Visits': [i[1] for i in most_visits.items()]})

Unnamed: 0,Counrty,Visits
0,PRT,21071
1,GBR,9676
2,FRA,8481
3,ESP,6391
4,DEU,6069


Таким образом, наибольшее количество посетителей из Португалии, Великобритании, Франции, Испании и Германии.

#### 2) На сколько ночей (stays_total_nights)  в среднем бронируют отели типа City Hotel? Resort Hotel? Запишите полученные значения в пропуски с точностью до 2 знаков после точки.

In [8]:
# Сгруппируем датасет по колонке hotel и применим функцию mean для расчета среднего значения продолжительности бронирования
avg_stay = bookings.groupby('hotel') \
                   .aggregate({'stays_total_nights': 'mean'}) \
                   .round(2)

# Отобразим результат
avg_stay

Unnamed: 0_level_0,stays_total_nights
hotel,Unnamed: 1_level_1
City Hotel,2.98
Resort Hotel,4.32


**Выводы:**
- средняя продолжительность бронирования для отеля City Hotel составляет 2,9 ночи
- средняя продолжительность бронирования для отеля Resort Hotel составляет 4,3 ночи

#### 3) Иногда тип номера, присвоенного клиенту (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга. Сколько подобных наблюдений встретилось в датасете?
_*отмена бронирования также считается_

In [9]:
bookings.query('assigned_room_type != reserved_room_type').shape[0]

14917

#### 4) Теперь проанализируйте даты запланированного прибытия (arrival_date_year). На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017?

In [10]:
# Отберем наблюдения у которых год больше 2015 и сгруппируем датасет по колонкам arrival_date_year и 
# arrival_date_month и применим функцию count для расчета количества прибытий по месяцам
arrivals = bookings \
                    .query('arrival_date_year > 2015') \
                    .groupby(['arrival_date_year', 'arrival_date_month']) \
                    .aggregate({'arrival_date_month': 'count'})

# Отобразим результат
arrivals

Unnamed: 0_level_0,Unnamed: 1_level_0,arrival_date_month
arrival_date_year,arrival_date_month,Unnamed: 2_level_1
2016,April,5428
2016,August,5063
2016,December,3860
2016,February,3891
2016,January,2248
2016,July,4572
2016,June,5292
2016,March,4824
2016,May,5478
2016,November,4454


#### Выводы:
- в 2016 чаще всего бронировали отель на октябрь;
- в 2017 чаще всего оформляли бронирование на май

#### 5) Сгруппируйте данные по годам, а затем проверьте, на какой месяц (arrival_date_month) бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017?

In [11]:
# Отберем наблюдения которые относятся к City Hotel и заказы которых были отменены, сгруппируем датасет по колонкам 
#  arrival_date_year и arrival_date_month и применим функцию count для расчета количества прибытий по месяцам
canceled_city_hotel = bookings \
                            .query('hotel == "City Hotel" & is_canceled != 0') \
                            .groupby(['arrival_date_year', 'arrival_date_month']) \
                            .aggregate({'arrival_date_month': 'count'})

# Отобразим результат
canceled_city_hotel

Unnamed: 0_level_0,Unnamed: 1_level_0,arrival_date_month
arrival_date_year,arrival_date_month,Unnamed: 2_level_1
2015,August,1232
2015,December,668
2015,July,939
2015,November,301
2015,October,1321
2015,September,1543
2016,April,1539
2016,August,1247
2016,December,1072
2016,February,930


**Отмена бронирования отеля типа City Hotel чаще всего приходилась на следующие месяца по годам:**
- 2015 - Сентябрь
- 2016 - Октябрь
- 2017 - Май



#### 6) Посмотрите на числовые характеристики трёх колонок: adults, children и babies. Какая из них имеет наибольшее среднее значение?

In [12]:
# Воспользуемся методом описательной статистики для указанных колонок
bookings[['adults', 'children', 'babies']].describe()[1:2].round(3).T

Unnamed: 0,mean
adults,1.856
children,0.104
babies,0.008


#### 7) Создайте колонку total_kids, объединив столбцы children и babies. Для отелей какого типа среднее значение переменной оказалось наибольшим?
#### - City hotel – отель находится в городе
#### - Resort hotel – отель курортный

#### В качестве ответа укажите наибольшее среднее total_kids, округлив до 2 знаков после точки.

In [13]:
# Создадим необходимый столбец в датафрейме
bookings['total_kids'] = bookings['children'] + bookings['babies']

# Создадим переменную "среднее количество детей" группируя данные по отелю и рассчитав среднее по total_kids
avg_kids = bookings.groupby('hotel', as_index=False) \
                   .aggregate({'total_kids': 'mean'}) \
                   .round(2) \
                   .sort_values('total_kids', ascending=False)

# Отобразим результат
avg_kids

Unnamed: 0,hotel,total_kids
1,Resort Hotel,0.14
0,City Hotel,0.1


#### 8) Не все бронирования завершились успешно (is_canceled), поэтому можно посчитать, сколько клиентов было потеряно в процессе. Иными словами, посчитать метрику под названием **Churn Rate**.

**Churn rate (отток, коэффициент оттока)** – это процент подписчиков (например, на push-уведомления от сайта), которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Иными словами, представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах.

В нашем случае Churn Rate - это процент клиентов, которые отменили бронирование. Давайте посмотрим, как эта метрика зависит от наличия детей у клиентов!

Создайте переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Далее проверьте, среди какой группы пользователей показатель оттока выше. 

#### В качестве ответа укажите наибольший % оттока, округленный до 2 знаков после точки.

In [14]:
# Создадим переменную has_kids в датафрейме
bookings['has_kids'] = bookings.total_kids > 0

# Сделаем выборку только по заказам, которые были отменены и сгруппируем посетителей по наличию детей
only_canceled = bookings \
                    .query('is_canceled == 1') \
                    .groupby(['has_kids'], as_index=False) \
                    .aggregate({'is_canceled': 'count'})

# В получившемся датафрейме рассчитаем метрику churn rate и создадим соответствующий столбец
only_canceled['churn_rate'] = list(
         map(lambda x, y: round(x/y * 100, 2),
         [i[1] for i in only_canceled.is_canceled.items()],
         [j[1] for j in bookings.value_counts('has_kids').items()])
)

# Отобразим результат
only_canceled

Unnamed: 0,has_kids,is_canceled,churn_rate
0,False,40965,37.22
1,True,3259,34.92


**Вывод:** наибольший процент оттока среди посетителей у которых нет детей - **37,22%**.