**Описание данных**

Имеются следующие переменные:

* Hotel – тип отеля (City Hotel или Resort Hotel)  
* Is canceled – бронирование было отменено (1) или нет (0); неотменённое считается успешным
* Lead time – количество дней, прошедших между датой бронирования и датой прибытия  
* Arrival full date – полная дата прибытия
* Arrival date year – год прибытия  
* Arrival date month – месяц прибытия  
* Arrival date week number – номер недели прибытия
* Arrival date day of month – день прибытия
* Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле
* Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле
* Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)
* Adults – число взрослых
* Children – число детей
* Babies – число младенцев 
* Meal – выбранный тип питания
* Country – страна происхождения клиента
* Reserved room type – тип зарезервированного номера
* Assigned room type – тип полученного номера (может отличаться от забронированного)
* Customer type – тип бронирования
* Reservation status – значение последнего статуса брони:

  Canceled – было отменено клиентом; 

  Check-Out – клиент зарегистрировался, но уже покинул отель; 

  No-Show – клиент не зарегистрировался и сообщил администрации отеля причину;

* Reservation status date – дата обновления статуса

Проанализируем данные о бронировании отелей.

Прочитаем датасет bookings.csv и сохраним в переменную bookings. Затем запишем первые 7 строк в переменную bookings_head.

In [2]:
import pandas as pd

In [3]:
bookings = pd.read_csv('bookings.csv', sep=';')

In [4]:
bookings.shape

(119390, 21)

In [5]:
bookings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  object 
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  object 
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  object 
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     11

In [6]:
bookings.head()

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


Как вы уже могли заметить, при сборе датасета произошла небольшая ошибка, и названия колонок были записаны в неудобном для дальнейшей работы формате. Исправим ситуацию: приведем названия столбцов к нижнему регистру и заменим пробелы на знак нижнего подчёркивания

In [None]:
def rename_col(name):
    new_name = name.lower().replace(' ', '_')
    return new_name

In [None]:
bookings = bookings.rename(rename_col, axis='columns')

In [None]:
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


Перейдём к исследованию данных! Пользователи из каких стран совершили наибольшее число успешных бронирований? 
Бронирование считается успешным, если в дальнейшем оно не было отменено (переменная is_canceled). В качестве ответа выберите страны, входящие в топ-5.

In [None]:
bookings.loc[bookings.is_canceled == '0'] \ 
        .groupby('country') \ 
        .agg({'is_canceled':'count'}) \
        .sort_values(by='is_canceled', ascending=False)[:5]

Unnamed: 0_level_0,is_canceled
country,Unnamed: 1_level_1
PRT,21071
GBR,9676
FRA,8481
ESP,6391
DEU,6069


На сколько ночей (stays_total_nights)  в среднем бронируют отели типа City Hotel? Resort Hotel? Запишем полученные значения в пропуски с точностью до 2 знаков после точки.

In [None]:
bookings.groupby('hotel') \
        .agg({'stays_total_nights':'mean'}) \
        .round(decimals=2)

Unnamed: 0_level_0,stays_total_nights
hotel,Unnamed: 1_level_1
City Hotel,2.98
Resort Hotel,4.32


In [None]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга. Сколько подобных наблюдений встретилось в датасете?

*отмена бронирования также считается

In [None]:
bookings[bookings['assigned_room_type'] != bookings['reserved_room_type']].count()

hotel                        14917
is_canceled                  14917
lead_time                    14917
arrival_full_date            14917
arrival_date_year            14917
arrival_date_month           14917
arrival_date_week_number     14917
arrival_date_day_of_month    14917
stays_in_weekend_nights      14917
stays_in_week_nights         14917
stays_total_nights           14917
adults                       14917
children                     14917
babies                       14917
meal                         14917
country                      14699
reserved_room_type           14917
assigned_room_type           14917
customer_type                14917
reservation_status           14917
reservation_status_date      14917
dtype: int64

Теперь проанализируем даты запланированного прибытия (arrival_date_year).

На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017 году?

In [None]:
bookings[['arrival_date_year', 'arrival_date_month', 'hotel']].groupby(['arrival_date_year', 'arrival_date_month']) \
                                                              .count() \
                                                              .sort_values(by=['arrival_date_year','hotel'] , ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,hotel
arrival_date_year,arrival_date_month,Unnamed: 2_level_1
2017,May,6313
2017,April,5661
2017,June,5647
2017,July,5313
2017,March,4970
2017,August,4925
2017,February,4177
2017,January,3681
2016,October,6203
2016,May,5478


Сгруппируем данные по годам, а затем проверим, на какой месяц (arrival_date_month) бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017? 

In [None]:
bookings[['arrival_date_year', 'arrival_date_month', 'hotel', 'is_canceled']][(bookings.is_canceled == 1) & (bookings.hotel == 'City Hotel')] \
                                                                             .groupby(['arrival_date_year', 'arrival_date_month', 'hotel']) \
                                                                             .count() \
                                                                             .sort_values(by=['arrival_date_year','is_canceled'] , ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,is_canceled
arrival_date_year,arrival_date_month,hotel,Unnamed: 3_level_1
2017,May,City Hotel,2217
2017,April,City Hotel,1926
2017,June,City Hotel,1808
2017,July,City Hotel,1324
2017,March,City Hotel,1278
2017,August,City Hotel,1123
2017,January,City Hotel,1044
2017,February,City Hotel,971
2016,October,City Hotel,1947
2016,June,City Hotel,1720


Посмотрим на числовые характеристики трёх колонок: adults, children и babies. Какая из них имеет наибольшее среднее значение?

In [None]:
bookings[['adults', 'children', 'babies']].mean()

adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

Создадим колонку total_kids, объединив столбцы children и babies. Для отелей какого типа среднее значение переменной оказалось наибольшим?

City hotel – отель находится в городе
Resort hotel – отель курортный
В качестве ответа укажем наибольшее среднее total_kids, округлив до 2 знаков после точки.

In [None]:
bookings['total_kids'] = bookings['children'] + bookings['babies'] 

In [None]:
bookings.groupby('hotel') \ 
        .agg({'total_kids':'mean'}) \ 
        .round(decimals=2) \
        .max()

total_kids    0.14
dtype: float64

Не все бронирования завершились успешно (is_canceled), поэтому можно посчитать, сколько клиентов было потеряно в процессе. Иными словами, посчитать метрику под названием Churn Rate.

Churn rate (отток, коэффициент оттока) – это процент подписчиков (например, на push-уведомления от сайта), которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Иными словами, представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах.

В нашем случае Churn Rate - это процент клиентов, которые отменили бронирование. Давайте посмотрим, как эта метрика связана с наличием детей у клиентов!

Создадим переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Далее проверим, среди какой группы пользователей показатель оттока выше. 

В качестве ответа укажем наибольший %, округленный до 2 знаков после точки (то есть доля 0.24563 будет 24.56% и в ответ пойдёт 24.56)

In [None]:
import numpy as np

bookings['has_kids'] = np.where(bookings['total_kids'] > 0, True, False)

In [None]:
canceled_bookings = bookings[['is_canceled', 'has_kids']][bookings.is_canceled == 1] \
                                                         .groupby('has_kids') \
                                                         .count()

In [None]:
all_bookings = bookings[['is_canceled', 'has_kids']].groupby('has_kids') \
                                                    .count()

In [None]:
round((canceled_bookings / all_bookings) * 100, 2)

Unnamed: 0_level_0,is_canceled
has_kids,Unnamed: 1_level_1
False,37.22
True,34.92
