# Исследование данных о бронировании отелей
## Задачи
• Провести озор данных и их предобработку  
• Ответить на вопросы отдела

## Вопросы на которые нужно дать ответ:
• Пользователи из каких стран совершили наибольшее число успешных бронирований?  
• На сколько ночей в среднем бронируют отели разных типов?  
• Как часто из-за овербукинга тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type)?  
• Какой месяц был самым популярным для брони в 2016 году? Изменился ли он в 2017?  
• В какой месяц бронирования отеля типа City Hotel отменялись чаще всего (группировка по годам)?   
• Какое среденее количество взрослых, подростков и детей указывается при бронировании?  
• В отелях какого типа в 2016 году отдохнуло наибольшее количество детей (включая младенцев)? Сколько в среднем детей в одной брони?  
• Для какой группы, с детьми или без, показатель churn rate (отношение количества ушедших пользователей к общему количеству клиентов) выше? 

### 1. Обзор данных

In [2]:
import pandas as pd

In [47]:
bookings = pd.read_csv("C:/Users/pakievskij/bookings.csv", sep=';')

In [48]:
bookings.head()

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [11]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [6]:
bookings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  object 
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  object 
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  object 
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     11

In [9]:
bookings.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Is Canceled,119390.0,0.370416,0.482918,0.0,0.0,0.0,1.0,1.0
Lead Time,119390.0,104.011416,106.863097,0.0,18.0,69.0,160.0,737.0
Arrival Date Year,119390.0,2016.156554,0.707476,2015.0,2016.0,2016.0,2017.0,2017.0
Arrival Date Week Number,119390.0,27.165173,13.605138,1.0,16.0,28.0,38.0,53.0
Arrival Date Day of Month,119390.0,15.798241,8.780829,1.0,8.0,16.0,23.0,31.0
Stays in Weekend nights,119390.0,0.927599,0.998613,0.0,0.0,1.0,2.0,19.0
Stays in week nights,119390.0,2.500302,1.908286,0.0,1.0,2.0,3.0,50.0
stays total nights,119390.0,3.4279,2.557439,0.0,2.0,3.0,4.0,69.0
Adults,119390.0,1.856403,0.579261,0.0,2.0,2.0,2.0,55.0
Children,119386.0,0.10389,0.398561,0.0,0.0,0.0,0.0,10.0


### Выводы:
Есть небольшие пропуски взаполнении данных (Children, Country). страны оставим как есть, детей преобразуем в нули;  
Явно ошибочных (слишком больших или отрицательных) данных нет;  
Необходимо преобразование типов данных;  
Необходимо привести названия столбцов к "стандартному" виду.  

### 2. Предобработка

In [49]:
# Приведём названия столбцов к "стандартному" виду

bookings.columns=bookings.columns.str.lower().str.replace(' ', '_')

In [31]:
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [72]:
# Поправим типы данных в стобцах с датами
bookings['arrival_full_date'] = pd.to_datetime(bookings['arrival_full_date'])
bookings['reservation_status_date'] = pd.to_datetime(bookings['reservation_status_date'])

In [62]:
# Поправим типы данных на целочисленный 
bookings.children.fillna(0, inplace=True)
bookings['children'] = bookings['children'].astype('int')

In [84]:
# Проверим данные на дубликаты
display(bookings[bookings.duplicated(keep=False)])
display(bookings[bookings.duplicated()].shape[0])

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
21,Resort Hotel,0,72,2015-07-01,2015,July,27,1,2,4,...,2,0,0,BB,PRT,A,A,Transient,Check-Out,2015-07-07
22,Resort Hotel,0,72,2015-07-01,2015,July,27,1,2,4,...,2,0,0,BB,PRT,A,A,Transient,Check-Out,2015-07-07
39,Resort Hotel,0,70,2015-07-02,2015,July,27,2,2,3,...,2,0,0,HB,ROU,E,E,Transient,Check-Out,2015-07-07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119352,City Hotel,0,63,2017-08-31,2017,August,35,31,0,3,...,3,0,0,BB,SWE,D,D,Transient-Party,Check-Out,2017-09-03
119353,City Hotel,0,63,2017-08-31,2017,August,35,31,0,3,...,3,0,0,BB,SWE,D,D,Transient-Party,Check-Out,2017-09-03
119354,City Hotel,0,63,2017-08-31,2017,August,35,31,0,3,...,3,0,0,BB,SWE,D,D,Transient-Party,Check-Out,2017-09-03
119372,City Hotel,0,175,2017-08-31,2017,August,35,31,1,3,...,1,0,0,BB,NLD,A,A,Transient,Check-Out,2017-09-04


36235

Итого 36235 строк с дубликатами, что довольно много.
Можно предположить, что т.к. у нас в целом собран довольно большой массив данных (119390 строк), и нет какого-то уникального идентификатора отеля или тура, то эти повторы могут быть вызваны совпадением в бронировании разных отелей одинаковыми группами "туристов".

## 3. Ответы на вопросы

### Вопрос №1
• Пользователи из каких стран совершили наибольшее число успешных бронирований?

In [95]:
bookings_not_canceled = bookings.query('is_canceled == 0') \
    .groupby('country', as_index=False) \
    .agg({'meal':'count'}) \
    .sort_values('meal', ascending=False) \
    .rename(columns = {'meal':'nun_of_bookings'})
bookings_not_canceled.head()

Unnamed: 0,country,nun_of_bookings
125,PRT,21071
57,GBR,9676
54,FRA,8481
50,ESP,6391
42,DEU,6069


### Вопрос №2
• На сколько ночей в среднем бронируют отели разных типов?

In [97]:
bookings.groupby('hotel') \
    .agg({'stays_total_nights' : 'mean'}) \
    .round(2) \
    .sort_values('stays_total_nights', ascending=False) \
    .rename(columns = {'stays_total_nights':'avg_stays_nights'})

Unnamed: 0_level_0,avg_stays_nights
hotel,Unnamed: 1_level_1
Resort Hotel,4.32
City Hotel,2.98


### Вопрос №3
• Как часто из-за овербукинга тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type)?

In [113]:
bookings_change_room = bookings.query('reserved_room_type != assigned_room_type')
x = round(bookings_change_room.shape[0]/bookings.shape[0]*100, 2)
print(f'Тип номера отличается от изначально забронированного в {x}% случаев')

Тип номера отличается от изначально забронированного в 12.49% случаев


Для вычиления оставляем все бронирования и отменённые в том числе, т.к. возможно из-за смены типа номера и была отмена бронирования.

### Вопрос №4
• Какой месяц был самым популярным для брони в 2016 году? Изменился ли он в 2017?

In [162]:
bookings_2016 = bookings \
    .query('arrival_date_year == 2016') \
    .groupby("arrival_date_month", as_index=False) \
    .agg({'hotel':'count'}) \
    .sort_values('hotel', ascending=False) \
    .reset_index(drop=True)

bookings_2017 = bookings \
    .groupby("arrival_date_month", as_index=False) \
    .agg({'hotel':'count'}) \
    .sort_values('hotel', ascending=False) \
    .reset_index(drop=True)

In [169]:
print(f'Самый популярный месяц для бронирования в 2016 г - {bookings_2016.arrival_date_month[0]}, {bookings_2016.hotel[0]} бронирований. \
В 2017 - {bookings_2017.arrival_date_month[0]}, {bookings_2017.hotel[0]} бронирований.')

Самый популярный месяц для бронирования в 2016 г - October, 6203 бронирований. В 2017 - August, 13877 бронирований.


### Вопрос №5
• В какой месяц бронирования отеля типа City Hotel отменялись чаще всего (группировка по годам)?

In [183]:
# группируем данные по отменам по годам и месяцам
bookings_canceled = bookings \
    .query("hotel == 'City Hotel' and is_canceled == 1") \
    .groupby(['arrival_date_year', 'arrival_date_month'], as_index=False) \
    .agg({'customer_type': 'count'})\
    .rename(columns={'arrival_date_year' : 'year', 'arrival_date_month':'month_with_max_cancel', 'customer_type':'num_of_cancel'})

#создаём маску по которой отбираются месяца с наибольшим числом отмен в год
idx = bookings_canceled \
    .groupby('year')['num_of_cancel'] \
    .transform(max) == bookings_canceled['num_of_cancel'] 
#выводим данные из датафрейма по маске
bookings_canceled[idx]

Unnamed: 0,year,month_with_max_cancel,num_of_cancel
5,2015,September,1543
16,2016,October,1947
25,2017,May,2217


### Вопрос №6
• Какое среденее количество взрослых, подростков и детей указывается при бронировании?

In [189]:
print(f'среденее количество взрослых - {round(bookings.adults.mean(), 2)} человек.')
print(f'среденее количество подростков - {round(bookings.children.mean(), 2)} человек.')
print(f'среденее количество детей - {round(bookings.babies.mean(), 2)} человек.')

среденее количество взрослых - 1.86 человек.
среденее количество подростков - 0.1 человек.
среденее количество детей - 0.01 человек.


### Вопрос №7
• В отелях какого типа в 2016 году отдохнуло наибольшее количество детей (включая младенцев)? Сколько в среднем детей в одной брони?

In [205]:
# Создём колонку total_kids, объединив столбцы children и babies.
bookings['total_kids'] = bookings['children']+ bookings['babies']

# отфильтровывем данные за 2016 год и по тем бронированиям, где заселение случилось
bookings.query("arrival_date_year == 2016 and reservation_status == 'Check-Out'") \
    .groupby('hotel', as_index=False) \
    .agg({'total_kids':['sum', 'mean']})

Unnamed: 0_level_0,hotel,total_kids,total_kids
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean
0,City Hotel,2566,0.112876
1,Resort Hotel,1527,0.111975


Среднее значение детей на номер примерно одинаковое, но в абсолютных значениях в отелях типа City Hotel отдохнуло большее количество детей. Таких отелей просто больше по количеству, т.о. можно предположить, что тип отеля не влияет на предпочтения отдыха с детьми.

### Вопрос №8
• Для какой группы, с детьми или без, показатель churn rate (отношение количества ушедших пользователей к общему количеству клиентов) выше?

In [216]:
# Отмечаем бронирования где был хотябы один ребёнок 
bookings['has_kids'] = bookings['total_kids'] > 0 

# количество отменённых и не отменённых бронирований в разрезе наличия детей
cr_kids = bookings \
    .groupby(['is_canceled', 'has_kids'], as_index=False) \
    .agg({'lead_time' : 'count'}) \
    .rename(columns={'lead_time':'bookings'})
cr_kids

Unnamed: 0,is_canceled,has_kids,bookings
0,0,False,69093
1,0,True,6073
2,1,False,40965
3,1,True,3259


In [214]:
# процентное соотношеник ко всем бронированиям
cr_kids_kids = (cr_kids.bookings[3] / (cr_kids.bookings[1] + cr_kids.bookings[3])).round(4)*100
cr_kids_no_kids = (cr_kids.bookings[2] / (cr_kids.bookings[0] + cr_kids.bookings[2])).round(4)*100
print ('Процент отмен с детьми =', cr_kids_kids, '%')
print ('Процент отмен с без детей =', cr_kids_no_kids, '%')

Процент отмен с детьми = 34.92 %
Процент отмен с без детей = 37.22 %


Как мы видим, бронорование номеров без детей отменяют незначительно, но, чаще чем с детьми.