In [10]:
##################################################
# Анализ датасета с данными по бронированию отелей
##################################################


##################################################
# Описание данных в датасете
#
# Имеются следующие переменные:
#    Hotel – тип отеля (City Hotel или Resort Hotel),  
#    Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным,
#    Lead time – количество дней, прошедших между датой бронирования и датой прибытия,  
#    Arrival full date – полная дата прибытия,
#    Arrival date year – год прибытия,  
#    Arrival date month – месяц прибытия,  
#    Arrival date week number – номер недели прибытия,
#    Arrival date day of month – день прибытия,
#    Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле,
#    Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле,
#    Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок),
#    Adults – число взрослых,
#    Children – число детей,
#    Babies – число младенцев, 
#    Meal – выбранный тип питания,
#    Country – страна происхождения клиента,
#    Reserved room type – тип зарезервированного номера,
#    Assigned room type – тип полученного номера (может отличаться от забронированного),
#    Customer type – тип бронирования,
#    Reservation status – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину,
#    Reservation status date – дата обновления статуса
##################################################

In [11]:
# Импортируем библиотеку Pandas

import pandas as pd

In [12]:
# Чтение файла CSV с данными по бронированию

bookings = pd.read_csv('2_bookings.csv', sep = ';')

In [13]:
# Выведем первые 7 строк нашего датасета

bookings_head = bookings.head(7)
bookings_head

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


In [14]:
# Определим размер таблицы и типы переменных в ней

bookings.shape

(119390, 21)

In [15]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [16]:
# Приведём названия столбцов к нижнему регистру и заменив пробелы на знак нижнего подчеркивания

bookings = bookings.rename(columns={'Hotel': 'hotel', 'Is Canceled': 'is_canceled', 'Lead Time': 'lead_time', 'arrival full date': 'arrival_full_date', 'Arrival Date Year': 'arrival_date_year', 'Arrival Date Month': 'arrival_date_month', 'Arrival Date Week Number': 'arrival_date_week_number', 'Arrival Date Day of Month': 'arrival_date_day_of_month', 'Stays in Weekend nights': 'stays_in_weekend_nights', 'Stays in week nights': 'stays_in_week_nights', 'stays total nights': 'stays_total_nights', 'Adults': 'adults', 'Children': 'children', 'Babies': 'babies', 'Meal': 'meal', 'Country': 'country',	'Reserved Room Type': 'reserved_room_type', 'Assigned room type': 'assigned_room_type',	'customer type': 'customer_type', 'Reservation Status': 'reservation_status', 'Reservation status_date': 'reservation_status_date'})

In [17]:
bookings.head(3)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02


In [18]:
# Найдем пользователей из стран, которые совершили наибольшее число успешных бронирований. Выведем "Топ-5" стран

not_canceled = bookings.query('is_canceled == 0')
coutry_top = not_canceled['country'].value_counts()
coutry_top.head(5)

PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
Name: country, dtype: int64

In [19]:
# Определим на сколько ночей в среднем бронируют отели разных типов ('City Hotel' и 'Resort Hotel')

bookings.groupby(['hotel'], as_index = False).agg({'stays_total_nights': 'mean'}).round(2)

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.98
1,Resort Hotel,4.32


In [20]:
# Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). 
# Такое может произойти, например, по причине овербукинга. Определим сколько подобных наблюдений встретилось в датасете

bookings.query('assigned_room_type != reserved_room_type').head(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
12,Resort Hotel,0,68,2015-07-01,2015,July,27,1,0,4,...,2,0.0,0,BB,USA,D,E,Transient,Check-Out,2015-07-05
15,Resort Hotel,0,68,2015-07-01,2015,July,27,1,0,4,...,2,0.0,0,BB,IRL,D,E,Transient,Check-Out,2015-07-05
17,Resort Hotel,0,12,2015-07-01,2015,July,27,1,0,1,...,2,0.0,0,BB,IRL,A,E,Transient,Check-Out,2015-07-02
18,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,1,...,2,0.0,0,BB,FRA,A,G,Transient,Check-Out,2015-07-02


In [21]:
bookings.query('assigned_room_type != reserved_room_type').shape

(14917, 21)

In [22]:
# Теперь проанализируем даты запланированного прибытия ('arrival_date_year').
# Определим на какой месяц чаще всего оформляли бронь в 2016 году и изменился ли самый популярный месяц в 2017 году

In [23]:
# Построим таблицу данных по бронированию за каждый месяц 2016 года

booking_year_2016 = not_canceled.query('arrival_date_year == 2016')
booking_month_2016 = booking_year_2016['arrival_date_month'].value_counts().sort_values(ascending=False)
print("Booking by months for 2016 year:")
booking_month_2016

Booking by months for 2016 year:


October      3689
May          3563
September    3372
April        3367
March        3347
August       3238
June         3196
July         3073
November     2818
February     2554
December     2462
January      1691
Name: arrival_date_month, dtype: int64

In [24]:
# Построим таблицу данных по бронированию за каждый месяц 2017 года

booking_year_2017 = not_canceled.query('arrival_date_year == 2017')
booking_month_2017 = booking_year_2017['arrival_date_month'].value_counts().sort_values(ascending=False)
print("Booking by months for 2017 year:")
booking_month_2017

Booking by months for 2017 year:


May         3551
July        3329
March       3298
June        3208
April       3198
August      3109
February    2818
January     2431
Name: arrival_date_month, dtype: int64

In [25]:
# Определим на какой месяц ('arrival_date_month') бронирования отеля типа 'City Hotel' отменялись чаще всего в 2015, 2016, 2017 гг.

In [26]:
# Выделяем все отмененные бронирования для отеля 'City Hotel' (для всех представленных в датасете годов бронирования)

canceled_city_hotel = bookings.query('is_canceled == 1 and hotel == "City Hotel"')
canceled_city_hotel.head(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
40061,City Hotel,1,88,2015-07-01,2015,July,27,1,0,4,...,2,0.0,0,BB,PRT,A,A,Transient,Canceled,2015-07-01
40062,City Hotel,1,65,2015-07-01,2015,July,27,1,0,4,...,1,0.0,0,BB,PRT,A,A,Transient,Canceled,2015-04-30
40063,City Hotel,1,92,2015-07-01,2015,July,27,1,2,4,...,2,0.0,0,BB,PRT,A,A,Transient,Canceled,2015-06-23
40064,City Hotel,1,100,2015-07-02,2015,July,27,2,0,2,...,2,0.0,0,BB,PRT,A,A,Transient,Canceled,2015-04-02
40065,City Hotel,1,79,2015-07-02,2015,July,27,2,0,3,...,2,0.0,0,BB,PRT,A,A,Transient,Canceled,2015-06-25


In [27]:
# Найдём количество отмененных бронирований отеля типа 'City Hotel' для бронирования в месяцы 2015 года

canceled_booking_by_2015_year = canceled_city_hotel.query('arrival_date_year == 2015')
canceled_booking_by_months_2015 = canceled_booking_by_2015_year['arrival_date_month'].value_counts().sort_values(ascending=False)
print("Canceled bookings for 'City Hotel' by months for 2015 year:")
canceled_booking_by_months_2015

Canceled bookings for 'City Hotel' by months for 2015 year:


September    1543
October      1321
August       1232
July          939
December      668
November      301
Name: arrival_date_month, dtype: int64

In [28]:
# Найдём количество отмененных бронирований отеля типа 'City Hotel' для бронирования в месяцы 2016 года

canceled_booking_by_2016_year = canceled_city_hotel.query('arrival_date_year == 2016')
canceled_booking_by_months_2016 = canceled_booking_by_2016_year['arrival_date_month'].value_counts().sort_values(ascending=False)
print("Canceled bookings for 'City Hotel' by months for 2016 year:")
canceled_booking_by_months_2016

Canceled bookings for 'City Hotel' by months for 2016 year:


October      1947
June         1720
September    1567
April        1539
May          1436
November     1360
August       1247
March        1108
December     1072
July         1043
February      930
January       438
Name: arrival_date_month, dtype: int64

In [29]:
# Найдём количество отмененных бронирований отеля типа 'City Hotel' для бронирования в месяцы 2017 года

canceled_booking_by_2017_year = canceled_city_hotel.query('arrival_date_year == 2017')
canceled_booking_by_months_2017 = canceled_booking_by_2017_year['arrival_date_month'].value_counts().sort_values(ascending=False)
print("Canceled bookings for 'City Hotel' by months for 2017 year:")
canceled_booking_by_months_2017

Canceled bookings for 'City Hotel' by months for 2017 year:


May         2217
April       1926
June        1808
July        1324
March       1278
August      1123
January     1044
February     971
Name: arrival_date_month, dtype: int64

In [30]:
# Выведем общую статистику по всем данным, представленным в нашем датасете

bookings.describe()

Unnamed: 0,is_canceled,lead_time,arrival_date_year,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,stays_total_nights,adults,children,babies
count,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119386.0,119390.0
mean,0.370416,104.011416,2016.156554,27.165173,15.798241,0.927599,2.500302,3.4279,1.856403,0.10389,0.007949
std,0.482918,106.863097,0.707476,13.605138,8.780829,0.998613,1.908286,2.557439,0.579261,0.398561,0.097436
min,0.0,0.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,18.0,2016.0,16.0,8.0,0.0,1.0,2.0,2.0,0.0,0.0
50%,0.0,69.0,2016.0,28.0,16.0,1.0,2.0,3.0,2.0,0.0,0.0
75%,1.0,160.0,2017.0,38.0,23.0,2.0,3.0,4.0,2.0,0.0,0.0
max,1.0,737.0,2017.0,53.0,31.0,19.0,50.0,69.0,55.0,10.0,10.0


In [31]:
# Создадим новую колонку 'total_kids', объединив столбцы 'children' и 'babies'. 

bookings['total_kids'] = bookings.children + bookings.babies
bookings.head(5)

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date,total_kids
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02,0.0
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02,0.0
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03,0.0


In [32]:
# Определим для отелей какого типа среднее значение переменной оказалось наибольшим

bookings.groupby(['hotel'], as_index = False).agg({'total_kids': 'mean'}).round(2)

Unnamed: 0,hotel,total_kids
0,City Hotel,0.1
1,Resort Hotel,0.14


In [82]:
# Так как не все бронирования завершились успешно ('is_canceled'), можно посчитать, сколько клиентов было потеряно в процессе. 
# Посчитаем метрику под названием 'Churn Rate' - представляет собой отношение количества ушедших пользователей к общему количеству пользователей, 
# выраженное в процентах. В нашем случае 'Churn Rate' - это процент клиентов, которые отменили бронирование. 

In [102]:
# Определим тех из клиентов, кто отменил бронирование и не имеет детей
canceled_total_kids_zero = bookings.query('is_canceled == 1 and total_kids == 0')

# Определим тех из клиентов, кто не имеет детей вне зависимости от статуса бронирования
total_kids_zero = bookings.query('total_kids == 0')

In [85]:
canceled_total_kids_zero.shape[0]

40961

In [104]:
total_kids_zero.shape[0]

110054

In [101]:
# Определим тех из клиентов, кто отменил бронирование и имеет хотя бы одного ребенка
canceled_total_kids_non_zero = bookings.query('is_canceled == 1 and total_kids >= 1')

# Определим тех из клиентов, кто имеет хотя бы одного ребенка вне зависимости от статуса бронирования
total_kids_non_zero = bookings.query('total_kids >= 1')

In [95]:
canceled_total_kids_non_zero.shape[0]

3259

In [105]:
total_kids_non_zero.shape[0]

9332

In [98]:
round((canceled_total_kids_zero.shape[0]/total_kids_zero.shape[0])*100, 2)

37.22

In [99]:
round((canceled_total_kids_non_zero.shape[0]/total_kids_non_zero.shape[0])*100, 2)

34.92