In [1]:
#lib import
import pandas as pd

In [2]:
path_to_file = '2_bookings.csv'

In [3]:
#df import
bookings = pd.read_csv(path_to_file, encoding='utf-8', sep=';')

In [4]:
# Hotel – тип отеля (City Hotel или Resort Hotel)  
# Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным
# Lead time – количество дней, прошедших между датой бронирования и датой прибытия  
# Arrival full date – полная дата прибытия
# Arrival date year – год прибытия  
# Arrival date month – месяц прибытия  
# Arrival date week number – номер недели прибытия
# Arrival date day of month – день прибытия
# Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле
# Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле
# Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)
# Adults – число взрослых
# Children – число детей
# Babies – число младенцев 
# Meal – выбранный тип питания
# Country – страна происхождения клиента
# Reserved room type – тип зарезервированного номера
# Assigned room type – тип полученного номера (может отличаться от забронированного)
# Customer type – тип бронирования
# Reservation status – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину
# Reservation status date – дата обновления статуса

bookings.head()

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [5]:
bookings.shape

(119390, 21)

In [6]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [7]:
# write first 7 rows of the data set
bookings_head = bookings.head(7)

In [8]:
# prepare columns names for comfortable work
bookings.columns = bookings.columns.str.lower().str.replace(' ','_')

In [9]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

In [10]:
#Пользователи из каких стран совершили наибольшее число успешных бронирований? Top-5
bookings.query("is_canceled == '0'") \
    .groupby('country', as_index=False) \
    .agg({'is_canceled': 'count'}) \
    .sort_values('is_canceled', ascending=False) \
    .rename(columns={'is_canceled': 'successful_trips'}) \
    .head(5)

Unnamed: 0,country,successful_trips
125,PRT,21071
57,GBR,9676
54,FRA,8481
50,ESP,6391
42,DEU,6069


In [11]:
# На сколько ночей (stays_total_nights)  в среднем бронируют отели типа City Hotel? Resort Hotel?
bookings \
    .groupby('hotel', as_index=False) \
    .agg({'stays_total_nights': 'mean'}) \
    .round(2)

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.98
1,Resort Hotel,4.32


In [12]:
# Сколько подобных наблюдений встретилось в датасете, когда тип номера, 
# присвоенного клиенту (assigned_room_type), отличается от изначально забронированного (reserved_room_type).

bookings.query('assigned_room_type != reserved_room_type').hotel.count()

14917

In [13]:
bookings \
    .query("is_canceled == '1'") \
    .groupby(['arrival_date_year','arrival_date_month'], as_index=False) \
    .agg({'hotel': 'count'}) \
    .query("arrival_date_year == ['2016', '2017']") \
    .sort_values('hotel', ascending=False) \
    .head(2)

Unnamed: 0,arrival_date_year,arrival_date_month,hotel
25,2017,May,2762
16,2016,October,2514


In [14]:
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [15]:
# Сгруппируйте данные по годам, а затем проверьте, на какой месяц (arrival_date_month) бронирования отеля типа 
# City Hotel отменялись чаще всего в 2015? 2016? 2017? 

bookings \
    .query("is_canceled == '1' & hotel == 'City Hotel'") \
    .groupby('arrival_date_year') \
    .arrival_date_month \
    .value_counts()

arrival_date_year  arrival_date_month
2015               September             1543
                   October               1321
                   August                1232
                   July                   939
                   December               668
                   November               301
2016               October               1947
                   June                  1720
                   September             1567
                   April                 1539
                   May                   1436
                   November              1360
                   August                1247
                   March                 1108
                   December              1072
                   July                  1043
                   February               930
                   January                438
2017               May                   2217
                   April                 1926
                   June                  1

In [16]:
# Посмотрите на числовые характеристики трёх колонок: adults, children и babies. 
# Какая из них имеет наибольшее среднее значение?

bookings[['adults', 'children','babies']].describe().loc['mean']

adults      1.856403
children    0.103890
babies      0.007949
Name: mean, dtype: float64

In [17]:
# Создайте колонку total_kids, объединив столбцы children и babies. 
# Для отелей какого типа среднее значение переменной оказалось наибольшим?
bookings['total_kids'] = bookings.children + bookings.babies

In [18]:
bookings[['hotel','children','babies', 'total_kids']] \
    .groupby('hotel', as_index=False) \
    .agg({'total_kids': 'mean'}) \
    .round(2)

Unnamed: 0,hotel,total_kids
0,City Hotel,0.1
1,Resort Hotel,0.14


In [19]:
bookings['has_kids'] = bookings.total_kids >= 1

In [21]:
bookings.has_kids.count()

119390

In [31]:
bookings.query("has_kids == True and is_canceled == 1").has_kids.count()

3259

In [32]:
#Count total and canceled Churn rate for families with kids and without them

crunch_rate_kids_true = bookings.query("has_kids == True and is_canceled == 1").has_kids.count()
crunch_rate_kids_false = bookings.query("has_kids == False and is_canceled == 1").has_kids.count()
crunch_rate_kids_true_total = bookings.query("has_kids == True").has_kids.count()
crunch_rate_kids_false_total = bookings.query("has_kids == False").has_kids.count()

In [35]:
# Churn rate with kids
a = (crunch_rate_kids_true / crunch_rate_kids_true_total * 100).round(2)
a

34.92

In [34]:
# Churn rate without kids
b = (crunch_rate_kids_false / crunch_rate_kids_false_total * 100).round(2)
b

37.22