В данном мини-проекте проведем анализ данных о бронировании отелей. 

In [1]:
import pandas as pd

In [2]:
bookings = pd.read_csv('projects/2_bookings.csv', sep = ';')

Проверим размер таблицы, типы переменных, а затем посмотрим на первые 7 строк.

In [3]:
bookings.shape

(119390, 21)

In [4]:
bookings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  object 
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  object 
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  object 
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     11

Описание переменных:

Hotel – тип отеля (City Hotel или Resort Hotel)

Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным

Lead time – количество дней, прошедших между датой бронирования и датой прибытия

Arrival full date – полная дата прибытия

Arrival date year – год прибытия

Arrival date month – месяц прибытия

Arrival date week number – номер недели прибытия

Arrival date day of month – день прибытия

Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле

Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле

Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)

Adults – число взрослых

Children – число детей

Babies – число младенцев

Meal – выбранный тип питания

Country – страна происхождения клиента

Reserved room type – тип зарезервированного номера

Assigned room type – тип полученного номера (может отличаться от забронированного)

Customer type – тип бронирования

Reservation status – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину

Reservation status date – дата обновления статуса

In [5]:
bookings.head(7)

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


Приведем названия колонок к нижнему регистру и заменим пробелы на знак нижнего подчеркивания.

In [6]:
bookings = bookings.rename(columns=lambda x: x.replace(" ", "_").lower())

In [7]:
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


Найдем топ-5 стран, пользователи из которых совершили наибольшее число успешных бронирований.

In [8]:
countries = bookings.groupby(['country'], as_index=False).agg({'is_canceled': 'sum'}) \
            .sort_values('is_canceled', ascending=False).head(5)

In [9]:
countries

Unnamed: 0,country,is_canceled
135,PRT,27519
59,GBR,2453
51,ESP,2177
56,FRA,1934
81,ITA,1333


Пользователи из Португалии, Великобритании, Испании, Франции и Италии являются лидерами по успешным бронированиям.

Выясним на сколько ночей в среднем бронируют отели разных типов.

In [10]:
nights = bookings.groupby(['hotel'], as_index=False).agg({'stays_total_nights': 'mean'}) \
        .sort_values('stays_total_nights', ascending=False).round(1)

In [11]:
nights

Unnamed: 0,hotel,stays_total_nights
1,Resort Hotel,4.3
0,City Hotel,3.0


В среднем в отеле 'Resort Hotel' бронируют на 4 ночи, а 'City Hotel' на 3.

Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга. Найдем сколько подобных наблюдений встретилось в датасете.

In [12]:
difference_rome_type = bookings.query('reserved_room_type != assigned_room_type').shape[0] 

In [13]:
difference_rome_type

14917

Выясним на какой месяц чаще всего успешно оформляли бронь в 2016. И изменился ли самый популярный месяц в 2017. 

In [14]:
bookings.groupby('arrival_date_year').arrival_date_month.agg(pd.Series.mode)

arrival_date_year
2015    September
2016      October
2017          May
Name: arrival_date_month, dtype: object

В 2016 году пик успешных бронирований приходится на сентябрь, а вот в 2017 уже на октябрь.

Сгруппируем данные по годам и проверим, на какой месяц бронирования отеля типа City Hotel отменялись чаще всего в каждый из периодов.

In [15]:
bookings.groupby(['arrival_date_year', 'arrival_date_month']).is_canceled.sum().groupby(['arrival_date_year']).nlargest(1)

arrival_date_year  arrival_date_year  arrival_date_month
2015               2015               September             2094
2016               2016               October               2514
2017               2017               May                   2762
Name: is_canceled, dtype: int64

В 2015 больше всего отмен было в сентябре, в 2016 в октябре, а в 2017 в мае месяце.

Посмотрим на числовые характеристики трёх переменных: adults, children и babies. И расчитаем наибольшее среднее значение.

In [16]:
bookings[['adults', 'children', 'babies']].mean()

adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

Создадим колонку total_kids, объединив children и babies. Найдем тип отеля с наибольшим средним значением переменной.

In [17]:
bookings['total_kids'] = bookings.children + bookings.babies

In [18]:
bookings.groupby('hotel').total_kids.mean().round(2)

hotel
City Hotel      0.10
Resort Hotel    0.14
Name: total_kids, dtype: float64

Можно заметить, что таким отелем является 'Resort Hotel'. 

Создадим переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Посчитаем отношение количества ушедших пользователей к общему количеству клиентов, выраженное в процентах (churn rate).

In [19]:
def has_kids(x):
    if x > 0:
        return True
    else:
        return False

In [20]:
bookings['has_kids'] = bookings.total_kids.apply(has_kids)

In [21]:
bookings['has_kids'].value_counts()

False    110058
True       9332
Name: has_kids, dtype: int64

In [22]:
(bookings[['has_kids', 'is_canceled']].value_counts() / bookings[['has_kids']].value_counts()).round(4)  * 100

has_kids  is_canceled
False     0              62.78
          1              37.22
True      0              65.08
          1              34.92
dtype: float64

Показатель оттока клиентов выше в группе бронирований без детей.