# Проект урока 2. «Аналитика бронирования отелей»

In [2]:
# Импорт библиотеки
import pandas as pd

In [3]:
# Чтение данных 
bookings = pd.read_csv('2_lesson_bookings.csv', sep=';')

In [5]:
bookings.head()

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [6]:
# Посмотрим на размер датафрейма
bookings.shape

(119390, 21)

In [7]:
# Проверим типы данных 
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [8]:
bookings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  object 
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  object 
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  object 
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     11

> Названия колонок записаны в неудобном для дальнейшей работы формате. Исправим ситуацию, приведя названия столбцов к нижнему регистру и заменив пробелы на знак нижнего подчеркивания.

In [9]:
# Пример применения
'Is Canceled'.replace(' ','_').lower()

'is_canceled'

In [10]:
# Автоматизируем решение
dictionare_name = {}
for old_name in bookings.columns:
    new_name = old_name.replace(' ','_').lower()
    dictionare_name[old_name] = new_name

In [11]:
# Переименование колонок 
bookings = bookings.rename(columns=dictionare_name)

In [12]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

**Перейдем к исследованию данных.**

In [13]:
# Выясним, пользователи из каких стран совершили наибольшее число успешных бронирований
# Считать успешным бронированием будем то, которое в дальнейшем не было отменено 

bookings.query('is_canceled == 0').country.value_counts().head()

PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
Name: country, dtype: int64

In [14]:
# Сравним средние значения длительности бронирования в зависимости от отеля 
bookings.groupby('hotel').stays_total_nights.mean().round(2)

hotel
City Hotel      2.98
Resort Hotel    4.32
Name: stays_total_nights, dtype: float64

In [None]:
# Как видно, Resort Hotel имеет большее среднее значение длительности пребывания

In [23]:
# Посчитаем количество случаев овербукинга 
bookings.query('assigned_room_type != reserved_room_type').shape[0] / bookings.shape[0]

14917

In [29]:
overbook_percentage = round((bookings.query('assigned_room_type != reserved_room_type').shape[0] / bookings.shape[0]) * 100, 2)
print(f'Случаи овербукинга: {overbook_percentage}%')

Случаи овербукинга: 12.49%


In [30]:
# Определим сезонность бронирования 
bookings.groupby('arrival_date_year').arrival_date_month.value_counts()

arrival_date_year  arrival_date_month
2015               September             5114
                   October               4957
                   August                3889
                   December              2920
                   July                  2776
                   November              2340
2016               October               6203
                   May                   5478
                   April                 5428
                   September             5394
                   June                  5292
                   August                5063
                   March                 4824
                   July                  4572
                   November              4454
                   February              3891
                   December              3860
                   January               2248
2017               May                   6313
                   April                 5661
                   June                  5

In [33]:
# Cамый популярный месяц в 2016 - октябрь, а в 2017 - май 

In [32]:
# Выясним, в каком месяце каждого года бронирования отеля типа City Hotel отменялись чаще всего
bookings.query('hotel == "City Hotel" and is_canceled == 1') \
    .groupby('arrival_date_year') \
    .arrival_date_month \
    .value_counts()

arrival_date_year  arrival_date_month
2015               September             1543
                   October               1321
                   August                1232
                   July                   939
                   December               668
                   November               301
2016               October               1947
                   June                  1720
                   September             1567
                   April                 1539
                   May                   1436
                   November              1360
                   August                1247
                   March                 1108
                   December              1072
                   July                  1043
                   February               930
                   January                438
2017               May                   2217
                   April                 1926
                   June                  1

In [34]:
# Посмотрим на средние значения количества наших клиентов относительно возраста 
bookings[['adults', 'children', 'babies']].mean()

adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

In [35]:
# Для удобства объединим детей разного возраста в одну колонку 
bookings['total_kids'] =  bookings.children + bookings.babies

In [36]:
# Проверим средние значения количества детей относительно типа отеля 
bookings.groupby('hotel').agg({'total_kids':'mean'}).round(2)

Unnamed: 0_level_0,total_kids
hotel,Unnamed: 1_level_1
City Hotel,0.1
Resort Hotel,0.14


> Не все бронирования завершились успешно, поэтому попробуем посчитать, сколько клиентов было потеряно в процессе. Посчитаем метрику Churn Rate.

**Churn rate** (отток, коэффициент оттока) – это процент подписчиков, которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Т.е. представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах. Если Churn rate считают для какой-то определенной группы, то и количество ушедших пользователей, и общее количество пользователей считают только по этой группе.

В нашем случае Churn Rate — это процент клиентов, которые отменили бронирование. Посмотрим, как эта метрика связана с наличием детей у клиентов. **Посчитаем Churn Rate дважды: для клиентов с детьми и для клиентов без детей.** 

In [20]:
bookings['has_kids'] = bookings['total_kids'] >= 1

In [21]:
# Churn Rate клиентов без детей
round(bookings.query('has_kids==False and is_canceled==1').shape[0] / bookings.query('has_kids==False').shape[0] * 100, 2)

37.22

In [22]:
# Churn Rate клиентов с детьми
round(bookings.query('has_kids==True and is_canceled==1').shape[0] / bookings.query('has_kids==True').shape[0] * 100, 2)

34.92