# Анализ данных о бронировании отелей

In [1]:
import pandas as pd

 Загрузим датасет

In [2]:
df=pd.read_csv('bookings.csv',sep= ';')

 Выведем первые 7 строк

In [3]:
df.head(7)

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


 Размер таблицы

In [4]:
df.shape

(119390, 21)

 Типы переменных в таблице

In [5]:
df.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

Переименуем колонки для удобства. 
Для этого создадим словарь, в котором ключами будут являться старые называние колонок,
а значениями-новые названия колонок.

In [6]:
new_names_of_columns={'Hotel':'hotel',
                      'Is Canceled':'is_canceled',
                      'Lead Time':'lead_time',
                      'arrival full date':'arrival_full_date',
                     'Arrival Date Year':'arrival_date_year',
                     'Arrival Date Month':'arrival_date_month',
                     'Arrival Date Week Number':'arrival_date_week_number',
                     'Arrival Date Day of Month':'arrival_date_day_of_month',
                     'Stays in Weekend nights':'stays_in_weekend_nights',
                     'Stays in week nights':'stays_in_week_nights',
                     'stays total nights':'stays_total_nights',
                      'Adults':'adults',
                      'Children':'children',
                      'Babies':'babies',
                      'Meal':'meal',
                      'Country':'country',
                      'Reserved Room Type':'reserved_room_type',
                      'Assigned room type':'assigned_room_type',
                      'customer type':'customer_type',
                      'Reservation Status':'reservation_status',
                      'Reservation status_date':'reservation_status_date'
                     }

Теперь воспользуемся методом rename.

In [7]:
df=df.rename(columns=new_names_of_columns)
df.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

Топ-5 стран, из которых было совершено наибольшее число успешных бронирований

In [8]:
df.query('is_canceled==0').country.value_counts()

PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
       ...  
BFA        1
SDN        1
TJK        1
NAM        1
MDG        1
Name: country, Length: 165, dtype: int64

На сколько ночей в среднем бронируют отели типа "City Hotel" и типа "Resort Hote"

In [9]:
df.groupby('hotel').agg({'stays_total_nights':'mean'}).round(2)

Unnamed: 0_level_0,stays_total_nights
hotel,Unnamed: 1_level_1
City Hotel,2.98
Resort Hotel,4.32


Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга.

Посмотрим, сколько подобных наблюдений встретилось в датасете

In [10]:
df.query('assigned_room_type!=reserved_room_type').shape

(14917, 21)

Теперь проанализируем даты запланированного прибытия (arrival_date_year).

На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017 году?

In [11]:
df.query('arrival_date_year==2016').arrival_date_month.value_counts()

October      6203
May          5478
April        5428
September    5394
June         5292
August       5063
March        4824
July         4572
November     4454
February     3891
December     3860
January      2248
Name: arrival_date_month, dtype: int64

In [12]:
df.query('arrival_date_year==2017').arrival_date_month.value_counts()

May         6313
April       5661
June        5647
July        5313
March       4970
August      4925
February    4177
January     3681
Name: arrival_date_month, dtype: int64

В 2016 году чаще всего бронировали октябрь, а в 2017 самым популярным месяцем стал май.

Сгруппируем данные по годам, а затем проверим, на какой месяц (arrival_date_month) бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017? 

In [13]:
df.query('hotel=="City Hotel" and is_canceled==1').groupby('arrival_date_year')['arrival_date_month'].value_counts()

arrival_date_year  arrival_date_month
2015               September             1543
                   October               1321
                   August                1232
                   July                   939
                   December               668
                   November               301
2016               October               1947
                   June                  1720
                   September             1567
                   April                 1539
                   May                   1436
                   November              1360
                   August                1247
                   March                 1108
                   December              1072
                   July                  1043
                   February               930
                   January                438
2017               May                   2217
                   April                 1926
                   June                  1

В 2015 году- сентрябрь, в 2016 году- октябрь, в 2017 году-май

Посмотрим на числовые характеристики трёх колонок: adults, children и babies. Определим, какая из них имеет наибольшее среднее значение.

In [14]:
df[['adults','children','babies']].describe()

Unnamed: 0,adults,children,babies
count,119390.0,119386.0,119390.0
mean,1.856403,0.10389,0.007949
std,0.579261,0.398561,0.097436
min,0.0,0.0,0.0
25%,2.0,0.0,0.0
50%,2.0,0.0,0.0
75%,2.0,0.0,0.0
max,55.0,10.0,10.0


Создадим колонку total_kids, объединив столбцы children и babies. Посмотрим, для отелей какого типа среднее значение переменной оказалось наибольшим.

In [15]:
df['total_kids']= df.children + df.babies

In [16]:
df.groupby('hotel').agg({'total_kids':'mean'}).round(2)

Unnamed: 0_level_0,total_kids
hotel,Unnamed: 1_level_1
City Hotel,0.1
Resort Hotel,0.14


Не все бронирования завершились успешно (is_canceled), поэтому можно посчитать, сколько клиентов было потеряно в процессе. Churn rate (отток, коэффициент оттока) – это процент подписчиков (например, на push-уведомления от сайта), которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Иными словами, представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах.

Создадим переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Далее проверим, среди какой группы пользователей показатель оттока выше. 

In [71]:
df['has_kids']= df.total_kids>0

In [72]:
df.query('has_kids==True and is_canceled==1').shape

(3259, 23)

In [73]:
df.query('has_kids==True').shape

(9332, 23)

In [74]:
churn_rate_with_kids = (round((df.query('has_kids==True and is_canceled==1').shape[0]/
                               df.query('has_kids==True').shape[0])*100,2))

In [75]:
churn_rate_without_kids = (round((df.query('has_kids==False and is_canceled==1').shape[0]/
                               df.query('has_kids==False').shape[0])*100,2))

In [76]:
print('Для клиентов без детей коэффициент оттока =', '%.2f' %churn_rate_without_kids)
print('Для клиентов с детьми коэффициент оттока =', '%.2f' %churn_rate_with_kids)

Для клиентов без детей коэффициент оттока = 37.22
Для клиентов с детьми коэффициент оттока = 34.92
