### Analyze data about hotel bookings

Data description:
* Hotel – тип отеля (City Hotel или Resort Hotel)  
* Is canceled – бронирование было отменено (1) или нет (0); неотменённое считается успешным
* Lead time – количество дней, прошедших между датой бронирования и датой прибытия  
* Arrival full date – полная дата прибытия
* Arrival date year – год прибытия  
* Arrival date month – месяц прибытия  
* Arrival date week number – номер недели прибытия
* Arrival date day of month – день прибытия
* Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле
* Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле
* Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)
* Adults – число взрослых
* Children – число детей
* Babies – число младенцев 
* Meal – выбранный тип питания
* Country – страна происхождения клиента
* Reserved room type – тип зарезервированного номера
* Assigned room type – тип полученного номера (может отличаться от забронированного)
* Customer type – тип бронирования
* Reservation status – значение последнего статуса брони: Canceled – было отменено клиентом; Check-Out – клиент зарегистрировался, но уже покинул отель; No-Show – клиент не зарегистрировался и сообщил администрации отеля причину
* Reservation status date – дата обновления статуса

In [1]:
# Импортируйте библиотеку pandas как pd. Прочитайте датасет bookings.csv, находящийся по ссылке, с разделителем ;  и 
# сохраните в переменную bookings. Затем запишите первые 7 строк в переменную bookings_head.

In [2]:
import pandas as pd

In [3]:
bookings = pd.read_csv('#####\bookings.csv', sep=';')

In [4]:
bookings_head = bookings.head(7)

In [5]:
bookings_head

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


In [6]:
bookings.shape

(119390, 21)

In [7]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [8]:
# Приведите названия столбцов к нижнему регистру и замените пробелы на знак нижнего подчёркивания

In [9]:
bookings.columns = (
                    bookings.columns
                    .str.lower()
                    .str.replace(' ', '_')
                    )

In [10]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

In [11]:
# Перейдём к исследованию данных! 

In [12]:
# Пользователи из каких стран совершили наибольшее число успешных бронирований? 
# Бронирование считается успешным, если в дальнейшем оно не было отменено (переменная is_canceled). 

In [49]:
bookings \
        .query('is_canceled == 0') \
        .groupby('country', as_index=False) \
        .agg({'is_canceled':'count'}) \
        .sort_values('is_canceled', ascending=False) \
        .rename(columns={'is_canceled':'successful_bookings'}) \
        .head(5)

Unnamed: 0,country,successful_bookings
125,PRT,21071
57,GBR,9676
54,FRA,8481
50,ESP,6391
42,DEU,6069


In [14]:
# На сколько ночей (stays_total_nights)  в среднем бронируют отели типа City Hotel? Resort Hotel? 
# Запишите полученные значения с точностью до 2 знаков после точки.

In [15]:
bookings.groupby('hotel').agg({'stays_total_nights':'mean'}).round(2)

Unnamed: 0_level_0,stays_total_nights
hotel,Unnamed: 1_level_1
City Hotel,2.98
Resort Hotel,4.32


In [16]:
# Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). 
# Такое может произойти, например, по причине овербукинга.
# Сколько подобных наблюдений встретилось в датасете?

In [51]:
bookings.query('assigned_room_type != reserved_room_type').shape

(14917, 23)

In [18]:
# Теперь проанализируйте даты запланированного прибытия (arrival_date_year).
# На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017 году?

In [19]:
bookings \
        .groupby(['arrival_date_year', 'arrival_date_month']) \
        .agg(number_of_bookings = ('arrival_date_month', 'count')) \
        .sort_values('number_of_bookings', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,number_of_bookings
arrival_date_year,arrival_date_month,Unnamed: 2_level_1
2017,May,6313
2016,October,6203
2017,April,5661
2017,June,5647
2016,May,5478
2016,April,5428
2016,September,5394
2017,July,5313
2016,June,5292
2015,September,5114


In [20]:
bookings.groupby('arrival_date_year').arrival_date_month.describe()['top']

arrival_date_year
2015    September
2016      October
2017          May
Name: top, dtype: object

In [21]:
# Сгруппируйте данные по годам, а затем проверьте, на какой месяц (arrival_date_month) бронирования 
# отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017? 

In [22]:
bookings.query('is_canceled == 1') \
        .groupby(['hotel', 'arrival_date_year', 'arrival_date_month']) \
        .agg({'is_canceled':'count'}) \
        .sort_values(['hotel' , 'arrival_date_year', 'is_canceled'], ascending=[True, True, False])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,is_canceled
hotel,arrival_date_year,arrival_date_month,Unnamed: 3_level_1
City Hotel,2015,September,1543
City Hotel,2015,October,1321
City Hotel,2015,August,1232
City Hotel,2015,July,939
City Hotel,2015,December,668
City Hotel,2015,November,301
City Hotel,2016,October,1947
City Hotel,2016,June,1720
City Hotel,2016,September,1567
City Hotel,2016,April,1539


In [23]:
bookings\
        .query("hotel == 'City Hotel' & reservation_status == 'Canceled'") \
        .groupby('arrival_date_year') \
        .arrival_date_month \
        .describe()['top']

arrival_date_year
2015    September
2016      October
2017          May
Name: top, dtype: object

In [24]:
bookings \
        .query("hotel == 'City Hotel' and is_canceled == 1") \
        .groupby('arrival_date_year') \
        .arrival_date_month \
        .value_counts()

arrival_date_year  arrival_date_month
2015               September             1543
                   October               1321
                   August                1232
                   July                   939
                   December               668
                   November               301
2016               October               1947
                   June                  1720
                   September             1567
                   April                 1539
                   May                   1436
                   November              1360
                   August                1247
                   March                 1108
                   December              1072
                   July                  1043
                   February               930
                   January                438
2017               May                   2217
                   April                 1926
                   June                  1

In [52]:
# Посмотрите на числовые характеристики трёх колонок: adults, children и babies

In [53]:
bookings[['adults', 'children', 'babies']].describe()

Unnamed: 0,adults,children,babies
count,119390.0,119386.0,119390.0
mean,1.856403,0.10389,0.007949
std,0.579261,0.398561,0.097436
min,0.0,0.0,0.0
25%,2.0,0.0,0.0
50%,2.0,0.0,0.0
75%,2.0,0.0,0.0
max,55.0,10.0,10.0


In [54]:
# Какая из них имеет наибольшее среднее значение?
bookings[['adults', 'children', 'babies']].mean().idxmax()

'adults'

In [55]:
# Создайте колонку total_kids, объединив столбцы children и babies 

In [29]:
bookings['total_kids'] = bookings['children'] + bookings['babies']

In [56]:
# Для отелей какого типа среднее значение переменной оказалось наибольшим?
bookings.groupby('hotel').agg({'total_kids':'mean'}).round(2)

Unnamed: 0_level_0,total_kids
hotel,Unnamed: 1_level_1
City Hotel,0.1
Resort Hotel,0.14


In [58]:
# Создайте переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного 
# ребенка (total_kids), в противном случае – False

In [32]:
bookings['has_kids'] = bookings['total_kids'] >= 1

In [33]:
bookings.has_kids

0         False
1         False
2         False
3         False
4         False
          ...  
119385    False
119386    False
119387    False
119388    False
119389    False
Name: has_kids, Length: 119390, dtype: bool

In [59]:
# Далее проверьте, среди какой группы пользователей показатель оттока выше. 
# В качестве ответа укажите наибольший %, округленный до 2 знаков после точки (то есть доля 0.24563 будет 24.56% и в 
#                                                                              ответ пойдёт 24.56)

In [57]:
without_kids_total = bookings \
        .query("has_kids == False") \
        .has_kids \
        .value_counts()

In [35]:
without_kids_canceled = bookings \
        .query("has_kids == False & is_canceled == 1") \
        .has_kids \
        .value_counts()

In [36]:
without_kids_churn_rate = without_kids_canceled / without_kids_total

In [37]:
round(without_kids_churn_rate * 100, 2)

False    37.22
Name: has_kids, dtype: float64

In [61]:
with_kids_total = bookings.query("has_kids == True").has_kids.value_counts()

In [62]:
with_kids_canceled = bookings \
        .query("has_kids == True & is_canceled == 1") \
        .has_kids \
        .value_counts()

In [63]:
with_kids_churn_rate = with_kids_canceled / with_kids_total

In [64]:
round(with_kids_churn_rate * 100, 2)

True    34.92
Name: has_kids, dtype: float64

In [42]:
# ИЛИ

In [65]:
no_kids = round(
    (
    (bookings
    .query("has_kids == False & is_canceled == 1")
    .shape[0]) / 
    (bookings
    .query("has_kids == False")
    .shape[0])
    ) 
    * 100, 2)

In [66]:
no_kids

37.22

In [67]:
yes_kids = round(
    (
    (bookings
    .query("has_kids == True & is_canceled == 1")
    .shape[0]) / 
    (bookings
    .query("has_kids == True")
    .shape[0])
    ) 
    * 100, 2)

In [68]:
yes_kids

34.92