# Описание данных
Имеются следующие переменные:

* `Hotel` – тип отеля (City Hotel или Resort Hotel)  

* `Is canceled` – бронирование было отменено (1) или нет (0); не отмененное считается успешным

* `Lead time` – количество дней, прошедших между датой бронирования и датой прибытия  

* `Arrival full date` – полная дата прибытия

* `Arrival date year` – год прибытия  

* `Arrival date month` – месяц прибытия  

* `Arrival date week number` – номер недели прибытия

* `Arrival date day of month` – день прибытия

* `Stays in weekend nights` – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле

* `Stays in week nights` – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле

* `Stays total nights` – общее число забронированных ночей (сумма двух предыдущих колонок)

* `Adults` – число взрослых

* `Children` – число детей

* `Babies` – число младенцев 

* `Meal` – выбранный тип питания

* `Country` – страна происхождения клиента

* `Reserved room type` – тип зарезервированного номера

* `Assigned room type` – тип полученного номера (может отличаться от забронированного)

* `Customer type` – тип бронирования

* `Reservation status` – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину

* `Reservation status date` – дата обновления статуса

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('2_bookings.csv', delimiter=';')
df.head(5)

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [3]:
df.shape

(119390, 21)

In [4]:
df.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  object 
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  object 
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  object 
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     11

In [6]:
df = df.rename(columns=lambda col: col.replace(' ', '_').lower())
df.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


---

**Пользователи из каких стран совершили наибольшее число успешных бронирований? Бронирование считается успешным, если в дальнейшем не было отменено (переменная is_canceled).**

In [7]:
top_countries = df \
    .groupby(['country'], as_index=False) \
    .aggregate({'is_canceled': 'sum'}) \
    .sort_values('is_canceled', ascending=False) \
    .head(5)

top_countries

Unnamed: 0,country,is_canceled
135,PRT,27519
59,GBR,2453
51,ESP,2177
56,FRA,1934
81,ITA,1333


Топ 5: 
* **ESP**
* **GBR**
* **PRT**
* **ITA**
* **FRA**

---

**На сколько ночей (stays_total_nights)  в среднем бронируют отели типа City Hotel? Resort Hotel?**

In [8]:
mean_night = df \
    .groupby(['hotel'], as_index=False) \
    .aggregate({'stays_total_nights': 'mean'}) \
    .sort_values('stays_total_nights', ascending=False) \
    .round(2)

mean_night

Unnamed: 0,hotel,stays_total_nights
1,Resort Hotel,4.32
0,City Hotel,2.98


---

Тип номера, присвоенного клиенту (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга.**

**Сколько подобных наблюдений встретилось в датасете?**

*отмена бронирования также считается

In [9]:
wrong_types_of_rooms = df \
    .query('reserved_room_type != assigned_room_type') \
    .shape 

print('Ответ: ', wrong_types_of_rooms[0])

Ответ:  14917


---

Проанализируйте даты запланированного прибытия (arrival_date_year).**

**На какой месяц чаще всего оформляли бронь в 2016 году? Изменился ли самый популярный месяц в 2017?**

In [10]:
df.groupby('arrival_date_year').arrival_date_month.agg(pd.Series.mode)

arrival_date_year
2015    September
2016      October
2017          May
Name: arrival_date_month, dtype: object

**В 2016 чаще всего бронировали отель на октябрь.**
**В 2017 чаще всего оформляли бронирование на май.**

---

**Сгруппируйте данные по годам, а затем проверьте, на какой месяц (arrival_date_month) бронирования отеля типа City Hotel отменялись чаще всего в 2015? 2016? 2017?**

In [11]:
years = pd.DataFrame(df.groupby(['arrival_date_year', 'arrival_date_month']).is_canceled.sum())
years

Unnamed: 0_level_0,Unnamed: 1_level_0,is_canceled
arrival_date_year,arrival_date_month,Unnamed: 2_level_1
2015,August,1598
2015,December,973
2015,July,1259
2015,November,486
2015,October,1732
2015,September,2094
2016,April,2061
2016,August,1825
2016,December,1398
2016,February,1337


In [12]:
print('2015 ->', years.query('2015').idxmax(axis=0)[0])
print('2016 ->', years.query('2016').idxmax(axis=0)[0])
print('2017 ->', years.query('2017').idxmax(axis=0)[0])

2015 -> September
2016 -> October
2017 -> May


---

**Посмотрите на числовые характеристики трёх колонок: adults, children и babies. Какая из них имеет наибольшее среднее значение?**

In [13]:
cols = df[['adults', 'children', 'babies']].mean()
cols

adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

In [14]:
print('Ответ:', cols.agg(pd.Series.idxmax))

Ответ: adults


---

**Создайте колонку total_kids, объединив столбцы children и babies. Для отелей какого типа среднее значение переменной оказалось наибольшим?**

In [15]:
df['total_kids'] = df.children + df.babies
df[['hotel', 'total_kids', 'children', 'babies']]

Unnamed: 0,hotel,total_kids,children,babies
0,Resort Hotel,0.0,0.0,0
1,Resort Hotel,0.0,0.0,0
2,Resort Hotel,0.0,0.0,0
3,Resort Hotel,0.0,0.0,0
4,Resort Hotel,0.0,0.0,0
...,...,...,...,...
119385,City Hotel,0.0,0.0,0
119386,City Hotel,0.0,0.0,0
119387,City Hotel,0.0,0.0,0
119388,City Hotel,0.0,0.0,0


In [16]:
df.groupby('hotel').total_kids.mean().round(2)

hotel
City Hotel      0.10
Resort Hotel    0.14
Name: total_kids, dtype: float64

In [17]:
print('Ответ:', df.groupby('hotel').total_kids.mean().round(2).agg(pd.Series.idxmax))

Ответ: Resort Hotel


---

**Не все бронирования завершились успешно (is_canceled), поэтому можно посчитать, сколько клиентов было потеряно в процессе. Иными словами, посчитать метрику под названием Churn Rate.**

**Churn rate (отток, коэффициент оттока) – это процент подписчиков (например, на push-уведомления от сайта), которые отписались от канала коммуникации, отказались от услуг сервиса в течение определенного периода времени. Иными словами, представляет собой отношение количества ушедших пользователей к общему количеству пользователей, выраженное в процентах.**

**В нашем случае Churn Rate - это процент клиентов, которые отменили бронирование. Давайте посмотрим, как эта метрика связана с наличием детей у клиентов!**

**Создайте переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Далее проверьте, среди какой группы пользователей показатель оттока выше.** 

**В качестве ответа укажите наибольший % оттока, округленный до 2 знаков после точки (то есть доля 0.24563 будет 24.56% и в ответ пойдёт 24.56)**

In [18]:
def has_kids(x):
    if x >= 1:
        return True
    return False

In [19]:
df['has_kids'] = df.total_kids.apply(has_kids)

In [20]:
df['has_kids'].value_counts()

False    110058
True       9332
Name: has_kids, dtype: int64

In [21]:
df[['has_kids', 'is_canceled']].value_counts() / df[['has_kids']].value_counts() * 100

has_kids  is_canceled
False     0              62.778717
          1              37.221283
True      0              65.077154
          1              34.922846
dtype: float64

Ответ:  `37.221283%`