### Проанализируем данные о бронировании отелей.

Поля в таблице:

Hotel – тип отеля (City Hotel или Resort Hotel)  

Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным

Lead time – количество дней, прошедших между датой бронирования и датой прибытия  

Arrival full date – полная дата прибытия

Arrival date year – год прибытия

Arrival date month – месяц прибытия

Arrival date week number – номер недели прибытия

Arrival date day of month – день прибытия

Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость забронировал для проживания в отеле

Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал для проживания в отеле

Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)

Adults – число взрослых

Children – число детей

Babies – число младенцев

Meal – выбранный тип питания

Country – страна происхождения клиента

Reserved room type – тип зарезервированного номера

Assigned room type – тип полученного номера (может отличаться от забронированного)

Customer type – тип бронирования

Reservation status – значение последнего статуса брони: Canceled - было отменено клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не зарегистрировался и сообщил администрации отеля причину

Reservation status date – дата обновления статуса

Задачи:

1)Импортировать библиотеку pandas как pd.

Загрузить датасет bookings.csv с разделителем ;.

Проверить размер таблицы, типы переменных, а затем вывести первые 7 строк, чтобы посмотреть на данные.

2)Привести названия колонок к нижнему регистру и заменить пробелы на знак нижнего подчеркивания.

3)Пользователи из каких стран совершили наибольшее число успешных бронирований? Указать топ-5.

4)На сколько ночей в среднем бронируют отели разных типов?

5)Иногда тип номера, полученного клиентом (assigned_room_type), отличается от изначально забронированного (reserved_room_type). Такое может произойти, например, по причине овербукинга. Сколько подобных наблюдений встретилось в датасете?

6)Проанализировать даты запланированного прибытия.
– На какой месяц чаще всего успешно оформляли бронь в 2016? Изменился ли самый популярный месяц в 2017?
– Сгруппировать данные по годам и проверить, на какой месяц бронирования отеля типа City Hotel отменялись чаще всего в каждый из периодов

7)Посмотреть на числовые характеристики трёх переменных: adults, children и babies. Какая из них имеет наибольшее среднее значение?

8)Создать колонку total_kids, объединив children и babies. Отели какого типа в среднем пользуются большей популярностью у клиентов с детьми?

9)Создать переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False. Посчитать отношение количества ушедших пользователей к общему количеству клиентов, выраженное в процентах (churn rate). Указать, среди какой группы показатель выше.

In [1]:
import pandas as pd

In [2]:
bookings = pd.read_csv('/content/bookings.csv', sep = ';')

In [3]:
bookings.shape

(119390, 21)

In [4]:
bookings.dtypes

Hotel                         object
Is Canceled                    int64
Lead Time                      int64
arrival full date             object
Arrival Date Year              int64
Arrival Date Month            object
Arrival Date Week Number       int64
Arrival Date Day of Month      int64
Stays in Weekend nights        int64
Stays in week nights           int64
stays total nights             int64
Adults                         int64
Children                     float64
Babies                         int64
Meal                          object
Country                       object
Reserved Room Type            object
Assigned room type            object
customer type                 object
Reservation Status            object
Reservation status_date       object
dtype: object

In [5]:
bookings.dtypes.value_counts()

object     10
int64      10
float64     1
dtype: int64

In [6]:
bookings.head(7)

Unnamed: 0,Hotel,Is Canceled,Lead Time,arrival full date,Arrival Date Year,Arrival Date Month,Arrival Date Week Number,Arrival Date Day of Month,Stays in Weekend nights,Stays in week nights,...,Adults,Children,Babies,Meal,Country,Reserved Room Type,Assigned room type,customer type,Reservation Status,Reservation status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
5,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03
6,Resort Hotel,0,0,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-03


In [7]:
def lower_string(string):
  return string.replace(' ', '_').lower()
#replace(' ', '_') найти пробел, заменить на _

In [8]:
bookings = bookings.rename(columns = lower_string)

In [9]:
count_users_top5 = bookings.query('is_canceled == 0') \
                            .groupby('country', as_index=False) \
                            .agg({'country' : 'count'}) \
                            .sort_values('country', ascending = False) \
                            .head(5)

count_users_top5

Unnamed: 0,country
125,21071
57,9676
54,8481
50,6391
42,6069


In [12]:
#2-й ВАРИАНТ
count_users_top5_2 = bookings.query('is_canceled == 0') \
                            .country \
                            .value_counts()[:5]
count_users_top5_2

PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
Name: country, dtype: int64

In [13]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

In [14]:
count_night_mean =  bookings.groupby('hotel', as_index=False) \
                            .agg({'stays_total_nights' : 'mean'}) \

In [15]:
count_night_mean.round(2)

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.98
1,Resort Hotel,4.32


In [16]:
dr_nomer = bookings[['reserved_room_type', 'assigned_room_type']]
dr_nomer

Unnamed: 0,reserved_room_type,assigned_room_type
0,C,C
1,C,C
2,A,C
3,A,A
4,A,A
...,...,...
119385,A,A
119386,E,E
119387,D,D
119388,A,A


In [17]:
bookings.query('reserved_room_type != assigned_room_type').shape[0]

14917

Проанализируем даты запланированного прибытия. – На какой месяц чаще всего успешно оформляли бронь в 2016? Изменился ли самый популярный месяц в 2017? – Сгруппируем данные по годам и проверим, на какой месяц бронирования отеля типа City Hotel отменялись чаще всего в каждый из периодов

In [18]:
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [19]:
bookings.query('arrival_date_year == 2016 and is_canceled == 0').arrival_date_month.value_counts()


October      3689
May          3563
September    3372
April        3367
March        3347
August       3238
June         3196
July         3073
November     2818
February     2554
December     2462
January      1691
Name: arrival_date_month, dtype: int64

In [20]:
bookings.query('arrival_date_year == 2017 and is_canceled == 0').arrival_date_month.value_counts()

May         3551
July        3329
March       3298
June        3208
April       3198
August      3109
February    2818
January     2431
Name: arrival_date_month, dtype: int64

In [21]:
bookings.query('hotel == "City Hotel" and is_canceled == 1') \
        .groupby('arrival_date_year') \
        .arrival_date_month \
        .value_counts()

arrival_date_year  arrival_date_month
2015               September             1543
                   October               1321
                   August                1232
                   July                   939
                   December               668
                   November               301
2016               October               1947
                   June                  1720
                   September             1567
                   April                 1539
                   May                   1436
                   November              1360
                   August                1247
                   March                 1108
                   December              1072
                   July                  1043
                   February               930
                   January                438
2017               May                   2217
                   April                 1926
                   June                  1

Посмотрим на числовые характеристики трёх переменных: adults, children и babies.

Какая из них имеет наибольшее среднее значение?

In [22]:
mean_p = bookings[['adults',	'children',	'babies']].describe()
mean_p

Unnamed: 0,adults,children,babies
count,119390.0,119386.0,119390.0
mean,1.856403,0.10389,0.007949
std,0.579261,0.398561,0.097436
min,0.0,0.0,0.0
25%,2.0,0.0,0.0
50%,2.0,0.0,0.0
75%,2.0,0.0,0.0
max,55.0,10.0,10.0


In [23]:
mean_p2 = bookings[['adults',	'children',	'babies']].mean()
mean_p2


adults      1.856403
children    0.103890
babies      0.007949
dtype: float64

Создадим колонку total_kids, объединив children и babies. Отели какого типа в среднем пользуются большей популярностью у клиентов с детьми?

In [24]:
bookings['total_kids'] = bookings['children'] + bookings['babies']
bookings['total_kids']

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
         ... 
119385    0.0
119386    0.0
119387    0.0
119388    0.0
119389    0.0
Name: total_kids, Length: 119390, dtype: float64

In [25]:
bookings['total_kids'] = bookings.children + bookings.babies
bookings['total_kids']

0         0.0
1         0.0
2         0.0
3         0.0
4         0.0
         ... 
119385    0.0
119386    0.0
119387    0.0
119388    0.0
119389    0.0
Name: total_kids, Length: 119390, dtype: float64

In [26]:
bookings.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date',
       'total_kids'],
      dtype='object')

In [27]:
popular_hotel = bookings.groupby('hotel').agg({'total_kids': 'mean'}).round(2).max()
popular_hotel

total_kids    0.14
dtype: float64

Создадим переменную has_kids, которая принимает значение True, если клиент при бронировании указал хотя бы одного ребенка (total_kids), в противном случае – False.**

Посчитайте отношение количества ушедших пользователей к общему количеству клиентов, выраженное в процентах (churn rate). Укажем, среди какой группы показатель выше.

In [28]:
#При таком создании, тип будет строка, так как True и False пишем в кавычках apply(lambda x: 'True' if x > 0 else 'False')
#Соответственно в дальнейшем использовать надо как строку, если надо булевый тип, то привести к другому типу
bookings['has_kids'] = bookings['total_kids'].apply(lambda x: 'True' if x > 0 else 'False')
bookings['has_kids']

0         False
1         False
2         False
3         False
4         False
          ...  
119385    False
119386    False
119387    False
119388    False
119389    False
Name: has_kids, Length: 119390, dtype: object

In [29]:
#Проверим количество
bookings.has_kids.value_counts()

False    110058
True       9332
Name: has_kids, dtype: int64

In [30]:
bookings

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date,total_kids,has_kids
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0,False
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0,False
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02,0.0,False
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02,0.0,False
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03,0.0,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119385,City Hotel,0,23,2017-08-30,2017,August,35,30,2,5,...,0,BB,BEL,A,A,Transient,Check-Out,2017-09-06,0.0,False
119386,City Hotel,0,102,2017-08-31,2017,August,35,31,2,5,...,0,BB,FRA,E,E,Transient,Check-Out,2017-09-07,0.0,False
119387,City Hotel,0,34,2017-08-31,2017,August,35,31,2,5,...,0,BB,DEU,D,D,Transient,Check-Out,2017-09-07,0.0,False
119388,City Hotel,0,109,2017-08-31,2017,August,35,31,2,5,...,0,BB,GBR,A,A,Transient,Check-Out,2017-09-07,0.0,False


In [31]:
#Вариант 2, проще
#Просто сравним колонку bookings['total_kids'] с нулем, результатом будет True или False, уже булевого типа
bookings['total_kids'] > 0

0         False
1         False
2         False
3         False
4         False
          ...  
119385    False
119386    False
119387    False
119388    False
119389    False
Name: total_kids, Length: 119390, dtype: bool

In [32]:
#Затем просто приравняем новую колонку предыдущему сравнению
bookings['has_kids'] = bookings['total_kids'] > 0
bookings.head()

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date,total_kids,has_kids
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0,False
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01,0.0,False
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02,0.0,False
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02,0.0,False
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03,0.0,False


In [33]:
bookings['has_kids'].value_counts()

False    110058
True       9332
Name: has_kids, dtype: int64

Посчитаем отношение количества ушедших пользователей к общему количеству клиентов, выраженное в процентах (churn rate). Укажем, среди какой группы показатель выше.

In [34]:
#Общее число клиентов
no_kids_churn = bookings.query('is_canceled == 1 and has_kids == False').shape[0] / bookings.query('has_kids == False').shape[0]
round(no_kids_churn * 100, 2)

37.22

In [35]:
yes_kids_churn = bookings.query('is_canceled == 1 and has_kids == True').shape[0] / bookings.query('has_kids == True').shape[0]
round(yes_kids_churn * 100, 2)

34.92

**ЗАМЕТКИ**

тип object - это строка

Когда в pandas индексируемся более чем по одному, то надо передавать список с этими элементами:

`bookings[['reserved_room_type', 'assigned_room_type']]`

Если бы сделали такой запрос:

`bookings['reserved_room_type', 'assigned_room_type']`

То получилась бы ошибка

К колонкам можно обращаться через квадратные скобки и через точку:

`bookings['children']` или `bookings.children`

Если требуется создать новую колонку, то ее следует писать в квадратных скобках.
Так как через точку можем обращаться к уже имеющимся колонкам.
