<b>Исследование данных о бронировании отелей</b>
<u>Шаг 1. Откройте файл с данными и изучите общую информацию</u>

In [12]:
import pandas as pd
bookings = pd.read_csv(r'C:\Users\user\Desktop\practice\2_bookings.csv',
                       encoding='windows-1251', sep=';')
bookings.info()

<class 'pandas.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Hotel                      119390 non-null  str    
 1   Is Canceled                119390 non-null  int64  
 2   Lead Time                  119390 non-null  int64  
 3   arrival full date          119390 non-null  str    
 4   Arrival Date Year          119390 non-null  int64  
 5   Arrival Date Month         119390 non-null  str    
 6   Arrival Date Week Number   119390 non-null  int64  
 7   Arrival Date Day of Month  119390 non-null  int64  
 8   Stays in Weekend nights    119390 non-null  int64  
 9   Stays in week nights       119390 non-null  int64  
 10  stays total nights         119390 non-null  int64  
 11  Adults                     119390 non-null  int64  
 12  Children                   119386 non-null  float64
 13  Babies                     119390 non-nu

<b>Промежуточные выводы</b>
Рассмотрим полученную информацию подробнее.
Всего в таблице 21 столбец 119390 строк, типы данных - float64, int64, str (object)
Описание данных
• Hotel – тип отеля (City Hotel или Resort Hotel)  
• Is canceled – бронирование было отменено (1) или нет (0); не отмененное считается успешным
• Lead time – количество дней, прошедших между датой бронирования и датой прибытия  
• Arrival full date – полная дата прибытия
• Arrival date year – год прибытия  
• Arrival date month – месяц прибытия  
• Arrival date week number – номер недели прибытия
• Arrival date day of month – день прибытия
• Stays in weekend nights – количество выходных (суббота или воскресенье), которые гость
забронировал для проживания в отеле
• Stays in week nights – количество дней (с понедельника по пятницу), которые гость забронировал
для проживания в отеле
• Stays total nights – общее число забронированных ночей (сумма двух предыдущих колонок)
• Adults – число взрослых
• Children – число детей
• Babies – число младенцев 
• Meal – выбранный тип питания
• Country – страна происхождения клиента
• Reserved room type – тип зарезервированного номера
• Assigned room type – тип полученного номера (может отличаться от забронированного)
• Customer type – тип бронирования
• Reservation status – значение последнего статуса брони: Canceled - было отменено
клиентом; Check-Out - клиент зарегистрировался, но уже покинул отель; No-Show - клиент не
зарегистрировался и сообщил администрации отеля причину
• Reservation status date – дата обновления статуса

Количество значений в столбцах отличается. Это говорит о том, что в данных есть пропущенные значения (колонки Children, Country).
Для начала приведем названия столбцов к более удобному для дальнейшей работы формату.

<u>Шаг 2. Предобработка данных и вывод топ-5 стран с наибольшим числом успешных бронирований</u>

In [20]:
bookings.columns = (bookings.columns.str.lower()
                                    .str.replace(' ', '_'))

bookings.loc[bookings.is_canceled == 0] \
        .country.value_counts() \
        .head()  # отбирает строки, удовлетворяющие условию "бронь не отменена", и считает количество таких броней для всех стран, выводя топ-5


country
PRT    21071
GBR     9676
FRA     8481
ESP     6391
DEU     6069
Name: count, dtype: int64

<b>Промежуточные выводы</b>
Названия столбцов приведены к единому формату.
Португалия (PRT) лидирует по количеству успешных бронирований — 21 071 запись. Это в ~2,2 раза больше, чем у страны на втором месте (Великобритания, 9 676 записей).

<u>Шаг 3. Определение среднего количества ночей, на которое бронируют отели разных типов</u>

In [22]:
bookings.groupby(bookings.hotel, as_index=False) \
        .stays_total_nights \
        .mean() \
        .round(2) # группировка по типу отеля, поиск среднего количества забронированных ночей и округление полученных значений

Unnamed: 0,hotel,stays_total_nights
0,City Hotel,2.98
1,Resort Hotel,4.32


<b>Промежуточные выводы</b>
Гости Resort Hotel в среднем снимают номера на ~45% ночей дольше, чем гости City Hotel, что может говорить о разных целевых аудиториях данных типов отелей.

<u>Шаг 4. Определение количества кейсов, когда тип номера, присвоенный клиенту, отличается от изначально забронированного</u>

In [None]:
bookings.loc[bookings.assigned_room_type != bookings.reserved_room_type] \
        .value_counts() 

hotel         is_canceled  lead_time  arrival_full_date  arrival_date_year  arrival_date_month  arrival_date_week_number  arrival_date_day_of_month  stays_in_weekend_nights  stays_in_week_nights  stays_total_nights  adults  children  babies  meal       country  reserved_room_type  assigned_room_type  customer_type    reservation_status  reservation_status_date
City Hotel    0            164        2015-10-02         2015               October             40                        2                          0                        2                     2                   1       0.0       0       BB         PRT      A                   D                   Transient-Party  Check-Out           2015-10-04                 35
                           69         2015-10-25         2015               October             44                        25                         2                        1                     3                   2       0.0       0       BB         PRT      A     

<b>Промежуточные выводы</b>
Подобные наблюдения, когда номер отлиличался от первоначального, имеются, но их относительно не много - около 10% (12 116 записей).

In [8]:
bookings.loc[bookings.assigned_room_type != bookings.reserved_room_type].value_counts()

hotel         is_canceled  lead_time  arrival_full_date  arrival_date_year  arrival_date_month  arrival_date_week_number  arrival_date_day_of_month  stays_in_weekend_nights  stays_in_week_nights  stays_total_nights  adults  children  babies  meal       country  reserved_room_type  assigned_room_type  customer_type    reservation_status  reservation_status_date
City Hotel    0            164        2015-10-02         2015               October             40                        2                          0                        2                     2                   1       0.0       0       BB         PRT      A                   D                   Transient-Party  Check-Out           2015-10-04                 35
                           69         2015-10-25         2015               October             44                        25                         2                        1                     3                   2       0.0       0       BB         PRT      A     

In [9]:
bookings.loc[bookings.arrival_date_year == 2016].arrival_date_month.value_counts()
bookings.loc[bookings.arrival_date_year == 2017].arrival_date_month.value_counts()

arrival_date_month
May         6313
April       5661
June        5647
July        5313
March       4970
August      4925
February    4177
January     3681
Name: count, dtype: int64

In [10]:
(bookings.groupby([bookings.arrival_date_year, bookings.arrival_date_month, bookings.hotel], as_index = False)
        .agg({'is_canceled' : 'sum'})
        .sort_values(by = ["is_canceled"], ascending=False)
        .head)

<bound method NDFrame.head of     arrival_date_year arrival_date_month         hotel  is_canceled
50               2017                May    City Hotel         2217
32               2016            October    City Hotel         1947
36               2017              April    City Hotel         1926
46               2017               June    City Hotel         1808
24               2016               June    City Hotel         1720
34               2016          September    City Hotel         1567
10               2015          September    City Hotel         1543
12               2016              April    City Hotel         1539
28               2016                May    City Hotel         1436
30               2016           November    City Hotel         1360
44               2017               July    City Hotel         1324
8                2015            October    City Hotel         1321
48               2017              March    City Hotel         1278
14               2