 Прогнозирование отмен бронирований отелей
- Предметная область: Гостиничный бизнес и онлайн-бронирование.
- Источник: https://www.kaggle.com/datasets/ahsan81/hotel-reservations-classification-dataset
    - Тип данных: Синтезированные

Набор применим для:
- Регрессии: Прогнозирование, выполнит ли клиент бронирование или отменит его.

Признак:

| Тип данных | Признак                              | Описание                                                                                                 | Пример               |
|------------|--------------------------------------|----------------------------------------------------------------------------------------------------------|----------------------|
| string     | Booking_ID                           | Уникальный идентификатор каждого бронирования                                                            | 12345                |
| int        | no_of_adults                         | Количество взрослых                                                                                      | 2                    |
| int        | no_of_children                       | Количество детей                                                                                         | 1                    |
| int        | no_of_weekend_nights                 | Количество выходных ночей (суббота или воскресенье), которые гость провел или забронировал в отеле       | 2                    |
| int        | no_of_week_nights                    | Количество ночей в будние дни (с понедельника по пятницу), которые гость провел или забронировал в отеле | 3                    |
| string     | type_of_meal_plan                    | Тип забронированного клиентом плана питания                                                              | BB (Bed & Breakfast) |
| int        | required_car_parking_space           | Требуется ли клиенту парковочное место? (0 - Нет, 1 - Да)                                                | 1                    |
| string     | room_type_reserved                   | Тип забронированного клиентом номера. Значения зашифрованы INN Hotels                                    | A                    |
| int        | lead_time                            | Количество дней между датой бронирования и датой прибытия                                                | 30                   |
| int        | arrival_year                         | Год прибытия                                                                                             | 2023                 |
| string     | arrival_month                        | Месяц прибытия                                                                                           | Январь               |
| int        | arrival_date                         | Дата месяца прибытия                                                                                     | 15                   |
| string     | market_segment_type                  | Назначение рыночного сегмента                                                                            | Direct               |
| int        | repeated_guest                       | Является ли клиент повторным гостем? (0 - Нет, 1 - Да)                                                   | 0                    |
| int        | no_of_previous_cancellations         | Количество предыдущих бронирований, которые были отменены клиентом до текущего бронирования              | 1                    |
| int        | no_of_previous_bookings_not_canceled | Количество предыдущих бронирований, которые не были отменены клиентом до текущего бронирования           | 2                    |
| float      | avg_price_per_room                   | Средняя цена за день бронирования; цены на номера динамические. (в евро)                                 | 100.50               |
| int        | no_of_special_requests               | Общее количество специальных запросов, сделанных клиентом (например, высокий этаж, вид из окна и т.д.)   | 3                    |
| string     | booking_status                       | Флаг, указывающий, было ли бронирование отменено или нет                                                 | Not Canceled         |

In [54]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [55]:
df = pd.read_csv(r"D:\Desktop\MO\MachineLearning\Hotel Reservations.csv")
df.drop(['Booking_ID','type_of_meal_plan', 'room_type_reserved'], axis=1, inplace=True)
df

Unnamed: 0,no_of_adults,no_of_children,no_of_weekend_nights,no_of_week_nights,required_car_parking_space,lead_time,arrival_year,arrival_month,arrival_date,market_segment_type,repeated_guest,no_of_previous_cancellations,no_of_previous_bookings_not_canceled,avg_price_per_room,no_of_special_requests,booking_status
0,2,0,1,2,0,224,2017,10,2,Offline,0,0,0,65.00,0,Not_Canceled
1,2,0,2,3,0,5,2018,11,6,Online,0,0,0,106.68,1,Not_Canceled
2,1,0,2,1,0,1,2018,2,28,Online,0,0,0,60.00,0,Canceled
3,2,0,0,2,0,211,2018,5,20,Online,0,0,0,100.00,0,Canceled
4,2,0,1,1,0,48,2018,4,11,Online,0,0,0,94.50,0,Canceled
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36270,3,0,2,6,0,85,2018,8,3,Online,0,0,0,167.80,1,Not_Canceled
36271,2,0,1,3,0,228,2018,10,17,Online,0,0,0,90.95,2,Canceled
36272,2,0,2,6,0,148,2018,7,1,Online,0,0,0,98.39,2,Not_Canceled
36273,2,0,0,3,0,63,2018,4,21,Online,0,0,0,94.50,0,Canceled


In [56]:
df[(df['booking_status'] == 'Canceled')]

Unnamed: 0,no_of_adults,no_of_children,no_of_weekend_nights,no_of_week_nights,required_car_parking_space,lead_time,arrival_year,arrival_month,arrival_date,market_segment_type,repeated_guest,no_of_previous_cancellations,no_of_previous_bookings_not_canceled,avg_price_per_room,no_of_special_requests,booking_status
2,1,0,2,1,0,1,2018,2,28,Online,0,0,0,60.00,0,Canceled
3,2,0,0,2,0,211,2018,5,20,Online,0,0,0,100.00,0,Canceled
4,2,0,1,1,0,48,2018,4,11,Online,0,0,0,94.50,0,Canceled
5,2,0,0,2,0,346,2018,9,13,Online,0,0,0,115.00,1,Canceled
12,2,0,2,1,0,30,2018,11,26,Online,0,0,0,88.00,0,Canceled
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36267,2,0,1,0,0,49,2018,7,11,Online,0,0,0,93.15,0,Canceled
36268,1,0,0,3,0,166,2018,11,1,Offline,0,0,0,110.00,0,Canceled
36269,2,2,0,1,0,0,2018,10,6,Online,0,0,0,216.00,0,Canceled
36271,2,0,1,3,0,228,2018,10,17,Online,0,0,0,90.95,2,Canceled


In [57]:
int(df['no_of_adults'].min())

0

In [58]:
int(df['no_of_adults'].max())

4

In [59]:
float(df['no_of_adults'].mean())

1.8449620951068229

In [60]:
float(df['avg_price_per_room'].mean())

103.42353907649897

In [61]:
df.describe()

Unnamed: 0,no_of_adults,no_of_children,no_of_weekend_nights,no_of_week_nights,required_car_parking_space,lead_time,arrival_year,arrival_month,arrival_date,repeated_guest,no_of_previous_cancellations,no_of_previous_bookings_not_canceled,avg_price_per_room,no_of_special_requests
count,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0,36275.0
mean,1.844962,0.105279,0.810724,2.2043,0.030986,85.232557,2017.820427,7.423653,15.596995,0.025637,0.023349,0.153411,103.423539,0.619655
std,0.518715,0.402648,0.870644,1.410905,0.173281,85.930817,0.383836,3.069894,8.740447,0.158053,0.368331,1.754171,35.089424,0.786236
min,0.0,0.0,0.0,0.0,0.0,0.0,2017.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,2.0,0.0,0.0,1.0,0.0,17.0,2018.0,5.0,8.0,0.0,0.0,0.0,80.3,0.0
50%,2.0,0.0,1.0,2.0,0.0,57.0,2018.0,8.0,16.0,0.0,0.0,0.0,99.45,0.0
75%,2.0,0.0,2.0,3.0,0.0,126.0,2018.0,10.0,23.0,0.0,0.0,0.0,120.0,1.0
max,4.0,10.0,7.0,17.0,1.0,443.0,2018.0,12.0,31.0,1.0,13.0,58.0,540.0,5.0
