# Прогнозирование оттока клиентов в сети отелей «***»

Заказчик этого исследования — сеть отелей «***».
    Чтобы привлечь клиентов, эта сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменял бронирование, то компания терпела убытки. Сотрудники отеля могли, например, закупить продукты к приезду гостя или просто не успеть найти другого клиента.
    Чтобы решить эту проблему, вам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит. Размер депозита — 80% от стоимости номера за одни сутки и затрат на разовую уборку. Деньги будут списаны со счёта клиента, если он всё же отменит бронь.



Основная бизнес-метрика для любой сети отелей — её прибыль. Прибыль отеля — это разница между стоимостью номера за все ночи и затраты на обслуживание: как при подготовке номера, так и при проживании постояльца.
В отеле есть несколько типов номеров. В зависимости от типа номера назначается стоимость за одну ночь. Есть также затраты на уборку. Если клиент снял номер надолго, то убираются каждые два дня.
Стоимость номеров отеля:
- категория A: за ночь — 1 000, разовое обслуживание — 400;
- категория B: за ночь — 800, разовое обслуживание — 350;
- категория C: за ночь — 600, разовое обслуживание — 350;
- категория D: за ночь — 550, разовое обслуживание — 150;
- категория E: за ночь — 500, разовое обслуживание — 150;
- категория F: за ночь — 450, разовое обслуживание — 150;
- категория G: за ночь — 350, разовое обслуживание — 150.
В ценовой политике отеля используются сезонные коэффициенты: 
- весной и осенью цены повышаются на 20%;
- летом — на 40%.


На разработку системы прогнозирования заложен бюджет — 400 000. При этом необходимо учесть, что внедрение модели должно окупиться за год. Затраты на разработку должны быть меньше той выручки, которую система принесёт компании.

### Открытие файлы с данными

In [1]:
# Импорт библиотек.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import roc_auc_score
from sklearn.metrics import f1_score

from sklearn.model_selection import cross_val_score 
from sklearn.preprocessing import StandardScaler


In [7]:
# Чтение файлов с данными и сохранение в датасеты.
hotel_train = pd.read_csv('/Users/user/Desktop/Project/Project_6/hotel_train.csv')
hotel_test = pd.read_csv('/Users/user/Desktop/Project/Project_6/hotel_test.csv')

# Получение первых 5 строк датасетов
display(hotel_train.head(3))
display(hotel_test.head(3))


Unnamed: 0,id,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,booking_changes,days_in_waiting_list,customer_type,required_car_parking_spaces,total_of_special_requests,total_nights
0,0,0,7.0,2015,July,27,1,0,1,1.0,...,0,0,0,A,0,0,Transient,0,0,1
1,1,0,14.0,2015,July,27,1,0,2,2.0,...,0,0,0,A,0,0,Transient,0,1,2
2,2,0,0.0,2015,July,27,1,0,2,2.0,...,0,0,0,C,0,0,Transient,0,0,2


Unnamed: 0,id,is_canceled,lead_time,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,adults,...,is_repeated_guest,previous_cancellations,previous_bookings_not_canceled,reserved_room_type,booking_changes,days_in_waiting_list,customer_type,required_car_parking_spaces,total_of_special_requests,total_nights
0,6086,1,74.0,2017,January,1,1,1,0,2.0,...,0,0,0,A,0,0,Transient,0,0,1
1,6087,1,62.0,2017,January,1,1,2,2,2.0,...,0,0,0,A,0,0,Transient,0,1,4
2,6088,1,62.0,2017,January,1,1,2,2,2.0,...,0,0,0,A,0,0,Transient,0,1,4


In [None]:
# Получение общей информации о данных в датасетах
print(hotel_train.info())
print(hotel_test.info())

In [None]:
# Проверка наличия пропусков в датасетах
print(hotel_train.isna().sum())
print(hotel_test.isna().sum())

In [None]:
# Проверим на наличие явных дубликатов
print(hotel_train.duplicated().sum())
print(hotel_test.duplicated().sum())

In [None]:
# общие характеристики и проверка на наличие выбивающихся значений
display(hotel_train.describe())
display(hotel_test.describe())

In [None]:
# оценка корреляций признаков
display(hotel_train.corr())
plt.rcParams['figure.figsize'] = (12.0, 12.0)
sns.heatmap(hotel_train.corr(), annot=True, linewidths=3, linecolor='white')

In [None]:
# Смотрим уникальные значения и их количество в столбце отмена заказа

hotel_train['is_canceled'].value_counts() 
# Строим гистограмму распределния фактов отмены заказа.
hotel_train['is_canceled'].value_counts().plot(kind='pie', figsize=(9, 9), autopct='%1.1f%%')
plt.title('Отмена заказа')

In [None]:
# Смотрим уникальные значения и их количество в столбце месяц заезда
print(hotel_train['arrival_date_month'].value_counts())

# Строим гистограмму количество заездов в каждый месяц.
hotel_train['arrival_date_month'].value_counts().plot(kind='bar', figsize=(9, 9))
plt.title('Количество заездов в каждый месяц')
plt.xlabel('Месяц')
plt.ylabel('Количество')
plt.legend([])

In [None]:
# Смотрим уникальные значения и их количество в столбце тип забронированной комнаты
hotel_train['reserved_room_type'].value_counts() 
# Строим гистограмму распределния типа забронированных комнат.
hotel_train['reserved_room_type'].value_counts().plot(kind='pie', figsize=(9, 9), autopct='%1.1f%%')
plt.title('Тип забронированных комнат')

В датафреймах hotel_train и hotel_test содержатся одинаковые столбцы, в которых имеются категориальные и количественные даные. В каждом фрейме содержится по 25 столбцов. Изучив данные, можно сделать следующие выводы:
- в таблицах содержится 25 столбцов, тип данных столбцов - float64(4), int64(15), object(6). Тип данных float64 необходимо заменить на int64;
- дубликаты отсутсвуют;
- пропуски не обнаружены;
- данные распределены нормально, выбросы не обнаружены. Так, в столбце lead_time содержится количество дней между датой бронирования и датой прибытияминимальное, при этом минимальное значение 0, а максимальное 374, что вполне может быть - бронирование и заселение день в день, и бронирование более чем за год;
- в столбце reserved_room_type содержится тип забронированной комнаты, данные соответствуют условиям задачи;
- в обучающей выборке содержатся данные за 2015-2016 год, а в тестовой за 2017 год;
- больше всего заездов в октябре, сентябре и августе, меньше всего в январе., феврале, марте;
- 37% клиетов отменяют бронь или не заезжают в номер;
- 77% из всех забронированных комнатах составляеют номера категории А (самые дорогие);
- в основном данные коррелируют слабо между собой.

Согласно документации, в таблицах hotel_train и hotel_test содержатся одинаковые столбцы:
- id — номер записи;
- adults — количество взрослых постояльцев;
- arrival_date_year — год заезда;
- arrival_date_month — месяц заезда;
- arrival_date_week_number — неделя заезда;
- arrival_date_day_of_month — день заезда;
- babies — количество младенцев;
- booking_changes — количество изменений параметров заказа;
- children — количество детей от 3 до 14 лет;
- country — гражданство постояльца;
- customer_type — тип заказчика:
 - Contract — договор с юридическим лицом;
 - Group — групповой заезд;
 - Transient — не связано с договором или групповым заездом;
 - Transient-party — не связано с договором или групповым заездом, но связано с бронированием типа Transient.
- days_in_waiting_list — сколько дней заказ ожидал подтверждения;
- distribution_channel — канал дистрибуции заказа;
- is_canceled — отмена заказа;
- is_repeated_guest — признак того, что гость бронирует номер второй раз;
- lead_time — количество дней между датой бронирования и датой прибытия;
- meal — опции заказа:
 - SC — нет дополнительных опций;
 - BB — включён завтрак;
 - HB — включён завтрак и обед;
 - FB — включён завтрак, обед и ужин.
- previous_bookings_not_canceled — количество подтверждённых заказов у клиента;
- previous_cancellations — количество отменённых заказов у клиента;
- required_car_parking_spaces — необходимость места для автомобиля;
- reserved_room_type — тип забронированной комнаты;
- stays_in_weekend_nights — количество ночей в выходные дни;
- stays_in_week_nights — количество ночей в будние дни;
- total_nights — общее количество ночей;
- total_of_special_requests — количество специальных отметок.

### Предобработка и исследовательский анализ данных

В столбцах lead_time, adults, children, babies тип данных float64, заменим на int64.

In [None]:
# Меняем тип данных на целоцисленный.
hotel_train, hotel_test = hotel_train, hotel_test.astype(
    {'lead_time': 'int64', 'adults': 'int64', 'children':'int64',
     'babies': 'int64'}    
)
# Проверяем изменение данных
hotel_train.info()
hotel_test.info()

В столбцах lead_time, adults, children, babies тип данных float64 заменили на int64.

Расчитаем прибыль отеля до внедрения машинного обучения. Прибыль отеля — это разница между стоимостью номера за все ночи и затраты на обслуживание: как при подготовке номера, так и при проживании постояльца.В отеле есть несколько типов номеров. В зависимости от типа номера назначается стоимость за одну ночь. Есть также затраты на уборку. Если клиент снял номер надолго, то убираются каждые два дня.

In [None]:
# Удаляем пробелы в строках в столбце reserved_room_type и meal.
hotel_train['reserved_room_type'] = hotel_train['reserved_room_type'].str.strip() 
hotel_test['reserved_room_type'] = hotel_test['reserved_room_type'].str.strip() 

hotel_train['meal'] = hotel_train['meal'].str.strip() 
hotel_test['meal'] = hotel_test['meal'].str.strip() 


In [None]:
# Удалим столбцы id
hotel_train = hotel_train.drop(['id'], axis=1)
hotel_test = hotel_test.drop(['id'], axis=1)

In [None]:
hotel_train.head(3)

In [None]:
# Создадим копию hotel_test
hotel_profit = hotel_test.copy(deep=True)

# Оставим те столбцы, которые пригодятся для расчета прибыли
hotel_profit = hotel_profit[['is_canceled', 'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number', 
                             'arrival_date_day_of_month', 'reserved_room_type', 'total_nights']]
hotel_profit.head(3)

In [None]:
# Создаем функцию для сезонного коэффицента 
def coef(row):
    arrival_date_month = row['arrival_date_month']
    if arrival_date_month == 'December' or arrival_date_month == 'January' or arrival_date_month == 'February':
        return 1.0
    if arrival_date_month == 'June' or arrival_date_month == 'July' or arrival_date_month =='August':
        return 1.4
    else:
        return 1.2

# Создаем функцию для определения стоимости номера     
def price_room(row):
    reserved_room_type = row['reserved_room_type']
    if reserved_room_type == 'A':
        return 1000 
    elif reserved_room_type == 'B':
        return 800
    elif reserved_room_type == 'C':
        return 600
    elif reserved_room_type == 'D':
        return 550
    elif reserved_room_type == 'E':
        return 500
    elif reserved_room_type == 'F':
        return 450
    else: 
        return 350

# Создаем функцию для определения стоимости обслуживания номера    
def price_service(row):
    reserved_room_type = row['reserved_room_type']
    if reserved_room_type == 'A':
        return 400 
    elif reserved_room_type == 'B' or reserved_room_type == 'C':
        return 350
    else: 
        return 150

In [None]:
# Применяем функции
hotel_profit['seas_coef'] = hotel_profit.apply(coef, axis=1)
hotel_profit['price_room'] = hotel_profit.apply(price_room, axis=1)
hotel_profit['price_service'] = hotel_profit.apply(price_service, axis=1)
hotel_profit.head(2)

In [None]:
# Проверяем применение функций
display(hotel_profit['seas_coef'].value_counts().to_frame())
display(hotel_profit['price_room'].value_counts().to_frame())
display(hotel_profit['price_service'].value_counts().to_frame())

is_canceled == 0 значит, что клиент воспользовался забронированным номером и заселился, и is_canceled == 1 - клиент снял бронь или не заселился. 

In [None]:
# создаем функцию для подсчета прибыли с каждого клиента
def profit(row):
    if row['is_canceled'] == 0:
        if row['total_nights'] > 2: 
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service'] - int(row['total_nights']/2)*row['price_service']
        else:
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service']
    else:
        return - row['price_room'] * row['seas_coef']
            

In [None]:
# Применяем функцию для подсчета прибыли с каждого клиента
hotel_profit['profit'] = hotel_profit.apply(profit, axis=1)

In [None]:
hotel_profit.head(2)

In [None]:
print('Суммарна прибыль отеля до внедрения депозитов', hotel_profit['profit'].sum())

### Формулировка ML-задачи на основе бизнес-задачи

Сеть отелей «Как в гостях» добавила на свой сайт новую услугу - бронирование номеров без предоплаты. Однако если клиент отменял бронирование (а таких 37%), то компания терпела убытки. Сотрудники отеля могли, например, закупить продукты к приезду гостя или просто не успеть найти другого клиента. Компания хочет защить себя от таких убытков. В данной работе мы будем учитывать убыток только ввиде разового обслуживания.

Наша задача: на основе тренировочных данных предсказать на тестовых данных отказ клиента от брони. Тем клиентам, кому мы предсказали высокую вероятность отказа от брони выставляется счет на оплату 80% от стоимости номера за одни сутки и затрат на разовую уборку. Деньги будут списаны со счёта клиента, если он всё же отменит бронь. 
Модель может допустить  ошибки. Они могут быть:
- FP - мы забронировали номер Надежному клиенту с внесением депозита (Надежный клиент - это клиент, уверенный в своем выборе, то есть не будет изменять параметры бронирования и уверен, что его поездка состоится, и он не планирует отменять бронь). В этом случае мы предполагаем, что предложение Надежному клиенту о внесении депозита не повлечет за собой его отказ от услуг бронирования номера. Так как, если его поездка состоится - он ничего не потеряет.
- FN - мы забронировали номер без внесения депозита Ненадежному клиенту (Ненадежный клиент - это клиент, который не уверен, что его поездка состоится, или он бронирует несколько номеров в разных гостиницах, чтобы выбрать в последствии один из них, ввиду новых условий, открывшихся для него). В этом случае мы терпим убыток в размере суммы разового обслуживания.


Верные предсказания:
- TP - истинно-положительные - мы забронировали номер Ненадежному клиенту с выставлением счета на оплату 80% от стоимости номера за одни сутки и затрат на разовую уборку. В этом случае, если клиент откажется - у нас не будет убытка, а даже небольшая прибыль в размере: 80% от стоимости номера за одни сутки (с учетом сезонного коэффицента) за вычетом затрат на разовую уборку.
- TN - истинно-отрицательные - мы забронировали номер Надежному клиенту без выставления счета на оплату. В этом случае мы ничего не теряем, так как Надежный клиент воспользуется забронированным номером с высокой вероятностью.

На разработку системы прогнозирования заложен бюджет — 400 000. При этом необходимо учесть, что внедрение модели должно окупиться за год. Затраты на разработку должны быть меньше той выручки, которую система принесёт компании.

Рассмотрим два варианта рассчета экономической эффективности системы прогнозирования(ML):
- Положительный - предложение внесения депозита не влияет на отток клиентов.
- Отрицательный - предложение внесения депозита влечёт отток 75% клиентов.

### Разработка модели ML

In [None]:
# Создадим признаки и целевой признак
features_train = hotel_train.drop(['is_canceled'], axis=1)
target_train = hotel_train['is_canceled']

features_test = hotel_test.drop(['is_canceled'], axis=1)
target_test = hotel_test['is_canceled']

In [None]:
# Прповерим соотношение выборок
display(features_train.shape, features_test.shape)
display(target_train.shape,  target_test.shape)

In [None]:
# оценим баланс классов
target_train.value_counts(normalize=True)

In [None]:
# Преобразуем категориальный признак 'country' техникой TargetEncoder()
from category_encoders.target_encoder import TargetEncoder
target_encoder = TargetEncoder() 
target_encoder.fit(features_train['country'], target_train)
features_train['country'] = target_encoder.transform(features_train['country'], target_train)
features_test['country'] = target_encoder.transform(features_test['country'], target_test)

In [None]:
features_train.info()

Преобразуем категориальные признаки техникой One-Hot Encoding (OHE).

In [None]:
# Кодируем категориальные признаки 
ohe = ['arrival_date_month', 'meal', 'distribution_channel', 'reserved_room_type', 'customer_type']
encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)
encoder.fit(features_train[ohe])
features_train_ohe = pd.DataFrame(encoder.transform(features_train[ohe]), columns = encoder.get_feature_names(ohe))
features_test_ohe = pd.DataFrame(encoder.transform(features_test[ohe]), columns = encoder.get_feature_names(ohe))

In [None]:
# Масштабируем численные признаки
numeric = ['lead_time', 'arrival_date_year', 'arrival_date_week_number', 'arrival_date_day_of_month', 'stays_in_weekend_nights',
           'stays_in_week_nights', 'adults', 'children', 'babies','previous_cancellations', 'previous_bookings_not_canceled',
           'booking_changes', 'days_in_waiting_list','required_car_parking_spaces', 'total_of_special_requests', 'total_nights']

scaler = StandardScaler()
scaler.fit(features_train[numeric])

features_train[numeric] = scaler.transform(features_train[numeric])
features_test[numeric] = scaler.transform(features_test[numeric])



In [None]:
features_train.info()

In [None]:
# Удаляем столбцы с категориальными признаками
features_train = features_train.drop(['arrival_date_month', 'meal', 'distribution_channel', 'reserved_room_type', 'customer_type'], axis=1)
features_test = features_test.drop(['arrival_date_month', 'meal', 'distribution_channel', 'reserved_room_type', 'customer_type'], axis=1)

In [None]:
features_train = pd.concat([features_train_ohe.reset_index(drop=True), features_train.reset_index(drop=True)], axis=1, ignore_index=False)
features_test = pd.concat([features_test_ohe.reset_index(drop=True), features_test.reset_index(drop=True)], axis=1, ignore_index=False)

In [None]:
features_train.head(3)

In [None]:
features_test.head(3)

In [None]:
# Подбираем лучшую модель с помощью кросс-валидации
final_score_best = 0
depth_best = 0

for depth in range(1, 5):
    model = DecisionTreeClassifier(random_state=12345, max_depth=depth, class_weight='balanced')
    scores = cross_val_score(model, features_train, target_train)
    final_score = sum(scores) / len(scores)
    if final_score > final_score_best:
        final_score_best = final_score
        depth_best = depth
print('Оценка модели решающего дерева кросс-валидацией:', final_score_best, 'при max_depth =', depth_best)

In [None]:
# Подбираем лучшую модель с помощью кросс-валидации
final_score_best = 0
depth_best = 0
est_best = 0

for est in range(96, 98):
    for depth in range(2, 5):
        model = RandomForestClassifier(random_state=12345, n_estimators=est, max_depth=depth, class_weight='balanced')
        scores = cross_val_score(model, features_train, target_train)
        final_score = sum(scores) / len(scores)
        if final_score > final_score_best:
            final_score_best = final_score
            depth_best = depth
            est_best = est
print('Оценка кросс-валидацией:', final_score_best, 'при n_estimators =', est_best, 'при max_depth =', depth_best)


In [None]:
# Измерим качество модели случайного леса на тесте
model = RandomForestClassifier(random_state=12345, n_estimators=97, max_depth=3, class_weight='balanced')
model.fit(features_train, target_train)
prediction_test = model.predict(features_test)
probabilities_test = model.predict_proba(features_test)[:, 1]
f1 = f1_score(target_test, prediction_test)
auc_roc = roc_auc_score(target_test, probabilities_test)
       
print('F-1 модели случайного леса на тестовой выборке:', f1, 'при n_estimators = 97, при max_depth = 3')
print('AUC-ROC модели случайного леса на тестовой выборке:', auc_roc, 'при n_estimators = 97, при max_depth = 3')

In [None]:
# Измерим качество модели решающего дерева на тесте
model = DecisionTreeClassifier(random_state=12345, max_depth=2, class_weight='balanced')
model.fit(features_train, target_train)
prediction_test_tree = model.predict(features_test)
probabilities_test = model.predict_proba(features_test)[:, 1]
f1 = f1_score(target_test, prediction_test_tree)
auc_roc = roc_auc_score(target_test, probabilities_test)
       
print('F-1 модели решающего дерева  на тестовой выборке:', f1, 'при max_depth = 2')
print('AUC-ROC модели решающего дерева  на тестовой выборке:', auc_roc, 'при max_depth = 2')

В датафрейме hotel_profit создадим столбец с предсказаниями модели.

In [None]:
# Создадим столбец с предсказаниями в hotel_profit
predict = prediction_test.astype('int64')
hotel_profit['predict'] = prediction_test
hotel_profit.head(2)


In [None]:
# Изучим предсказания
hotel_profit['predict'].value_counts()

#### Расчет прибыли отеля при положительном сценарии

In [None]:
# создаем функцию для подсчета прибыли с каждого клиента после внедрения модели
def profit_after_ml(row):
    if row['is_canceled'] == 0 and row['predict'] == 1:
        if row['total_nights'] > 2: 
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service'] - int(row['total_nights']/2)*row['price_service']
        else:
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service']
    elif row['is_canceled'] == 1 and row['predict'] == 0:   
        return - row['price_room'] * row['seas_coef']
    elif row['is_canceled'] == 1 and row['predict'] == 1:
        return row['price_room'] * row['seas_coef'] * 0.8 + row['price_service']
    else:
        if row['total_nights'] > 2: 
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service'] - int(row['total_nights']/2)*row['price_service']
        else:
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service']

In [None]:
# Применяем функцию для подсчета прибыли с каждого клиента после внедрения модели
hotel_profit['profit_after_ml'] = hotel_profit.apply(profit_after_ml, axis=1)
print('Суммарна прибыль отеля после внедрения депозитов', hotel_profit['profit_after_ml'].sum())
print('Разница в прибыли отеля до и после внедрения депозитов', hotel_profit['profit_after_ml'].sum() 
      - hotel_profit['profit'].sum())

#### Расчет прибыли отеля при отрицательном сценарии

In [None]:
# создаем функцию для подсчета прибыли с каждого клиента после внедрения модели при отрицательном сценарии
# отрицательный - отток клиентов 75%
import random
def profit_after_ml_negative(row):
    var = random.choices([0, 1], weights=[25, 75])
    if row['is_canceled'] == 0 and row['predict'] == 1:
        if var == 0:
            if row['total_nights'] > 2: 
                return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service'] - int(row['total_nights']/2)*row['price_service']
            else:
                return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service']
        else:
            0
    elif row['is_canceled'] == 1 and row['predict'] == 0:   
        return - row['price_room'] * row['seas_coef']
    elif row['is_canceled'] == 1 and row['predict'] == 1:
        if var == 0:
            return row['price_room'] * row['seas_coef'] * 0.8 + row['price_service']
        else:
            0
    else:
        if row['total_nights'] > 2: 
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service'] - int(row['total_nights']/2)*row['price_service']
        else:
            return row['price_room'] * row['seas_coef'] * row['total_nights'] - row['price_service']

In [None]:
# Применяем функцию для подсчета прибыли с каждого клиента
hotel_profit['profit_after_ml_negative'] = hotel_profit.apply(profit_after_ml_negative, axis=1)
print('Суммарна прибыль отеля после внедрения депозитов при отрицательном сценарии', 
      hotel_profit['profit_after_ml_negative'].sum())
print('Разница в прибыли отеля до и после внедрения депозитов при отрицательном сценарии', 
      hotel_profit['profit_after_ml_negative'].sum() - hotel_profit['profit'].sum())

**Вывод:** 
- Суммарная прибыль от внедрения ML при положительном сценарии составила 57031804, при отрицательном 37787270;
- Разница в прибыли отеля до и после внедрения депозитов при положительном сценарии рублей 18837034, при отрицательном - убыток 407500 рублей. При этом бюджет на разработку модели ML - 400000 руб.

#### Срок окупаемости модели

Определим срок, за который модель окупила себя. 

In [None]:
# Определим начало срока внедрения модели
display(hotel_profit.loc[0])

Начало срока внедрения модели 1 января 2017 года.

In [None]:
display(hotel_train['arrival_date_year'].value_counts().to_frame())
display(hotel_test['arrival_date_year'].value_counts().to_frame())

Создадим переменную payback, которая будет показывать накопленный итог прибыли от внедрения ML. Переменная index покажет нам индекс(объект) на котором произошел факт окупаемости модели.

In [None]:
profit_after_ml = list(hotel_profit['profit_after_ml'])
profit = list(hotel_profit['profit'])
budget = 400000
profit_before = 0
profit_ml_opti = 0
payback = 0
index = 0
while payback <= budget:
    profit_before += profit[index]
    profit_ml_opti += profit_after_ml[index]
    payback = profit_ml_opti - profit_before
    index += 1
    
print('Первое значение, превышающее бюджет:', payback)
print('Индекс объекта, на котором модель окупилась при положительном сценарии:', index)

In [None]:
display(hotel_profit.loc[420])

Дата окупаемости модели 10 марта 2017 года, то есть время окупаемости модели при положительном сценарии - 2 месяца.

- Для положительного сценария - предложение о внесениии депозита не влечет отток клиентов суммарная прибыль за весь период 18.8 млн. руб, срок окупаемости - 2 месяца 10 дней;
- Для отрицательного сценария - предложение внесения депозита влечёт отток 75% клиентов, что влечет убыток 407500 рублей.

### Портрет «ненадёжного» клиента

In [None]:
# Определим долю отказов от брони в зависимости от количества подтверждённых заказов у клиента 
hotel_test_previous_cancel = hotel_test.groupby('previous_cancellations')['is_canceled']\
.agg(['mean', 'count']).sort_values('mean', ascending=False)
display('Доля отказов от брони в зависимости от количества подтверждённых заказов у клиента ', hotel_test_previous_cancel)

- Клиенты, которые бронируют номер впервые, имеют самый высокий процент отказов от брони 39%;
- Клиенты, которые имеют 3-4 бронирования, отказоватся от брони в 30-33%, однако таких клиетов всего 16;
- Бронирующие 5-ый и 6-ый раз отказов от брони не имеют.

In [None]:
hotel_test_lead_time = hotel_test.groupby('lead_time')['is_canceled'].agg(['mean', 'count'])\
.reset_index().sort_values('lead_time', ascending=True)
display('Увеличение вероятности отказа от брони с увеличением времени между бронированием из заездом:',
        hotel_test_lead_time.head(10))
print('')
display('Значение lead_time при вероятности от отказа от брони больше 50%:', hotel_test_lead_time.query('mean > 0.5'))

- Чем меньше срок между датой бронирования и датой заезда, тем выше вероятность того, что клиент не отменит бронь;
- При бронировании менее чем за 7 дней означает, что клиент заселится с вероятностью 90%;
- При количестве более 28 дней между датой бронирования и датой заезда вероятность отказа от брони составляет более 50%.

**Портрет ненадежного клиента:**
- Бронирует номер впервые; 
- Бронирует за срок более 28 дней до даты заезда - вероятность отказа от брони составляет более 50%;
- Бронирует за срок более 365 дней до даты заезда - вероятность отказа от брони составляет 100%.

### Вывод

- Суммарная прибыль от внедрения ML при положительном сценарии составила 18837034, при отрицательном - имеем убыток 407500 рублей;
- Перед внедрением модели необходимо провести A/B тест на отток клиентов при предложении о внесении депозита при бронировании номера. Рекомендумый отток - не более 25-30%;
- Для положительного сценария - предложение о внесениии депозита не влечет отток клиентов срок окупаемости - 2 месяца 10 дней, при отрицательном - убыток;
- Надежными клиентами являются:
-- бронируют номер второй и третий раз (и более);
-- Самые надежные клиенты бронирует за срок менее 7 дней до даты заезда.