In [None]:
import random

import matplotlib.pyplot as plt
import numpy as np
import optuna
import pandas as pd
import seaborn as sns
from catboost import CatBoostClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import StratifiedKFold, cross_val_score, train_test_split
from sklearn.preprocessing import OneHotEncoder
from tqdm.notebook import tqdm

random.seed(0)
np.random.seed(0)


df_train = pd.read_excel("data/train.xlsx")
df_test = pd.read_excel("data/test.xlsx")

In [None]:
df_train

Unnamed: 0.1,Unnamed: 0,№ брони,Номеров,Стоимость,Внесена предоплата,Способ оплаты,Дата бронирования,Дата отмены,Заезд,Ночей,Выезд,Источник,Статус брони,Категория номера,Гостей,Гостиница
0,0,20230428-6634-194809261,1,25700.0,0,Внешняя система оплаты,2023-04-20 20:37:30,2023-04-20 20:39:15,2023-04-28 15:00:00,3,2023-05-01 12:00:00,Яндекс.Путешествия,Отмена,Номер «Стандарт»,2,1
1,1,20220711-6634-144460018,1,24800.0,12400,Отложенная электронная оплата: Банк Россия (ба...,2022-06-18 14:17:02,NaT,2022-07-11 15:00:00,2,2022-07-13 12:00:00,Официальный сайт,Активный,Номер «Стандарт»,2,1
2,2,20221204-16563-171020423,1,25800.0,12900,Банк. карта: Банк Россия (банк. карта),2022-11-14 22:59:30,NaT,2022-12-04 15:00:00,2,2022-12-06 12:00:00,Официальный сайт,Активный,Номер «Студия»,2,4
3,3,20230918-7491-223512699,1,10500.0,0,Внешняя система оплаты (С предоплатой),2023-09-08 15:55:53,NaT,2023-09-18 15:00:00,1,2023-09-19 12:00:00,Bronevik.com(new),Активный,Номер «Стандарт»,1,3
4,4,20230529-6634-200121971,1,28690.0,28690,Система быстрых платежей: Эквайринг ComfortBoo...,2023-05-20 19:54:13,NaT,2023-05-29 15:00:00,2,2023-05-31 12:00:00,Официальный сайт,Активный,Номер «Люкс»,4,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26169,26169,20230310-7492-177993190,1,18240.0,9120,Банк. карта: Банк Россия (банк. карта),2023-01-07 17:45:18,NaT,2023-03-10 15:00:00,2,2023-03-12 12:00:00,Официальный сайт,Активный,Номер «Стандарт»,2,2
26170,26170,20230625-16563-206126520,1,69600.0,23200,Банк. карта: Банк Россия (банк. карта),2023-06-20 17:54:17,NaT,2023-06-25 15:00:00,3,2023-06-28 12:00:00,Официальный сайт,Активный,Номер «Студия»,3,4
26171,26171,20220624-7492-137587082,1,55600.0,13900,Банк. карта: Банк Россия (банк. карта),2022-05-08 19:24:05,NaT,2022-06-24 15:00:00,4,2022-06-28 12:00:00,Официальный сайт,Активный,Номер «Стандарт»,2,2
26172,26172,20220427-7491-125459150,1,6300.0,0,Гарантия банковской картой,2022-02-19 09:55:50,2022-04-16 23:14:35,2022-04-27 15:00:00,1,2022-04-28 12:00:00,booking.com,Отмена,Номер «Стандарт»,2,3


In [None]:
def prepare_df(df):
    df = df.copy()
    df = df.drop(["Unnamed: 0", "№ брони"], axis=1)
    df["Дата бронирования"] = pd.to_datetime(df["Дата бронирования"])
    df["Заезд"] = pd.to_datetime(df["Заезд"])
    df["Выезд"] = pd.to_datetime(df["Выезд"])
    return df


def create_date_features(df, prefix):
    df = df.copy()
    df[prefix + "_month"] = df[prefix].dt.month.astype("int8")
    df[prefix + "_day_of_month"] = df[prefix].dt.day.astype("int8")
    df[prefix + "_day_of_year"] = df[prefix].dt.dayofyear.astype("int16")
    df[prefix + "_week_of_month"] = (
        df[prefix].apply(lambda d: (d.day - 1) // 7 + 1)
    ).astype("int8")
    df[prefix + "_week_of_year"] = (df[prefix].dt.isocalendar().week).astype("int8")
    df[prefix + "_day_of_week"] = (df[prefix].dt.dayofweek + 1).astype("int8")
    df[prefix + "_year"] = df[prefix].dt.year.astype("int32")
    df[prefix + "_is_wknd"] = (df[prefix].dt.weekday // 4).astype("int8")
    df[prefix + "_season"] = np.where(df[prefix + "_month"].isin([12, 1, 2]), 0, 1)
    df[prefix + "_season"] = np.where(
        df[prefix + "_month"].isin([6, 7, 8]), 2, df[prefix + "_season"]
    )
    df[prefix + "_season"] = pd.Series(
        np.where(df[prefix + "_month"].isin([9, 10, 11]), 3, df[prefix + "_season"])
    ).astype("int8")
    return df


def create_diff_features(df, prefix1, prefix2):
    df = df.copy()
    df[prefix1 + "_" + prefix2 + "_diff_in_days"] = (df[prefix1] - df[prefix2]).dt.days
    df[prefix1 + "_" + prefix2 + "_diff_in_weeks"] = (
        df[prefix1 + "_" + prefix2 + "_diff_in_days"] / 7
    )
    df[prefix1 + "_" + prefix2 + "_diff_in_hours"] = (
        df[prefix1] - df[prefix2]
    ).dt.total_seconds() / 3600
    return df


def create_payment_method_features(df):
    df = df.copy()
    df["SberPay"] = df["Способ оплаты"].apply(lambda x: int("SberPay" in x))
    df["Yandex Pay"] = df["Способ оплаты"].apply(lambda x: int("Yandex Pay" in x))
    df["МИР"] = df["Способ оплаты"].apply(lambda x: int("МИР" in x))
    df["ComfortBooking"] = df["Способ оплаты"].apply(lambda x: int("ComfortBooking" in x))
    df["TravelLine Pro"] = df["Способ оплаты"].apply(lambda x: int("TravelLine Pro" in x))
    df["Банк Россия"] = df["Способ оплаты"].apply(lambda x: int("Банк Россия" in x))
    df["Внешняя система оплаты"] = df["Способ оплаты"].apply(
        lambda x: int("Внешняя система оплаты" in x)
    )
    df["Банковская карта"] = df["Способ оплаты"].apply(
        lambda x: int(
            "Банковская карта" in x
            or "Банк. карта".lower() in x.lower()
            or "банковской картой".lower() in x.lower()
        )
    )
    df["Оплата наличными"] = df["Способ оплаты"].apply(
        lambda x: int("Оплата наличными" in x)
    )
    df["С предоплатой"] = df["Способ оплаты"].apply(lambda x: int("С предоплатой" in x))
    df["СБП"] = df["Способ оплаты"].apply(lambda x: int("Система быстрых платежей" in x))

    df["Отложенная электронная оплата"] = df["Способ оплаты"].apply(
        lambda x: int("Отложенная электронная оплата" in x)
    )

    df["Гарантия банковской картой"] = df["Способ оплаты"].apply(
        lambda x: int("Гарантия банковской картой" in x)
    )

    df["При заселении"] = df["Способ оплаты"].apply(lambda x: int("При заселении" in x))

    return df


def clear_source_column(text):
    # good
    mapping = [
        "Официальный сайт",
        "Бронирование из экстранета",
        "Яндекс.Путешествия",
        "ostrovok",
        "booking",
        "Программа лояльности",
        "Bronevik",
        "OneTwoTrip",
    ]

    for map_ in mapping:
        if map_.lower() in text.lower():
            return map_
    return "other"


def clear_category(text):
    # good
    if "\n" in text:
        text = text.split("\n")
        text = text[0]
    text = text.strip("1. ")
    return text


def add_some_exciting_stuff(col):
    if col.month in [2, 3, 4] and col.year == 2022:
        return 1
    if col.month == 9 and col.year == 2022:
        return 1
    if col.month == 7 and col.year == 2023:
        return 1
    return 0

In [None]:
def preprocess_df(df):
    df = df.copy()
    df = prepare_df(df)
    df = create_date_features(df, "Дата бронирования")
    df = create_date_features(df, "Заезд")
    df = create_date_features(df, "Выезд")
    df = create_diff_features(df, "Заезд", "Дата бронирования")
    df = create_diff_features(df, "Выезд", "Заезд")

    df = create_payment_method_features(df)

    # df["Источник"] = df["Источник"].apply(clear_source_column)

    df["Категория multiple selection"] = df["Категория номера"].apply(
        lambda x: int("\n" in x)
    )

    # df["Категория номера"] = df["Категория номера"].apply(clear_category)

    # other features

    df["Стоимость за ночь"] = df["Стоимость"] / df["Ночей"]
    df["Внесена предоплата binary"] = df.apply(
        lambda x: int(x["Внесена предоплата"] != 0), axis=1
    )

    df["Предоплата умноженная на время до прибытия"] = (
        df["Внесена предоплата"] * df["Заезд_Дата бронирования_diff_in_days"]
    )

    df["Процент предоплата от стоимости"] = df["Внесена предоплата"] / df["Стоимость"]
    df["Гостей на номер"] = df["Гостей"] / df["Номеров"]

    df["Стоимость на гостя"] = df["Стоимость"] / df["Гостей"]
    df["Стоимость за номер"] = df["Стоимость"] / df["Номеров"]
    df["Стоимость за ночь 1 номер"] = df["Стоимость"] / df["Ночей"] / df["Номеров"]
    df["Стоимость за ночь 1 гостя"] = df["Стоимость"] / df["Ночей"] / df["Гостей"]
    df["Гостей на номер"] = df["Гостей"] / df["Номеров"]
    df["Бронирование утром"] = df["Дата бронирования"].apply(
        lambda x: (
            1
            if x.time() >= pd.Timestamp("05:00:00").time()
            and x.time() < pd.Timestamp("11:00:00").time()
            else 0
        )
    )
    df["Бронирование вечером"] = df["Дата бронирования"].apply(
        lambda x: (
            1
            if x.time() >= pd.Timestamp("17:00:00").time()
            and x.time() < pd.Timestamp("23:00:00").time()
            else 0
        )
    )
    df["Бронирование ночью"] = df["Дата бронирования"].apply(
        lambda x: (
            1
            if x.time() >= pd.Timestamp("23:00:00").time()
            or x.time() < pd.Timestamp("05:00:00").time()
            else 0
        )
    )

    df["Заезд_top_cancels"] = df["Заезд"].apply(add_some_exciting_stuff)
    df["Выезд_top_cancels"] = df["Выезд"].apply(add_some_exciting_stuff)
    df["Дата бронирования"] = df["Дата бронирования"].apply(add_some_exciting_stuff)

    return df

In [None]:
df_train = preprocess_df(df_train)
df_test = preprocess_df(df_test)

In [None]:
df_train

Unnamed: 0,Номеров,Стоимость,Внесена предоплата,Способ оплаты,Дата бронирования,Дата отмены,Заезд,Ночей,Выезд,Источник,...,Гостей на номер,Стоимость на гостя,Стоимость за номер,Стоимость за ночь 1 номер,Стоимость за ночь 1 гостя,Бронирование утром,Бронирование вечером,Бронирование ночью,Заезд_top_cancels,Выезд_top_cancels
0,1,25700.0,0,Внешняя система оплаты,0,2023-04-20 20:39:15,2023-04-28 15:00:00,3,2023-05-01 12:00:00,Яндекс.Путешествия,...,2.0,12850.0,25700.0,8566.666667,4283.333333,0,1,0,0,0
1,1,24800.0,12400,Отложенная электронная оплата: Банк Россия (ба...,0,NaT,2022-07-11 15:00:00,2,2022-07-13 12:00:00,Официальный сайт,...,2.0,12400.0,24800.0,12400.000000,6200.000000,0,0,0,0,0
2,1,25800.0,12900,Банк. карта: Банк Россия (банк. карта),0,NaT,2022-12-04 15:00:00,2,2022-12-06 12:00:00,Официальный сайт,...,2.0,12900.0,25800.0,12900.000000,6450.000000,0,1,0,0,0
3,1,10500.0,0,Внешняя система оплаты (С предоплатой),0,NaT,2023-09-18 15:00:00,1,2023-09-19 12:00:00,Bronevik.com(new),...,1.0,10500.0,10500.0,10500.000000,10500.000000,0,0,0,0,0
4,1,28690.0,28690,Система быстрых платежей: Эквайринг ComfortBoo...,0,NaT,2023-05-29 15:00:00,2,2023-05-31 12:00:00,Официальный сайт,...,4.0,7172.5,28690.0,14345.000000,3586.250000,0,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26169,1,18240.0,9120,Банк. карта: Банк Россия (банк. карта),0,NaT,2023-03-10 15:00:00,2,2023-03-12 12:00:00,Официальный сайт,...,2.0,9120.0,18240.0,9120.000000,4560.000000,0,1,0,0,0
26170,1,69600.0,23200,Банк. карта: Банк Россия (банк. карта),0,NaT,2023-06-25 15:00:00,3,2023-06-28 12:00:00,Официальный сайт,...,3.0,23200.0,69600.0,23200.000000,7733.333333,0,1,0,0,0
26171,1,55600.0,13900,Банк. карта: Банк Россия (банк. карта),0,NaT,2022-06-24 15:00:00,4,2022-06-28 12:00:00,Официальный сайт,...,2.0,27800.0,55600.0,13900.000000,6950.000000,0,1,0,0,0
26172,1,6300.0,0,Гарантия банковской картой,1,2022-04-16 23:14:35,2022-04-27 15:00:00,1,2022-04-28 12:00:00,booking.com,...,2.0,3150.0,6300.0,6300.000000,3150.000000,1,0,0,1,1


In [None]:
# drops
df_train = df_train.drop(["Дата бронирования", "Заезд", "Выезд"], axis=1)
df_test = df_test.drop(["Дата бронирования", "Заезд", "Выезд"], axis=1)

In [None]:
df_train["target"] = df_train["Дата отмены"].apply(lambda x: int(pd.notna(x)))
df_train = df_train.drop(["Дата отмены", "Статус брони"], axis=1)

In [None]:
df_train

Unnamed: 0,Номеров,Стоимость,Внесена предоплата,Способ оплаты,Ночей,Источник,Категория номера,Гостей,Гостиница,Дата бронирования_month,...,Стоимость на гостя,Стоимость за номер,Стоимость за ночь 1 номер,Стоимость за ночь 1 гостя,Бронирование утром,Бронирование вечером,Бронирование ночью,Заезд_top_cancels,Выезд_top_cancels,target
0,1,25700.0,0,Внешняя система оплаты,3,Яндекс.Путешествия,Номер «Стандарт»,2,1,4,...,12850.0,25700.0,8566.666667,4283.333333,0,1,0,0,0,1
1,1,24800.0,12400,Отложенная электронная оплата: Банк Россия (ба...,2,Официальный сайт,Номер «Стандарт»,2,1,6,...,12400.0,24800.0,12400.000000,6200.000000,0,0,0,0,0,0
2,1,25800.0,12900,Банк. карта: Банк Россия (банк. карта),2,Официальный сайт,Номер «Студия»,2,4,11,...,12900.0,25800.0,12900.000000,6450.000000,0,1,0,0,0,0
3,1,10500.0,0,Внешняя система оплаты (С предоплатой),1,Bronevik.com(new),Номер «Стандарт»,1,3,9,...,10500.0,10500.0,10500.000000,10500.000000,0,0,0,0,0,0
4,1,28690.0,28690,Система быстрых платежей: Эквайринг ComfortBoo...,2,Официальный сайт,Номер «Люкс»,4,1,5,...,7172.5,28690.0,14345.000000,3586.250000,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26169,1,18240.0,9120,Банк. карта: Банк Россия (банк. карта),2,Официальный сайт,Номер «Стандарт»,2,2,1,...,9120.0,18240.0,9120.000000,4560.000000,0,1,0,0,0,0
26170,1,69600.0,23200,Банк. карта: Банк Россия (банк. карта),3,Официальный сайт,Номер «Студия»,3,4,6,...,23200.0,69600.0,23200.000000,7733.333333,0,1,0,0,0,0
26171,1,55600.0,13900,Банк. карта: Банк Россия (банк. карта),4,Официальный сайт,Номер «Стандарт»,2,2,5,...,27800.0,55600.0,13900.000000,6950.000000,0,1,0,0,0,0
26172,1,6300.0,0,Гарантия банковской картой,1,booking.com,Номер «Стандарт»,2,3,2,...,3150.0,6300.0,6300.000000,3150.000000,1,0,0,1,1,1


In [None]:
X_train = df_train.drop("target", axis=1)
y_train = df_train["target"]

In [None]:
SEARCH_BEST_PARAMS = True
N_TRIALS = 30
CAT_FEATURES = ["Способ оплаты", "Источник", "Категория номера"]
RANDOM_SEED = 42
EVAL_METRIC = "AUC"
EARLY_STOPPING = 50

In [None]:
# catboost is good on defaults
models_list = []
scores_list = []
y_pred = np.zeros(df_test.shape[0])
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=0)
for i, (train_index, test_index) in enumerate(splitter.split(X_train, y_train)):
    X_fold_train, y_fold_train = X_train.iloc[train_index], y_train.iloc[train_index]
    X_fold_test, y_fold_test = X_train.iloc[test_index], y_train.iloc[test_index]

    model = CatBoostClassifier(
        cat_features=CAT_FEATURES,
        verbose=0,
        eval_metric=EVAL_METRIC,
        early_stopping_rounds=EARLY_STOPPING,
    )

    model.fit(X_fold_train, y_fold_train, eval_set=(X_fold_test, y_fold_test))

    preds = model.predict_proba(X_fold_test)[:, 1]
    score = roc_auc_score(y_fold_test, preds)

    models_list.append(model)
    scores_list.append(score)

np.mean(scores_list), np.std(scores_list)

(0.8627034580046269, 0.014790056605410043)

In [None]:
y_pred = np.zeros(df_test.shape[0])
for model in models_list:
    y_pred += model.predict_proba(df_test)[:, 1]

y_pred = y_pred / len(models_list)

submission = pd.DataFrame(y_pred)

In [None]:
submission.to_csv("catboost_10x_kfold.csv", index=False, header=False)