## Загрузка данных

In [1]:
# imports
import pandas as pd
import numpy as np
import warnings

from scipy.stats import randint, uniform, loguniform

from sklearn.metrics import mean_absolute_percentage_error, make_scorer

# Импорт бустинг моделей
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from catboost import CatBoostRegressor

from sklearn.model_selection import RandomizedSearchCV
from optuna.integration import OptunaSearchCV
from optuna.distributions import (
    IntDistribution,
    FloatDistribution,
    CategoricalDistribution
)

warnings.filterwarnings("ignore")
RANDOM_STATE = 42

In [2]:
df = pd.read_csv('data/train_df_processed.csv')
test_df = pd.read_csv('data/test_df_processed.csv')

In [3]:
df = df.drop(['negative_review', 'positive_review'], axis=1)
test_df = test_df.drop(['negative_review', 'positive_review'], axis=1)

In [4]:
# Приводим столбцы в тренировочном датасете к нужному типу данных
df['hotel'] = df['hotel'].astype('category')
df['nationality'] = df['nationality'].astype('category')
# df['negative_review'] = df['negative_review'].astype('category')
# df['positive_review'] = df['positive_review'].astype('category')
df['room_type'] = df['room_type'].astype('category')
df['neg_words_supremacy'] = df['neg_words_supremacy'].astype('category')
df['negative_words_level'] = df['negative_words_level'].astype('category')
df['positive_words_level'] = df['positive_words_level'].astype('category')

# Приводим столбцы в тестовом датасете к нужному типу данных
test_df['hotel'] = test_df['hotel'].astype('category')
test_df['nationality'] = test_df['nationality'].astype('category')
# test_df['negative_review'] = test_df['negative_review'].astype('category')
# test_df['positive_review'] = test_df['positive_review'].astype('category')
test_df['room_type'] = test_df['room_type'].astype('category')
test_df['neg_words_supremacy'] = test_df['neg_words_supremacy'].astype('category')
test_df['negative_words_level'] = test_df['negative_words_level'].astype('category')
test_df['positive_words_level'] = test_df['positive_words_level'].astype('category')

In [5]:
df

Unnamed: 0,hotel,nationality,negative_words,positive_words,score,room_type,neg_words_supremacy,negative_words_level,positive_words_level,neg_emb_0,...,pos_emb_374,pos_emb_375,pos_emb_376,pos_emb_377,pos_emb_378,pos_emb_379,pos_emb_380,pos_emb_381,pos_emb_382,pos_emb_383
0,DoubleTree by Hilton Hotel Amsterdam NDSM Wharf,United Kingdom,72,8,5.4,Queen Guest Room,1,high,low,0.111875,...,0.003499,-0.034653,0.072383,-0.068565,0.034695,0.019853,-0.056844,0.074358,-0.019810,0.024010
1,Savoy Hotel Amsterdam,Malaysia,246,41,9.6,Small Double Room,1,high,medium,-0.027750,...,-0.016239,-0.042260,-0.006036,-0.068295,0.054654,0.061459,-0.069949,0.080897,-0.061726,-0.000725
2,Park Plaza London Riverbank,United Kingdom,19,19,8.8,Superior Double Room,0,low,low,-0.035926,...,0.020517,-0.023033,-0.001112,-0.037664,-0.060729,0.010848,-0.002766,0.033906,-0.087954,0.012728
3,Palais Hansen Kempinski Vienna,Oman,14,5,10.0,Deluxe Room,1,low,low,0.097325,...,0.053358,-0.020078,0.011318,-0.036765,-0.036699,0.035903,0.041382,0.018639,-0.035176,-0.018116
4,Catalonia Rigoletto,United Kingdom,3,11,9.2,Double or Twin Room,0,low,low,0.021399,...,0.033587,-0.007088,-0.033884,-0.033954,0.028009,0.042729,-0.058378,0.043012,-0.118208,-0.001249
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
412231,Club Quarters Hotel Gracechurch,Belgium,24,75,9.2,Small Queen Room,0,medium,high,0.039385,...,0.044912,-0.030172,-0.064020,-0.021408,-0.006535,0.033763,-0.016571,0.024088,-0.091079,-0.017942
412232,Park Plaza Westminster Bridge London,United Kingdom,4,17,10.0,Studio Triple,0,low,low,0.011003,...,-0.034230,-0.042644,-0.018702,-0.031137,0.003412,0.079799,-0.007682,0.009514,-0.125799,0.057882
412233,Park Lane Mews Hotel,United Kingdom,21,6,7.9,Double Room,1,medium,low,0.038488,...,-0.012825,-0.000968,-0.043968,-0.028772,0.002709,0.110998,-0.020277,0.001680,-0.044005,-0.019195
412234,Apex City Of London Hotel,United Kingdom,29,41,8.3,City King or Twin Room,0,medium,medium,0.150037,...,-0.016179,0.015856,0.031650,-0.041058,0.067891,0.002688,-0.043957,0.047086,0.022394,0.001818


## Подготовка данных

In [6]:
num_cols = ['negative_words', 'positive_words']
cat_cols = ['neg_words_supremacy', 'negative_words_level', 'positive_words_level']
label_cols = ['hotel', 'nationality', 'room_type']

catboost_col_names = cat_cols + label_cols

In [7]:
# Функция для метрики MAPE
# def mape(y_true, y_pred):
#     y_true, y_pred = np.array(y_true), np.array(y_pred)
#     return np.mean(np.abs((y_true - y_pred) / np.maximum(np.ones(len(y_true)), np.abs(y_true)))) * 100
def mape(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / (y_true + 1e-6))) * 100


mape_custom_score = make_scorer(mape, greater_is_better=False)

In [8]:
X_train = df.drop('score', axis=1)
y_train = df['score']

In [9]:
predictions = pd.DataFrame({
    'id': range(len(test_df)),
})
predictions

Unnamed: 0,id
0,0
1,1
2,2
3,3
4,4
...,...
103143,103143
103144,103144
103145,103145
103146,103146


## Обучение CatBoost

### CatBoost OptunaSearchCV

In [16]:
# Расширенная сетка гиперпараметров
catboost_optuna_params = {
    # Основные параметры
    'iterations': IntDistribution(50, 1000, step=50),  # Увеличенный диапазон
    'learning_rate': FloatDistribution(0.001, 0.3, log=True),  # Более широкий диапазон
    'depth': IntDistribution(4, 12),  # Расширенная глубина деревьев

    # Регуляризация
    'l2_leaf_reg': FloatDistribution(1e-8, 100, log=True),  # Более широкий диапазон
    'random_strength': FloatDistribution(1e-8, 10, log=True),  # Сила случайности

    # Управление бэггингом
    'bagging_temperature': FloatDistribution(0.0, 1.0),  # Температура бэггинга
    'subsample': FloatDistribution(0.5, 1.0),  # Аналогично subsample в LightGBM
    'colsample_bylevel': FloatDistribution(0.5, 1.0),  # Аналог colsample_bytree

    # Дополнительные параметры
    'min_data_in_leaf': IntDistribution(1, 20),  # Минимальное количество объектов в листе
    'max_bin': IntDistribution(64, 512),  # Количество бинов для числовых признаков
    'one_hot_max_size': IntDistribution(2, 16),  # Размер для one-hot кодирования категориальных признаков

    # Стратегии роста деревьев
    'grow_policy': CategoricalDistribution(['SymmetricTree', 'Depthwise', 'Lossguide']),

    # Параметры оценки листьев
    'leaf_estimation_iterations': IntDistribution(1, 10),  # Итерации для оценки листьев
    'leaf_estimation_method': CategoricalDistribution(['Newton', 'Gradient']),  # Метод оптимизации

    # Автоматическая балансировка (для классификации, но можно тестировать)
    # 'auto_class_weights': CategoricalDistribution(['None', 'Balanced', 'SqrtBalanced']),

    # Управление категориальными признаками
    'ctr_leaf_count_limit': IntDistribution(10, 1000),  # Ограничение на количество категорий
    'has_time': CategoricalDistribution([True, False]),  # Учет временного фактора

    # Ранняя остановка
    'early_stopping_rounds': IntDistribution(10, 100)  # Добавлена ранняя остановка
}

In [17]:
# Используем OptunaSearchCV
catboost_optuna = OptunaSearchCV(
    # estimator=CatBoostRegressor(),
    estimator=CatBoostRegressor(
        random_state=RANDOM_STATE,
        verbose=False,  # Отключаем вывод логов CatBoost
        thread_count=-1,  # Используем все доступные ядра
    ),
    param_distributions=catboost_optuna_params,
    scoring=mape_custom_score,  # Метрика для оптимизации
    n_trials=15,  # Количество испытаний
    cv=5,  # Кросс-валидация
    n_jobs=-1,  # Использование всех ядер
    verbose=0,
)

  catboost_optuna = OptunaSearchCV(


In [None]:
# Запускаем поиск гиперпараметров
catboost_optuna.fit(X_train, y_train, cat_features=catboost_col_names)

[I 2025-05-09 00:12:12,398] A new study created in memory with name: no-name-72cadddb-86d9-4408-9bc1-637d0934fc06


In [None]:
# Выводим лучшую оценку
catboost_optuna.best_score_

In [None]:
# Предсказываем таргет
predictions['catboost_optuna_pred'] = catboost_optuna.predict(test_df)

### CatBoost RandomSearchCV

In [16]:
# Сетка гиперпараметров для CatBoost с RandomizedSearchCV
catboost_rs_params = {
    # Основные параметры
    'iterations': randint(50, 1000),  # Количество итераций
    'learning_rate': loguniform(0.001, 0.3),  # Скорость обучения
    'depth': randint(4, 12),  # Глубина деревьев

    # Регуляризация
    'l2_leaf_reg': loguniform(1e-8, 100),  # L2-регуляризация
    'random_strength': loguniform(1e-8, 10),  # Сила случайности

    # Управление бэггингом
    'bagging_temperature': uniform(0.0, 1.0),  # Температура бэггинга
    'subsample': uniform(0.5, 0.5),  # Доля данных для обучения
    'colsample_bylevel': uniform(0.5, 0.5),  # Доля признаков на уровень

    # Дополнительные параметры
    'min_data_in_leaf': randint(1, 20),  # Мин. объектов в листе
    'max_bin': randint(64, 512),  # Число бинов
    'one_hot_max_size': randint(2, 16),  # Размер one-hot кодирования

    # Стратегии роста деревьев
    'grow_policy': ['SymmetricTree', 'Depthwise', 'Lossguide'],  # Стратегия роста

    # Параметры оценки листьев
    'leaf_estimation_iterations': randint(1, 10),  # Итерации оценки листьев
    'leaf_estimation_method': ['Newton', 'Gradient'],  # Метод оценки

    # Управление категориальными признаками
    'ctr_leaf_count_limit': randint(10, 1000),  # Ограничение на количество категорий
    'has_time': [True, False],  # Учет временного фактора

    # Ранняя остановка
    'early_stopping_rounds': randint(10, 100)  # Количество итераций для остановки
}

In [17]:
# Используем OptunaSearchCV
catboost_rs = OptunaSearchCV(
    # estimator=CatBoostRegressor(),
    estimator=CatBoostRegressor(
        random_state=RANDOM_STATE,
        verbose=False,  # Отключаем вывод логов CatBoost
        thread_count=-1,  # Используем все доступные ядра
    ),
    param_distributions=catboost_rs_params,
    scoring=mape_custom_score,  # Метрика для оптимизации
    n_trials=15,  # Количество испытаний
    cv=5,  # Кросс-валидация
    n_jobs=-1,  # Использование всех ядер
    verbose=0,
)

  catboost_optuna = OptunaSearchCV(


In [None]:
# Запускаем поиск гиперпараметров
catboost_rs.fit(X_train, y_train, cat_features=catboost_col_names)

[I 2025-05-09 00:12:12,398] A new study created in memory with name: no-name-72cadddb-86d9-4408-9bc1-637d0934fc06


In [None]:
# Выводим лучшую оценку
catboost_rs.best_score_

In [None]:
# Предсказываем таргет
predictions['catboost_rs_pred'] = catboost_rs.predict(test_df)

## Обучение LightGBM

### LGBM OptunaSearchCV

In [19]:
# Расширенная сетка гиперпараметров для LightGBM
lgbm_optuna_params = {
    # Основные параметры
    'num_leaves': IntDistribution(20, 400),  # Количество листьев в дереве
    'max_depth': IntDistribution(3, 10),  # Максимальная глубина деревьев
    'min_child_samples': IntDistribution(5, 200),  # Мин. количество объектов в листе
    'min_child_weight': FloatDistribution(1e-3, 10),  # Вес для ограничения разделения узла

    # Скорость обучения
    'learning_rate': FloatDistribution(0.005, 0.3, log=True),  # Широкий диапазон

    # Регуляризация
    'lambda_l1': FloatDistribution(1e-5, 10, log=True),  # L1-регуляризация
    'lambda_l2': FloatDistribution(1e-5, 10, log=True),  # L2-регуляризация
    'min_gain_to_split': FloatDistribution(1e-3, 10),  # Мин. улучшение для разделения

    # Подвыборка
    'subsample': FloatDistribution(0.4, 1.0),  # Доля данных для обучения
    'subsample_freq': IntDistribution(0, 5),  # Частота бэггинга
    'colsample_bytree': FloatDistribution(0.4, 1.0),  # Доля признаков на дерево

    # Число деревьев
    'n_estimators': IntDistribution(50, 1000),  # Количество итераций

    # Дополнительные параметры
    'max_bin': IntDistribution(64, 1024),  # Количество бинов для числовых признаков
    'cat_smooth': FloatDistribution(1.0, 100.0),  # Гладкость для категориальных признаков
    'cat_l2': FloatDistribution(1e-8, 10),  # L2-регуляризация для категориальных

    # Стратегии построения деревьев
    'boosting_type': CategoricalDistribution(['gbdt', 'dart', 'goss']),  # Тип бустинга

    # Другие параметры
    # 'early_stopping_rounds': IntDistribution(10, 50),  # Ранняя остановка
    'feature_fraction_bynode': FloatDistribution(0.1, 1.0)  # Доля признаков на узел
}

In [20]:
# Настройка Optuna
lgbm_optuna = OptunaSearchCV(
    estimator=LGBMRegressor(
        objective='regression',
        metric='mape',
        boosting_type='gbdt',
        random_state=RANDOM_STATE,
        verbosity=-1,
    ),
    param_distributions=lgbm_optuna_params,
    scoring=mape_custom_score,  # Для регрессии
    n_trials=5,  # Количество испытаний
    cv=5,  # Кросс-валидация
    n_jobs=-1,  # Параллельные вычисления
    verbose=0
)

  lgbm_optuna = OptunaSearchCV(


In [None]:
# Обучаем модель
lgbm_optuna.fit(X_train, y_train)

[I 2025-05-09 07:05:53,686] A new study created in memory with name: no-name-31265dfb-d8f3-4205-be71-7f425c788317


In [14]:
# Выводим лучшую оценку
lgbm_optuna.best_score_

-10.986916639141024

In [15]:
# Предсказываем таргет
predictions['lgbm_optuna_pred'] = lgbm_optuna.predict(test_df)

### LGBM RandomSearchCV

In [10]:
# Расширенная сетка гиперпараметров для RandomizedSearchCV
lgbm_rs_params = {
    # Основные параметры
    'num_leaves': randint(20, 400),  # Количество листьев в дереве
    'max_depth': randint(3, 10),  # Максимальная глубина деревьев
    'min_child_samples': randint(5, 200),  # Мин. количество объектов в листе
    'min_child_weight': loguniform(1e-3, 10),  # Вес для ограничения разделения узла

    # Скорость обучения
    'learning_rate': loguniform(0.005, 0.3),  # Широкий диапазон

    # Регуляризация
    'reg_alpha': loguniform(1e-5, 10),  # L1-регуляризация (аналог lambda_l1)
    'reg_lambda': loguniform(1e-5, 10),  # L2-регуляризация (аналог lambda_l2)
    'min_gain_to_split': loguniform(1e-3, 10),  # Мин. улучшение для разделения

    # Подвыборка
    'subsample': uniform(0.4, 0.6),  # Доля данных для обучения
    'subsample_freq': randint(0, 5),  # Частота бэггинга
    'colsample_bytree': uniform(0.4, 0.6),  # Доля признаков на дерево

    # Число деревьев
    'n_estimators': randint(50, 1000),  # Количество итераций

    # Дополнительные параметры
    'max_bin': randint(64, 1024),  # Количество бинов для числовых признаков
    'cat_smooth': loguniform(1.0, 100.0),  # Гладкость для категориальных признаков
    'cat_l2': loguniform(1e-8, 10),  # L2-регуляризация для категориальных

    # Стратегии построения деревьев
    'boosting_type': ['gbdt', 'dart', 'goss'],  # Тип бустинга

    # Другие параметры
    # 'early_stopping_rounds': randint(10, 50),  # Ранняя остановка
    'feature_fraction_bynode': loguniform(0.1, 1.0)  # Доля признаков на узел
}

In [14]:
# Настройка Optuna
lgbm_rs = RandomizedSearchCV(
    estimator=LGBMRegressor(
        objective='regression',
        metric='mape',
        boosting_type='gbdt',
        random_state=RANDOM_STATE,
        verbosity=-1,
    ),
    param_distributions=lgbm_rs_params,
    scoring=mape_custom_score,  # Для регрессии
    n_iter=15,  # Количество испытаний
    cv=None,  # Кросс-валидация
    n_jobs=4,  # Параллельные вычисления
    verbose=0
)

In [15]:
# Обучаем модель
lgbm_rs.fit(X_train, y_train)

[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
[LightGBM] [Fatal] Cannot use bagging in GOSS
Exception ignored in: <function ResourceTracker.__del__ at 0x10707f740>
Traceback (most recent call last):
  File "/Users/moncervers/.local/share/uv/python/cpython-3.12.10-macos-aarch64-none/lib/python3.12/multiprocessing/resource_tracker.py", line 77, in __del__
  File "/Users/moncervers/.local/share/uv/python/cpython-3.12.10-macos-aarch64-none/lib/python3.12/multiprocessing/resource_tracker.py", line 86, in _stop
  File "/Users/moncervers/.local/share/uv/python/cpython-3.12.10-macos-aarch64-none/lib/python3.12/multiprocessing/resource_tracker.py", line 111, in _stop_locked
ChildProcessError: [Errno 10] No child processes
[

In [16]:
# Выводим лучшую оценку
lgbm_rs.best_score_

np.float64(-10.834411807666246)

In [17]:
# Предсказываем таргет
predictions['lgbm_rs_pred'] = lgbm_rs.predict(test_df)

## Сохранение submission

In [18]:
predictions

Unnamed: 0,id,lgbm_rs_pred
0,0,9.552742
1,1,8.953882
2,2,8.235306
3,3,9.831292
4,4,8.641731
...,...,...
103143,103143,9.542988
103144,103144,9.683014
103145,103145,9.605287
103146,103146,10.194412


In [22]:
submission = predictions[['id', 'lgbm_rs_pred']]
submission['lgbm_rs_pred'] = submission['lgbm_rs_pred'].apply(lambda x: 10 if x > 10 else x)
submission

Unnamed: 0,id,lgbm_rs_pred
0,0,9.552742
1,1,8.953882
2,2,8.235306
3,3,9.831292
4,4,8.641731
...,...,...
103143,103143,9.542988
103144,103144,9.683014
103145,103145,9.605287
103146,103146,10.000000


In [23]:
submission.to_csv('submission.csv', index=False)