In [14]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_squared_log_error
from lightgbm import LGBMRegressor
import lightgbm as lgbm
from lightgbm import early_stopping

import yaml
import json
import optuna
from typing import Callable
from tqdm import tqdm
import joblib
import warnings

warnings.filterwarnings("ignore")

# Описание и импорт данных

Задачей данного проекта является предсказание кассовых сборов фильмов.
Данные были собраны с сайта Кинопоиск с использованием собственного парсера. Были выбраны данные о фильмах США за все годы с первых 1000 страниц сайта (на следующих страницах информации о кассовых сборах практически не было).

Проект был разделен на несколько частей, каждая из которых представляет собой отдельный Jupyter ноутбук:
1. EDA – исследовательский анализ данных, который включает в себя первичный анализ данных, обработку пропусков, преобразование признаков выявление закономерностей и взаимосвязей в данных, формулировка гипотез и визуализация наиболее важных признаков (данный EDA является упрощенной версией исследовательского проекта - ссылка)
2. Baseline – обучение baseline модели и оценка ее метрик
3. **Tuning – подбор гиперпараметров модели для улучшения качества предсказаний и оценка полученных метрик**

**Описания полей:**
- rating - пользовательский рейтинг на Кинопоиске
- production_year - год производства
- director - режиссер
- age_rating - возрастной рейтинг
- duration - продолжительность в минутах
- budget - бюджет фильма
- **target - кассовые сборы фильма**
- target_log - прологарифмированное значение target (распределение более близкое к нормальному)
- main_genre - основной жанр фильма
- month - месяц выпуска фильма
- director_film_count - количество фильмов, которые снял режиссер
- actors_fame - слава актеров, которые снимались в фильме (слава = количество фильмов, в которых снимались актеры)

In [2]:
config_path = '../config/config.yaml'
config = yaml.load(open(config_path, encoding='utf-8'), Loader=yaml.FullLoader)

config_train = config['train']
RAND = config_train['random_state']
N_FOLDS = config_train['n_folds']

In [3]:
df_train = pd.read_csv(config_train['train_data_path'])
df_val = pd.read_csv(config_train['val_data_path'])
df_test = pd.read_csv(config_train['test_data_path'])

In [4]:
df_train.head()

Unnamed: 0,rating,production_year,director,age_rating,duration,budget,target_log,main_genre,month,director_film_count,actors_fame
0,6.3,2015,Джон Уоттс,18+,88,800000.0,11.875191,триллер,январь,5,40
1,7.066667,2004,Other,undefined,95,3113265.0,10.605173,документальный,сентябрь,1,24
2,7.7,1998,Энди Теннант,0+,121,26000000.0,18.400536,драма,июль,10,46
3,6.7,2002,Тодд Филлипс,16+,88,24000000.0,18.280746,комедия,февраль,11,81
4,6.696041,1999,Other,undefined,100,15338530.0,10.203555,драма,апрель,1,41


# Подготовка данных

In [5]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7785 entries, 0 to 7784
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   rating               7785 non-null   float64
 1   production_year      7785 non-null   int64  
 2   director             7785 non-null   object 
 3   age_rating           7785 non-null   object 
 4   duration             7785 non-null   int64  
 5   budget               7785 non-null   float64
 6   target_log           7785 non-null   float64
 7   main_genre           7785 non-null   object 
 8   month                7785 non-null   object 
 9   director_film_count  7785 non-null   int64  
 10  actors_fame          7785 non-null   int64  
dtypes: float64(3), int64(4), object(4)
memory usage: 669.2+ KB


In [6]:
df_train.describe()

Unnamed: 0,rating,production_year,duration,budget,target_log,director_film_count,actors_fame
count,7785.0,7785.0,7785.0,7785.0,7785.0,7785.0,7785.0
mean,6.482979,2000.653051,102.017213,25846920.0,14.742531,5.031985,30.165832
std,0.849815,18.315396,17.948037,33493450.0,3.244874,5.849112,25.954593
min,1.4,1913.0,0.0,220.0,3.401197,1.0,1.0
25%,6.0,1992.0,91.0,6000000.0,12.302282,1.0,8.0
50%,6.6,2005.0,99.0,15338530.0,15.273428,3.0,23.0
75%,7.066667,2014.0,110.0,27800000.0,17.295954,7.0,46.0
max,8.9,2024.0,319.0,378500000.0,21.796118,42.0,175.0


In [7]:
df_train.describe(include='object')

Unnamed: 0,director,age_rating,main_genre,month
count,7785,7785,7785,7785
unique,501,6,25,12
top,Other,18+,драма,сентябрь
freq,4963,2667,2433,1084


- как видим, пропущенных значений в данных нет (они были обработаны на предыдущем этапе) и у всех переменных правильные типы данных
- так как в данном проекте используется CatBoost, то все признаки типа object нужно перевести в тип category, что избавит нас от бинаризации категориальных признаков

- преобразуем все столбцы типа object в тип category

In [8]:
def transform_to_category(df: pd.DataFrame, cat_cols: list) -> pd.DataFrame:
    '''
    Преобразует столбцы из типа object в тип category
    Parameters
    ------------
    df: pd.DataFrame
        дата фрейм, в котором нужно преобразовать тип стобцов
    cat_cols: list
        список категориальных столбцов
    
    Returns
    -----------
    дата фрейм с преобразованными столбцами
    '''
    df[cat_cols] = df[cat_cols].astype('category')
    return df

In [9]:
df_train = transform_to_category(df_train, config_train['category_cols'])
df_val = transform_to_category(df_val, config_train['category_cols'])
df_test = transform_to_category(df_test, config_train['category_cols'])

- разделим данные на X и y

In [10]:
def split_to_x_y(df: pd.DataFrame, target_col: str) -> tuple:
    '''
    Делит дата фрейм на X и y
    
    Parameters
    -----------
    df: pd.DataFrame
        дата фрейм с данными
    target_col: str
        название таргет переменной
        
    Returns
    ----------
    разделенный дата фрейм на X и y
    '''
    X = df.drop([target_col], axis=1)
    y = df[target_col]
    return X, y

In [11]:
X_train, y_train = split_to_x_y(df_train, config_train['target_column'])
X_val, y_val = split_to_x_y(df_val, config_train['target_column'])
X_test, y_test = split_to_x_y(df_test, config_train['target_column'])

# Подбор параметров

По результатам предыдущего ноутбука было решено использовать **LightGBM**  и для нее подбирать параметры. В качестве метрики для оценки была выбрана **MAE**, так как она более устойчива к выбросам.

Основные параметры модели:
- n_estimators - максимальное количество деревьев
- learning_rate - скорость обучения
- num_leaves - максимальное количество листьев в дереве
- max_depth - максимальная глубина деревьев
- max_bin - максимальное количество бинов, на которые будут разбиты target значения
- min_data_in_leaf - минимальное количество данных в листе 
- bagging_fraction - процент выборок, которые будут использоваться для обучения каждого дерева
- bagging_freq - каждые k итераций нужно выполнять bagging
- lambda_l1 - l1 регуляризация
- lambda_l2 - l2 регуляризация
- min_split_gain - минимальное снижение потерь, необходимое для дальнейшего разбиения на листы

- попробуем подобрать параметры для модели, чтобы улушить ее результаты 

In [12]:
# целевая функция
def objective_lgb(trial, X_train: np.ndarray, y_train: np.ndarray,
                  X_val: np.ndarray, y_val: np.ndarray, random_state: int,
                  cat_features: list):
    '''
    Функция для подбора параметров с помощью optuna
    
    Parameters
    ------------
    trial
        текущая попытка подбора
    X_train: np.ndarray
        тренировочные значения X
    y_train: np.ndarray
        тренировочные значения y
    X_val: np.ndarray
        валидационные значения X
    y_val: np.ndarray
        валидационные значения y
    random_state: int
    cat_features: list
        список с категориальными переменными в наборе
    
    Returns
    -----------
    MAE на текущем trial
    '''
    lgb_params = {
        "n_estimators":
        trial.suggest_categorical("n_estimators", [857]),
        #         trial.suggest_int("n_estimators", 300, 1000),
        "learning_rate":
        trial.suggest_categorical("learning_rate", [0.045309611206922125]),
        #                 trial.suggest_float("learning_rate", 0.001, 0.3, log=True),
        "num_leaves":
        trial.suggest_int("num_leaves", 20, 100),
        "max_depth":
        trial.suggest_int("max_depth", 3, 9),
        "max_bin":
        trial.suggest_int("max_bin", 50, 500),
        "min_data_in_leaf":
        trial.suggest_int("min_data_in_leaf", 30, 150),
        "bagging_fraction":
        trial.suggest_float("bagging_fraction", 0.5, 1),
        "bagging_freq":
        trial.suggest_int("bagging_freq", 1, 5),
        "lambda_l1":
        trial.suggest_int("lambda_l1", 0, 20),
        "lambda_l2":
        trial.suggest_int("lambda_l2", 0, 20),
        "min_split_gain":
        trial.suggest_int("min_split_gain", 0, 20),
        "colsample_bytree":
        trial.suggest_float("colsample_bytree", 0.2, 1.0),
        'objective':
        trial.suggest_categorical("objective", ['mae']),
        'verbosity':
        trial.suggest_categorical("verbosity", [-1]),
        "random_state":
        trial.suggest_categorical("random_state", [random_state])
    }

    model = LGBMRegressor(**lgb_params)
    model.fit(X_train,
              y_train,
              eval_set=[(X_val, y_val)],
              eval_metric="mae",
              categorical_feature=cat_features,
              callbacks=[early_stopping(stopping_rounds=100)])

    y_pred = model.predict(X_val)

    return mean_absolute_error(np.exp(y_val), np.exp(y_pred))

In [23]:
# создание study и подбор параметров
study_lgbm = optuna.create_study(direction="minimize", study_name="lgbm")
func = lambda trial: objective_lgb(trial,
                                   X_train,
                                   y_train,
                                   X_val,
                                   y_val,
                                   random_state=RAND,
                                   cat_features=config_train['category_cols'])
study_lgbm.optimize(func, n_trials=config_train['n_trials'], show_progress_bar=True)

[I 2024-12-02 14:51:21,512] A new study created in memory with name: lgbm


  0%|          | 0/100 [00:00<?, ?it/s]

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[430]	valid_0's l1: 1.60841
[I 2024-12-02 14:51:21,765] Trial 0 finished with value: 29570326.59577785 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 75, 'max_depth': 4, 'max_bin': 415, 'min_data_in_leaf': 120, 'bagging_fraction': 0.9522027457455953, 'bagging_freq': 1, 'lambda_l1': 14, 'lambda_l2': 20, 'min_split_gain': 15, 'colsample_bytree': 0.6644924612169694, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 0 with value: 29570326.59577785.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[142]	valid_0's l1: 1.47192
[I 2024-12-02 14:51:21,890] Trial 1 finished with value: 28478097.194770325 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 37, 'max_depth': 8, 'max_bin': 403, 'min_data_in_leaf': 89, 'bagging_fraction': 0.93060082689040

Early stopping, best iteration is:
[128]	valid_0's l1: 1.54267
[I 2024-12-02 14:51:24,796] Trial 14 finished with value: 28960570.072157856 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 48, 'max_depth': 9, 'max_bin': 166, 'min_data_in_leaf': 99, 'bagging_fraction': 0.7183796487177778, 'bagging_freq': 4, 'lambda_l1': 7, 'lambda_l2': 14, 'min_split_gain': 9, 'colsample_bytree': 0.7206077604503672, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 11 with value: 28168422.107189607.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[194]	valid_0's l1: 1.44546
[I 2024-12-02 14:51:25,027] Trial 15 finished with value: 28262560.252859175 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 64, 'max_depth': 7, 'max_bin': 131, 'min_data_in_leaf': 136, 'bagging_fraction': 0.8630573479289141, 'bagging_freq': 3, 'lambda_l1': 9, 'lambda_l2': 11, 'mi

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[501]	valid_0's l1: 1.48764
[I 2024-12-02 14:51:28,549] Trial 29 finished with value: 28261714.21733009 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 78, 'max_depth': 6, 'max_bin': 81, 'min_data_in_leaf': 79, 'bagging_fraction': 0.8061135738586949, 'bagging_freq': 1, 'lambda_l1': 2, 'lambda_l2': 20, 'min_split_gain': 6, 'colsample_bytree': 0.6631561867530628, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 27 with value: 28057594.23520705.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[457]	valid_0's l1: 1.54872
[I 2024-12-02 14:51:28,768] Trial 30 finished with value: 28816929.597574975 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 78, 'max_depth': 9, 'max_bin': 80, 'min_data_in_leaf': 92, 'bagging_fraction': 0.9088823432833881

Did not meet early stopping. Best iteration is:
[848]	valid_0's l1: 1.44763
[I 2024-12-02 14:51:32,617] Trial 43 finished with value: 28690875.707614303 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 93, 'max_depth': 6, 'max_bin': 251, 'min_data_in_leaf': 40, 'bagging_fraction': 0.9326776505329473, 'bagging_freq': 1, 'lambda_l1': 3, 'lambda_l2': 2, 'min_split_gain': 3, 'colsample_bytree': 0.36384780270369643, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 42 with value: 27783505.808718402.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[389]	valid_0's l1: 1.4977
[I 2024-12-02 14:51:32,862] Trial 44 finished with value: 28487066.44234689 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 96, 'max_depth': 5, 'max_bin': 300, 'min_data_in_leaf': 39, 'bagging_fraction': 0.9154229256116773, 'bagging_freq': 1, 'lambda_l1': 5, 'lambda_l2

Did not meet early stopping. Best iteration is:
[803]	valid_0's l1: 1.37936
[I 2024-12-02 14:51:39,369] Trial 57 finished with value: 27118633.65353661 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 61, 'max_depth': 6, 'max_bin': 419, 'min_data_in_leaf': 31, 'bagging_fraction': 0.8293225733680794, 'bagging_freq': 2, 'lambda_l1': 2, 'lambda_l2': 0, 'min_split_gain': 0, 'colsample_bytree': 0.6469430269478351, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 57 with value: 27118633.65353661.
Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[827]	valid_0's l1: 1.3811
[I 2024-12-02 14:51:40,227] Trial 58 finished with value: 27624432.51550467 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 53, 'max_depth': 6, 'max_bin': 408, 'min_data_in_leaf': 36, 'bagging_fraction': 0.8252661475271017, 'bagging_freq': 2, 'lambda_l1': 2, 

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[433]	valid_0's l1: 1.38009
[I 2024-12-02 14:51:50,989] Trial 71 finished with value: 27522646.80284283 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 37, 'max_depth': 7, 'max_bin': 454, 'min_data_in_leaf': 31, 'bagging_fraction': 0.7831103538747388, 'bagging_freq': 2, 'lambda_l1': 2, 'lambda_l2': 0, 'min_split_gain': 0, 'colsample_bytree': 0.6910951514136808, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 64 with value: 27013629.171407126.
Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[805]	valid_0's l1: 1.37739
[I 2024-12-02 14:51:51,817] Trial 72 finished with value: 27402371.91162698 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 43, 'max_depth': 7, 'max_bin': 463, 'min_data_in_leaf': 37, 'bagging_fraction': 0.81

Did not meet early stopping. Best iteration is:
[845]	valid_0's l1: 1.38267
[I 2024-12-02 14:51:58,812] Trial 85 finished with value: 27587772.19883069 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 51, 'max_depth': 7, 'max_bin': 465, 'min_data_in_leaf': 38, 'bagging_fraction': 0.8136110249543439, 'bagging_freq': 2, 'lambda_l1': 8, 'lambda_l2': 0, 'min_split_gain': 1, 'colsample_bytree': 0.6160213571579527, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 73 with value: 26957452.814154092.
Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[846]	valid_0's l1: 1.36478
[I 2024-12-02 14:51:59,937] Trial 86 finished with value: 27106806.67941242 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 55, 'max_depth': 8, 'max_bin': 391, 'min_data_in_leaf': 42, 'bagging_fraction': 0.8552268830230371, 'bagging_freq': 2, 'lambda_l1': 5

Early stopping, best iteration is:
[308]	valid_0's l1: 1.40302
[I 2024-12-02 14:52:07,287] Trial 99 finished with value: 27486550.26262302 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 54, 'max_depth': 9, 'max_bin': 408, 'min_data_in_leaf': 44, 'bagging_fraction': 0.8518075518849305, 'bagging_freq': 2, 'lambda_l1': 6, 'lambda_l2': 5, 'min_split_gain': 2, 'colsample_bytree': 0.8412619048386681, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 98 with value: 26952985.50114311.


In [24]:
study_lgbm.best_params

{'n_estimators': 857,
 'learning_rate': 0.045309611206922125,
 'num_leaves': 49,
 'max_depth': 9,
 'max_bin': 419,
 'min_data_in_leaf': 33,
 'bagging_fraction': 0.8505937203819828,
 'bagging_freq': 2,
 'lambda_l1': 8,
 'lambda_l2': 5,
 'min_split_gain': 1,
 'colsample_bytree': 0.7629215011942988,
 'objective': 'mae',
 'verbosity': -1,
 'random_state': 42}

In [25]:
print(f'Best value = {study_lgbm.best_value}')

Best value = 26952985.50114311


In [26]:
# лучшие параметры модели до перезапуска ноутбука
lgbm_params = {
    'n_estimators': 857,
    'learning_rate': 0.045309611206922125,
    'num_leaves': 39,
    'max_depth': 9,
    'max_bin': 79,
    'min_data_in_leaf': 38,
    'bagging_fraction': 0.7830367186846483,
    'bagging_freq': 3,
    'lambda_l1': 3,
    'lambda_l2': 6,
    'min_split_gain': 2,
    'colsample_bytree': 0.6636806512095652,
    'objective': 'mae',
    'verbosity': -1,
    'random_state': 42
}

- сохраним лучшие параметры в файл

In [27]:
with open(config_train['params_path'], 'w') as f:
    json.dump(lgbm_params, f)

- обучим модель с лучшими параметрами и оценим ее метрики

In [28]:
# обучение модели на лучших параметрах для оценки метрик
eval_set = [(X_val, y_val)]

lgbm_optuna = LGBMRegressor(**lgbm_params)
lgbm_optuna.fit(X_train,
                y_train,
                eval_metric="mae",
                categorical_feature=config_train['category_cols'],
                eval_set=eval_set,
                callbacks=[early_stopping(stopping_rounds=100)])

y_pred = lgbm_optuna.predict(X_test)

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[246]	valid_0's l1: 1.40474


## Метрики

In [29]:
def r2_adjusted(y_true: np.ndarray, y_pred: np.ndarray,
                X_test: np.ndarray) -> float:
    '''
    Вычисление коэффициента детерминации для множественной регрессии
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    
    Returns
    ----------
    Значение метрики
    '''
    n_objects = len(y_true)
    n_features = X_test.shape[1]
    r2 = r2_score(y_true, y_pred)
    return 1 - (1 - r2) * (n_objects - 1) / (n_objects - n_features - 1)


def wape(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    '''
    Вычисление взвешенной абсолютной процентной ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    
    Returns
    ----------
    Значение метрики
    '''
    return np.sum(np.abs(y_pred - y_true)) * 100 / np.sum(y_true)


def rmsle(y_true: np.ndarray, y_pred: np.ndarray) -> np.float64:
    '''
    Вычисление среднеквадратической логарифмической ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели 
        
    Returns
    ----------
    Значение метрики
    '''
    try:
        return np.sqrt(mean_squared_log_error(y_true, y_pred))
    except:
        return None


def get_metrics(y_test: np.ndarray, y_pred: np.ndarray, X_test: np.ndarray,
                name: str) -> pd.DataFrame:
    '''
    Создание таблицы с основными метриками для модели
    
    Parameters
    ----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    Returns
    ----------
    датафрейм с метриками
    '''
    metrics = pd.DataFrame()

    metrics['model'] = [name]
    metrics['MSE'] = mean_squared_error(y_test, y_pred)
    metrics['RMSE'] = np.sqrt(mean_squared_error(y_test, y_pred))
    metrics['RMSLE'] = rmsle(y_test, y_pred)
    metrics['MAE'] = mean_absolute_error(y_test, y_pred)
    metrics['R2 adjusted'] = r2_adjusted(y_test, y_pred, X_test)
    metrics['WAPE_%'] = wape(y_test, y_pred)

    return metrics

In [30]:
def check_overfitting(model: LGBMRegressor, X_train: np.ndarray,
                      y_train: np.ndarray, X_test: np.ndarray,
                      y_test: np.ndarray, metric: Callable,
                      model_name: str) -> None:
    '''
    Проверяет переобучилась ли модель
    
    Parameters
    ----------
    model: LGBMRegressor
        модель
    X_train: np.ndarray
        тренировочные данные
    y_train: np.ndarray
        тренировочные значения y
    X_test: np.ndarray
        тестовые данные
    y_test: np.ndarray
        тестовые значения y
    metric: Callable
        функция-метрика для оценки переобучения
    model_name: str
        название модели
    
    Returns
    ----------
    Данные о переобучении и метрики на train и test
    '''
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)

    metric_train = metric(np.exp(y_train), np.exp(y_pred_train))
    metric_test = metric(np.exp(y_test), np.exp(y_pred_test))

    print(f'Рассчет переобучения {model_name}')
    print(f'{metric.__name__} на train: {round(metric_train, 2)}')
    print(f'{metric.__name__} на test: {round(metric_test, 2)}')
    print(
        f'delta = {round((abs(metric_train - metric_test) / metric_test*100), 1)}%'
    )

In [33]:
# импорт метрик с baseline
metrics = pd.read_json(config_train['metrics_path'])

In [34]:
metrics

Unnamed: 0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
CatBoostBaselineTrain,5894928942723778,76778440.0,1.799804,24208520.0,0.715322,48.974804
CatBoostBaselineTest,5843035434928676,76439750.0,1.944247,27809980.0,0.658584,55.508199
LGBMBaselineTrain,6377899338583602,79861750.0,1.760601,22592390.0,0.691999,45.705303
LGBMBaselineTest,5542783863964557,74449870.0,1.973105,27150350.0,0.676128,54.191586


In [35]:
metrics = pd.concat([
    metrics,
    get_metrics(np.exp(y_train), np.exp(lgbm_optuna.predict(X_train)), X_train,
                'LGBMTunedTrain').set_index('model'),
    get_metrics(np.exp(y_test), np.exp(y_pred), X_test, 'LGBMTunedTest').set_index('model')
])

In [36]:
metrics

Unnamed: 0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
CatBoostBaselineTrain,5894929000000000.0,76778440.0,1.799804,24208520.0,0.715322,48.974804
CatBoostBaselineTest,5843035000000000.0,76439750.0,1.944247,27809980.0,0.658584,55.508199
LGBMBaselineTrain,6377899000000000.0,79861750.0,1.760601,22592390.0,0.691999,45.705303
LGBMBaselineTest,5542784000000000.0,74449870.0,1.973105,27150350.0,0.676128,54.191586
LGBMTunedTrain,7189569000000000.0,84791330.0,1.79781,25421000.0,0.652802,51.427701
LGBMTunedTest,5274787000000000.0,72627730.0,1.953873,26712650.0,0.691788,53.317938


- в результате подбора параметров значение MAE на тренировочных данных немного ухудшилось, а на тестовых улучшилось
- такая же ситуация и с другими метриками 

In [37]:
# проверка на переобучение
check_overfitting(lgbm_optuna, X_train, y_train, X_test, y_test,
                  mean_absolute_error, 'LightGBMTuned')

Рассчет переобучения LightGBMTuned
mean_absolute_error на train: 25421004.84
mean_absolute_error на test: 26712648.19
delta = 4.8%


- у baseline модели переобучение равнялось 16.8 процентам, то есть оно **уменьшилось почти в 4 раза**

# Кросс валидация

- оценим метрики модели с кросс валидацией

In [38]:
def cross_validation(X_train: pd.DataFrame, y_train: pd.Series,
                     X_test: pd.DataFrame, y_test: pd.Series, params: dict,
                     num_folds: int, random_state: int, cat_features):
    '''
    Функция для кросс валидации модели (метрика - MAE)
    
    Parameters
    ------------
    X_train: np.ndarray
        тренировочные данные
    y_train: np.ndarray
        тренировочные значения y
    X_test: np.ndarray
        тестовые данные
    y_test: np.ndarray
        тестовые значения y
    params: dict
        словарь с параметрами модели
    num_folds: int
        количество фолдов
    random_state: int
        значение random state
                     
    Returns
    ------------
        значения метрики на out-of-fold и предстказания модели на тесте
    '''

    folds = KFold(n_splits=num_folds, random_state=random_state, shuffle=True)
    score_oof = []
    predictions_test = []

    for fold, (train_index,
               test_index) in enumerate(folds.split(X_train, y_train)):
        X_train_, X_val = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_, y_val = y_train.iloc[train_index], y_train.iloc[test_index]
        y_val_exp = np.exp(y_val)

        model = LGBMRegressor(**params)
        model.fit(X_train_,
                  y_train_,
                  eval_set=[(X_val, y_val)],
                  eval_metric="mae",
                  categorical_feature=cat_features)

        y_pred_val = np.exp(model.predict(X_val))
        y_pred = np.exp(model.predict(X_test))
        mae_oof = mean_absolute_error(y_val_exp, y_pred_val)

        print(f'{fold + 1} MAE score = {round(mae_oof, 3)}')
        print('-----')

        score_oof.append(mae_oof)
        predictions_test.append(y_pred)

    return score_oof, predictions_test

In [43]:
# получение предсказаний с помощтю кросс валидации
score_oof, predictions_test = cross_validation(X_train,
                                               y_train,
                                               X_test,
                                               y_test,
                                               params=lgbm_params,
                                               num_folds=N_FOLDS,
                                               random_state=RAND,
                                               cat_features=config_train['category_cols'])

1 MAE score = 28550074.608
-----
2 MAE score = 31085332.122
-----
3 MAE score = 29423273.784
-----
4 MAE score = 28609319.346
-----
5 MAE score = 27955986.939
-----


In [44]:
pred_test_cv = np.mean(predictions_test, axis=0)

print(f'Среднее значение MAE на out-of-fold: {round(np.mean(score_oof), 3)}')
print(f'std MAE на out-of-fold: {round(np.std(score_oof), 3)}')
print(
    f'Значение MAE на тестовых данных: {round(mean_absolute_error(np.exp(y_test), pred_test_cv), 3)}'
)

Среднее значение MAE на out-of-fold: 29124797.36
std MAE на out-of-fold: 1085810.882
Значение MAE на тестовых данных: 27285603.136


In [45]:
metrics = pd.concat(
    [metrics,
     get_metrics(np.exp(y_test), pred_test_cv, X_test, 'LGBMCVTest').set_index('model')])

In [46]:
metrics.style.highlight_min(
    axis=0, color='lightblue').highlight_max(axis=0, color='lightpink')

Unnamed: 0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
CatBoostBaselineTrain,5894928942723778.0,76778440.611436,1.799804,24208523.565597,0.715322,48.974804
CatBoostBaselineTest,5843035434928676.0,76439750.358885,1.944247,27809983.77322,0.658584,55.508199
LGBMBaselineTrain,6377899338583602.0,79861751.411947,1.760601,22592390.786591,0.691999,45.705303
LGBMBaselineTest,5542783863964557.0,74449874.841833,1.973105,27150351.399408,0.676128,54.191586
LGBMTunedTrain,7189569218544470.0,84791327.496062,1.79781,25421004.843735,0.652802,51.427701
LGBMTunedTest,5274786586876454.0,72627726.020277,1.953873,26712648.187854,0.691788,53.317938
LGBMCVTest,5439166473047449.0,73750704.898648,1.969568,27285603.135889,0.682183,54.461545


- MAE на кросс валидации немного хуже, чем без нее, но эта разница совсем небольшая
- остальные же метрики с кросс валидацией улучшились
- то есть можно прийти к выводу, что модель работает довольно стабильно 

- сохраним лучшую модель в файл

In [47]:
joblib.dump(lgbm_optuna, config_train['model_path'])

['../models/best_model.joblib']

- сохраним полученный датасет с метриками в тот же файл

In [48]:
metrics.to_json(config_train['metrics_path'])