In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_squared_log_error
from lightgbm import LGBMRegressor
import lightgbm as lgbm
from lightgbm import early_stopping

import optuna
from typing import Callable
from tqdm import tqdm
import joblib
import warnings

warnings.filterwarnings("ignore")

RAND = 42
N_FOLDS = 5

# Описание и импорт данных

Задачей данного проекта является предсказание кассовых сборов фильмов.
Данные были собраны с сайта Кинопоиск с использованием собственного парсера. Были выбраны данные о фильмах США за все годы с первых 1000 страниц сайта (на следующих страницах информации о кассовых сборах практически не было).

Проект был разделен на несколько частей, каждая из которых представляет собой отдельный Jupyter ноутбук:
1. Parsing-Kinopoisk – сбор и данных для дальнейшего анализа
2. EDA – исследовательский анализ данных, который включает в себя первичный анализ данных, обработку пропусков, преобразование признаков выявление закономерностей и взаимосвязей в данных, формулировка гипотез и визуализация наиболее важных признаков
3. Baseline – обучение baseline модели и оценка ее метрик
4. **Tuning – подбор гиперпараметров модели для улучшения качества предсказаний и оценка полученных метрик**
5. Post-analysis – оценка важности признаков и анализ результатов предсказания

**Описания полей:**
- rating - пользовательский рейтинг на Кинопоиске
- production_year - год производства
- director - режиссер
- age_rating - возрастной рейтинг
- duration - продолжительность в минутах
- budget - бюджет фильма
- **target - кассовые сборы фильма**
- target_log - прологарифмированное значение target (распределение более близкое к нормальному)
- main_genre - основной жанр фильма
- month - месяц выпуска фильма
- director_film_count - количество фильмов, которые снял режиссер
- actors_fame - слава актеров, которые снимались в фильме (слава = количество фильмов, в которых снимались актеры)

In [2]:
df = pd.read_csv('data/df_clean.csv')

In [3]:
df.head()

Unnamed: 0,rating,production_year,director,age_rating,duration,budget,target,target_log,main_genre,month,director_film_count,actors_fame
0,8.6,2019,Гай Ричи,18+,113,22000000.0,115171795.0,18.561935,криминал,декабрь,5,46
1,8.0,2013,Мартин Скорсезе,18+,180,100000000.0,392000694.0,19.786774,драма,декабрь,26,54
2,8.3,1990,Крис Коламбус,0+,103,18000000.0,476684675.0,19.982366,комедия,ноябрь,12,39
3,8.1,2019,Райан Джонсон,18+,130,40000000.0,312897920.0,19.561388,детектив,сентябрь,6,40
4,8.5,2018,Other,18+,130,23000000.0,321752656.0,19.589294,биография,сентябрь,1,25


# Подготовка данных

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11586 entries, 0 to 11585
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   rating               11586 non-null  float64
 1   production_year      11586 non-null  int64  
 2   director             11586 non-null  object 
 3   age_rating           11586 non-null  object 
 4   duration             11586 non-null  int64  
 5   budget               11586 non-null  float64
 6   target               11586 non-null  float64
 7   target_log           11586 non-null  float64
 8   main_genre           11586 non-null  object 
 9   month                11586 non-null  object 
 10  director_film_count  11586 non-null  int64  
 11  actors_fame          11586 non-null  int64  
dtypes: float64(4), int64(4), object(4)
memory usage: 1.1+ MB


- как видим, пропущенных значений в данных нет (они были обработаны на предыдущем этапе) и у всех переменных правильные типы данных
- так как в данном проекте используется CatBoost, то все признаки типа object нужно перевести в тип category, что избавит нас от бинаризации категориальных признаков
- вместо target при обучении мы будем использовать target_log, так как у этой переменной более нормальное распределение

In [5]:
# выбор признаков с типом данных 'object'
cols_to_cat = [col for col in df.columns if df[col].dtype == 'object']

In [6]:
# изменение типа данных на 'category'
df[cols_to_cat] = df[cols_to_cat].astype('category')

- разделим данные на X и y

In [7]:
X = df.drop(['target', 'target_log'], axis=1)
y = df.target_log

- разделим данные на train, validation и test в соотношении 64%/16%/20%

In [8]:
# разделение на train и test
X_train_, X_test, y_train_, y_test = train_test_split(X,
                                                      y,
                                                      test_size=0.2,
                                                      shuffle=True,
                                                      random_state=RAND)

# разделение на train и validation
X_train, X_val, y_train, y_val = train_test_split(X_train_,
                                                  y_train_,
                                                  test_size=0.16,
                                                  shuffle=True,
                                                  random_state=RAND)

# Подбор параметров

По результатам предыдущего ноутбука было решено использовать **LightGBM**  и для нее подбирать параметры. В качестве метрики для оценки была выбрана **MAE**, так как она более устойчива к выбросам.

Основные параметры модели:
- n_estimators - максимальное количество деревьев
- learning_rate - скорость обучения
- num_leaves - максимальное количество листьев в дереве
- max_depth - максимальная глубина деревьев
- max_bin - максимальное количество бинов, на которые будут разбиты target значения
- min_data_in_leaf - минимальное количество данных в листе 
- bagging_fraction - процент выборок, которые будут использоваться для обучения каждого дерева
- bagging_freq - каждые k итераций нужно выполнять bagging
- lambda_l1 - l1 регуляризация
- lambda_l2 - l2 регуляризация
- min_split_gain - минимальное снижение потерь, необходимое для дальнейшего разбиения на листы

In [9]:
# выбор категориальных признаков
cat_features = list(X_train.select_dtypes('category').columns)

- попробуем подобрать параметры для модели, чтобы улушить ее результаты 

In [221]:
# целевая функция
def objective_lgb(trial, X_train: np.ndarray, y_train: np.ndarray,
                  X_val: np.ndarray, y_val: np.ndarray, random_state: int,
                  cat_features: list):
    '''
    Функция для подбора параметров с помощью optuna
    
    Parameters
    ------------
    trial
        текущая попытка подбора
    X_train: np.ndarray
        тренировочные значения X
    y_train: np.ndarray
        тренировочные значения y
    X_val: np.ndarray
        валидационные значения X
    y_val: np.ndarray
        валидационные значения y
    random_state: int
    cat_features: list
        список с категориальными переменными в наборе
    
    Returns
    -----------
    MAE на текущем trial
    '''
    lgb_params = {
        "n_estimators":
        trial.suggest_categorical("n_estimators", [857]),
        #         trial.suggest_int("n_estimators", 300, 1000),
        "learning_rate":
        trial.suggest_categorical("learning_rate", [0.045309611206922125]),
        #                 trial.suggest_float("learning_rate", 0.001, 0.3, log=True),
        "num_leaves":
        trial.suggest_int("num_leaves", 20, 100),
        "max_depth":
        trial.suggest_int("max_depth", 3, 9),
        "max_bin":
        trial.suggest_int("max_bin", 50, 500),
        "min_data_in_leaf":
        trial.suggest_int("min_data_in_leaf", 30, 150),
        "bagging_fraction":
        trial.suggest_float("bagging_fraction", 0.5, 1),
        "bagging_freq":
        trial.suggest_int("bagging_freq", 1, 5),
        "lambda_l1":
        trial.suggest_int("lambda_l1", 0, 20),
        "lambda_l2":
        trial.suggest_int("lambda_l2", 0, 20),
        "min_split_gain":
        trial.suggest_int("min_split_gain", 0, 20),
        "colsample_bytree":
        trial.suggest_float("colsample_bytree", 0.2, 1.0),
        'objective':
        trial.suggest_categorical("objective", ['mae']),
        'verbosity':
        trial.suggest_categorical("verbosity", [-1]),
        "random_state":
        trial.suggest_categorical("random_state", [random_state])
    }

    model = LGBMRegressor(**lgb_params)
    model.fit(X_train,
              y_train,
              eval_set=[(X_val, y_val)],
              eval_metric="mae",
              categorical_feature=cat_features,
              callbacks=[early_stopping(stopping_rounds=100)])

    y_pred = model.predict(X_val)

    return mean_absolute_error(np.exp(y_val), np.exp(y_pred))

In [300]:
# создание study и подбор параметров
study_lgbm = optuna.create_study(direction="minimize", study_name="lgbm")
func = lambda trial: objective_lgb(trial,
                                   X_train,
                                   y_train,
                                   X_val,
                                   y_val,
                                   random_state=RAND,
                                   cat_features=cat_features)
study_lgbm.optimize(func, n_trials=100, show_progress_bar=True)

[I 2024-10-24 16:01:20,742] A new study created in memory with name: lgbm


  0%|          | 0/100 [00:00<?, ?it/s]

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[95]	valid_0's l1: 1.63748
[I 2024-10-24 16:01:20,912] Trial 0 finished with value: 30201333.880960457 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 47, 'max_depth': 9, 'max_bin': 397, 'min_data_in_leaf': 40, 'bagging_fraction': 0.646883907558091, 'bagging_freq': 4, 'lambda_l1': 16, 'lambda_l2': 3, 'min_split_gain': 19, 'colsample_bytree': 0.6758316885737955, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 0 with value: 30201333.880960457.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[280]	valid_0's l1: 1.60988
[I 2024-10-24 16:01:21,032] Trial 1 finished with value: 30473458.99333793 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 86, 'max_depth': 8, 'max_bin': 461, 'min_data_in_leaf': 104, 'bagging_fraction': 0.5411278952659002

Did not meet early stopping. Best iteration is:
[821]	valid_0's l1: 1.38257
[I 2024-10-24 16:01:24,095] Trial 14 finished with value: 28004827.41672821 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 35, 'max_depth': 6, 'max_bin': 274, 'min_data_in_leaf': 61, 'bagging_fraction': 0.9960733524993097, 'bagging_freq': 2, 'lambda_l1': 9, 'lambda_l2': 20, 'min_split_gain': 0, 'colsample_bytree': 0.5381067979310976, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 13 with value: 27827470.649309915.
Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[857]	valid_0's l1: 1.38492
[I 2024-10-24 16:01:24,843] Trial 15 finished with value: 27621185.47923853 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 34, 'max_depth': 6, 'max_bin': 248, 'min_data_in_leaf': 60, 'bagging_fraction': 0.7690085115507808, 'bagging_freq': 2, 'lambda_l1': 

Early stopping, best iteration is:
[633]	valid_0's l1: 1.45175
[I 2024-10-24 16:01:29,886] Trial 28 finished with value: 28310757.549559373 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 60, 'max_depth': 6, 'max_bin': 199, 'min_data_in_leaf': 46, 'bagging_fraction': 0.9024117666330447, 'bagging_freq': 1, 'lambda_l1': 3, 'lambda_l2': 9, 'min_split_gain': 4, 'colsample_bytree': 0.345016063179636, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 15 with value: 27621185.47923853.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[480]	valid_0's l1: 1.41716
[I 2024-10-24 16:01:30,240] Trial 29 finished with value: 28269670.902801078 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 39, 'max_depth': 9, 'max_bin': 413, 'min_data_in_leaf': 39, 'bagging_fraction': 0.6684178200806552, 'bagging_freq': 3, 'lambda_l1': 14, 'lambda_l2': 16, 'min_s

Early stopping, best iteration is:
[137]	valid_0's l1: 1.46887
[I 2024-10-24 16:01:33,585] Trial 42 finished with value: 28067866.28890624 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 53, 'max_depth': 8, 'max_bin': 467, 'min_data_in_leaf': 53, 'bagging_fraction': 0.9563671565267071, 'bagging_freq': 4, 'lambda_l1': 8, 'lambda_l2': 12, 'min_split_gain': 5, 'colsample_bytree': 0.5746996402653693, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 36 with value: 27521284.2262127.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[235]	valid_0's l1: 1.60101
[I 2024-10-24 16:01:33,759] Trial 43 finished with value: 30535920.371623024 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 61, 'max_depth': 9, 'max_bin': 463, 'min_data_in_leaf': 61, 'bagging_fraction': 0.9649943242437621, 'bagging_freq': 4, 'lambda_l1': 8, 'lambda_l2': 10, 'min_sp

Early stopping, best iteration is:
[186]	valid_0's l1: 1.42388
[I 2024-10-24 16:01:39,009] Trial 56 finished with value: 27988560.866986647 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 42, 'max_depth': 8, 'max_bin': 287, 'min_data_in_leaf': 56, 'bagging_fraction': 0.9971748479384341, 'bagging_freq': 4, 'lambda_l1': 15, 'lambda_l2': 4, 'min_split_gain': 1, 'colsample_bytree': 0.7981153371414791, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 53 with value: 27222582.5518719.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[91]	valid_0's l1: 1.57118
[I 2024-10-24 16:01:39,163] Trial 57 finished with value: 29514673.62471268 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 49, 'max_depth': 9, 'max_bin': 486, 'min_data_in_leaf': 77, 'bagging_fraction': 0.9802877331683051, 'bagging_freq': 4, 'lambda_l1': 12, 'lambda_l2': 13, 'min_sp

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[295]	valid_0's l1: 1.40327
[I 2024-10-24 16:01:45,143] Trial 70 finished with value: 27027005.92284812 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 74, 'max_depth': 8, 'max_bin': 350, 'min_data_in_leaf': 44, 'bagging_fraction': 0.9834735890634263, 'bagging_freq': 3, 'lambda_l1': 11, 'lambda_l2': 15, 'min_split_gain': 1, 'colsample_bytree': 0.6140968859572584, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 67 with value: 26905489.054130662.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[271]	valid_0's l1: 1.40632
[I 2024-10-24 16:01:45,469] Trial 71 finished with value: 27201824.066619094 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 74, 'max_depth': 8, 'max_bin': 349, 'min_data_in_leaf': 42, 'bagging_fraction': 0.985170890869

Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[854]	valid_0's l1: 1.36804
[I 2024-10-24 16:01:52,804] Trial 84 finished with value: 27143446.957241137 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 70, 'max_depth': 8, 'max_bin': 408, 'min_data_in_leaf': 35, 'bagging_fraction': 0.9540263419291534, 'bagging_freq': 3, 'lambda_l1': 12, 'lambda_l2': 16, 'min_split_gain': 0, 'colsample_bytree': 0.6170431711333556, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 77 with value: 26888408.456418626.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[193]	valid_0's l1: 1.40603
[I 2024-10-24 16:01:53,161] Trial 85 finished with value: 27202100.226873297 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 70, 'max_depth': 8, 'max_bin': 406, 'min_data_in_leaf': 33, 'bagging_fraction': 

Early stopping, best iteration is:
[167]	valid_0's l1: 1.43577
[I 2024-10-24 16:01:58,232] Trial 98 finished with value: 27264779.724940926 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 82, 'max_depth': 9, 'max_bin': 367, 'min_data_in_leaf': 32, 'bagging_fraction': 0.940122040537329, 'bagging_freq': 3, 'lambda_l1': 20, 'lambda_l2': 15, 'min_split_gain': 1, 'colsample_bytree': 0.9569700518790966, 'objective': 'mae', 'verbosity': -1, 'random_state': 42}. Best is trial 77 with value: 26888408.456418626.
Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[653]	valid_0's l1: 1.37241
[I 2024-10-24 16:01:59,274] Trial 99 finished with value: 27550288.774246495 and parameters: {'n_estimators': 857, 'learning_rate': 0.045309611206922125, 'num_leaves': 98, 'max_depth': 9, 'max_bin': 327, 'min_data_in_leaf': 36, 'bagging_fraction': 0.9680229323062903, 'bagging_freq': 3, 'lambda_l1': 16, 'lambda_l2': 20, 'mi

In [341]:
study_lgbm.best_params

{'n_estimators': 857,
 'learning_rate': 0.045309611206922125,
 'num_leaves': 39,
 'max_depth': 9,
 'max_bin': 79,
 'min_data_in_leaf': 38,
 'bagging_fraction': 0.7830367186846483,
 'bagging_freq': 3,
 'lambda_l1': 3,
 'lambda_l2': 6,
 'min_split_gain': 2,
 'colsample_bytree': 0.6636806512095652,
 'objective': 'mae',
 'verbosity': -1,
 'random_state': 42}

In [302]:
print(f'Best value = {study_lgbm.best_value}')

Best value = 26888408.456418626


- обучим модель с лучшими параметрами и оценим ее метрики

In [330]:
lgbm_params = {
    'n_estimators': 857,
    'learning_rate': 0.045309611206922125,
    'num_leaves': 39,
    'max_depth': 9,
    'max_bin': 79,
    'min_data_in_leaf': 38,
    'bagging_fraction': 0.7830367186846483,
    'bagging_freq': 3,
    'lambda_l1': 3,
    'lambda_l2': 6,
    'min_split_gain': 2,
    'colsample_bytree': 0.6636806512095652,
    'objective': 'mae',
    'verbosity': -1,
    'random_state': 42
}

In [331]:
# обучение модели на лучших параметрах для оценки метрик
eval_set = [(X_val, y_val)]

lgbm_optuna = LGBMRegressor(**lgbm_params)
lgbm_optuna.fit(X_train,
                y_train,
                eval_metric="mae",
                categorical_feature=cat_features,
                eval_set=eval_set,
                callbacks=[early_stopping(stopping_rounds=100)])

y_pred = lgbm_optuna.predict(X_test)

Training until validation scores don't improve for 100 rounds
Early stopping, best iteration is:
[246]	valid_0's l1: 1.40474


## Метрики

In [34]:
def r2_adjusted(y_true: np.ndarray, y_pred: np.ndarray,
                X_test: np.ndarray) -> float:
    '''
    Вычисление коэффициента детерминации для множественной регрессии
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    
    Returns
    ----------
    Значение метрики
    '''
    n_objects = len(y_true)
    n_features = X_test.shape[1]
    r2 = r2_score(y_true, y_pred)
    return 1 - (1 - r2) * (n_objects - 1) / (n_objects - n_features - 1)


def wape(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    '''
    Вычисление взвешенной абсолютной процентной ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    
    Returns
    ----------
    Значение метрики
    '''
    return np.sum(np.abs(y_pred - y_true)) * 100 / np.sum(y_true)


def rmsle(y_true: np.ndarray, y_pred: np.ndarray) -> np.float64:
    '''
    Вычисление среднеквадратической логарифмической ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели 
        
    Returns
    ----------
    Значение метрики
    '''
    try:
        return np.sqrt(mean_squared_log_error(y_true, y_pred))
    except:
        return None


def get_metrics(y_test: np.ndarray, y_pred: np.ndarray, X_test: np.ndarray,
                name: str) -> pd.DataFrame:
    '''
    Создание таблицы с основными метриками для модели
    
    Parameters
    ----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    Returns
    ----------
    датафрейм с метриками
    '''
    metrics = pd.DataFrame()

    metrics['model'] = [name]
    metrics['MSE'] = mean_squared_error(y_test, y_pred)
    metrics['RMSE'] = np.sqrt(mean_squared_error(y_test, y_pred))
    metrics['RMSLE'] = rmsle(y_test, y_pred)
    metrics['MAE'] = mean_absolute_error(y_test, y_pred)
    metrics['R2 adjusted'] = r2_adjusted(y_test, y_pred, X_test)
    metrics['WAPE_%'] = wape(y_test, y_pred)

    return metrics

In [35]:
def check_overfitting(model: LGBMRegressor, X_train: np.ndarray,
                      y_train: np.ndarray, X_test: np.ndarray,
                      y_test: np.ndarray, metric: Callable,
                      model_name: str) -> None:
    '''
    Проверяет переобучилась ли модель
    
    Parameters
    ----------
    model: LGBMRegressor
        модель
    X_train: np.ndarray
        тренировочные данные
    y_train: np.ndarray
        тренировочные значения y
    X_test: np.ndarray
        тестовые данные
    y_test: np.ndarray
        тестовые значения y
    metric: Callable
        функция-метрика для оценки переобучения
    model_name: str
        название модели
    
    Returns
    ----------
    Данные о переобучении и метрики на train и test
    '''
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)

    metric_train = metric(np.exp(y_train), np.exp(y_pred_train))
    metric_test = metric(np.exp(y_test), np.exp(y_pred_test))

    print(f'Рассчет переобучения {model_name}')
    print(f'{metric.__name__} на train: {round(metric_train, 2)}')
    print(f'{metric.__name__} на test: {round(metric_test, 2)}')
    print(
        f'delta = {round((abs(metric_train - metric_test) / metric_test*100), 1)}%'
    )

In [334]:
# импорт метрик с baseline
metrics = pd.read_csv('metrics/metrics.csv')

In [338]:
metrics = pd.concat([
    metrics,
    get_metrics(np.exp(y_train), np.exp(lgbm_optuna.predict(X_train)), X_train,
                'LGBMTunedTrain'),
    get_metrics(np.exp(y_test), np.exp(y_pred), X_test, 'LGBMTunedTest')
])

In [339]:
metrics.set_index('model')

Unnamed: 0_level_0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CatBoostBaselineTrain,5894929000000000.0,76778440.0,1.799804,24208520.0,0.715322,48.974804
CatBoostBaselineTest,5843035000000000.0,76439750.0,1.944247,27809980.0,0.658584,55.508199
LGBMBaselineTrain,6377899000000000.0,79861750.0,1.760601,22592390.0,0.691999,45.705303
LGBMBaselineTest,5542784000000000.0,74449870.0,1.973105,27150350.0,0.676128,54.191586
LGBMTunedTrain,7189569000000000.0,84791330.0,1.79781,25421000.0,0.652802,51.427701
LGBMTunedTest,5274787000000000.0,72627730.0,1.953873,26712650.0,0.691788,53.317938


- в результате подбора параметров значение MAE на тренировочных данных немного ухудшилось, а на тестовых улучшилось
- такая же ситуация и с другими метриками 

In [340]:
# проверка на переобучение
check_overfitting(lgbm_optuna, X_train, y_train, X_test, y_test,
                  mean_absolute_error, 'LightGBMTuned')

Рассчет переобучения LightGBMTuned
mean_absolute_error на train: 25421004.84
mean_absolute_error на test: 26712648.19
delta = 4.8%


- у baseline модели переобучение равнялось 16.8 процентам, то есть оно **уменьшилось почти в 4 раза**

# Кросс валидация

- оценим метрики модели с кросс валидацией

In [342]:
def cross_validation(X_train: pd.DataFrame, y_train: pd.Series,
                     X_test: pd.DataFrame, y_test: pd.Series, params: dict,
                     num_folds: int, random_state: int, cat_features):
    '''
    Функция для кросс валидации модели (метрика - MAE)
    
    Parameters
    ------------
    X_train: np.ndarray
        тренировочные данные
    y_train: np.ndarray
        тренировочные значения y
    X_test: np.ndarray
        тестовые данные
    y_test: np.ndarray
        тестовые значения y
    params: dict
        словарь с параметрами модели
    num_folds: int
        количество фолдов
    random_state: int
        значение random state
                     
    Returns
    ------------
        значения метрики на out-of-fold и предстказания модели на тесте
    '''

    folds = KFold(n_splits=num_folds, random_state=random_state, shuffle=True)
    score_oof = []
    predictions_test = []

    for fold, (train_index,
               test_index) in enumerate(folds.split(X_train, y_train)):
        X_train_, X_val = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_, y_val = y_train.iloc[train_index], y_train.iloc[test_index]
        y_val_exp = np.exp(y_val)

        model = LGBMRegressor(**params)
        model.fit(X_train_,
                  y_train_,
                  eval_set=[(X_val, y_val)],
                  eval_metric="mae",
                  categorical_feature=cat_features)

        y_pred_val = np.exp(model.predict(X_val))
        y_pred = np.exp(model.predict(X_test))
        mae_oof = mean_absolute_error(y_val_exp, y_pred_val)

        print(f'{fold + 1} MAE score = {round(mae_oof, 3)}')
        print('-----')

        score_oof.append(mae_oof)
        predictions_test.append(y_pred)

    return score_oof, predictions_test

In [343]:
# получение предсказаний с помощтю кросс валидации
score_oof, predictions_test = cross_validation(X_train_,
                                               y_train_,
                                               X_test,
                                               y_test,
                                               params=lgbm_params,
                                               num_folds=N_FOLDS,
                                               random_state=RAND,
                                               cat_features=cat_features)

1 MAE score = 27720116.185
-----
2 MAE score = 28178852.917
-----
3 MAE score = 31213886.631
-----
4 MAE score = 29856073.74
-----
5 MAE score = 26441594.882
-----


In [344]:
pred_test_cv = np.mean(predictions_test, axis=0)

print(f'Среднее значение MAE на out-of-fold: {round(np.mean(score_oof), 3)}')
print(f'std MAE на out-of-fold: {round(np.std(score_oof), 3)}')
print(
    f'Значение MAE на тестовых данных: {round(mean_absolute_error(np.exp(y_test), pred_test_cv), 3)}'
)

Среднее значение MAE на out-of-fold: 28682104.871
std MAE на out-of-fold: 1672524.533
Значение MAE на тестовых данных: 26811477.259


In [345]:
metrics = pd.concat(
    [metrics,
     get_metrics(np.exp(y_test), pred_test_cv, X_test, 'LGBMCVTest')])

In [346]:
metrics.set_index('model').style.highlight_min(
    axis=0, color='lightblue').highlight_max(axis=0, color='lightpink')

Unnamed: 0_level_0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CatBoostBaselineTrain,5894928942723778.0,76778440.611436,1.799804,24208523.565597,0.715322,48.974804
CatBoostBaselineTest,5843035434928676.0,76439750.358885,1.944247,27809983.77322,0.658584,55.508199
LGBMBaselineTrain,6377899338583602.0,79861751.411947,1.760601,22592390.786591,0.691999,45.705303
LGBMBaselineTest,5542783863964557.0,74449874.841833,1.973105,27150351.399408,0.676128,54.191586
LGBMTunedTrain,7189569218544470.0,84791327.496062,1.79781,25421004.843735,0.652802,51.427701
LGBMTunedTest,5274786586876454.0,72627726.020277,1.953873,26712648.187854,0.691788,53.317938
LGBMCVTest,5169578278831617.0,71899779.407392,1.941797,26811477.259353,0.697935,53.515199


- MAE на кросс валидации немного хуже, чем без нее, но эта разница совсем небольшая
- остальные же метрики с кросс валидацией улучшились
- то есть можно прийти к выводу, что модель работает довольно стабильно 
- сохраним лучшую модель в файл

In [347]:
joblib.dump(lgbm_optuna, 'models/lgbm_model.joblib')

['models/lgbm_model.joblib']

- сохраним полученный датасет с метриками в тот же файл

In [348]:
metrics.to_csv('metrics/metrics.csv', index=False)