In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_squared_log_error
from sklearn.ensemble import RandomForestRegressor
from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor
from lightgbm import early_stopping

from typing import Callable
from tqdm import tqdm
import warnings

warnings.filterwarnings("ignore")

RAND = 42

# Описание и импорт данных

Задачей данного проекта является предсказание кассовых сборов фильмов.
Данные были собраны с сайта Кинопоиск с использованием собственного парсера. Были выбраны данные о фильмах США за все годы с первых 1000 страниц сайта (на следующих страницах информации о кассовых сборах практически не было).

Проект был разделен на несколько частей, каждая из которых представляет собой отдельный Jupyter ноутбук:
1. Parsing-Kinopoisk – сбор и данных для дальнейшего анализа
2. EDA – исследовательский анализ данных, который включает в себя первичный анализ данных, обработку пропусков, преобразование признаков выявление закономерностей и взаимосвязей в данных, формулировка гипотез и визуализация наиболее важных признаков
3. **Baseline – обучение baseline модели и оценка ее метрик**
4. Tuning – подбор гиперпараметров модели для улучшения качества предсказаний и оценка полученных метрик
5. Post-analysis – оценка важности признаков и анализ результатов предсказания

**Описания полей:**
- rating - пользовательский рейтинг на Кинопоиске
- production_year - год производства
- director - режиссер
- age_rating - возрастной рейтинг
- duration - продолжительность в минутах
- budget - бюджет фильма
- **target - кассовые сборы фильма**
- target_log - прологарифмированное значение target (распределение более близкое к нормальному)
- main_genre - основной жанр фильма
- month - месяц выпуска фильма
- director_film_count - количество фильмов, которые снял режиссер
- actors_fame - слава актеров, которые снимались в фильме (слава = количество фильмов, в которых снимались актеры)

In [2]:
df = pd.read_csv('data/df_clean.csv')

In [3]:
df.head()

Unnamed: 0,rating,production_year,director,age_rating,duration,budget,target,target_log,main_genre,month,director_film_count,actors_fame
0,8.6,2019,Гай Ричи,18+,113,22000000.0,115171795.0,18.561935,криминал,декабрь,5,46
1,8.0,2013,Мартин Скорсезе,18+,180,100000000.0,392000694.0,19.786774,драма,декабрь,26,54
2,8.3,1990,Крис Коламбус,0+,103,18000000.0,476684675.0,19.982366,комедия,ноябрь,12,39
3,8.1,2019,Райан Джонсон,18+,130,40000000.0,312897920.0,19.561388,детектив,сентябрь,6,40
4,8.5,2018,Other,18+,130,23000000.0,321752656.0,19.589294,биография,сентябрь,1,25


# Подготовка данных

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11586 entries, 0 to 11585
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   rating               11586 non-null  float64
 1   production_year      11586 non-null  int64  
 2   director             11586 non-null  object 
 3   age_rating           11586 non-null  object 
 4   duration             11586 non-null  int64  
 5   budget               11586 non-null  float64
 6   target               11586 non-null  float64
 7   target_log           11586 non-null  float64
 8   main_genre           11586 non-null  object 
 9   month                11586 non-null  object 
 10  director_film_count  11586 non-null  int64  
 11  actors_fame          11586 non-null  int64  
dtypes: float64(4), int64(4), object(4)
memory usage: 1.1+ MB


In [5]:
df.describe()

Unnamed: 0,rating,production_year,duration,budget,target,target_log,director_film_count,actors_fame
count,11586.0,11586.0,11586.0,11586.0,11586.0,11586.0,11586.0,11586.0
mean,6.4821,2000.692733,102.209477,26238550.0,49385220.0,14.738539,5.019247,30.5
std,0.85736,18.162576,18.29163,33806850.0,139141300.0,3.263122,5.85542,26.078125
min,1.2,1913.0,0.0,220.0,30.0,3.401197,1.0,1.0
25%,6.0,1992.0,91.0,7000000.0,202595.2,12.218965,1.0,9.0
50%,6.6,2005.0,99.0,15338530.0,4349009.0,15.285459,3.0,23.0
75%,7.066667,2014.0,110.0,29000000.0,33456830.0,17.325767,7.0,46.0
max,9.1,2024.0,319.0,378500000.0,2923706000.0,21.796118,42.0,175.0


In [6]:
df.describe(include='object')

Unnamed: 0,director,age_rating,main_genre,month
count,11586,11586,11586,11586
unique,501,6,25,12
top,Other,18+,драма,сентябрь
freq,7434,4000,3573,1608


- как видим, пропущенных значений в данных нет (они были обработаны на предыдущем этапе) и у всех переменных правильные типы данных
- так как в данном проекте будет использоваться CatBoost, то все признаки типа object нужно перевести в тип category, что избавит нас от бинаризации категориальных признаков
- вместо target при обучении мы будем использовать target_log, так как у этой переменной более нормальное распределение

In [7]:
# выбор признаков с типом данных 'object'
cols_to_cat = [col for col in df.columns if df[col].dtype == 'object']

In [8]:
# изменение типа данных на 'category'
df[cols_to_cat] = df[cols_to_cat].astype('category')

- разделим данные на X и y

In [9]:
X = df.drop(['target', 'target_log'], axis=1)
y = df.target_log

- разделим данные на train, validation и test в соотношении 64%/16%/20%

In [10]:
# разделение на train и test
X_train_, X_test, y_train_, y_test = train_test_split(X,
                                                      y,
                                                      test_size=0.2,
                                                      shuffle=True,
                                                      random_state=RAND)

# разделение на train и validation
X_train, X_val, y_train, y_val = train_test_split(X_train_,
                                                  y_train_,
                                                  test_size=0.16,
                                                  shuffle=True,
                                                  random_state=RAND)

# Baseline модель

В данном проекте в качестве модели было решено использовать **CatBoost** и **LightGBM**, а потом сравнить их результаты на бейзлайне и выбрать лучшую, по таким причинам:
- отлично подходят для анализа табличных данных
- быстро обучаются и имеют высокую точность предсказаний
- умеют обрабатывать категориальные признаки без необходимости их кодирования, что упрощает работу с большим количеством уникальных значений
- хорошо работают с разреженными данными

В качестве метрики для оценки была выбрана **MAE**, так как она более устойчива к выбросам

In [11]:
# выбор категориальных признаков
cat_features = list(X_train.select_dtypes('category').columns)

In [12]:
# создание моделей
cb_baseline = CatBoostRegressor(random_state=RAND,
                                eval_metric="MAE", 
                                objective='MAE',
                                cat_features=cat_features)

lgb_baseline = LGBMRegressor(objective='mae', random_state=RAND, verbosity=-1)

In [13]:
# создание набора для валидации
eval_set = [(X_val, y_val)]

# обучение моделей
cb_baseline.fit(X_train,
                y_train,
                eval_set=eval_set,
                verbose=False,
                early_stopping_rounds=100)

lgb_baseline.fit(X_train,
                 y_train,
                 eval_metric="MAE",
                 categorical_feature=cat_features,
                 eval_set=eval_set,
                 callbacks=[early_stopping(stopping_rounds=100)]);

Training until validation scores don't improve for 100 rounds
Did not meet early stopping. Best iteration is:
[100]	valid_0's l1: 1.4146


In [14]:
# получение предсказаний
y_pred_cb = cb_baseline.predict(X_test)
y_pred_lgb = lgb_baseline.predict(X_test)

# Метрики

In [15]:
def r2_adjusted(y_true: np.ndarray, y_pred: np.ndarray,
                X_test: np.ndarray) -> float:
    '''
    Вычисление коэффициента детерминации для множественной регрессии
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    
    Returns
    ----------
    Значение метрики
    '''
    n_objects = len(y_true)
    n_features = X_test.shape[1]
    r2 = r2_score(y_true, y_pred)
    return 1 - (1 - r2) * (n_objects - 1) / (n_objects - n_features - 1)


def wape(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    '''
    Вычисление взвешенной абсолютной процентной ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    
    Returns
    ----------
    Значение метрики
    '''
    return np.sum(np.abs(y_pred - y_true)) * 100 / np.sum(y_true)


def rmsle(y_true: np.ndarray, y_pred: np.ndarray) -> np.float64:
    '''
    Вычисление среднеквадратической логарифмической ошибки
    
    Parameters
    -----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели 
        
    Returns
    ----------
    Значение метрики
    '''
    try:
        return np.sqrt(mean_squared_log_error(y_true, y_pred))
    except:
        return None


def get_metrics(y_test: np.ndarray, y_pred: np.ndarray, X_test: np.ndarray,
                name: str) -> pd.DataFrame:
    '''
    Создание таблицы с основными метриками для модели
    
    Parameters
    ----------
    y_test: np.ndarray
        тестовые значения y
    y_pred: np.ndarray
        предсказания модели
    X_test: np.ndarray
        тестовые значения X
    Returns
    ----------
    датафрейм с метриками
    '''
    metrics = pd.DataFrame()

    metrics['model'] = [name]
    metrics['MSE'] = mean_squared_error(y_test, y_pred)
    metrics['RMSE'] = np.sqrt(mean_squared_error(y_test, y_pred))
    metrics['RMSLE'] = rmsle(y_test, y_pred)
    metrics['MAE'] = mean_absolute_error(y_test, y_pred)
    metrics['R2 adjusted'] = r2_adjusted(y_test, y_pred, X_test)
    metrics['WAPE_%'] = wape(y_test, y_pred)

    return metrics

In [16]:
# создание датафрейма с метриками + потенционирование
metrics = pd.concat([
    get_metrics(np.exp(y_train), np.exp(cb_baseline.predict(X_train)), X_train,
                'CatBoostBaselineTrain'),
    get_metrics(np.exp(y_test), np.exp(y_pred_cb), X_test,
                'CatBoostBaselineTest'),
    get_metrics(np.exp(y_train), np.exp(lgb_baseline.predict(X_train)),
                X_train, 'LGBMBaselineTrain'),
    get_metrics(np.exp(y_test), np.exp(y_pred_lgb), X_test, 'LGBMBaselineTest')
])

In [17]:
metrics.set_index('model').style.highlight_min(
    axis=0, color='lightblue').highlight_max(axis=0, color='lightpink')

Unnamed: 0_level_0,MSE,RMSE,RMSLE,MAE,R2 adjusted,WAPE_%
model,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CatBoostBaselineTrain,5894928942723778.0,76778440.611436,1.799804,24208523.565597,0.715322,48.974804
CatBoostBaselineTest,5843035434928676.0,76439750.358885,1.944247,27809983.77322,0.658584,55.508199
LGBMBaselineTrain,6377899338583602.0,79861751.411947,1.760601,22592390.786591,0.691999,45.705303
LGBMBaselineTest,5542783863964557.0,74449874.841833,1.973105,27150351.399408,0.676128,54.191586


- в целом, метрики на трейне и тесте у обоих моделей отличаются, но не очень сильно, то есть переобучение не очень большое
- по значениям MAE, MSE, RMSE и RMSLE сложно что-то сказать, так как их значения напрямую зависят от таргет переменной, но по MAE лучше справилась модель lightgbm, а на остальных метриках - catboost
- по значению R2 можно сказать, что lightgbm немного лучше обьясняет дисперсию таргет переменной на тестовых данных, чем catboost 
- но WAPE (ошибка на регрессии) довольно велика, так что в следующих разделах попытаемся улучшить модель

In [18]:
def check_overfitting(model: CatBoostRegressor | LGBMRegressor, X_train: np.ndarray,
                      y_train: np.ndarray, X_test: np.ndarray,
                      y_test: np.ndarray, metric: Callable,
                      model_name: str) -> None:
    '''
    Проверяет переобучилась ли модель
    
    Parameters
    ----------
    model: CatBoostRegressor | LGBMRegressor
        модель
    X_train: np.ndarray
        тренировочные данные
    y_train: np.ndarray
        тренировочные значения y
    X_test: np.ndarray
        тестовые данные
    y_test: np.ndarray
        тестовые значения y
    metric: Callable
        функция-метрика для оценки переобучения
    model_name: str
        название модели
    
    Returns
    ----------
    Данные о переобучении и метрики на train и test
    '''
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)

    metric_train = metric(np.exp(y_train), np.exp(y_pred_train))
    metric_test = metric(np.exp(y_test), np.exp(y_pred_test))

    print(f'Рассчет переобучения {model_name}')
    print(f'{metric.__name__} на train: {round(metric_train, 2)}')
    print(f'{metric.__name__} на test: {round(metric_test, 2)}')
    print(
        f'delta = {round((abs(metric_train - metric_test) / metric_test*100), 1)}%'
    )

In [19]:
# проверка на переобучение
check_overfitting(cb_baseline, X_train, y_train, X_test, y_test,
                  mean_absolute_error, 'CatBoostBaseline')

Рассчет переобучения CatBoostBaseline
mean_absolute_error на train: 24208523.57
mean_absolute_error на test: 27809983.77
delta = 13.0%


In [20]:
# проверка на переобучение
check_overfitting(lgb_baseline, X_train, y_train, X_test, y_test,
                  mean_absolute_error, 'LGBMBaseline')

Рассчет переобучения LGBMBaseline
mean_absolute_error на train: 22592390.79
mean_absolute_error на test: 27150351.4
delta = 16.8%


- при использовании MAE в качестве метрики для проверки, catboost показывает переобучение в 13 процентов, а lightgbm в 16.8
- оба результата довольно хорошие, но учитывая значения метрик и то, что они немного лучше у lightgbm, будем использовать его, а переобучение попытаемся уменьшить при подборе параметров

- сохраним данные о метриках

In [21]:
metrics.to_csv('metrics/metrics.csv', index=False)