# Предсказание будущих продаж

**Задача:***
``Вам предоставляются ежедневные исторические данные о продажах. Задача состоит в прогнозировании общего количества продуктов, проданных в каждом магазине для тестового набора. Обратите внимание, что список магазинов и товаров слегка меняется каждый месяц. Создание надежной модели, способной справиться с такими ситуациями, является частью проблемы.``

**Описание файлов**: 

- ``sales_train.csv`` - обучающий набор. Ежедневные исторические данные с января 2013 года по октябрь 2015 года.
- ``test.csv`` - - тестовый набор. Вам необходимо спрогнозировать продажи этих магазинов и продуктов на ноябрь 2015 года.
- ``sample_submission.csv`` - файл с примерами представления в правильном формате.
- ``items.csv``  - дополнительная информация о товарах / товарах.
- ``item_categories.csv``  - дополнительная информация о категориях товаров.
- ``shops.csv``- дополнительная информация о магазинах.

**Поля данных**: 

- ``ID``- идентификатор, который представляет кортеж (магазин, товар) в тестовом наборе
- ``shop_id`` - уникальный идентификатор магазина
- ``item_id`` - уникальный идентификатор товара
- ``item_category_id``  - уникальный идентификатор категории товара
- ``item_cnt_day`` - количество проданных товаров. Вы прогнозируете ежемесячную сумму этой меры
- ``item_price``  - текущая цена товара
- ``data`` - дата в формате дд / мм / гггг
- ``date_block_num`` - порядковый номер месяца, используемый для удобства. В январе 2013 года - 0, в феврале 2013 года - 1, ..., в октябре 2015 года - 33
- ``item_name`` - название предмета
- ``shop_name``  - название магазина
- ``item_category_name`` - название категории товара

Подключим все необходимые библиотеки для обработки данных

In [None]:
import gc # сборщик мусора для удаления ненужных данных в оперативной памяти
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Проверка данных

Загружаем наши данные, просмотрим их и проверяем на наличие пустых значений

In [None]:
train = pd.read_csv(r'./datasets/sales_train.csv')
test = pd.read_csv(r'./datasets/test.csv')
sample_sub = pd.read_csv(r'./datasets/sample_submission.csv')
items = pd.read_csv(r'./datasets/items.csv')
items_cat = pd.read_csv(r'./datasets/item_categories.csv')
shops = pd.read_csv(r'./datasets/shops.csv')

In [None]:
items_cat.head()

In [None]:
items.head()

In [None]:
train.head()

In [None]:
sample_sub.head()

In [None]:
shops.head()

In [None]:
test.head()

In [None]:
items_cat.isnull().sum()

In [None]:
items.isnull().sum()

In [None]:
train.isnull().sum()

In [None]:
shops.isnull().sum()

In [None]:
test.isnull().sum()

# Преобразование данных

Приведем наши данные к необходимому формату, объединим таблицы. Удалим из train выборки то чего нет в test выборке. Добавим новые признаки. Приведем целевую переменную item_cnt_day к формату 0, 20.

In [None]:
test_shops = test.shop_id.unique() # в train выборке у нас есть магазины и товары которых нет в test выборке
train = train[train.shop_id.isin(test_shops)] # поэтому мы их удалим
test_items = test.item_id.unique()
train = train[train.item_id.isin(test_items)]

In [None]:
def split_city(str):
  return str.split(sep=" ", maxsplit=1)[0]

def split_shop(str):
  return str.split(sep=" ", maxsplit=1)[1]

def split_item_cat1(str):
  return str.split(sep="-", maxsplit=1)[0]

def split_item_cat2(str):
  splitted = str.split(sep="-", maxsplit=1)
  if len(splitted) == 1:
    return "No info"
  else:
    return splitted[1]

def prepare_data(data): # функция для объединения таблиц и создания новых признаков из старых
  full_items = items.merge(items_cat, left_on="item_category_id", right_on="item_category_id")
  full_data = data.merge(shops, left_on="shop_id", right_on="shop_id").merge(full_items, left_on="item_id", right_on="item_id")
  del full_items
  full_data['city'] = full_data['shop_name'].apply(split_city)
  full_data['new_shop_name'] = full_data['shop_name'].apply(split_shop)
  full_data['item_cat1'] = full_data['item_category_name'].apply(split_item_cat1)
  full_data['item_cat2'] = full_data['item_category_name'].apply(split_item_cat2)
  full_data.drop(['shop_id', 'item_id', 'shop_name', 'item_name', 'item_category_id', 'item_category_name'], axis=1, inplace=True)
  return full_data

In [None]:
%%time
new_train = prepare_data(train.copy())
new_test = prepare_data(test.copy())

In [None]:
new_test['date_block_num'] = 34 # добавляем порядковый номер месяца в test
new_test.drop(['ID'], axis=1, inplace=True)
new_train.drop(['date'], axis=1, inplace=True)
new_train['item_cnt_day'] = new_train['item_cnt_day'].clip(0, 20) # преобразуем значения item_cnt_day в необходимый формат > 0
new_train['month'] = new_train['date_block_num'] % 12 # добавляем номер месяца в train
new_test['month'] = new_test['date_block_num'] % 12 # добавляем номер месяца в test
new_train.drop(['item_price'], axis=1, inplace=True)

Хотя сборщик мусора запускается автоматически, когда интерпретатор выполняет вашу программу, вам может потребоваться запустить сборщик в определенное время, когда вы знаете, что нужно освободить много объектов или в вашем приложении не выполняется много работы. Можно запустить сбор с использованием collect ().

In [None]:
gc.collect()

In [None]:
new_train

In [None]:
new_test

# Получение информации о данных

In [None]:
new_train.info()

In [None]:
new_test.info()

In [None]:
new_train.describe()

# Визуализация

Посмотрим количество заказов по городам.

In [None]:
plt.figure(figsize=(20, 5))
city = sns.countplot(x='city', data=new_train)
city.set_xticklabels(city.get_xticklabels(), rotation=45);

Распределение покупок по магазинам.

In [None]:
plt.figure(figsize=(30, 5))
shop_viz = sns.countplot(x='new_shop_name', data=new_train)
shop_viz.set_xticklabels(shop_viz.get_xticklabels(), rotation=45);

Распределение покупок по глобальным категориям.

In [None]:
plt.figure(figsize=(20, 5))
item_name = sns.countplot(x='item_cat1', data=new_train)
item_name.set_xticklabels(item_name.get_xticklabels(), rotation=45);

Распределение покупок по локальным категориям.


In [None]:
plt.figure(figsize=(35, 5))
item_label = sns.countplot(x='item_cat2', data=new_train)
item_label.set_xticklabels(item_label.get_xticklabels(), rotation=45);

Распределение покупок по месяцам.

In [None]:
plt.figure(figsize=(20, 5))
sns.countplot(x='month', data=new_train);

# Подготавливаем данные для обучения моделей

In [None]:
X_train = new_train.drop(['item_cnt_day'], axis=1) # разделение на X и Y
Y_train = new_train['item_cnt_day']
X_test = new_test

In [None]:
cat_features = ['city', 'new_shop_name', 'item_cat1', 'item_cat2']

def into_numbers(data): # приводим к необходимому формату категориальные признаки
  num_data = pd.concat([data, pd.get_dummies(data['city'])], axis=1)
  num_data = pd.concat([num_data, pd.get_dummies(data['item_cat1'])], axis=1)
  num_data = pd.concat([num_data, pd.get_dummies(data['item_cat2'])], axis=1)
  num_data = pd.concat([num_data, pd.get_dummies(data['new_shop_name'])], axis=1)
  num_data.drop(cat_features, axis=1, inplace=True)
  return num_data

In [None]:
%%time
X_train_num = into_numbers(X_train.copy())
X_test_num = into_numbers(X_test.copy())

В train выборке отсутствуют 3 категории товаров, которые есть в test выборке, поэтому мы добавим их вручную в train выборке.

In [None]:
X_train_num[' Гарнитуры/Наушники'] = 0
X_train_num['PC ' ] = 0
X_train_num['Игры MAC '] = 0

Для XGBoost столбцы признаков должны быть в одном порядке и у train, и test выборок, поэтому мы отсортируем столбцы, чтобы получить одинаковый порядок столбцов.

In [None]:
X_train_num = X_train_num.reindex(sorted(X_train_num.columns), axis=1)
X_test_num = X_test_num.reindex(sorted(X_test_num.columns), axis=1)

Из-за того, что LightGBM не принимает не ascii-символы придется делать транслитерацию названий колонок.

In [None]:
def transliterate(name):
   # Словарь с заменами
   dictionary = {'а':'a','б':'b','в':'v','г':'g','д':'d','е':'e','ё':'e',
      'ж':'zh','з':'z','и':'i','й':'i','к':'k','л':'l','м':'m','н':'n',
      'о':'o','п':'p','р':'r','с':'s','т':'t','у':'u','ф':'f','х':'h',
      'ц':'c','ч':'cz','ш':'sh','щ':'scz','ъ':'','ы':'y','ь':'','э':'e',
      'ю':'u','я':'ja', 'А':'A','Б':'B','В':'V','Г':'G','Д':'D','Е':'E','Ё':'E',
      'Ж':'ZH','З':'Z','И':'I','Й':'I','К':'K','Л':'L','М':'M','Н':'N',
      'О':'O','П':'P','Р':'R','С':'S','Т':'T','У':'U','Ф':'F','Х':'H',
      'Ц':'C','Ч':'CZ','Ш':'SH','Щ':'SCH','Ъ':'','Ы':'y','Ь':'','Э':'E',
      'Ю':'U','Я':'YA',',':'','?':'',' ':'_','~':'','!':'','@':'','#':'',
      '$':'','%':'','^':'','&':'','*':'','(':'',')':'','-':'','=':'','+':'',
      ':':'',';':'','<':'','>':'','\'':'','"':'','\\':'','/':'','№':'',
      '[':'',']':'','{':'','}':'','ґ':'','ї':'', 'є':'','Ґ':'g','Ї':'i',
      'Є':'e', '—':''}
        
   # Циклически заменяем все буквы в строке
   for key in dictionary:
      name = name.replace(key, dictionary[key])
   return name

In [None]:
eng_cols = {}
for i in X_train_num.columns:
    eng_cols[str(i)] = transliterate(i)

In [None]:
X_train_num.rename(columns=eng_cols, inplace=True)
X_test_num.rename(columns=eng_cols, inplace=True)

In [None]:
gc.collect()

# Создание моделей

In [None]:
import xgboost
from sklearn.ensemble import RandomForestRegressor
from lightgbm import LGBMRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

Разбиваем данные train выборки на выборку для обучения и отложенную выборку для проверки качества моделей.

In [None]:
X_train_check, X_test_check, y_train_check, y_test_check = train_test_split(X_train_num, Y_train, test_size=0.33, random_state=42) # нормализованные данные с использованием метода обработки категориальных признаков - get_dummies

Удалим старые данные, чтобы освободить ОЗУ.

In [None]:
del X_train_num
del Y_train
del X_train
del X_test
del items_cat
del items
del train
del sample_sub
del shops
del test
del new_train
del new_test
gc.collect()

In [None]:
model_error = {}

Пробуем разные модели "из коробки".

# LinearRegression

Линейная регрессия, вероятно, является одним из наиболее важных и широко используемых методов регрессии. Это один из самых простых методов регрессии. Одним из его основных преимуществ является простота интерпретации результатов.

**Постановка проблемы**

При реализации линейной регрессии некоторой зависимой переменной 𝑦 на множестве независимых переменных 𝐱 = (𝑥₁,…, 𝑥ᵣ), где 𝑟 - число предикторов, вы предполагаете линейную зависимость между 𝑦 и 𝐱: 𝑦 = 𝛽₀ + 𝛽₁𝑥₁ + ⋯ + 𝛽ᵣ𝑥ᵣ + 𝜀. Это уравнение является уравнением регрессии. 𝛽₀, 𝛽₁,…, 𝛽ᵣ - коэффициенты регрессии, а 𝜀 - случайная ошибка.

Линейная регрессия вычисляет оценки коэффициентов регрессии или просто предсказанных весов, обозначенных как 𝑏₀, 𝑏₁,…, 𝑏ᵣ. Они определяют оценочную функцию регрессии 𝑓 (𝐱) = 𝑏₀ + 𝑏₁𝑥₁ + ⋯ + 𝑏ᵣ𝑥ᵣ. Эта функция должна достаточно хорошо фиксировать зависимости между входами и выходами.

Расчетный или прогнозируемый отклик 𝑓 (𝐱ᵢ) для каждого наблюдения 𝑖 = 1,…, 𝑛 должен быть как можно ближе к соответствующему фактическому отклику 𝑦ᵢ. Различия 𝑦ᵢ - 𝑓 (𝐱ᵢ) для всех наблюдений 𝑖 = 1,…, 𝑛 называются невязками. Регрессия заключается в определении наилучших прогнозируемых весов, то есть весов, соответствующих наименьшим остаткам.

Чтобы получить наилучшие веса, вы обычно минимизируете сумму квадратов невязок (SSR) для всех наблюдений 𝑖 = 1,…, 𝑛: SSR = Σᵢ (𝑦ᵢ - 𝑓 (𝐱ᵢ)) ². Этот подход называется методом наименьших квадратов.

**Производительность регрессии**

Изменение фактических ответов 𝑦ᵢ, 𝑖 = 1,…, 𝑛 происходит частично из-за зависимости от предикторов 𝐱ᵢ. Тем не менее, есть также дополнительная внутренняя дисперсия на выходе.

Коэффициент детерминации, обозначенный как 𝑅², говорит о том, какое количество изменений в 𝑦 можно объяснить зависимостью от 𝐱 с использованием конкретной регрессионной модели. Больший indicates² указывает на лучшее соответствие и означает, что модель может лучше объяснить изменение выходных данных с различными входными данными.

Значение 𝑅² = 1 соответствует SSR = 0, то есть идеально подходит, поскольку значения прогнозируемых и фактических ответов полностью соответствуют друг другу.

In [None]:
%%time
model_lr = LinearRegression()
model_lr.fit(X_train_check, y_train_check)

In [None]:
pred_lr = model_lr.predict(X_test_check)
lr_rmse = np.sqrt(mean_squared_error(y_test_check, pred_lr))
model_error['LinearRegression'] = lr_rmse
print(lr_rmse)

# SGDRegressor

Линейная модель подбирается путем минимизации регуляризованных эмпирических потерь с SGD

Stochastic Gradient Descent (SGD) - это простой, но очень эффективный подход к дискриминационному обучению линейных классификаторов при использовании функций выпуклых потерь, таких как (линейные) машины опорных векторов и логистическая регрессия. Несмотря на то, что SGD существует в сообществе машинного обучения в течение длительного времени, совсем недавно ему уделялось значительное внимание в контексте широкомасштабного обучения.
SGD был успешно применен к крупномасштабным и редким проблемам машинного обучения, часто встречающимся в классификации текста и обработке естественного языка. Учитывая, что данных мало, классификаторы в этом модуле легко масштабируются до проблем с более чем 10 ^ 5 примерами обучения и более чем 10 ^ 5 функциями.

Преимущества стохастического градиентного спуска:
- Эффективность.
- Простота реализации (множество возможностей для настройки кода).

К недостаткам стохастического градиентного спуска относятся:
- SGD требует наличия ряда гиперпараметров, таких как параметр регуляризации и количество итераций.
- SGD чувствителен к масштабированию объектов.

**Regressor**

Класс SGDRegressor реализует простую процедуру обучения стохастического градиентного спуска, которая поддерживает различные функции потерь и штрафы для соответствия моделям линейной регрессии. SGDRegressor хорошо подходит для задач регрессии с большим количеством обучающих выборок (> 10.000), для других задач мы рекомендуем Ridge, Lasso или ElasticNet.

Конкретная функция потерь может быть установлена с помощью параметра `loss`. SGDRegressor поддерживает следующие функции потерь:
- loss = "squared_loss": обычные наименьшие квадраты,
- loss = "huber": потеря Хубера для устойчивой регрессии,
- loss = "epsilon_insensitive": линейная регрессия опорных векторов.

Функции гибкой и нечувствительной к эпсилону потери могут использоваться для надежной регрессии. Ширина нечувствительной области должна быть указана с помощью параметра `epsilon`. Этот параметр зависит от масштаба целевых переменных.

SGDRegressor поддерживает усредненный SGD в качестве SGDClassifier. Усреднение можно включить, установив значение `Average = True`.

Для регрессии с квадратом потерь и штрафом l2, другой вариант SGD со стратегией усреднения доступен с алгоритмом Stochastic Average Gradient (SAG), доступным в качестве решателя в Ridge.

In [None]:
%%time
model_sgd = SGDRegressor()
model_sgd.fit(X_train_check, y_train_check)

In [None]:
pred_sgd = model_sgd.predict(X_test_check)
sgd_rmse = np.sqrt(mean_squared_error(y_test_check, pred_sgd))
model_error['SGDRegressor'] = sgd_rmse
print(sgd_rmse)

# XGBoost

XGBoost - это алгоритм, который в последнее время доминирует в прикладном машинном обучении и соревнованиях Kaggle для структурированных или табличных данных.

XGBoost - это реализация деревьев решений с градиентным усилением, разработанных для скорости и производительности.


**Зачем использовать XGBoost?**

Две причины использовать XGBoost также являются двумя целями проекта:

- Скорость исполнения.
- Модель Performance.

**Скорость выполнения XGBoost**

Как правило, XGBoost работает быстро. Действительно быстро по сравнению с другими реализациями повышения градиента.

Сцилард Пафка выполнил несколько объективных тестов, сравнивая производительность XGBoost с другими реализациями деревьев градиентного усиления и пакетных решений. Свои результаты он написал в мае 2015 года в своем блоге под названием «Сравнительный анализ реализации случайных лесов».

Он также предоставляет весь код на GitHub и более подробный отчет о результатах с точными числами.

**Производительность модели XGBoost**

XGBoost доминирует над структурированными или табличными наборами данных в задачах прогнозирования и классификации.

Доказательством тому является то, что это алгоритм выбора победителей конкурса на платформе конкурентной обработки данных Kaggle.

**Какой алгоритм использует XGBoost?**

Библиотека XGBoost реализует алгоритм дерева решений для повышения градиента.

Этот алгоритм имеет множество различных названий, таких как повышение градиента, несколько аддитивных деревьев регрессии, стохастическое повышение градиента или повышение градиента.

Повышение - это метод ансамбля, в который добавляются новые модели для исправления ошибок, допущенных существующими моделями. Модели добавляются последовательно, пока дальнейшие улучшения не могут быть сделаны. Популярным примером является алгоритм AdaBoost, который взвешивает точки данных, которые трудно предсказать.

Повышение градиента - это подход, при котором создаются новые модели, которые предсказывают невязки или ошибки предыдущих моделей, а затем складываются вместе, чтобы сделать окончательный прогноз. Это называется повышением градиента, потому что он использует алгоритм градиентного спуска, чтобы минимизировать потери при добавлении новых моделей.

Этот подход поддерживает как регрессионные, так и классификационные задачи прогнозного моделирования.

In [None]:
%%time
model_xgboost = xgboost.XGBRegressor()
model_xgboost.fit(X_train_check, y_train_check)

In [None]:
pred_xgb = model_xgboost.predict(X_test_check)
xgboost_rmse = np.sqrt(mean_squared_error(y_test_check, pred_xgb))
model_error['XGBoost'] = xgboost_rmse
print(xgboost_rmse)

In [None]:
xgboost.plot_importance(model_xgboost) # график важности признаков

# RandomForest

RandomForest - это метаоценщик, который подходит к ряду классификационных деревьев решений по различным подвыборкам набора данных и использует усреднение для повышения точности прогнозирования и контроля соответствия. 

In [None]:
%%time
model_rf = RandomForestRegressor()
model_rf.fit(X_train_check, y_train_check)

In [None]:
pred_rf = model_rf.predict(X_test_check)
rf_rmse = np.sqrt(mean_squared_error(y_test_check, pred_rf))
model_error['RandomForest'] = rf_rmse
print(rf_rmse)

# LightGBM

**LightGBM** - это платформа для повышения градиента, использующая алгоритмы обучения на основе дерева. Он предназначен для распространения и эффективности со следующими преимуществами:

- Более быстрая скорость обучения и высокая эффективность.
- Более низкое использование памяти.
- Лучшая точность.
- Поддержка параллельного и GPU обучения.
- Способен обрабатывать крупномасштабные данные.

In [None]:
model_lgbm = LGBMRegressor()
model_lgbm.fit(X_train_check, y_train_check)

In [None]:
pred_lgbm = model_lgbm.predict(X_test_check)
lgbm_rmse = np.sqrt(mean_squared_error(y_test_check, pred_lgbm))
model_error['LightGBM'] = lgbm_rmse
print(lgbm_rmse)

Посмотрим на то как алгоритмы работают "из коробки"

In [None]:
full_rmse = 0
for key, value in model_error.items():
  full_rmse += value
  print("RMSE ошибка модели {} - {}".format(key, str(value)))
print("Среднее качество моделей - {}".format(str(full_rmse / len(model_error))))

# GridSearch

**GridSearch** - это, по сути, алгоритм оптимизации, который позволяет вам выбрать лучшие параметры для вашей задачи оптимизации из списка предоставленных вами параметров, что позволяет автоматизировать метод проб и ошибок. Хотя это может быть применено ко многим задачам оптимизации, но наиболее широко известно его использование в машинном обучении для получения параметров, при которых модель дает наилучшую точность.

Давайте предположим, что ваша модель использует следующие три параметра в качестве входных данных:

- Количество скрытых слоев [2, 4]
- Количество нейронов в каждом слое [5, 10]
- Количество эпох [10, 50]
Если для каждого входного параметра мы хотим опробовать два варианта (как упомянуто в квадратных скобках выше), он составляет до 23 = 8 различных комбинаций (например, одна возможная комбинация - [2,5,10]). Делать это вручную было бы головной болью.

Теперь представьте, что у нас было 10 разных входных параметров, и мы хотели попробовать 5 возможных значений для каждого параметра. Это потребует ручного ввода с нашей стороны каждый раз, когда мы хотим изменить значение параметра, перезапустить код и отслеживать результаты для всех комбинаций параметров. Grid Search автоматизирует этот процесс, поскольку он просто принимает возможные значения для каждого параметра и запускает код, чтобы опробовать все возможные комбинации, выводит результат для каждой комбинации, а также выводит комбинацию, которая дает наилучшую точность. 

Очевидно мы можем улучшить качество моделей с помощью перебора гиперпараметров по сетке.

In [None]:
from sklearn.model_selection import GridSearchCV

С нашими данными лучше всего работает XGBoost, поэтому для него мы будем делать перебор по сетке, в надежде улучшить наш результат.

In [None]:
%%time
params_xgboost = {
    'booster':['dart', 'gbtree'], # вид алгоритмов бустинга
    'eta':np.linspace(0.5, 0.01, 6), # скорость обучения
    'max_depth':[6, 8, 10], # максимальная глубина деревьев
    'lambda':[0, 0.1, 1, 5], # коэффициент l2 регуляризации
    'alpha':[0, 0.1, 1, 5], # коэффициент l1 регуляризации
    'tree_method':['gpu_hist'], # вид конструкции деревьев
#     'gpu_id':[0], # номер видеокарты
    'eval_metric':['rmse'] # используемая метрика ошибки
}

best_xgboost = GridSearchCV(xgboost.XGBRegressor(), params_xgboost, cv=None, refit=False)
best_xgboost.fit(X_train_check, y_train_check)

best_xgboost_params = best_xgboost.best_params_
print(best_xgboost_params) # выводим словарь лучших параметров

Посмотрим на результаты нашего перебора.

In [None]:
%%time
best_model = xgboost.XGBRegressor(**best_xgboost_params)
best_model.fit(X_train_check, y_train_check)

pred_best_xgboost = best_model.predict(X_test_check)
best_rmse_xgboost = np.sqrt(mean_squared_error(y_test_check, pred_best_xgboost))

print("RMSE ошибка модели XGBoost с подобранными гиперпараметрами - {}".format(best_rmse_xgboost))

Мы добились результата лучше, чем с параметрами "из коробки". 

In [None]:
gc.collect()

# Stacking models

**Что такое Stacking model?**
Stacking - это процесс использования различных моделей машинного обучения одна за другой, когда вы добавляете прогнозы для каждой модели для создания новой функции.

Как правило, есть два разных варианта стека, вариант A и B. В этой статье мы сосредоточимся на варианте A, поскольку, похоже, это дает лучшие результаты двух вариантов, потому что модели легче подходят для данных обучения в варианте B. Вероятно, это также причина, по которой практикующие врачи используют вариант А, хотя это не исключает переоснащение.

Обратите внимание, что нет правильного способа реализации стекирования моделей (Дэвид Х. Вольперт), потому что стекирование моделей описывает только процесс объединения многих моделей с окончательной обобщенной моделью. Существуют способы реализации стекирования моделей, некоторые из которых доказали свою эффективность на практике. Вот почему мы исследуем вариант А.

**Объяснение процесса наложения модели**

Укладка моделей всегда должна сопровождаться перекрестной проверкой, чтобы свести модели к подгонке к обучающим данным. Это обычная практика - читайте больше здесь.

Моделирование будет казаться простым способом улучшения ваших результатов, когда вы понимаете, что происходит внутри алгоритма. Тем не менее, существует множество взаимодействующих компонентов, и отслеживать их все может быть довольно сложно, особенно при первом изучении этой концепции. Чтобы вы в полной мере поняли алгоритм, я создал пошаговое изображение и описание, чтобы его было легче понять.

**Представление слои стеков моделей**
Укладка моделей машинного обучения выполняется по слоям, и их может быть произвольно много, в зависимости от того, сколько именно моделей вы обучили, а также от наилучшего сочетания этих моделей. Например, первый уровень может сводиться к изучению некоторой функции, которая обладает большой предсказательной силой, в то время как следующий уровень может делать что-то еще, например, снижение уровня шума.

Мы помещаем модели в стопки слоями, и обычно с другой целью. В конце мы получаем окончательный набор данных, который мы передаем в последнюю модель. Последняя модель называется мета-учеником (например, мета-регрессором или мета-классификатором), и ее целью является обобщение всех характеристик каждого слоя в окончательных предсказаниях.

Ниже приведен пример, где каждый уровень представляет новый слой в нашем общем конвейере при применении стекирования модели (есть переключение между слоем и уровнем, но их значение одинаково). Приведенный пример только с двумя уровнями, где уровень 2 является окончательной моделью, которая дает окончательные прогнозы, которые являются выходными данными.
<img src="./img/stacking.png">

С помощью техники стекинга моделей попробуем сделать нашу ошибку еще меньше.

In [None]:
from sklearn.ensemble import StackingRegressor

In [None]:
%%time
estimators = [
              ('lr', LinearRegression(n_jobs=-1)),
              ('sgd', SGDRegressor(**best_sgd_params)),
              ('xgboost', xgboost.XGBRegressor(**best_xgboost_params)),
              ('rf', RandomForestRegressor(**best_rf_params))
              ]

stack = StackingRegressor(estimators=estimators, final_estimator=LGBMRegressor(**best_lgbm_params))
stack.fit(X_train_check, y_train_check)

In [None]:
pred_stack = stack.predict(X_test_check)
stack_error = np.sqrt(mean_squared_error(y_test_check, pred_stack))
print("RMSE ошибка при стекинге моделей - {}".format(stack_error))

In [None]:
gc.collect()

# Create submission

In [None]:
pred_for_sub = stack.predict(X_test_num)
len(pred_for_sub)

In [None]:
sub = pd.DataFrame({'ID':test.ID, 'item_cnt_month':pred_for_sub})
sub

In [None]:
sub.to_csv("sub.csv", index=False)

# Выводы

По данным мы увидели, что больше всего продаж в городе Москва и в категориях Игры, Подарки, Кино и Музыка. Также мы увидели зависимость продаж от конкретного месяца. Мы попробовали различные алгоритмы, выделили лучший и сделали для него перебор по сетке. С помощью этого мы добились лучшего результата, чем "из коробки", а так же увидели, что задача решаема с помощью стандартных инструментов.