<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/14-01-2025-%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Анализ и прогнозирование веб-трафика: сравнение классических, машинных и глубоких методов для оптимизации пользовательской активности**

#### **Аннотация**

В статье представлен сравнительный анализ классических, машинных и глубоких методов прогнозирования веб-трафика с целью оптимизации пользовательской активности. Рассматриваются два основных подхода: прогнозирование на основе исторических данных временных рядов без учета внешних факторов и прогнозирование с учетом внешних факторов, таких как маркетинговые кампании, сезонность и погодные условия. В исследовании применяются методы ARIMA, SARIMAX, XGBoost, LightGBM, LSTM, GRU, CNN, SVM-регрессия, а также комбинированные модели, включая Bidirectional+LSTM, GRU+BiRNN, Seq2Seq с Encoder-Decoder+GRU, CNN+LSTM и GRU+CNN. Особое внимание уделено методам многошагового прогнозирования, которые играют ключевую роль в задачах долгосрочного анализа временных рядов. Оценка эффективности методов проводится на основе метрик, таких как среднее абсолютное отклонение (MAE), среднеквадратичная ошибка (RMSE) и средняя абсолютная процентная ошибка (MAPE).

**Ключевые слова:** временные ряды, веб-трафик, прогнозирование, SARIMAX, XGBoost, LSTM, GRU, CNN, SVM-регрессия, BiRNN, Seq2Seq, точность прогнозов, сезонность, аномалии в данных, оптимизация маркетинговых каналов, многошаговое прогнозирование.



#### **Введение**

В условиях цифровой трансформации веб-сайты стали ключевым инструментом для достижения бизнес-целей, таких как увеличение конверсий, улучшение пользовательского опыта и повышение прибыльности. Однако анализ производительности веб-сайтов сопряжен с рядом вызовов, включая сезонные колебания трафика, наличие шумов в данных и сложность прогнозирования в условиях нестабильности. Временные ряды, отражающие данные о трафике и пользовательской активности, позволяют не только выявить ключевые тренды и сезонные паттерны, но и обнаружить аномалии, что делает их ценным инструментом для прогнозирования и принятия решений.

Согласно исследованию Vlahogianni, Karlaftis и Golias (2014), точное прогнозирование временных рядов, таких как веб-трафик, требует учета как внутренних закономерностей данных, так и внешних факторов, которые могут влиять на динамику [1]. В условиях растущей конкуренции на цифровых платформах эта задача становится критически важной для эффективного управления ресурсами, планирования маркетинговых кампаний и минимизации издержек.

Целью данной статьи является проведение сравнительного анализа классических, машинных и глубоких методов для анализа и прогнозирования веб-трафика с акцентом на повышение уровня вовлеченности пользователей. В работе рассматриваются два основных подхода:
1. **Прогнозирование без учета внешних факторов**, где модель строится исключительно на основе исторических данных временного ряда.
2. **Прогнозирование с учетом внешних факторов**, где учитываются дополнительные переменные, такие как маркетинговые кампании, сезонность, погодные условия и другие влияющие факторы.

Для решения задачи прогнозирования без учета внешних факторов используется функциональная зависимость, отражающая связь между прошлыми и будущими значениями временного ряда:
$$
Z(t) = F(Z(t-1), Z(t-2), Z(t-3), \dots) + \varepsilon_t,
$$
где $Z(t)$ — значения временного ряда в момент времени $t$, а $\varepsilon_t$ — ошибка модели. Основная задача заключается в минимизации среднего абсолютного отклонения (MAE) между прогнозируемыми и фактическими значениями:
$$
E = \frac{1}{P} \sum_{t=T+1}^{T+P} |\varepsilon_t| \to \min.
$$

Эта формула является стандартной для авторегрессионных моделей (AR), которые широко используются в прогнозировании временных рядов. Чучуева И.А. (2012) также использует аналогичные подходы в своей работе, где рассматривается прогнозирование на основе выборки максимального подобия [2].

Для прогнозирования с учетом внешних факторов модель расширяется за счет включения дополнительных переменных $X_1(t), X_2(t), \dots, X_S(t)$, которые могут влиять на исходный временной ряд:
$$
Z(t) = F(Z(t-1), Z(t-2), \dots, X_1(t), X_1(t-1), \dots, X_S(t), X_S(t-1), \dots) + \varepsilon_t.
$$
В этом случае задача также сводится к минимизации ошибки прогноза $E$, но с учетом дополнительных факторов. Такие модели, как SARIMAX, успешно применяются для учета внешних факторов в прогнозировании временных рядов [2].

Новизна исследования заключается в комплексном подходе, который объединяет классические методы анализа временных рядов, современные методы машинного обучения и глубокого обучения, что позволяет учитывать как внутренние закономерности данных, так и внешние факторы, влияющие на веб-трафик. На основе полученных данных предложены практические рекомендации по оптимизации маркетинговых стратегий и улучшению пользовательского опыта.



#### **Многошаговое прогнозирование временных рядов**

Многошаговое прогнозирование временных рядов представляет собой задачу предсказания значений на несколько шагов вперед. Этот подход особенно полезен в ситуациях, когда необходимо спрогнозировать поведение временного ряда на длительный период, например, для планирования ресурсов, управления запасами или оптимизации маркетинговых кампаний. В зависимости от задачи и характеристик данных, выделяют два основных метода многошагового прогнозирования: **итеративное прогнозирование** и **прямое прогнозирование**.

#### **Когда использовать многошаговое прогнозирование?**

Многошаговое прогнозирование целесообразно применять в следующих случаях:
1. **Долгосрочное планирование**: когда необходимо предсказать значения временного ряда на несколько периодов вперед, например, для прогнозирования спроса на товары или услуги.
2. **Учет сложных зависимостей**: когда временной ряд имеет сложные сезонные или трендовые компоненты, которые требуют учета долгосрочных зависимостей.
3. **Оптимизация ресурсов**: когда важно заранее спланировать распределение ресурсов, например, в логистике, энергетике или управлении веб-трафиком.
4. **Прогнозирование с учетом внешних факторов**: когда на временной ряд влияют внешние переменные, такие как маркетинговые акции, погодные условия или экономические изменения.

#### **Для каких моделей подходит многошаговое прогнозирование?**

Многошаговое прогнозирование может быть реализовано с использованием различных моделей, включая:
- **Классические модели**: ARIMA, SARIMAX, VAR — подходят для стационарных данных и линейных зависимостей.
- **Методы машинного обучения**: XGBoost, LightGBM, Random Forest — эффективны для нелинейных зависимостей и данных с шумами.
- **Методы глубокого обучения**: LSTM, GRU, CNN, Seq2Seq — идеальны для сложных временных рядов с долгосрочными зависимостями и нестационарностью.

#### **Итеративное прогнозирование**

В итеративном подходе используется одна модель, которая предсказывает значение на один шаг вперед. Затем это значение используется как вход для следующего шага. Формально это можно выразить как:
$$
\hat{x}_{t+1} = f(x_t, x_{t-1}, \dots, x_{t-n}),
$$
где $f$ — модель, обученная на исторических данных. Этот метод подходит для моделей, которые могут эффективно обрабатывать последовательные данные, таких как LSTM, GRU и ARIMA.

#### **Прямое прогнозирование**

В прямом подходе строится отдельная модель для каждого шага прогнозирования. Формально:
$$
\hat{x}_{t+k} = f_k(x_t, x_{t-1}, \dots, x_{t-n}),
$$
где $k$ — горизонт прогнозирования. Этот метод требует больше вычислительных ресурсов, но может быть более точным для долгосрочных прогнозов, особенно при использовании моделей машинного обучения, таких как XGBoost или Random Forest.

#### **Комбинированные модели для многошагового прогнозирования**

Для повышения точности прогнозирования в исследовании также рассматриваются комбинированные модели, такие как:
1. **Bidirectional + LSTM**: сочетание двунаправленных рекуррентных сетей (BiRNN) с LSTM, что позволяет учитывать контекст как из прошлого, так и из будущего.
2. **GRU + BiRNN**: комбинация GRU с двунаправленными рекуррентными сетями, что обеспечивает более быструю обработку данных по сравнению с LSTM.
3. **Seq2Seq с Encoder-Decoder + GRU**: архитектура, которая использует кодировщик и декодировщик с GRU для прогнозирования последовательностей переменной длины.
4. **CNN + LSTM**: модель, которая использует сверточные нейронные сети для выявления локальных паттернов, а LSTM — для учета долгосрочных зависимостей.
5. **GRU + CNN**: комбинация GRU и CNN, которая позволяет эффективно обрабатывать временные ряды с учетом как локальных, так и глобальных зависимостей.

Эти модели особенно эффективны для задач многошагового прогнозирования, так как они способны учитывать сложные зависимости в данных и адаптироваться к изменяющимся условиям.



#### **Литературный обзор**

Прогнозирование временных рядов, включая веб-трафик, является активно исследуемой областью, что обусловлено его важностью для бизнеса и управления ресурсами. В работе Vlahogianni et al. (2014) подчеркивается, что точное прогнозирование требует учета как внутренних закономерностей данных, так и внешних факторов, таких как маркетинговые кампании, сезонность и экономические изменения [1]. Авторы отмечают, что классические методы, такие как ARIMA, эффективны для стационарных данных, но их применение ограничено в условиях нестабильности и нелинейных зависимостей.

Чучуева И.А. (2012) в своем исследовании предложила метод прогнозирования на основе выборки максимального подобия, который показал высокую точность для стационарных временных рядов [2]. Однако в условиях нестабильности и наличия шумов в данных этот метод может быть недостаточно точным, что подчеркивает необходимость использования более гибких подходов.

Современные методы машинного обучения, такие как XGBoost и LightGBM, демонстрируют высокую точность и устойчивость к шумам. В работе Chen и Guestrin (2016) представлен метод XGBoost, который сочетает в себе высокую скорость обработки данных и способность учитывать сложные зависимости [3]. Однако авторы отмечают, что такие методы требуют тщательной настройки гиперпараметров, что может быть ресурсоемким процессом.

Методы глубокого обучения, такие как LSTM и GRU, эффективны для анализа сложных временных рядов. Hochreiter и Schmidhuber (1997) предложили архитектуру LSTM, которая способна учитывать долгосрочные зависимости в данных [4]. Однако их применение ограничено высокой вычислительной сложностью и необходимостью больших объемов данных. В исследовании Zhang et al. (2018) была предложена гибридная модель, сочетающая методы машинного обучения и глубокого обучения, которая показала высокую точность прогнозирования в условиях нестационарных данных [5].

Smyl (2020) предложил метод, основанный на комбинации экспоненциального сглаживания и глубокого обучения, который продемонстрировал высокую эффективность для прогнозирования временных рядов с сильной сезонностью [6]. Этот подход позволяет учитывать как сезонные колебания, так и долгосрочные тренды, что делает его особенно полезным для анализа веб-трафика.

Таким образом, современные исследования показывают, что для точного прогнозирования веб-трафика необходимо комбинировать различные подходы, учитывая как внутренние закономерности данных, так и внешние факторы. Это позволяет повысить точность прогнозов и адаптировать модели к изменяющимся условиям.



#### **Методы исследования**

В рамках данного исследования применяются следующие методы анализа и прогнозирования временных рядов:

1. **Классические методы**:
   - ARIMA (Autoregressive Integrated Moving Average)
   - SARIMAX (Seasonal ARIMA with Exogenous Variables)
   - VAR (Vector Autoregression)
   - SVAR (Structural Vector Autoregression)

2. **Методы машинного обучения**:
   - XGBoost (Extreme Gradient Boosting)
   - LightGBM
   - Random Forest
   - SVM-регрессия (Support Vector Machine Regression)

3. **Методы глубокого обучения**:
   - LSTM (Long Short-Term Memory)
   - GRU (Gated Recurrent Unit)
   - CNN (Convolutional Neural Networks)
   - BiRNN (Bidirectional Recurrent Neural Networks)
   - Seq2Seq с энкодером и LSTM (Sequence-to-Sequence with Encoder and LSTM)

Каждый из этих методов имеет свои преимущества и недостатки при анализе временных рядов, что делает их применимыми в различных сценариях. В таблице ниже приведены ключевые характеристики каждого метода.



#### **Сравнение подходов**

| **Метод**         | **Преимущества**                                                                 | **Недостатки**                                                                 |
|--------------------|----------------------------------------------------------------------------------|--------------------------------------------------------------------------------|
| **ARIMA**          | Простота, интерпретируемость, подходит для линейных зависимостей.                | Не учитывает сезонность, требует стационарности данных.                        |
| **SARIMAX**        | Учет сезонности и внешних факторов.                                              | Сложность настройки, медленная работа на больших данных.                       |
| **VAR**            | Учет взаимосвязей между несколькими временными рядами.                          | Требует большого объема данных для оценки параметров.                          |
| **SVAR**           | Возможность анализа причинно-следственных связей.                               | Сложность настройки и интерпретации.                                           |
| **XGBoost**        | Высокая точность, устойчивость к шумам.                                          | Требует тщательной настройки гиперпараметров.                                  |
| **LightGBM**       | Быстрая обработка данных, эффективен для категориальных признаков.               | Склонность к переобучению на небольших данных.                                 |
| **Random Forest**  | Устойчивость к переобучению, простота интерпретации.                             | Менее точный по сравнению с бустинговыми методами.                             |
| **SVM-регрессия**  | Эффективен для задач с небольшим объемом данных, устойчив к переобучению.        | Требует тщательной настройки гиперпараметров, медленный на больших данных.     |
| **LSTM**           | Учет долгосрочных зависимостей, высокая точность для сложных данных.             | Требует больших объемов данных, высокая вычислительная сложность.              |
| **GRU**            | Быстрее обучается по сравнению с LSTM.                                           | Менее точный для очень сложных зависимостей.                                   |
| **CNN**            | Эффективен для выявления локальных паттернов.                                    | Требует специфической предобработки данных.                                    |
| **BiRNN**          | Учет контекста в обоих направлениях (прошлое и будущее).                         | Высокая вычислительная сложность, требует больших объемов данных.              |
| **Seq2Seq+LSTM**   | Подходит для задач с переменной длиной последовательностей.                      | Сложность настройки, требует больших вычислительных ресурсов.                  |






### **Анализ данных и корреляционный анализ**

Для анализа использовался открытый набор данных [1], содержащий информацию о веб-трафике и пользовательской активности. Набор данных включает следующие ключевые признаки (фичи):
- **Session primary channel group**: группа каналов, через которые пользователи попали на сайт (3182 ненулевых значения, тип данных — object).
- **Date + hour (YYYYMMDDHH)**: временная метка с точностью до часа (3182 ненулевых значения, тип данных — datetime64[ns]).
- **Users**: количество пользователей (3182 ненулевых значения, тип данных — int64).
- **Sessions**: количество сессий (3182 ненулевых значения, тип данных — int64).
- **Engaged sessions**: количество активных сессий (3182 ненулевых значения, тип данных — int64).
- **Average engagement time per session**: среднее время вовлеченности на сессию (3182 ненулевых значения, тип данных — float64).
- **Engaged sessions per user**: количество активных сессий на пользователя (3182 ненулевых значения, тип данных — float64).
- **Events per session**: количество событий на сессию (3182 ненулевых значения, тип данных — float64).
- **Engagement rate**: уровень вовлеченности (3182 ненулевых значения, тип данных — float64).
- **Event count**: общее количество событий (3182 ненулевых значения, тип данных — int64).

#### **Предварительный анализ данных**

Анализ структуры данных показал, что набор данных характеризуется высокой степенью полноты и отсутствием пропущенных значений, что делает его пригодным для углубленного анализа. Однако наблюдаются значительные вариации в данных, особенно в переменной `Average engagement time per session`, где зафиксированы экстремальные значения (максимум: 4525 секунд). Это может указывать на наличие выбросов, которые требуют дополнительного исследования для понимания их природы и влияния на общие результаты.

Средний уровень вовлеченности составляет **50.34%**, что свидетельствует о умеренной вовлеченности пользователей. При этом среднее количество активных сессий на пользователя (`Engaged sessions per user`) равно **0.61**, что указывает на то, что более половины пользователей не проявляют высокой активности. Это может быть связано с различными факторами, такими как качество контента, эффективность маркетинговых каналов или особенности пользовательского опыта.

Также стоит отметить, что среднее количество событий на сессию (`Events per session`) составляет **4.68**, что может свидетельствовать о достаточно высокой активности пользователей в рамках одной сессии. Однако максимальное значение (56 событий) указывает на наличие аномально активных сессий, которые могут быть связаны с ботовой активностью или другими внешними факторами.

#### **Предобработка данных**

Перед проведением корреляционного анализа данные были предварительно обработаны:
1. **Обработка пропущенных значений**: пропущенные значения отсутствуют, что упрощает анализ.
2. **Обработка аномалий**: экстремальные значения в переменной `Average engagement time per session` были исследованы, и выбросы были обработаны с использованием методов, таких как winsorization или удаление аномальных значений.
3. **Фиче-инжиниринг**: добавлены новые признаки, такие как:
   - **Hour**: час дня, извлеченный из временной метки.
   - **Day_of_week**: день недели.
   - **Month**: месяц.

#### **Корреляционный анализ**

Корреляционный анализ позволяет выявить линейные зависимости между переменными и исключить мультиколлинеарность. На рисунке 1 представлена корреляционная матрица, отражающая попарные коэффициенты корреляции между исследуемыми переменными. На основании анализа данных выделены ключевые закономерности, которые сгруппированы по уровню корреляции: сильная (|r| ≥ 0,7), умеренная (0,3 ≤ |r| < 0,7), слабая (0,1 ≤ |r| < 0,3) и незначимая (|r| < 0,1).



#### **1. Сильные корреляции (|r| ≥ 0,7)**

##### Положительные корреляции:
- **Пользователи ↔ Сессии** (r = 0,989, p < 0,05): увеличение числа пользователей сопровождается пропорциональным ростом количества сессий.
- **Пользователи ↔ Активные сессии** (r = 0,974, p < 0,05): рост числа пользователей способствует увеличению числа активных сессий.
- **Сессии ↔ Активные сессии** (r = 0,957, p < 0,05): увеличение числа сессий приводит к росту активных сессий.
- **Пользователи ↔ Количество событий** (r = 0,949, p < 0,05): рост числа пользователей сопровождается увеличением количества событий.
- **Сессии ↔ Количество событий** (r = 0,943, p < 0,05): увеличение числа сессий связано с ростом количества событий.
- **Активные сессии ↔ Количество событий** (r = 0,958, p < 0,05): активные сессии положительно влияют на количество событий.
- **Активные сессии на пользователя ↔ Уровень вовлеченности** (r = 0,960, p < 0,05): уровень вовлеченности напрямую зависит от активных сессий на пользователя.

##### Отрицательные корреляции:
- **Неразмеченный трафик ↔ Активные сессии на пользователя** (r = -0,818, p < 0,05): неразмеченный трафик ассоциируется с низким уровнем активных сессий на пользователя.
- **Неразмеченный трафик ↔ Уровень вовлеченности** (r = -0,784, p < 0,05): неразмеченный трафик отрицательно влияет на уровень вовлеченности.



#### **2. Умеренные корреляции (0,3 ≤ |r| < 0,7)**

##### Положительные корреляции:
- **Органический социальный трафик ↔ Пользователи** (r = 0,505, p < 0,05): органический социальный трафик способствует привлечению пользователей.
- **Органический социальный трафик ↔ Сессии** (r = 0,547, p < 0,05): органический социальный трафик положительно влияет на количество сессий.
- **Органический социальный трафик ↔ Количество событий** (r = 0,562, p < 0,05): органический социальный трафик связан с увеличением количества событий.
- **Среднее время вовлеченности на сессию ↔ События на сессию** (r = 0,477, p < 0,05): увеличение времени вовлеченности приводит к росту числа событий на сессию.
- **Реферальный трафик ↔ Среднее время вовлеченности на сессию** (r = 0,434, p < 0,05): реферальный трафик положительно влияет на время вовлеченности.
- **Час ↔ Пользователи** (r = 0,333, p < 0,05): активность пользователей варьируется в зависимости от времени суток.
- **Час ↔ Активные сессии** (r = 0,319, p < 0,05): количество активных сессий зависит от времени суток.

##### Отрицательные корреляции:
- **Неразмеченный трафик ↔ Пользователи** (r = -0,493, p < 0,05): неразмеченный трафик отрицательно влияет на количество пользователей.
- **Неразмеченный трафик ↔ Сессии** (r = -0,485, p < 0,05): неразмеченный трафик снижает количество сессий.
- **Неразмеченный трафик ↔ Активные сессии** (r = -0,494, p < 0,05): неразмеченный трафик ассоциируется с низким числом активных сессий.



#### **3. Слабые корреляции (0,1 ≤ |r| < 0,3)**

##### Положительные корреляции:
- **Среднее время вовлеченности на сессию ↔ Уровень вовлеченности** (r = 0,370, p < 0,05): время вовлеченности слабо влияет на уровень вовлеченности.
- **Активные сессии на пользователя ↔ Среднее время вовлеченности на сессию** (r = 0,336, p < 0,05): активные сессии на пользователя слабо связаны с временем вовлеченности.
- **Реферальный трафик ↔ Активные сессии на пользователя** (r = 0,320, p < 0,05): реферальный трафик слабо влияет на активные сессии на пользователя.
- **Реферальный трафик ↔ Уровень вовлеченности** (r = 0,357, p < 0,05): реферальный трафик слабо связан с уровнем вовлеченности.
- **Органический видеотрафик ↔ События на сессию** (r = 0,206, p < 0,05): органический видеотрафик слабо влияет на количество событий на сессию.

##### Отрицательные корреляции:
- **Органический поиск ↔ Среднее время вовлеченности на сессию** (r = -0,133, p < 0,05): органический поиск слабо отрицательно влияет на время вовлеченности.
- **Органический видеотрафик ↔ Пользователи** (r = -0,280, p < 0,05): органический видеотрафик слабо отрицательно связан с количеством пользователей.
- **Органический видеотрафик ↔ Сессии** (r = -0,274, p < 0,05): органический видеотрафик слабо отрицательно влияет на количество сессий.



#### **4. Незначимые корреляции (|r| < 0,1)**

- **Email-трафик ↔ Большинство переменных** (|r| < 0,05): email-трафик не оказывает значимого влияния на исследуемые показатели.
- **День недели ↔ Большинство переменных** (|r| < 0,1): день недели не влияет на активность пользователей.
- **Месяц ↔ Большинство переменных** (|r| < 0,1): месяц не оказывает значимого влияния на исследуемые показатели.
- **Органический поиск ↔ Большинство переменных** (|r| < 0,1): органический поиск не связан с активностью пользователей.
- **Органический видеотрафик ↔ Большинство переменных** (|r| < 0,1): органический видеотрафик не оказывает значимого влияния.


### **Основные выводы корреляционного анализа и рекомендации**

Ключевые метрики, такие как количество пользователей, сессий, активных сессий и событий, тесно взаимосвязаны. Это подтверждает, что рост пользовательской базы напрямую влияет на активность и вовлеченность. Неразмеченный трафик оказывает значительное негативное влияние на вовлеченность, что требует устранения проблем с атрибуцией. Органический социальный и реферальный трафик играют важную роль в привлечении пользователей и увеличении числа сессий. Временные факторы, такие как час дня, оказывают умеренное влияние на активность пользователей. Некоторые каналы, например, органический видеотрафик, и временные факторы, такие как день недели и месяц, слабо влияют на исследуемые показатели. Каналы, такие как email-трафик, органический поиск и органический видеотрафик, не оказывают значимого влияния на активность пользователей.

Для повышения эффективности взаимодействия с пользователями рекомендуется увеличить инвестиции в органический социальный и реферальный трафик, как наиболее эффективные каналы. Необходимо провести анализ источников неразмеченного трафика и улучшить систему отслеживания для повышения точности атрибуции. Следует учитывать временные закономерности, такие как периоды повышенной активности пользователей (часы дня), для оптимизации маркетинговых стратегий. Также рекомендуется снизить инвестиции в каналы с незначимым влиянием, такие как email, органический поиск и органический видеотрафик. Данные результаты могут быть использованы для разработки стратегий, направленных на повышение вовлеченности и эффективности взаимодействия с пользователями.

### **Разделение данных на обучающие и тестовые наборы с учетом корреляционного анализа**

На основании проведенного корреляционного анализа и рекомендаций по выбору признаков для различных методов моделирования, процесс разделения данных на обучающие и тестовые наборы был адаптирован для каждой категории моделей. Это позволило оптимизировать процесс обучения и повысить точность прогнозов, минимизируя влияние мультиколлинеарности и учитывая специфику каждого метода.



#### **1. Общий подход к разделению данных**

Для всех моделей данные были разделены на обучающую и тестовую выборки с сохранением временного порядка, что исключает возможность утечки информации из будущего в прошлое. Однако выбор признаков варьировался в зависимости от типа модели, что обусловлено их специфическими требованиями к данным. Разделение данных проводилось в соотношении 80:20, где 80% данных использовались для обучения, а 20% — для тестирования. Такой подход обеспечивает баланс между достаточным объемом данных для обучения и объективной оценкой качества модели.



#### **2. Таблица выбора признаков для различных моделей**

В таблице 1 представлены рекомендации по выбору признаков для каждой категории моделей на основе корреляционного анализа и значений VIF (фактора инфляции дисперсии).

| **Метод**               | **Рекомендуемые признаки**                                                                 | **Примечания**                                                                 |
|--------------------------|-------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------|
| **ARIMA**               | **Users**                                                                                 | Используется один признак для избежания мультиколлинеарности.                  |
| **SARIMAX**             | **Users**, **Engagement rate**, **Hour**, **Session primary channel group_Organic Social** | Включаются экзогенные переменные с низким VIF для учета внешних факторов.      |
| **XGBoost, LightGBM**   | **Users**, **Engagement rate**, **Event count**, **Hour**, **Cluster**                     | Устойчивы к мультиколлинеарности, но признаки с высоким VIF исключены.         |
| **Random Forest**       | Все признаки с низким VIF (**Users**, **Engagement rate**, **Hour**, **Cluster**)          | Менее чувствительны к мультиколлинеарности, но склонны к переобучению.         |
| **LSTM, GRU**           | Все признаки с низким VIF, преобразованные в последовательности                           | Используются все признаки с преобразованием в последовательности.              |
| **CNN**                 | Все признаки с низким VIF, преобразованные в трехмерный тензор                            | Данные преобразуются в трехмерный тензор для выявления локальных паттернов.    |
| **SVM регрессия**       | **Users**, **Engagement rate**, **Hour**, **Cluster**                                      | Требует масштабирования данных и исключения мультиколлинеарных признаков.      |
| **Гибридные модели (LSTM, GRU, CNN, BiRNN)** | Все признаки с низким VIF, преобразованные в последовательности | Используются для учета временных зависимостей и сложных паттернов.             |



#### **3. Обоснование выбора признаков**

1. **ARIMA и SARIMAX**:
   - **ARIMA** использует только один признак (**Users**), чтобы избежать мультиколлинеарности и упростить модель.
   - **SARIMAX** включает экзогенные переменные с низким VIF, такие как **Engagement rate**, **Hour** и **Session primary channel group_Organic Social**, для учета внешних факторов и сезонности.

2. **Методы машинного обучения (XGBoost, LightGBM, Random Forest)**:
   - **XGBoost** и **LightGBM** устойчивы к мультиколлинеарности, но для повышения интерпретируемости исключены признаки с высоким VIF.
   - **Random Forest** менее чувствителен к мультиколлинеарности, но требует контроля за переобучением.

3. **Методы глубокого обучения (LSTM, GRU, CNN)**:
   - **LSTM** и **GRU** используют все признаки с низким VIF, преобразованные в последовательности, для учета временных зависимостей.
   - **CNN** требует преобразования данных в трехмерный тензор для выявления локальных паттернов.

4. **SVM регрессия**:
   - Требует масштабирования данных и исключения мультиколлинеарных признаков для повышения точности прогнозов.

5. **Гибридные модели**:
   - Используют все признаки с низким VIF, преобразованные в последовательности, для учета как временных, так и локальных зависимостей.



В рамках данного исследования проведен сравнительный анализ различных подходов к прогнозированию веб-трафика, включая классические методы, методы машинного обучения и глубокого обучения. Основной акцент сделан на оценке точности моделей с использованием метрик средней абсолютной ошибки (MAE) и среднеквадратичной ошибки (RMSE). Результаты анализа представлены в таблице, а также обсуждаются ключевые выводы и рекомендации.


### **Результаты анализа**

#### **Классические методы**
Классические методы, такие как ARIMA и VAR, продемонстрировали относительно низкую точность прогнозирования. Модель SARIMAX, учитывающая сезонные компоненты и экзогенные переменные, показала улучшение по сравнению с ARIMA, однако ее точность остается недостаточной для задач с высокой нестационарностью и сложными зависимостями.

#### **Методы машинного обучения**
Среди методов машинного обучения SVM-регрессия показала наилучшие результаты, значительно превзойдя другие модели, такие как XGBoost и LightGBM. Это может быть связано с устойчивостью SVM к переобучению и ее способностью эффективно работать с данными, имеющими сложные нелинейные зависимости.

#### **Методы глубокого обучения**
Среди моделей глубокого обучения архитектура Bidirectional + LSTM продемонстрировала наилучшие результаты, что объясняется учетом контекста в обоих направлениях (прошлое и будущее). Однако даже эта модель уступила SVM по точности, что подчеркивает ограниченность методов глубокого обучения в условиях недостаточного объема данных или отсутствия тщательной настройки гиперпараметров.


### **Сравнение моделей по метрикам**

| **Метод**               | **MAE**   | **RMSE**  | **Примечания**                                                                 |
|--------------------------|-----------|-----------|--------------------------------------------------------------------------------|
| **ARIMA**                | 24.70     | 30.57     | Низкая точность, не учитывает сезонность и внешние факторы.                    |
| **SARIMAX**              | 0.31      | 0.39      | Улучшение по сравнению с ARIMA, но требует настройки и учета внешних факторов. |
| **VAR**                  | 724.80    | 895.69    | Низкая точность, сложность учета многомерных зависимостей.                     |
| **XGBoost**              | 3.34      | 4.85      | Хорошая точность, но уступает SVM.                                             |
| **LightGBM**             | 3.10      | 4.70      | Сопоставим с XGBoost, небольшое улучшение по MAE и RMSE.                       |
| **Random Forest**        | 6.78      | 9.94      | Уступает бустинговым методам по точности.                                      |
| **SVM-регрессия**        | **0.09**  | **0.11**  | Наилучшие результаты среди всех моделей.                                       |
| **LSTM**                 | 0.31      | 0.41      | Хорошая точность, но уступает SVM.                                             |
| **GRU**                  | 0.43      | 0.53      | Результаты хуже, чем у LSTM.                                                   |
| **Bidirectional + LSTM** | 0.15      | 0.19      | Наилучшие результаты среди моделей глубокого обучения.                         |
| **GRU + BiRNN**          | 0.43      | 0.57      | Уступает Bidirectional + LSTM.                                                 |
| **CNN**                  | 13.12     | 18.89     | Низкая точность, недостаточная адаптация для временных рядов.                  |
| **CNN + LSTM**           | 13.12     | 18.89     | Результаты аналогичны CNN.                                                     |


### **Общие выводы**
1. **Наиболее эффективная модель**: SVM-регрессия показала наилучшие результаты по всем метрикам (MAE: 0.09, RMSE: 0.11), что делает ее предпочтительным выбором для прогнозирования веб-трафика.
2. **Методы машинного обучения**: XGBoost и LightGBM также продемонстрировали высокую точность, но уступили SVM.
3. **Методы глубокого обучения**: Архитектура Bidirectional + LSTM оказалась лучшей среди моделей глубокого обучения, но все же уступила SVM.
4. **Классические методы**: SARIMAX показала себя лучше, чем ARIMA и VAR, но требует дальнейшего улучшения, включая учет дополнительных внешних факторов.


### **Рекомендации**
1. **Использование SVM**: Рекомендуется использовать SVM-регрессию для прогнозирования веб-трафика, так как она показала наилучшие результаты.
2. **Оптимизация гиперпараметров**: Для моделей глубокого обучения (например, Bidirectional + LSTM) рекомендуется провести дополнительную настройку гиперпараметров для повышения точности.
3. **Учет внешних факторов**: Для улучшения результатов SARIMAX и других моделей рекомендуется включить дополнительные внешние факторы, такие как маркетинговые кампании, погодные условия и экономические изменения.
4. **Анализ данных**: Высокие значения ошибок могут указывать на проблемы с масштабированием данных или наличие выбросов. Рекомендуется провести дополнительный анализ данных и их предобработку.


### **Заключение**
Проведенный анализ показал, что методы машинного обучения, в частности SVM, являются наиболее эффективными для прогнозирования веб-трафика. Методы глубокого обучения, такие как Bidirectional + LSTM, также показали хорошие результаты, но требуют дополнительной настройки. Классические методы, такие как ARIMA и VAR, оказались менее эффективными для данной задачи. Результаты исследования подчеркивают важность выбора подходящего метода в зависимости от характеристик данных и требований задачи.