<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/TimeSeries/TimeSeries-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_%E2%84%96_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧪 **Лабораторный практикум № 1**  
# **Введение в анализ временных рядов: сбор, очистка, визуализация и диагностика многомерных данных**


**Кафедра:** Кафедра анализа данных и технологий программирования  
**Дисциплина:** Машинное обучение в задачах прогнозирования  
**Уровень:** Магистратура, 2 курс  
**Преподаватель:** Арабов Муллошараф Курбонович  
**Консультации:** 07.09.2025



## 🎯 1. Цели и задачи работы

### **Цель:**
Освоить основы работы с **реальными многомерными временными рядами**: от сбора и предобработки до визуального и статистического анализа. Научиться выявлять структурные особенности ряда — тренды, сезонность, выбросы, зависимости — как необходимый этап перед любым прогнозированием.

### **Задачи:**
1. Сформировать собственный **многомерный временной ряд** на основе открытых источников (не менее 3 признаков, 300+ наблюдений).
2. Провести **полную предобработку**: очистку, обработку пропусков и выбросов, приведение временных зон.
3. Выполнить **описательный статистический анализ** и визуализацию распределений.
4. Рассчитать **матрицу корреляций** и проанализировать зависимости между признаками.
5. Создать **лаговые признаки** и скользящие статистики.
6. Построить и интерпретировать **ACF и PACF** — ключевые инструменты для понимания автокорреляционной структуры.
7. Провести **декомпозицию ряда** на тренд, сезонность и остатки.
8. **Разработать веб-интерфейс** для интерактивного анализа ряда с визуализацией ключевых метрик.
9. Проверить **стационарность** с помощью статистических тестов (ADF, KPSS).
10. Оформить результаты в виде структурированного отчёта с визуализациями и выводами.

> 💡 **Важно:** данная работа **не включает построение моделей прогнозирования**. Её цель — научиться “читать” временной ряд, как врач читает анализы пациента — перед тем, как назначать лечение.


## 📚 2. Теоретические предпосылки

Временной ряд — это упорядоченная по времени последовательность наблюдений, где каждое значение зависит от предыдущих. В отличие от кросс-секционных данных, здесь **время — ключевая переменная**, а наблюдения — **зависимы**.

### 🔑 Ключевые элементы временного ряда:
- **Временная метка** — момент или период измерения (дата, время)
- **Значение (target)** — целевая переменная, которую в будущем планируется прогнозировать
- **Признаки (features)** — дополнительные переменные, потенциально влияющие на target (цена, погода, реклама, индексы)
- **Временной интервал (частота)** — шаг между наблюдениями (час, день, месяц)
- **Временная зона** — особенно важна при работе с данными из разных регионов

> 💡 Реальные бизнес-задачи (продажи, спрос, цены, трафик) всегда многомерны. Одномерный ряд “дата–значение” — лишь учебное упрощение.



## 🧪 3. Методика эксперимента и порядок выполнения



### **3.1. Этап 1. Формирование многомерного временного ряда**

**Задача:** Создать собственный временной ряд с несколькими признаками на основе открытых источников.

#### 📌 Источники данных (на выбор):
- **Авито** — динамика цен на товары по категориям (смартфоны, автомобили, недвижимость)
- **Циан / Яндекс.Недвижимость** — средние цены на жильё по районам/городам (ежемесячно/еженедельно)
- **Росстат** — официальная статистика: инфляция, безработица, доходы, промпроизводство
- **Центральный Банк РФ** — курсы валют, ставки, денежная масса
- **Gismeteo / OpenWeatherMap API** — погодные данные (температура, осадки, влажность)
- ...

> 💡 **Требование:**  
> - Не менее **3 признаков** (включая целевой)  
> - Не менее **720 наблюдений** (например, 720 дней, недель, месяцев)  
> - Данные должны быть **реальными**, а не синтетическими

#### 📁 Формат данных:
- Файл: `raw_dataset.csv` или `.parquet`
- Обязательные столбцы:
  - `timestamp` — временная метка в формате `YYYY-MM-DD HH:MM:SS` (или `YYYY-MM-DD`)
  - `target` — прогнозируемая величина
  - `feature_1`, `feature_2`, ... — дополнительные признаки
  - (опционально) `region`, `category`, `source` — для сегментации


### **3.2. Этап 2. Предварительная очистка и предобработка данных**

**Задача:** Привести данные в единый, анализируемый вид.

#### ✅ Что нужно сделать:
- Привести все временные метки к единому формату и временной зоне (например, `Europe/Moscow`)
- Удалить дубликаты по времени
- Проверить монотонность временного ряда (нет “прыжков” или “возвратов” во времени)
- Обработать пропуски:
  - Интерполяция (линейная, полиномиальная)
  - Заполнение скользящим средним
  - Удаление (если <5%)
- Обнаружить и обработать выбросы:
  - Метод IQR (межквартильный размах)
  - Z-score (если распределение близко к нормальному)
  - Визуально (boxplot, scatter plot)
- При необходимости — ресемплировать ряд до единой частоты (например, “D” — ежедневно)

> 🛠️ **Инструменты:** `pandas`, `numpy`, `pytz`



### **3.3. Этап 3. Описательный статистический анализ и визуализация**

**Задача:** Получить первое впечатление о данных — распределениях, масштабах, аномалиях.

#### 📊 Что нужно сделать:
- Рассчитать дескриптивную статистику для всех числовых столбцов:
  - Среднее, медиана, стандартное отклонение
  - Минимум, максимум, квартили
  - Коэффициенты асимметрии и эксцесса
- Построить:
  - Линейные графики целевой переменной и признаков по времени
  - Гистограммы и boxplot для каждого признака
  - Heatmap матрицы корреляций (Pearson / Spearman)
- Проанализировать:
  - Наличие сильных корреляций между признаками (мультиколлинеарность)
  - Наличие аномальных значений, неуловленных на этапе очистки

> 📈 **Библиотеки:** `seaborn`, `matplotlib`, `plotly`



### **3.4. Этап 4. Проверка на стационарность и статистические тесты**

**Задача:** Определить, является ли ряд стационарным — ключевое требование для классических методов анализа.

#### 📌 Что нужно сделать:
- Визуальный анализ: есть ли тренд, меняется ли дисперсия во времени?
- Рассчитать скользящее среднее и скользящую дисперсию (по окнам 30, 60, 90 точек) — стабильны ли они?
- Применить статистические тесты:
  - **Тест Дики-Фуллера (ADF)** — нулевая гипотеза: ряд имеет единичный корень (нестационарен)
  - **Тест KPSS** — нулевая гипотеза: ряд стационарен
- Интерпретировать p-value:
  - ADF: p < 0.05 → ряд стационарен
  - KPSS: p > 0.05 → ряд стационарен
- Если ряд нестационарен — применить **дифференцирование 1-го порядка** и повторить тесты

> 📚 **Библиотеки:** `statsmodels.tsa.stattools.adfuller`, `kpss`



### **3.5. Этап 5. Создание лаговых признаков и скользящих статистик**

**Задача:** Подготовить данные для анализа временных зависимостей.

#### ⏳ Что нужно сделать:
- Создать лаги целевой переменной: `target_lag_1`, `target_lag_7`, `target_lag_30`
- Создать лаги для значимых признаков (если есть гипотеза о запаздывании влияния)
- Рассчитать скользящие статистики:
  - Скользящее среднее: `target_rolling_mean_7`, `target_rolling_mean_30`
  - Скользящее стандартное отклонение: `target_rolling_std_7`
- Проверить корреляцию между лагами и целевой переменной — какие лаги наиболее информативны?
- Проверить мультиколлинеарность после добавления лагов

> 💡 **Совет:** используйте `df.shift()` и `df.rolling()` в pandas

---

### **3.6. Этап 6. Анализ автокорреляции: ACF и PACF**

**Задача:** Выявить структуру зависимости ряда от собственного прошлого.

#### 📈 Что нужно сделать:
- Построить и визуализировать:
  - **ACF (Autocorrelation Function)** — корреляция ряда с его лагами (включая косвенные зависимости)
  - **PACF (Partial Autocorrelation Function)** — “чистая” корреляция с лагом, исключая влияние промежуточных лагов
- Интерпретировать графики:
  - Резкий обрыв в PACF на лаге *p* → возможный порядок AR(p)
  - Постепенное затухание в ACF → возможный порядок MA(q)
- Указать, какие лаги статистически значимы (выходят за доверительный интервал)

> 📊 **Библиотеки:** `statsmodels.graphics.tsaplots.plot_acf`, `plot_pacf`

---

### **3.7. Этап 7. Декомпозиция временного ряда**

**Задача:** Разделить ряд на составляющие — чтобы понять, что “движет” данными.

#### 🧩 Что нужно сделать:
- Применить декомпозицию:
  - Аддитивную: `value = trend + seasonality + residual`
  - Мультипликативную: `value = trend × seasonality × residual` — если амплитуда сезонности растёт со временем
- Визуализировать каждую компоненту отдельно
- Проанализировать:
  - Форму и силу тренда (линейный? экспоненциальный?)
  - Периодичность и амплитуду сезонности (недельная? месячная? годовая?)
  - Поведение остатков — случайны ли они? Есть ли в них структура? (если есть — декомпозиция неполная)

> 🛠️ **Инструменты:** `statsmodels.tsa.seasonal.seasonal_decompose`

---

### ✅ **3.8. Этап 8. Разработка веб-интерфейса для интерактивного анализа временного ряда**

**Задача:** Создать интерактивное веб-приложение, позволяющее загружать временной ряд, выбирать параметры анализа и визуализировать ключевые диагностики в реальном времени.

#### 🎛️ Функциональные требования:
- **Загрузка датасета** — через файл (CSV/Parquet) или выбор из предзагруженных примеров
- **Выбор целевой переменной и признаков** — для анализа и визуализации
- **Интерактивные элементы управления:**
  - Выбор периода сезонности для декомпозиции (7, 30, 365 и др.)
  - Выбор количества лагов для ACF/PACF
  - Выбор окна для скользящего среднего
  - Переключение между аддитивной/мультипликативной декомпозицией
- **Генерация динамического HTML-отчёта с:**
  - Графиком временного ряда с трендом и скользящим средним
  - Heatmap корреляций
  - Графиками ACF и PACF (с возможностью изменения max_lag)
  - Графиками декомпозиции (тренд, сезонность, остатки)
  - Результатами тестов на стационарность (ADF, KPSS)
- **Экспорт отчёта** в HTML или PDF

#### 🧰 Технологический стек (на выбор):
- `Streamlit` — для быстрого прототипирования (идеально подходит!)
- `Gradio` — если хочется простоты и интеграции с HF Spaces
- `Plotly Dash` / `Flask` + `Jinja2` + `Plotly` — для полного контроля и кастомизации

> 💡 **Совет:** используйте `plotly.graph_objects` для интерактивных графиков — масштабирование, наведение, выбор диапазона работают “из коробки”.

> 🌐 **Деплой:** Разверните приложение на Hugging Face Spaces, Render или Railway — и добавьте ссылку в отчёт.

---

### **3.9. Этап 9. Подготовка финального отчёта и выводов**

**Задача:** Оформить результаты анализа в структурированном виде.

#### 📄 Что нужно сделать:
- Сохранить финальный очищенный датасет: `final_dataset.csv`
- Создать Jupyter Notebook или PDF-отчёт, включающий:
  - Описание источника данных и структуры датасета
  - Примеры кода и результатов на каждом этапе (до/после очистки, графики, таблицы)
  - Интерпретацию ACF/PACF — какие лаги значимы?
  - Выводы по декомпозиции — каковы тренд и сезонность?
  - Результаты тестов на стационарность — стационарен ли ряд? Нужно ли дифференцировать?
  - Скриншоты или ссылку на веб-интерфейс
  - Общие выводы: что удалось выявить? Какие особенности ряда обнаружены? Что было неожиданным?
- Разместить код на GitHub с понятным README

---

## 🔍 4. Дополнительные исследовательские задания (по желанию)

1. **Сравнение частот:**  
   Преобразуйте ряд с дневной на недельную/месячную частоту — как меняются статистики, корреляции и визуальная структура ряда?

2. **Анализ кросс-корреляции (CCF):**  
   Постройте функцию кросс-корреляции между целевой переменной и каждым из признаков. Есть ли запаздывание во влиянии? Какой лаг показывает максимальную корреляцию?

3. **Тест на структурные разрывы:**  
   Визуально или с помощью статистических методов (например, Chow Test, CUSUM) определите, есть ли в ряде точки, где изменилась динамика (например, пандемия, экономический кризис, смена политики).

4. **Анализ остатков после декомпозиции:**  
   Проверьте остатки на стационарность (ADF/KPSS) и автокорреляцию (ACF). Если в остатках есть структура — что это говорит о качестве декомпозиции?

5. **Сезонная декомпозиция с изменяемым периодом:**  
   Поэкспериментируйте с разными периодами сезонности (7, 30, 365) — как это влияет на качество выделения тренда и остатков?

---

## 📄 5. Требования к отчету

Отчёт должен содержать:

1. Титульный лист (ФИО, группа, дата, подпись преподавателя)
2. Описание источника данных и структуры датасета (объём, частота, признаки)
3. Этапы предобработки с примерами кода и визуализациями “до/после”
4. Результаты описательной статистики и матрицы корреляций
5. Графики и интерпретация ACF и PACF
6. Графики декомпозиции (тренд, сезонность, остатки) с анализом
7. Результаты тестов на стационарность (ADF, KPSS) с выводами
8. Скриншоты или ссылка на веб-приложение + краткое описание функционала
9. Финальные выводы: что удалось выявить? Какие особенности ряда обнаружены? Что было неожиданным?
10. **Рефлексия:** Что было сложнее всего? Что открыли нового о структуре временных рядов? Как бы улучшили анализ на следующий раз?


## 📊 6. Критерии оценки

| Оценка             | Критерии |
|--------------------|----------|
| **Отлично (5)**    | Полное и аккуратное выполнение всех этапов. Чистый, многомерный датасет. Корректные тесты, качественные визуализации, глубокая интерпретация. Выполнены дополнительные задания. Отчёт структурирован, содержит рефлексию, ссылку на код и **работающий веб-интерфейс с интерактивными элементами**. |
| **Хорошо (4)**     | Выполнены этапы 1–8 (включая веб-интерфейс). Есть визуализации, тесты, лаги, ACF/PACF, декомпозиция. Отчёт полный, но без углублённого анализа или интерпретации. Веб-интерфейс базовый, без экспорта отчёта. |
| **Удовлетворительно (3)** | Выполнены этапы 1–4. Есть датасет, очистка, статистика, корреляции. Отчёт минимален, без визуализаций или интерпретаций. Веб-интерфейс отсутствует. |
| **Неудовлетворительно (2)** | Работа не выполнена, датасет не создан, отсутствует анализ или отчёт. |



## 📖 7. Литература

1. Hyndman, R.J., Athanasopoulos, G. *Forecasting: Principles and Practice*. — 3rd ed., 2021. [https://otexts.com/fpp3/](https://otexts.com/fpp3/)  
2. Документация:  
   - [pandas](https://pandas.pydata.org/docs/)  
   - [statsmodels](https://www.statsmodels.org/stable/index.html)  
   - [scipy](https://docs.scipy.org/doc/scipy/reference/stats.html)  
   - [Streamlit](https://docs.streamlit.io/)  
   - [Plotly](https://plotly.com/python/)  
3. Статьи:  
   - Dickey, D. A., Fuller, W. A. (1979). *Distribution of the Estimators for Autoregressive Time Series With a Unit Root*.  
   - Kwiatkowski, D., et al. (1992). *Testing the Null Hypothesis of Stationarity Against the Alternative of a Unit Root*.