<a href="https://colab.research.google.com/github/Daarlens/ProBook/blob/main/TimeSeries/TimeSeries-2025/%D0%9B%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D1%83%D0%BC_%E2%84%96_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🧪 **Лабораторный практикум № 1**  
# **Введение в анализ временных рядов: сбор, очистка, визуализация и диагностика многомерных данных**


**Кафедра:** Кафедра анализа данных и технологий программирования  
**Дисциплина:** Машинное обучение в задачах прогнозирования  
**Уровень:** Магистратура, 2 курс  
**Преподаватель:** Арабов Муллошараф Курбонович  
**Консультации:** 07.09.2025



## 🎯 1. Цели и задачи работы

### **Цель:**
Освоить основы работы с **реальными многомерными временными рядами**: от сбора и предобработки до визуального и статистического анализа. Научиться выявлять структурные особенности ряда — тренды, сезонность, выбросы, зависимости — как необходимый этап перед любым прогнозированием.

### **Задачи:**
1. Сформировать собственный **многомерный временной ряд** на основе открытых источников (не менее 3 признаков, 300+ наблюдений).
2. Провести **полную предобработку**: очистку, обработку пропусков и выбросов, приведение временных зон.
3. Выполнить **описательный статистический анализ** и визуализацию распределений.
4. Рассчитать **матрицу корреляций** и проанализировать зависимости между признаками.
5. Создать **лаговые признаки** и скользящие статистики.
6. Построить и интерпретировать **ACF и PACF** — ключевые инструменты для понимания автокорреляционной структуры.
7. Провести **декомпозицию ряда** на тренд, сезонность и остатки.
8. **Разработать веб-интерфейс** для интерактивного анализа ряда с визуализацией ключевых метрик.
9. Проверить **стационарность** с помощью статистических тестов (ADF, KPSS).
10. Оформить результаты в виде структурированного отчёта с визуализациями и выводами.

> 💡 **Важно:** данная работа **не включает построение моделей прогнозирования**. Её цель — научиться “читать” временной ряд, как врач читает анализы пациента — перед тем, как назначать лечение.


## 📚 2. Теоретические предпосылки

Временной ряд — это упорядоченная по времени последовательность наблюдений, где каждое значение зависит от предыдущих. В отличие от кросс-секционных данных, здесь **время — ключевая переменная**, а наблюдения — **зависимы**.

### 🔑 Ключевые элементы временного ряда:
- **Временная метка** — момент или период измерения (дата, время)
- **Значение (target)** — целевая переменная, которую в будущем планируется прогнозировать
- **Признаки (features)** — дополнительные переменные, потенциально влияющие на target (цена, погода, реклама, индексы)
- **Временной интервал (частота)** — шаг между наблюдениями (час, день, месяц)
- **Временная зона** — особенно важна при работе с данными из разных регионов

> 💡 Реальные бизнес-задачи (продажи, спрос, цены, трафик) всегда многомерны. Одномерный ряд “дата–значение” — лишь учебное упрощение.



## 🧪 3. Методика эксперимента и порядок выполнения



### **3.1. Этап 1. Формирование многомерного временного ряда**

**Задача:** Создать собственный временной ряд с несколькими признаками на основе открытых источников.

#### 📌 Источники данных (на выбор):
- **Авито** — динамика цен на товары по категориям (смартфоны, автомобили, недвижимость)
- **Циан / Яндекс.Недвижимость** — средние цены на жильё по районам/городам (ежемесячно/еженедельно)
- **Росстат** — официальная статистика: инфляция, безработица, доходы, промпроизводство
- **Центральный Банк РФ** — курсы валют, ставки, денежная масса
- **Gismeteo / OpenWeatherMap API** — погодные данные (температура, осадки, влажность)
- ...

> 💡 **Требование:**  
> - Не менее **3 признаков** (включая целевой)  
> - Не менее **720 наблюдений** (например, 720 дней, недель, месяцев)  
> - Данные должны быть **реальными**, а не синтетическими

#### 📁 Формат данных:
- Файл: `raw_dataset.csv` или `.parquet`
- Обязательные столбцы:
  - `timestamp` — временная метка в формате `YYYY-MM-DD HH:MM:SS` (или `YYYY-MM-DD`)
  - `target` — прогнозируемая величина
  - `feature_1`, `feature_2`, ... — дополнительные признаки
  - (опционально) `region`, `category`, `source` — для сегментации


### **3.2. Этап 2. Предварительная очистка и предобработка данных**

**Задача:** Привести данные в единый, анализируемый вид.

#### ✅ Что нужно сделать:
- Привести все временные метки к единому формату и временной зоне (например, `Europe/Moscow`)
- Удалить дубликаты по времени
- Проверить монотонность временного ряда (нет “прыжков” или “возвратов” во времени)
- Обработать пропуски:
  - Интерполяция (линейная, полиномиальная)
  - Заполнение скользящим средним
  - Удаление (если <5%)
- Обнаружить и обработать выбросы:
  - Метод IQR (межквартильный размах)
  - Z-score (если распределение близко к нормальному)
  - Визуально (boxplot, scatter plot)
- При необходимости — ресемплировать ряд до единой частоты (например, “D” — ежедневно)

> 🛠️ **Инструменты:** `pandas`, `numpy`, `pytz`



### **3.3. Этап 3. Описательный статистический анализ и визуализация**

**Задача:** Получить первое впечатление о данных — распределениях, масштабах, аномалиях.

#### 📊 Что нужно сделать:
- Рассчитать дескриптивную статистику для всех числовых столбцов:
  - Среднее, медиана, стандартное отклонение
  - Минимум, максимум, квартили
  - Коэффициенты асимметрии и эксцесса
- Построить:
  - Линейные графики целевой переменной и признаков по времени
  - Гистограммы и boxplot для каждого признака
  - Heatmap матрицы корреляций (Pearson / Spearman)
- Проанализировать:
  - Наличие сильных корреляций между признаками (мультиколлинеарность)
  - Наличие аномальных значений, неуловленных на этапе очистки

> 📈 **Библиотеки:** `seaborn`, `matplotlib`, `plotly`



### **3.4. Этап 4. Проверка на стационарность и статистические тесты**

**Задача:** Определить, является ли ряд стационарным — ключевое требование для классических методов анализа.

#### 📌 Что нужно сделать:
- Визуальный анализ: есть ли тренд, меняется ли дисперсия во времени?
- Рассчитать скользящее среднее и скользящую дисперсию (по окнам 30, 60, 90 точек) — стабильны ли они?
- Применить статистические тесты:
  - **Тест Дики-Фуллера (ADF)** — нулевая гипотеза: ряд имеет единичный корень (нестационарен)
  - **Тест KPSS** — нулевая гипотеза: ряд стационарен
- Интерпретировать p-value:
  - ADF: p < 0.05 → ряд стационарен
  - KPSS: p > 0.05 → ряд стационарен
- Если ряд нестационарен — применить **дифференцирование 1-го порядка** и повторить тесты

> 📚 **Библиотеки:** `statsmodels.tsa.stattools.adfuller`, `kpss`



### **3.5. Этап 5. Создание лаговых признаков и скользящих статистик**

**Задача:** Подготовить данные для анализа временных зависимостей.

#### ⏳ Что нужно сделать:
- Создать лаги целевой переменной: `target_lag_1`, `target_lag_7`, `target_lag_30`
- Создать лаги для значимых признаков (если есть гипотеза о запаздывании влияния)
- Рассчитать скользящие статистики:
  - Скользящее среднее: `target_rolling_mean_7`, `target_rolling_mean_30`
  - Скользящее стандартное отклонение: `target_rolling_std_7`
- Проверить корреляцию между лагами и целевой переменной — какие лаги наиболее информативны?
- Проверить мультиколлинеарность после добавления лагов

> 💡 **Совет:** используйте `df.shift()` и `df.rolling()` в pandas

---

### **3.6. Этап 6. Анализ автокорреляции: ACF и PACF**

**Задача:** Выявить структуру зависимости ряда от собственного прошлого.

#### 📈 Что нужно сделать:
- Построить и визуализировать:
  - **ACF (Autocorrelation Function)** — корреляция ряда с его лагами (включая косвенные зависимости)
  - **PACF (Partial Autocorrelation Function)** — “чистая” корреляция с лагом, исключая влияние промежуточных лагов
- Интерпретировать графики:
  - Резкий обрыв в PACF на лаге *p* → возможный порядок AR(p)
  - Постепенное затухание в ACF → возможный порядок MA(q)
- Указать, какие лаги статистически значимы (выходят за доверительный интервал)

> 📊 **Библиотеки:** `statsmodels.graphics.tsaplots.plot_acf`, `plot_pacf`

---

### **3.7. Этап 7. Декомпозиция временного ряда**

**Задача:** Разделить ряд на составляющие — чтобы понять, что “движет” данными.

#### 🧩 Что нужно сделать:
- Применить декомпозицию:
  - Аддитивную: `value = trend + seasonality + residual`
  - Мультипликативную: `value = trend × seasonality × residual` — если амплитуда сезонности растёт со временем
- Визуализировать каждую компоненту отдельно
- Проанализировать:
  - Форму и силу тренда (линейный? экспоненциальный?)
  - Периодичность и амплитуду сезонности (недельная? месячная? годовая?)
  - Поведение остатков — случайны ли они? Есть ли в них структура? (если есть — декомпозиция неполная)

> 🛠️ **Инструменты:** `statsmodels.tsa.seasonal.seasonal_decompose`

---

### ✅ **3.8. Этап 8. Разработка веб-интерфейса для интерактивного анализа временного ряда**

**Задача:** Создать интерактивное веб-приложение, позволяющее загружать временной ряд, выбирать параметры анализа и визуализировать ключевые диагностики в реальном времени.

#### 🎛️ Функциональные требования:
- **Загрузка датасета** — через файл (CSV/Parquet) или выбор из предзагруженных примеров
- **Выбор целевой переменной и признаков** — для анализа и визуализации
- **Интерактивные элементы управления:**
  - Выбор периода сезонности для декомпозиции (7, 30, 365 и др.)
  - Выбор количества лагов для ACF/PACF
  - Выбор окна для скользящего среднего
  - Переключение между аддитивной/мультипликативной декомпозицией
- **Генерация динамического HTML-отчёта с:**
  - Графиком временного ряда с трендом и скользящим средним
  - Heatmap корреляций
  - Графиками ACF и PACF (с возможностью изменения max_lag)
  - Графиками декомпозиции (тренд, сезонность, остатки)
  - Результатами тестов на стационарность (ADF, KPSS)
- **Экспорт отчёта** в HTML или PDF

#### 🧰 Технологический стек (на выбор):
- `Streamlit` — для быстрого прототипирования (идеально подходит!)
- `Gradio` — если хочется простоты и интеграции с HF Spaces
- `Plotly Dash` / `Flask` + `Jinja2` + `Plotly` — для полного контроля и кастомизации

> 💡 **Совет:** используйте `plotly.graph_objects` для интерактивных графиков — масштабирование, наведение, выбор диапазона работают “из коробки”.

> 🌐 **Деплой:** Разверните приложение на Hugging Face Spaces, Render или Railway — и добавьте ссылку в отчёт.

---

### **3.9. Этап 9. Подготовка финального отчёта и выводов**

**Задача:** Оформить результаты анализа в структурированном виде.

#### 📄 Что нужно сделать:
- Сохранить финальный очищенный датасет: `final_dataset.csv`
- Создать Jupyter Notebook или PDF-отчёт, включающий:
  - Описание источника данных и структуры датасета
  - Примеры кода и результатов на каждом этапе (до/после очистки, графики, таблицы)
  - Интерпретацию ACF/PACF — какие лаги значимы?
  - Выводы по декомпозиции — каковы тренд и сезонность?
  - Результаты тестов на стационарность — стационарен ли ряд? Нужно ли дифференцировать?
  - Скриншоты или ссылку на веб-интерфейс
  - Общие выводы: что удалось выявить? Какие особенности ряда обнаружены? Что было неожиданным?
- Разместить код на GitHub с понятным README

---

## 🔍 4. Дополнительные исследовательские задания (по желанию)

1. **Сравнение частот:**  
   Преобразуйте ряд с дневной на недельную/месячную частоту — как меняются статистики, корреляции и визуальная структура ряда?

2. **Анализ кросс-корреляции (CCF):**  
   Постройте функцию кросс-корреляции между целевой переменной и каждым из признаков. Есть ли запаздывание во влиянии? Какой лаг показывает максимальную корреляцию?

3. **Тест на структурные разрывы:**  
   Визуально или с помощью статистических методов (например, Chow Test, CUSUM) определите, есть ли в ряде точки, где изменилась динамика (например, пандемия, экономический кризис, смена политики).

4. **Анализ остатков после декомпозиции:**  
   Проверьте остатки на стационарность (ADF/KPSS) и автокорреляцию (ACF). Если в остатках есть структура — что это говорит о качестве декомпозиции?

5. **Сезонная декомпозиция с изменяемым периодом:**  
   Поэкспериментируйте с разными периодами сезонности (7, 30, 365) — как это влияет на качество выделения тренда и остатков?

---

## 📄 5. Требования к отчету

Отчёт должен содержать:

1. Титульный лист (ФИО, группа, дата, подпись преподавателя)
2. Описание источника данных и структуры датасета (объём, частота, признаки)
3. Этапы предобработки с примерами кода и визуализациями “до/после”
4. Результаты описательной статистики и матрицы корреляций
5. Графики и интерпретация ACF и PACF
6. Графики декомпозиции (тренд, сезонность, остатки) с анализом
7. Результаты тестов на стационарность (ADF, KPSS) с выводами
8. Скриншоты или ссылка на веб-приложение + краткое описание функционала
9. Финальные выводы: что удалось выявить? Какие особенности ряда обнаружены? Что было неожиданным?
10. **Рефлексия:** Что было сложнее всего? Что открыли нового о структуре временных рядов? Как бы улучшили анализ на следующий раз?


## 📊 6. Критерии оценки

| Оценка             | Критерии |
|--------------------|----------|
| **Отлично (5)**    | Полное и аккуратное выполнение всех этапов. Чистый, многомерный датасет. Корректные тесты, качественные визуализации, глубокая интерпретация. Выполнены дополнительные задания. Отчёт структурирован, содержит рефлексию, ссылку на код и **работающий веб-интерфейс с интерактивными элементами**. |
| **Хорошо (4)**     | Выполнены этапы 1–8 (включая веб-интерфейс). Есть визуализации, тесты, лаги, ACF/PACF, декомпозиция. Отчёт полный, но без углублённого анализа или интерпретации. Веб-интерфейс базовый, без экспорта отчёта. |
| **Удовлетворительно (3)** | Выполнены этапы 1–4. Есть датасет, очистка, статистика, корреляции. Отчёт минимален, без визуализаций или интерпретаций. Веб-интерфейс отсутствует. |
| **Неудовлетворительно (2)** | Работа не выполнена, датасет не создан, отсутствует анализ или отчёт. |



## 📖 7. Литература

1. Hyndman, R.J., Athanasopoulos, G. *Forecasting: Principles and Practice*. — 3rd ed., 2021. [https://otexts.com/fpp3/](https://otexts.com/fpp3/)  
2. Документация:  
   - [pandas](https://pandas.pydata.org/docs/)  
   - [statsmodels](https://www.statsmodels.org/stable/index.html)  
   - [scipy](https://docs.scipy.org/doc/scipy/reference/stats.html)  
   - [Streamlit](https://docs.streamlit.io/)  
   - [Plotly](https://plotly.com/python/)  
3. Статьи:  
   - Dickey, D. A., Fuller, W. A. (1979). *Distribution of the Estimators for Autoregressive Time Series With a Unit Root*.  
   - Kwiatkowski, D., et al. (1992). *Testing the Null Hypothesis of Stationarity Against the Alternative of a Unit Root*.

In [None]:
from datetime import datetime, timedelta

# Словарь для преобразования номеров месяцев в русские названия
month_names = {
    1: "января", 2: "февраля", 3: "марта", 4: "апреля",
    5: "мая", 6: "июня", 7: "июля", 8: "августа",
    9: "сентября", 10: "октября", 11: "ноября", 12: "декабря"
}

start_date = datetime(2023, 10, 1)
end_date = datetime(2025, 10, 1)

date_list = []
current_date = start_date

while current_date <= end_date:
    day = current_date.day
    month_ru = month_names[current_date.month]
    year = current_date.year

    date_str = f"{day}-{month_ru}#{year}"
    date_list.append(date_str)

    current_date += timedelta(days=1)

print(date_list)

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
import time

In [None]:
import pandas as pd

# Загрузка данных с Excel файла
df_weather = pd.read_excel('df_weather_head.xlsx')

# # Удаление последних 3-х столбцов (Неполные данные по убыли населения Татарстана)
# df_weather = df_weather.drop(columns=df_weather.columns[-3:])

# Вывод первых нескольки записей
display(df_weather.head())

# Вывод информации о DataFrame
display(df_weather.info())

In [None]:
save_data = False
if save_data:
    # Сохранение данных в CSV файл
    df_weather.to_csv('df_weather_head.csv')

    print("df_weather_head.csv saved successfully.")

    # Сохранение данных в Excel файл
    df_weather.to_excel('df_weather_head.xlsx')
    print("df_weather_head.xlsx saved successfully.")

### **3.2. Этап 2. Предварительная очистка и предобработка данных**

**Задача:** Привести данные в единый, анализируемый вид.

#### ✅ Что нужно сделать:
- Привести все временные метки к единому формату и временной зоне (например, `Europe/Moscow`)
- Удалить дубликаты по времени
- Проверить монотонность временного ряда (нет “прыжков” или “возвратов” во времени)
- Обработать пропуски:
  - Интерполяция (линейная, полиномиальная)
  - Заполнение скользящим средним
  - Удаление (если <5%)
- Обнаружить и обработать выбросы:
  - Метод IQR (межквартильный размах)
  - Z-score (если распределение близко к нормальному)
  - Визуально (boxplot, scatter plot)
- При необходимости — ресемплировать ряд до единой частоты (например, “D” — ежедневно)

> 🛠️ **Инструменты:** `pandas`, `numpy`, `pytz`


In [None]:
import pandas as pd
import pytz
from datetime import timedelta

# Замена '24:00' с '00:00' и корректная настройка даты (Увеличение до текущего года)
df_weather['Дата'] = df_weather.apply(lambda row: (pd.to_datetime(row['Дата']) + timedelta(days=1)).strftime('%Y-%m-%d') if row['Время'] == '24:00' else row['Дата'], axis=1)
df_weather['Время'] = df_weather['Время'].replace('24:00', '00:00')

# Заполнение пропущенных значений данных
df_weather['Ветер скорость, м/с']=df_weather['Ветер скорость, м/с'].fillna(0.0)

# Комбинация 'Дата' и'Время' колонок и превращение в datetime объект
df_weather['timestamp'] = pd.to_datetime(df_weather['Дата'] + ' ' + df_weather['Время'], format='%Y-%m-%d %H:%M')

# Установление индексации по timestamp
df_weather = df_weather.set_index('timestamp')

# Установление timezone Europe/Moscow для индекса
moscow_tz = pytz.timezone('Europe/Moscow')

# Проверка, соответствует ли индекс уже часовому поясу
if df_weather.index.tz is None:
    df_weather.index = df_weather.index.tz_localize(pytz.utc).tz_convert(moscow_tz)
else:
    df_weather.index = df_weather.index.tz_convert(moscow_tz)

# Удаление дубликатов на основе индекса (временной метки)
df_weather = df_weather[~df_weather.index.duplicated(keep='first')]

# Проверка монотонности
if not df_weather.index.is_monotonic_increasing:
    print("Warning: The time series is not monotonic. Sorting by index.")
    df_weather = df_weather.sort_index()
else:
    print("The time series is monotonic.")

# Вывод в консоль датасета и инфы по нему
display(df_weather.head())
display(df_weather.info())

In [None]:
# Преобразование столбца 'Температура' в числовой формат
df_weather['Температура'] = df_weather['Температура'].str.replace('°', '').str.replace('+', '')
df_weather['Температура'] = df_weather['Температура'].astype(float)

# Вывод первых нескольких строк и информации о DataFrame для проверки
display(df_weather.head())
display(df_weather.info())


### **3.3. Этап 3. Описательный статистический анализ и визуализация**

**Задача:** Получить первое впечатление о данных — распределениях, масштабах, аномалиях.

#### 📊 Что нужно сделать:
- Рассчитать дескриптивную статистику для всех числовых столбцов:
  - Среднее, медиана, стандартное отклонение
  - Минимум, максимум, квартили
  - Коэффициенты асимметрии и эксцесса
- Построить:
  - Линейные графики целевой переменной и признаков по времени
  - Гистограммы и boxplot для каждого признака
  - Heatmap матрицы корреляций (Pearson / Spearman)
- Проанализировать:
  - Наличие сильных корреляций между признаками (мультиколлинеарность)
  - Наличие аномальных значений, неуловленных на этапе очистки

> 📈 **Библиотеки:** `seaborn`, `matplotlib`, `plotly`



In [None]:
# Вычисление описательной статистики для числовых столбцов
print("Descriptive Statistics:")
display(df_weather.describe())

# построение графиков
import matplotlib.pyplot as plt

numerical_cols = df_weather.select_dtypes(include=['float64', 'int64']).columns

plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_cols):
    plt.subplot(len(numerical_cols), 1, i + 1)
    plt.plot(df_weather.index, df_weather[col])
    plt.title(col)
plt.tight_layout()
plt.show()

# График гистограммы для числовых колонок
plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_cols):
    plt.subplot(len(numerical_cols), 1, i + 1)
    df_weather[col].hist(bins=30)
    plt.title(col)
# Автокорректировка расстояния между подграфиками
plt.tight_layout()
plt.show()

# Построение прямоугольных диаграмм для числовых столбцов
plt.figure(figsize=(15, 10))
for i, col in enumerate(numerical_cols):
    plt.subplot(len(numerical_cols), 1, i + 1)
    df_weather.boxplot(column=col)
    plt.title(col)
plt.tight_layout()
plt.show()

# Вычисление и построение корреляционной матрицы
import seaborn as sns

correlation_matrix = df_weather[numerical_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Matrix')
plt.show()

Далее мы определим потенциальные отклонения в числовых столбцах, используя метод межквартильного диапазона (IQR).

In [None]:
import numpy as np

# Выбор только числовых столбцов для обнаружения выбросов
numerical_cols = df_weather.select_dtypes(include=['float64', 'int64']).columns

# Вычисление IQR для кажд числовой колонки
Q1 = df_weather[numerical_cols].quantile(0.25)
Q3 = df_weather[numerical_cols].quantile(0.75)
IQR = Q3 - Q1

# Определение границ для выбросов
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Выявление выбросов
outliers = df_weather[numerical_cols][
    ((df_weather[numerical_cols] < lower_bound) | (df_weather[numerical_cols] > upper_bound))
]

print("Выявленные выбросы (NaN указывает на отсутствие выброса в этой позиции):")
display(outliers.head())

# Вы можете дополнительно проанализировать или обработать эти выбросы (например, ограничить их, удалить строки или использовать другой метод)
# Например, для подсчета количества выбросов в столбце:
print("\nКоличество выбросов в столбце:")
display(outliers.count())

Теперь, когда начальная очистка данных завершена, обратимся к отсутствующим значениям. Мы будем использовать интерполяцию, чтобы заполнить недостающие точки данных в числовых столбцах.

In [None]:
# Проверка, нет ли пропущенных значений перед интерполяцией
print("Пропущенные значения перед интерполяцией:")
display(df_weather.isnull().sum())

# Выбор только числовых столбцов для интерполяции, используя .loc, во избежание настройки с помощью copywith Warning
numerical_cols = df_weather.select_dtypes(include=['float64', 'int64']).columns
df_weather.loc[:, numerical_cols] = df_weather.loc[:, numerical_cols].interpolate(method='time')

# Проверка, нет ли пропущенных значений после интерполяции
print("\nПропущенные значения после интерполяции:")
display(df_weather.isnull().sum())

# Display info to see non-null counts
display(df_weather.info())

### **3.4. Этап 4. Проверка на стационарность и статистические тесты**

**Задача:** Определить, является ли ряд стационарным — ключевое требование для классических методов анализа.

#### 📌 Что нужно сделать:
- Визуальный анализ: есть ли тренд, меняется ли дисперсия во времени?
- Рассчитать скользящее среднее и скользящую дисперсию (по окнам 30, 60, 90 точек) — стабильны ли они?
- Применить статистические тесты:
  - **Тест Дики-Фуллера (ADF)** — нулевая гипотеза: ряд имеет единичный корень (нестационарен)
  - **Тест KPSS** — нулевая гипотеза: ряд стационарен
- Интерпретировать p-value:
  - ADF: p < 0.05 → ряд стационарен
  - KPSS: p > 0.05 → ряд стационарен
- Если ряд нестационарен — применить **дифференцирование 1-го порядка** и повторить тесты

> 📚 **Библиотеки:** `statsmodels.tsa.stattools.adfuller`, `kpss`

In [None]:
from statsmodels.tsa.stattools import adfuller, kpss
import pandas as pd

# Выбор только числовых столбцов для проверки стационарности
numerical_cols = df_weather.select_dtypes(include=['float64', 'int64']).columns

# Проверка ADF для каждого числового столбца
print("Дополненный тест Дики-Фуллера (ADF):")
for col in numerical_cols:
    result = adfuller(df_weather[col].dropna()) # Drop NaNs just in case, although interpolation was done
    print(f"Column: {col}")
    print(f"ADF Statistic: {result[0]}")
    print(f"p-value: {result[1]}")
    print("Critical Values:")
    for key, value in result[4].items():
        print(f"  {key}: {value}")
    if result[1] <= 0.05:
        print("Вывод: Скорее всего, ряд стационарен.")
    else:
        print("Вывод: Cкорее всего, ряд нестационарен.")
        kk = 0
        while result[1]>0.05 or kk<3:
            df_weather[col] = df_weather[col].diff().fillna(0)
            result = adfuller(df_weather[col].dropna())
            kk+=1
        if result[1]<=0.05:
            print(f'Column: {col} теперь стационарна!')
    print("-" * 30)

# Проверка KPSS для каждого числового столбца
print("\nТест Квятковского-Филлипса-Шмидта-Шина (KPSS):")
for col in numerical_cols:
    # KPSS тест может обрабатывать только один столбец одновременно
    result = kpss(df_weather[col].dropna(), regression='c') # "c" предполагает отсутствие тренда, "ct" предполагает наличие тренда
    print(f"Column: {col}")
    print(f"KPSS Statistic: {result[0]}")
    print(f"p-value: {result[1]}")
    print("Critical Values:")
    for key, value in result[3].items():
        print(f"  {key}: {value}")
    if result[1] >= 0.05:
        print("Вывод: Ряд, скорее всего, является стационарным.")
    else:
        print("Вывод: Ряд, скорее всего, нестационарен.")
    print("-" * 30)

### **3.5. Этап 5. Создание лаговых признаков и скользящих статистик**

**Задача:** Подготовить данные для анализа временных зависимостей.

#### ⏳ Что нужно сделать:
- Создать лаги целевой переменной: `target_lag_1`, `target_lag_7`, `target_lag_30`
- Создать лаги для значимых признаков (если есть гипотеза о запаздывании влияния)
- Рассчитать скользящие статистики:
  - Скользящее среднее: `target_rolling_mean_7`, `target_rolling_mean_30`
  - Скользящее стандартное отклонение: `target_rolling_std_7`
- Проверить корреляцию между лагами и целевой переменной — какие лаги наиболее информативны?
- Проверить мультиколлинеарность после добавления лагов

> 💡 **Совет:** используйте `df.shift()` и `df.rolling()` в pandas

In [None]:
# Предполагая 'Естественный прирост населения, чел' является ли целевая переменная, основанная на корреляционном анализе
target_col = 'Естественный прирост населения, чел'

# Создание запаздывающих объектов для целевой переменной
df_weather[f'{target_col}_lag_1'] = df_weather[target_col].shift(1)
df_weather[f'{target_col}_lag_7'] = df_weather[target_col].shift(7)
df_weather[f'{target_col}_lag_30'] = df_weather[target_col].shift(30)

# Создание объектов с задержкой для других потенциально значимых числовых столбцов
# Судя по тепловой карте корреляции, "Число родившихся, чел" и "Число умерший, чел" сильно коррелируют с целью.
# Создадим лаги и для них тоже.
other_cols_to_lag = ['Число родившихся, чел', 'Число умерших, чел']
for col in other_cols_to_lag:
    df_weather[f'{col}_lag_1'] = df_weather[col].shift(1)
    df_weather[f'{col}_lag_7'] = df_weather[col].shift(7)
    df_weather[f'{col}_lag_30'] = df_weather[col].shift(30)

# Вычислите скользящую статистику для целевой переменной
df_weather[f'{target_col}_rolling_mean_7'] = df_weather[target_col].rolling(window=7).mean()
df_weather[f'{target_col}_rolling_mean_30'] = df_weather[target_col].rolling(window=30).mean()
df_weather[f'{target_col}_rolling_std_7'] = df_weather[target_col].rolling(window=7).std()

# Первые несколько строк для ознакомления с функциями
display(df_weather.head())

# Отображение инфы о фрейме данных, чтоб увидеть новые столбцы
display(df_weather.info())

### **3.6. Этап 6. Анализ автокорреляции: ACF и PACF**

**Задача:** Выявить структуру зависимости ряда от собственного прошлого.

#### 📈 Что нужно сделать:
- Построить и визуализировать:
  - **ACF (Autocorrelation Function)** — корреляция ряда с его лагами (включая косвенные зависимости)
  - **PACF (Partial Autocorrelation Function)** — “чистая” корреляция с лагом, исключая влияние промежуточных лагов
- Интерпретировать графики:
  - Резкий обрыв в PACF на лаге *p* → возможный порядок AR(p)
  - Постепенное затухание в ACF → возможный порядок MA(q)
- Указать, какие лаги статистически значимы (выходят за доверительный интервал)

> 📊 **Библиотеки:** `statsmodels.graphics.tsaplots.plot_acf`, `plot_pacf`

In [None]:
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import matplotlib.pyplot as plt

# Предполагая, что 'Естественный прирост населения, чел' является целевой переменной
target_col = 'Естественный прирост населения, чел'

# График ACF
plt.figure(figsize=(12, 6))
plot_acf(df_weather[target_col].dropna(), lags=40, ax=plt.gca())
plt.title(f'Autocorrelation Function (ACF) for {target_col}')
plt.xlabel('Lags')
plt.ylabel('Autocorrelation')
plt.show()

# График PACF
plt.figure(figsize=(12, 6))
plot_pacf(df_weather[target_col].dropna(), lags=40, ax=plt.gca())
plt.title(f'Partial Autocorrelation Function (PACF) for {target_col}')
plt.xlabel('Lags')
plt.ylabel('Partial Autocorrelation')
plt.show()

### **3.7. Этап 7. Декомпозиция временного ряда**

**Задача:** Разделить ряд на составляющие — чтобы понять, что “движет” данными.

#### 🧩 Что нужно сделать:
- Применить декомпозицию:
  - Аддитивную: `value = trend + seasonality + residual`
  - Мультипликативную: `value = trend × seasonality × residual` — если амплитуда сезонности растёт со временем
- Визуализировать каждую компоненту отдельно
- Проанализировать:
  - Форму и силу тренда (линейный? экспоненциальный?)
  - Периодичность и амплитуду сезонности (недельная? месячная? годовая?)
  - Поведение остатков — случайны ли они? Есть ли в них структура? (если есть — декомпозиция неполная)

> 🛠️ **Инструменты:** `statsmodels.tsa.seasonal.seasonal_decompose`

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt

# Предполагая, что 'Естественный прирост населения, чел' является целевой переменной
target_col = 'Естественный прирост населения, чел'

# Выполняем аддитивное разложение
decomposition_additive = seasonal_decompose(df_weather[target_col], model='additive')

# График additive decomposition (аддитивного разложения)
fig_additive = decomposition_additive.plot()
fig_additive.set_size_inches(10, 8)
fig_additive.suptitle('Additive Decomposition', y=1.02)
plt.show()

# Выполняем мультипликативную декомпозицию
# Примечание: для мультипликативной декомпозиции требуются положительные значения.
# Перед применением мультипликативной декомпозиции проверяем, все ли значения в целевом столбце положительные.
if (df_weather[target_col] > 0).all():
    decomposition_multiplicative = seasonal_decompose(df_weather[target_col], model='multiplicative')

    # Строим график мультипликативной декомпозиции
    fig_multiplicative = decomposition_multiplicative.plot()
    fig_multiplicative.set_size_inches(10, 8)
    fig_multiplicative.suptitle('Multiplicative Decomposition', y=1.02)
    plt.show()
else:
    print(f"Multiplicative decomposition пропущено как '{target_col}' содержит неположительные значения.")

### ✅ **3.8. Этап 8. Разработка веб-интерфейса для интерактивного анализа временного ряда**

**Задача:** Создать интерактивное веб-приложение, позволяющее загружать временной ряд, выбирать параметры анализа и визуализировать ключевые диагностики в реальном времени.

#### 🎛️ Функциональные требования:
- **Загрузка датасета** — через файл (CSV/Parquet) или выбор из предзагруженных примеров
- **Выбор целевой переменной и признаков** — для анализа и визуализации
- **Интерактивные элементы управления:**
  - Выбор периода сезонности для декомпозиции (7, 30, 365 и др.)
  - Выбор количества лагов для ACF/PACF
  - Выбор окна для скользящего среднего
  - Переключение между аддитивной/мультипликативной декомпозицией
- **Генерация динамического HTML-отчёта с:**
  - Графиком временного ряда с трендом и скользящим средним
  - Heatmap корреляций
  - Графиками ACF и PACF (с возможностью изменения max_lag)
  - Графиками декомпозиции (тренд, сезонность, остатки)
  - Результатами тестов на стационарность (ADF, KPSS)
- **Экспорт отчёта** в HTML или PDF

#### 🧰 Технологический стек (на выбор):
- `Streamlit` — для быстрого прототипирования (идеально подходит!)
- `Gradio` — если хочется простоты и интеграции с HF Spaces
- `Plotly Dash` / `Flask` + `Jinja2` + `Plotly` — для полного контроля и кастомизации

> 💡 **Совет:** используйте `plotly.graph_objects` для интерактивных графиков — масштабирование, наведение, выбор диапазона работают “из коробки”.

> 🌐 **Деплой:** Разверните приложение на Hugging Face Spaces, Render или Railway — и добавьте ссылку в отчёт.

---

In [None]:
# Установим streamlit, plotly, statsmodels и pyngrok
# Также ставим matplotlib, seaborn, pandas (если ещё нет)
!pip install -q streamlit plotly statsmodels pyngrok matplotlib seaborn pandas


In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
import plotly.express as px
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller, kpss
import matplotlib.pyplot as plt
import io

st.set_page_config(page_title="Интерактивный анализ временных рядов", layout="wide")
st.title("Интерактивный анализ временных рядов")

uploaded_file = st.file_uploader("Загрузите ваш файл с временными рядами (CSV)", type="csv")

if uploaded_file is not None:
    try:
        df = pd.read_csv(uploaded_file)
    except Exception as e:
        st.error(f"Не удалось прочитать CSV: {e}")
        st.stop()

    st.write("Данные загружены (первые строки):")
    st.dataframe(df.head())

    # Преобразование столбца с временной меткой в datetime и установка в качестве индекса
    try:
        df['timestamp'] = pd.to_datetime(df.iloc[:, 0])
        df = df.set_index('timestamp')
        df = df.sort_index()
    except Exception as e:
        st.error(f"Ошибка при преобразовании временной метки: {e}")
        st.stop()

    st.write("Данные с индексом времени:")
    st.dataframe(df.head())

    # Приведение потенциально числовых колонок: попытка конвертировать
    for col in df.columns:
        # если колонка выглядит числовой, попробуем привести
        if df[col].dtype == object:
            try:
                df[col] = pd.to_numeric(df[col].str.replace(',', '.').str.replace('°','').str.replace('+',''), errors='ignore')
            except Exception:
                pass

    numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
    if len(numerical_cols) == 0:
        st.error("В датасете нет числовых столбцов для анализа.")
        st.stop()

    target_col = st.selectbox("Выберите целевую переменную:", numerical_cols)

    # Визуализация временного ряда
    st.header("Визуализация временного ряда")
    fig_ts = px.line(df, y=target_col)
    st.plotly_chart(fig_ts, use_container_width=True)

    # Дескриптивная статистика
    with st.expander("Дескриптивная статистика"):
        st.write(df[numerical_cols].describe())



    import plotly.express as px

    st.header("Матрица корреляций")
    corr_method = st.selectbox("Метод корреляции:", ["pearson", "spearman"])

# Правильная цветовая схема для Plotly

 fig_corr = px.imshow(
    df[numerical_cols].corr(),
    text_auto=True,
    aspect="auto",
    color_continuous_scale=px.colors.diverging.RdBu  # исправлено
)



    # ACF и PACF графики
    st.header("ACF и PACF графики")
    lags = st.slider("Выберите количество лагов для ACF/PACF:", 1, 200, 40)

    fig_acf, ax_acf = plt.subplots(figsize=(10, 4))
    try:
        plot_acf(df[target_col].dropna(), lags=lags, ax=ax_acf)
        st.pyplot(fig_acf)
    except Exception as e:
        st.warning(f"Не удалось нарисовать ACF: {e}")

    fig_pacf, ax_pacf = plt.subplots(figsize=(10, 4))
    try:
        plot_pacf(df[target_col].dropna(), lags=lags, ax=ax_pacf, method='ywm')
        st.pyplot(fig_pacf)
    except Exception as e:
        st.warning(f"Не удалось нарисовать PACF: {e}")

    # Декомпозиция временного ряда
    st.header("Декомпозиция временного ряда")
    period = st.number_input("Введите период сезонности (например, 7 для недельных данных):", min_value=1, value=7)

    try:
        decomposition_additive = seasonal_decompose(df[target_col].dropna(), model='additive', period=period)
        fig_decomp_add = decomposition_additive.plot()
        fig_decomp_add.suptitle('Аддитивная декомпозиция', y=1.02)
        st.pyplot(fig_decomp_add)
    except Exception as e:
        st.warning(f"Не удалось выполнить аддитивную декомпозицию: {e}")

    try:
        if (df[target_col].dropna() > 0).all():
             decomposition_multiplicative = seasonal_decompose(df[target_col].dropna(), model='multiplicative', period=period)
             fig_decomp_mul = decomposition_multiplicative.plot()
             fig_decomp_mul.suptitle('Мультипликативная декомпозиция', y=1.02)
             st.pyplot(fig_decomp_mul)
        else:
             st.info("Мультипликативная декомпозиция пропущена (есть неположительные значения).")
    except Exception as e:
        st.warning(f"Не удалось выполнить мультипликативную декомпозицию: {e}")

    # Тесты на стационарность (ADF и KPSS)
    st.header("Тесты на стационарность")

    st.subheader("Тест Дики-Фуллера (ADF)")
    try:
        adf_result = adfuller(df[target_col].dropna())
        st.write(f"ADF Statistic: {adf_result[0]}")
        st.write(f"p-value: {adf_result[1]}")
        st.write("Критические значения:")
        for key, value in adf_result[4].items():
            st.write(f"  {key}: {value}")
        if adf_result[1] <= 0.05:
            st.success("Вывод: Скорее всего, ряд стационарен.")
        else:
            st.info("Вывод: Cкорее всего, ряд нестационарен.")
    except Exception as e:
        st.warning(f"ADF тест не выполнился: {e}")

    st.subheader("Тест Квятковского-Филлипса-Шмидта-Шина (KPSS)")
    try:
        kpss_result = kpss(df[target_col].dropna(), regression='c')
        st.write(f"KPSS Statistic: {kpss_result[0]}")
        st.write(f"p-value: {kpss_result[1]}")
        st.write("Критические значения:")
        for key, value in kpss_result[3].items():
            st.write(f"  {key}: {value}")
        if kpss_result[1] >= 0.05:
            st.success("Вывод: Ряд, скорее всего, является стационарным.")
        else:
            st.info("Вывод: Ряд, скорее всего, нестационарен.")
    except Exception as e:
        st.warning(f"KPSS тест не выполнился: {e}")


In [None]:
!pip install streamlit plotly statsmodels

In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
import plotly.express as px
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller, kpss
import matplotlib.pyplot as plt
import io

st.title("Интерактивный анализ временных рядов")

uploaded_file = st.file_uploader("Загрузите ваш файл с временными рядами (CSV)", type="csv")

if uploaded_file is not None:
    df = pd.read_csv(uploaded_file)
    st.write("Данные загружены:")
    st.write(df.head())

    # Преобразование столбца с временной меткой в datetime и установка в качестве индекса
    # Предполагается, что первый столбец является временной меткой
    try:
        df['timestamp'] = pd.to_datetime(df.iloc[:, 0])
        df = df.set_index('timestamp')
        df = df.sort_index()
    except Exception as e:
        st.error(f"Ошибка при преобразовании временной метки: {e}")
        st.stop()

    st.write("Данные с индексом времени:")
    st.write(df.head())

    numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
    if len(numerical_cols) == 0:
        st.error("В датасете нет числовых столбцов для анализа.")
        st.stop()

    target_col = st.selectbox("Выберите целевую переменную:", numerical_cols)

    # Визуализация временного ряда
    st.header("Визуализация временного ряда")
    fig_ts = px.line(df, y=target_col)
    st.plotly_chart(fig_ts)

    # Дескриптивная статистика
    st.header("Дескриптивная статистика")
    st.write(df[numerical_cols].describe())

    # Матрица корреляций
st.header("Матрица корреляций")
fig_corr = px.imshow(
    df[numerical_cols].corr(),
    text_auto=True,
    aspect="auto",
    color_continuous_scale=px.colors.diverging.RdBu  # <- исправлено)
st.plotly_chart(fig_corr, use_container_width=True))

    # ACF и PACF графики
    st.header("ACF и PACF графики")
    lags = st.slider("Выберите количество лагов для ACF/PACF:", 1, 100, 40)

    fig_acf, ax_acf = plt.subplots(figsize=(12, 6))
    plot_acf(df[target_col].dropna(), lags=lags, ax=ax_acf)
    st.pyplot(fig_acf)

    fig_pacf, ax_pacf = plt.subplots(figsize=(12, 6))
    plot_pacf(df[target_col].dropna(), lags=lags, ax=ax_pacf)
    st.pyplot(fig_pacf)


    # Декомпозиция временного ряда
    st.header("Декомпозиция временного ряда")
    period = st.number_input("Введите период сезонности (например, 7 для недельных данных):", min_value=1, value=7)

    try:
        decomposition_additive = seasonal_decompose(df[target_col].dropna(), model='additive', period=period)
        fig_decomp_add = decomposition_additive.plot()
        fig_decomp_add.suptitle('Аддитивная декомпозиция', y=1.02)
        st.pyplot(fig_decomp_add)

        if (df[target_col].dropna() > 0).all():
             decomposition_multiplicative = seasonal_decompose(df[target_col].dropna(), model='multiplicative', period=period)
             fig_decomp_mul = decomposition_multiplicative.plot()
             fig_decomp_mul.suptitle('Мультипликативная декомпозиция', y=1.02)
             st.pyplot(fig_decomp_mul)
        else:
             st.write("Мультипликативная декомпозиция пропущена, так как содержит неположительные значения.")

    except Exception as e:
        st.warning(f"Не удалось выполнить сезонную декомпозицию с выбранным периодом: {e}")


    # Тесты на стационарность (ADF и KPSS)
    st.header("Тесты на стационарность")

    st.subheader("Тест Дики-Фуллера (ADF)")
    adf_result = adfuller(df[target_col].dropna())
    st.write(f"ADF Statistic: {adf_result[0]}")
    st.write(f"p-value: {adf_result[1]}")
    st.write("Критические значения:")
    for key, value in adf_result[4].items():
        st.write(f"  {key}: {value}")
    if adf_result[1] <= 0.05:
        st.write("Вывод: Скорее всего, ряд стационарен.")
    else:
        st.write("Вывод: Cкорее всего, ряд нестационарен.")

    st.subheader("Тест Квятковского-Филлипса-Шмидта-Шина (KPSS)")
    try:
        kpss_result = kpss(df[target_col].dropna(), regression='c')
        st.write(f"KPSS Statistic: {kpss_result[0]}")
        st.write(f"p-value: {kpss_result[1]}")
        st.write("Критические значения:")
        for key, value in kpss_result[3].items():
            st.write(f"  {key}: {value}")
        if kpss_result[1] >= 0.05:
            st.write("Вывод: Ряд, скорее всего, является стационарным.")
        else:
            st.write("Вывод: Ряд, скорее всего, нестационарен.")
    except Exception as e:
        st.warning(f"Не удалось выполнить тест KPSS: {e}")

In [None]:
from pyngrok import ngrok, conf
import time

# Вставь сюда свой ngrok auth token (строкой)
NGROK_AUTH_TOKEN = "33rrvngq55Ym4ttNvRgvHJi6I9z_3uyg5NWWBepyuEtYCYiey"

# Установка токена и конфигурации
conf.get_default().auth_token = NGROK_AUTH_TOKEN
ngrok.set_auth_token(NGROK_AUTH_TOKEN)

# Открываем туннель к локальному Streamlit-порту 8501
public_url = ngrok.connect(addr="8501", proto="http")
print("Public URL для Streamlit (открой в новом окне):", public_url)

# Небольшая пауза, чтобы service успел подняться
time.sleep(2)
print("Если страница пустая, проверь лог: !tail -n 200 /content/nohup.out")


In [None]:
ngrok.kill()