# Препроцессинг временных рядов

В этом ноутбуке мы рассмотрим обработку временных рядов с использованием GPB библиотеки.

## Подготовка окружения

In [None]:
import sys
sys.path.append('../../')

import pandas as pd
import numpy as np
from core.data.preprocessing import TimeSeriesPreprocessor

## Загрузка тестовых данных

In [None]:
# Создание тестового временного ряда
dates = pd.date_range(start='2023-01-01', end='2023-01-31', freq='D')
values = np.random.normal(100, 10, len(dates))

data = pd.DataFrame({
    'date': dates,
    'value': values
})

print("Исходные данные:")
print(data)

## Создание препроцессора временных рядов

In [None]:
# Создание препроцессора
preprocessor = TimeSeriesPreprocessor()

## Обработка пропущенных значений

In [None]:
# Заполнение пропущенных значений
filled_data = preprocessor.fill_missing_values(
    data,
    time_column='date',
    value_column='value',
    method='linear'  # Линейная интерполяция
)

print("Данные после заполнения пропущенных значений:")
print(filled_data)

## Извлечение временных признаков

In [None]:
# Извлечение признаков
features = preprocessor.extract_time_features(
    filled_data,
    time_column='date',
    features=['year', 'month', 'day', 'dayofweek', 'is_weekend']
)

print("Данные с временными признаками:")
print(features)

## Создание лагов

In [None]:
# Создание лагов
lagged_data = preprocessor.create_lags(
    features,
    value_column='value',
    lags=[1, 2, 3, 7]  # Лаги за 1, 2, 3 и 7 дней
)

print("Данные с лагами:")
print(lagged_data)

## Создание скользящих статистик

In [None]:
# Создание скользящих статистик
rolling_stats = preprocessor.create_rolling_features(
    lagged_data,
    value_column='value',
    windows=[3, 7, 14],  # Окна в днях
    stats=['mean', 'std', 'min', 'max']
)

print("Данные со скользящими статистиками:")
print(rolling_stats)

## Масштабирование данных

In [None]:
# Масштабирование
scaled_data = preprocessor.scale(
    rolling_stats,
    columns=['value', 'value_lag_1', 'value_lag_2', 'value_lag_3', 'value_lag_7'],
    method='standard'  # Стандартизация
)

print("Данные после масштабирования:")
print(scaled_data)

## Сохранение препроцессора

In [None]:
# Сохранение препроцессора
preprocessor.save('models/time_series_preprocessor.pkl')
print("Препроцессор временных рядов успешно сохранен")