In [14]:
import tensorflow as tf

import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd

In [15]:
mpl.rcParams['figure.figsize'] = (8, 6)
mpl.rcParams['axes.grid'] = False

In [4]:
%run ../preset.py

In [16]:
def univariate_data(dataset, start_index, end_index, history_size, target_size):
    data = []
    labels = []

    start_index = start_index + history_size

    if end_index is None:
        end_index = len(dataset) - target_size

    for i in range(start_index, end_index):
        indices = range(i-history_size, i)
        # Reshape data from (history_size,) to (history_size, 1)
        data.append(np.reshape(dataset[indices], (history_size, 1)))
        labels.append(dataset[i+target_size])
    
    return np.array(data), np.array(labels)

In [17]:
tf.random.set_seed(13)

In [8]:
df = pd.read_parquet("../../prepare_data/data.gzip")

In [9]:
df

Unnamed: 0_level_0,subject_name,actual_consumption,datetime
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2011-01-01 00:00:00,Алтайский край,1313.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Амурская область,870.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Архангельская область,970.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Астраханская область,504.0,2011-01-01 00:00:00
2011-01-01 00:00:00,Белгородская область,1592.0,2011-01-01 00:00:00
...,...,...,...
2024-07-17 00:00:00,Челябинская область,3854.0,2024-07-17 00:00:00
2024-07-17 00:00:00,Чеченская Республика,412.0,2024-07-17 00:00:00
2024-07-17 00:00:00,Чувашская Республика - Чувашия,486.0,2024-07-17 00:00:00
2024-07-17 00:00:00,Южно-Якутский энергорайон,358.0,2024-07-17 00:00:00


In [20]:
df.drop(columns=["datetime"], inplace=True)

In [21]:
df

Unnamed: 0_level_0,subject_name,actual_consumption
index,Unnamed: 1_level_1,Unnamed: 2_level_1
2011-01-01 00:00:00,Алтайский край,1313.0
2011-01-01 00:00:00,Амурская область,870.0
2011-01-01 00:00:00,Архангельская область,970.0
2011-01-01 00:00:00,Астраханская область,504.0
2011-01-01 00:00:00,Белгородская область,1592.0
...,...,...
2024-07-17 00:00:00,Челябинская область,3854.0
2024-07-17 00:00:00,Чеченская Республика,412.0
2024-07-17 00:00:00,Чувашская Республика - Чувашия,486.0
2024-07-17 00:00:00,Южно-Якутский энергорайон,358.0


In [11]:
tmp = pd.get_dummies(df["subject_name"])

In [13]:
tmp.head(3)

Unnamed: 0_level_0,Алтайский край,Амурская область,Архангельская область,Астраханская область,Белгородская область,Брянская область,Владимирская область,Волгоградская область,Вологодская область,Воронежская область,...,Тульская область,Тюменская область,Удмуртская Республика,Ульяновская область,Центральный энергорайон Якутии,Челябинская область,Чеченская Республика,Чувашская Республика - Чувашия,Южно-Якутский энергорайон,Ярославская область
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2011-01-01 00:00:00,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [22]:
df = pd.concat([df, tmp], axis=1)

In [23]:
df

Unnamed: 0_level_0,subject_name,actual_consumption,Алтайский край,Амурская область,Архангельская область,Астраханская область,Белгородская область,Брянская область,Владимирская область,Волгоградская область,...,Тульская область,Тюменская область,Удмуртская Республика,Ульяновская область,Центральный энергорайон Якутии,Челябинская область,Чеченская Республика,Чувашская Республика - Чувашия,Южно-Якутский энергорайон,Ярославская область
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2011-01-01 00:00:00,Алтайский край,1313.0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,Амурская область,870.0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,Архангельская область,970.0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,Астраханская область,504.0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,Белгородская область,1592.0,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2024-07-17 00:00:00,Челябинская область,3854.0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
2024-07-17 00:00:00,Чеченская Республика,412.0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
2024-07-17 00:00:00,Чувашская Республика - Чувашия,486.0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2024-07-17 00:00:00,Южно-Якутский энергорайон,358.0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0


In [25]:
df.drop(columns=["subject_name"], inplace=True)

In [26]:
df.head(3)

Unnamed: 0_level_0,actual_consumption,Алтайский край,Амурская область,Архангельская область,Астраханская область,Белгородская область,Брянская область,Владимирская область,Волгоградская область,Вологодская область,...,Тульская область,Тюменская область,Удмуртская Республика,Ульяновская область,Центральный энергорайон Якутии,Челябинская область,Чеченская Республика,Чувашская Республика - Чувашия,Южно-Якутский энергорайон,Ярославская область
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2011-01-01 00:00:00,1313.0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,870.0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,970.0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [28]:
cons_mean = df["actual_consumption"].mean()

In [32]:
cons_std = df["actual_consumption"].std()

In [33]:
cons_std

2127.9075776424816

In [34]:
df["actual_consumption"] = (df["actual_consumption"] - cons_mean) / cons_std

In [35]:
df["actual_consumption"]

index
2011-01-01 00:00:00   -0.382962
2011-01-01 00:00:00   -0.591148
2011-01-01 00:00:00   -0.544153
2011-01-01 00:00:00   -0.763148
2011-01-01 00:00:00   -0.251847
                         ...   
2024-07-17 00:00:00    0.811169
2024-07-17 00:00:00   -0.806383
2024-07-17 00:00:00   -0.771607
2024-07-17 00:00:00   -0.831760
2024-07-17 00:00:00   -0.640022
Name: actual_consumption, Length: 8478449, dtype: float64

In [37]:
df.head(3)

Unnamed: 0_level_0,actual_consumption,Алтайский край,Амурская область,Архангельская область,Астраханская область,Белгородская область,Брянская область,Владимирская область,Волгоградская область,Вологодская область,...,Тульская область,Тюменская область,Удмуртская Республика,Ульяновская область,Центральный энергорайон Якутии,Челябинская область,Чеченская Республика,Чувашская Республика - Чувашия,Южно-Якутский энергорайон,Ярославская область
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2011-01-01 00:00:00,-0.382962,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,-0.591148,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2011-01-01 00:00:00,-0.544153,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [38]:
def multivariate_data(
                      dataset,
                      target,
                      start_index,
                      end_index,
                      history_size,
                      target_size,
                      step,
                      single_step=False
):

    data = []
    labels = []

    start_index = start_index + history_size

    if end_index is None:
        end_index = len(dataset) - target_size

    for i in range(start_index, end_index):
        indices = range(i-history_size, i, step)
        data.append(dataset[indices])

    if single_step:
        labels.append(target[i+target_size])
    else:
        labels.append(target[i:i+target_size])

    return np.array(data), np.array(labels)

In [41]:
dataset = df.drop(columns=["actual_consumption"])

In [42]:
target = df["actual_consumption"]

In [45]:
past_history = 670000 # На неделю
future_target = 25200
STEP = 24
TRAIN_SPLIT = 300000

x_train_single, y_train_single = multivariate_data(dataset, dataset[:, 1], 0,
                                                   TRAIN_SPLIT, past_history,
                                                   future_target, STEP,
                                                   single_step=True)
x_val_single, y_val_single = multivariate_data(dataset, dataset[:, 1],
                                               TRAIN_SPLIT, None, past_history,
                                               future_target, STEP,
                                               single_step=True)

InvalidIndexError: (slice(None, None, None), 1)