In [6]:
import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = ':https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F48149%2F87794%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240404%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240404T184453Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D2b1dccffa68f09962aa975e816e8709ee621d80b979f942034813ad4a921481baed7e6e3caa5c570f77dee3cad1a138dbefa1bb3f1231dc0bc5d7244ed7e3ab44b6937d959cc2b08951aa02af38bf8ca2fa1b6ec459c5d52d035f8cf50fc34a58b095e3e796597d10483ca3caba33dc775d65d4d67711ac085145c5deefe25738bf5e9ffc137bfc664b37c0e2aca4bdf60dfa1c14f0f5744c4b926948af332811708dfb5b38b12a91adc72d2ee022e498d822b148838d6b8cc7deff7bf4a115e99b769833a3c13e26f6f026da6fc5b64843b7ba73857aa1cc6effdcecfd73dc7f343ebbe864d57d9adeaf0ff0845af9b4ac891b7b6d7195e892e20fdff6722db'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')

���⥬� �� 㤠���� ���� 㪠����� ����.


OSError: [WinError 1314] Клиент не обладает требуемыми правами: '/kaggle/input' -> '..\\input'

In [11]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns
import matplotlib.pyplot as plt
import xgboost as xgb
from xgboost import plot_importance, plot_tree
from sklearn.metrics import mean_squared_error, mean_absolute_error
plt.style.use('fivethirtyeight')

ModuleNotFoundError: No module named 'numpy'

# ДАННЫЕ
Данные, которые мы будем использовать, - это данные о почасовом потреблении энергии. Данные о потреблении энергии имеют некоторые уникальные характеристики. Будет интересно посмотреть, как prophet их использует.

Извлекаем "PJM East", в котором содержатся данные за 2002-2018 годы.

In [None]:
pjme = pd.read_csv('/input/PJME_hourly.csv', index_col=[0], parse_dates=[0])

In [None]:
color_pal = ["#F8766D", "#D39200", "#93AA00", "#00BA38", "#00C19F", "#00B9E3", "#619CFF", "#DB72FB"]
_ = pjme.plot(style='.', figsize=(15,5), color=color_pal[0], title='Данные о потреблении энергии')

# Разделение на обучение и тестирование
Данные после 2015 года будут удалены для использования в качестве набора для проверки.

In [None]:
split_date = '01-Jan-2015'
pjme_train = pjme.loc[pjme.index <= split_date].copy()
pjme_test = pjme.loc[pjme.index > split_date].copy()

In [None]:
_ = pjme_test \
    .rename(columns={'PJME_MW': 'Тестовый SET'}) \
    .join(pjme_train.rename(columns={'PJME_MW': 'Тренировочный SET'}), how='outer') \
    .plot(figsize=(15,5), title='Данные о потреблении электроэнергии', style='.')

# Создание объектов временных рядов

In [13]:
def create_features(df, label=None):
    """
    Creates time series features from datetime index
    """
    df['date'] = df.index
    df['hour'] = df['date'].dt.hour
    df['dayofweek'] = df['date'].dt.dayofweek
    df['quarter'] = df['date'].dt.quarter
    df['month'] = df['date'].dt.month
    df['year'] = df['date'].dt.year
    df['dayofyear'] = df['date'].dt.dayofyear
    df['dayofmonth'] = df['date'].dt.day
    # df['weekofyear'] = df['date'].dt.weekofyear

    X = df[['hour','dayofweek','quarter','month','year',
           'dayofyear','dayofmonth']]
    if label:
        y = df[label]
        return X, y
    return X

In [16]:
X_train, y_train = create_features(pjme_train, label='PJME_MW')
X_test, y_test = create_features(pjme_test, label='PJME_MW')

NameError: name 'pjme_train' is not defined

# Создание модели XGBoost

In [17]:
reg = xgb.XGBRegressor(n_estimators=1000)
reg.fit(X_train, y_train,
        eval_set=[(X_train, y_train), (X_test, y_test)],
        early_stopping_rounds=50,
       verbose=False) # Изменить значение verbose на True, если вы хотите, чтобы оно отображалось на экране.

NameError: name 'xgb' is not defined

## Важность объектов
Важность объектов - отличный способ получить общее представление о том, на какие функции модель больше всего опирается при составлении прогноза. Это показатель, который просто суммирует, сколько раз разбивается каждый объект.

Мы видим, что для разделения деревьев чаще всего использовался день года, в то время как час и год были следующими. Значение квартала невелико из-за того, что оно может быть создано путем разделения на разные дни и года.

In [None]:
_ = plot_importance(reg, height=0.9)

# Прогноз по тестовому набору

In [None]:
pjme_test['MW_Prediction'] = reg.predict(X_test)
pjme_all = pd.concat([pjme_test, pjme_train], sort=False)

In [None]:
_ = pjme_all[['PJME_MW','MW_Prediction']].plot(figsize=(15, 5))

# Смотреть на первый месяц прогнозов

In [None]:
#Сопоставление прогноза с фактическими данными
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_xbound(lower='01-01-2015', upper='02-01-2015')
ax.set_ylim(0, 60000)
plot = plt.suptitle('Прогноз на январь 2015 года в сравнении с фактическими данными')

In [None]:
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_xbound(lower='01-01-2015', upper='01-08-2015')
ax.set_ylim(0, 60000)
plot = plt.suptitle('Прогноз на первую неделю января в сравнении с фактическими данными')

In [None]:
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(15)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_ylim(0, 60000)
ax.set_xbound(lower='07-01-2015', upper='07-08-2015')
plot = plt.suptitle('Прогноз на первую неделю июля в сравнении с фактическими данными')

# Показатели ошибок в тестовом наборе
Наша ошибка RMSE равна 13780445 
Наша ошибка MAE равна 2848,89 
Наша ошибка MAPE равна 8,9%

In [None]:
mean_squared_error(y_true=pjme_test['PJME_MW'],
                   y_pred=pjme_test['MW_Prediction'])

In [None]:
mean_absolute_error(y_true=pjme_test['PJME_MW'],
                   y_pred=pjme_test['MW_Prediction'])

Используем mean absolute percent error, потому что это позволяет легко вычислять процент, показывающий, насколько неверны прогнозы.
MAPE не включен в sklearn, поэтому нам нужно использовать пользовательскую функцию.

In [None]:
def mean_absolute_percentage_error(y_true, y_pred):
    """Calculates MAPE given y_true and y_pred"""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

In [None]:
mean_absolute_percentage_error(y_true=pjme_test['PJME_MW'],
                   y_pred=pjme_test['MW_Prediction'])

# Показ на худшие и лучшие предсказанные дни.

In [None]:
pjme_test['error'] = pjme_test['PJME_MW'] - pjme_test['MW_Prediction']
pjme_test['abs_error'] = pjme_test['error'].apply(np.abs)
error_by_day = pjme_test.groupby(['year','month','dayofmonth']) \
    .mean()[['PJME_MW','MW_Prediction','error','abs_error']]

In [None]:
# Over forecasted days
error_by_day.sort_values('error', ascending=True).head(10)

In [None]:
# Worst absolute predicted days
error_by_day.sort_values('abs_error', ascending=False).head(10)

Наилучшими прогнозируемыми днями, по-видимому, являются большая часть октября (не так много праздников и мягкая погода) Также начало мая

In [None]:
# Best predicted days
error_by_day.sort_values('abs_error', ascending=True).head(10)

# Составление прогноза на несколько лучших / наихудших дней.

In [None]:
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(10)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_ylim(0, 60000)
ax.set_xbound(lower='08-13-2016', upper='08-14-2016')
plot = plt.suptitle('13 августа 2016 года - Худший прогнозируемый день')

In [None]:
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(10)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_ylim(0, 60000)
ax.set_xbound(lower='10-03-2016', upper='10-04-2016')
plot = plt.suptitle('3 октября 2016 - Самый предсказуемый день')

In [None]:
f, ax = plt.subplots(1)
f.set_figheight(5)
f.set_figwidth(10)
_ = pjme_all[['MW_Prediction','PJME_MW']].plot(ax=ax,
                                              style=['-','.'])
ax.set_ylim(0, 60000)
ax.set_xbound(lower='08-13-2016', upper='08-14-2016')
plot = plt.suptitle('13 августа 2016 года - Худший прогнозируемый день')