In [1]:
import pandas as pd
import sqlite3
from sqlalchemy import create_engine

In [2]:
# зчитуємо дані з таблиці sqlite для прогнозування
engine = create_engine('sqlite:///ts.sqlite3', echo=False)
sqlite_connection = engine.connect()

from sqlalchemy import inspect
inspector = inspect(engine)

# Get table information
print(inspector.get_table_names())

# Get column information
print(inspector.get_columns('ts1'))

df = pd.read_sql_query("SELECT * from ts1", engine)
df

sqlite_connection.close()

['ts1', 'ts_pred']
[{'name': 'index', 'type': BIGINT(), 'nullable': True, 'default': None, 'autoincrement': 'auto', 'primary_key': 0}, {'name': 'time', 'type': DATETIME(), 'nullable': True, 'default': None, 'autoincrement': 'auto', 'primary_key': 0}]


In [3]:
# в таблиці sqlite дані дату у нас в текстовому форматі, тож переформатовуємо в datetime
df['time'] = pd.to_datetime(df['time'])

In [4]:
# видаляємо зайву колонку index, яка невідомо чому з'явилась
df.drop(columns='index',inplace = True)
df


Unnamed: 0,time
0,2017-10-15
1,2017-10-07
2,2017-08-20
3,2017-03-31
4,2017-03-05
...,...
7440,2018-08-04
7441,2020-01-02
7442,2019-02-01
7443,2018-08-11


In [5]:
# бібліотеки для форекастінгу заватажені без розбору з туторіола
from warnings import simplefilter

import numpy as np
import pandas as pd

from sktime.datasets import load_airline
from sktime.forecasting.arima import ARIMA, AutoARIMA
from sktime.forecasting.base import ForecastingHorizon
from sktime.forecasting.compose import (
    EnsembleForecaster,
    MultiplexForecaster,
    TransformedTargetForecaster,
    make_reduction,
)
from sktime.forecasting.exp_smoothing import ExponentialSmoothing
from sktime.forecasting.model_evaluation import evaluate
from sktime.forecasting.model_selection import (
    ExpandingWindowSplitter,
    ForecastingGridSearchCV,
    SlidingWindowSplitter,
    temporal_train_test_split,
)
from sktime.forecasting.naive import NaiveForecaster
from sktime.forecasting.theta import ThetaForecaster
from sktime.forecasting.trend import PolynomialTrendForecaster
from sktime.performance_metrics.forecasting import (
    MeanAbsolutePercentageError,
    mean_absolute_percentage_error,
)
from sktime.transformations.series.detrend import Deseasonalizer, Detrender
from sktime.utils.plotting import plot_series
from sktime.forecasting.bats import BATS
from sktime.forecasting.tbats import TBATS

simplefilter("ignore", FutureWarning)
%matplotlib inline

In [6]:
# зрізаємо нерелеватний період
df = df[df.time.dt.year>2017]

In [7]:
# перетворюємо дату у формат періоду та підраховуємо кількість подій у цьому періоді
ts1 = df.resample('M',on='time').count()

In [8]:
# першій та останній період скоріш за все будуть неповними, можливо, це буде впливати на прогноз,можливо,ні, але на графіку
# буде виглядати обрубано, тому їх видаляємо
ts1 = ts1[:-1]
ts1 = ts1[1:]


In [9]:
# resample ставить дату в індекс, але переформатовує дату на об'єкт,переводимо індекс знову в формат періоду
# та зберігаємо в зміній y
ts1.index = ts1.index.to_period()
y = ts1.time
# для горизонта передбачення краще використати щось типу max_date минус декілька періодів, а не абсолютну дату, ДОРОБИТИ
max_date = max(ts1.index).strftime('%Y-%m-%d')


In [10]:
fh = ForecastingHorizon(
    pd.PeriodIndex(pd.date_range('2020-09-01', periods=12, freq="M")), is_relative=False
 )

In [11]:

def prediction_table(y,forecaster,fh,method):
    forecaster.fit(y)
    y_pred = forecaster.predict(fh)
    y_er = y['2020-09-01':]
    max_y = max(y.index).strftime('%Y-%m-%d')
    pred_err = y_pred['2020-09-01':max_y]
    y_pred.index = y_pred.index.to_timestamp()
    pred = pd.DataFrame(y_pred).reset_index()
    pred['method']=method
    pred['MAPE']=mean_absolute_percentage_error(y_er, pred_err)
    pred.columns=[['date','value','method','MAPE']]
    return pred
    
#mean_absolute_percentage_error(y_pred, y)

In [12]:
forecaster = ExponentialSmoothing(trend="add", seasonal="additive", sp=12)
pred1 = prediction_table(y,forecaster,fh,'ExponentialSmoothing')

In [13]:
forecaster = AutoARIMA(sp=12, suppress_warnings=True)
pred2 = prediction_table(y,forecaster,fh,'AutoARIMA')



In [14]:
forecaster = BATS(sp=12, use_trend=True, use_box_cox=True)
pred3 = prediction_table(y,forecaster,fh,'BATS')

In [15]:
forecaster = EnsembleForecaster([
    ("ses", ExponentialSmoothing(seasonal="multiplicative", sp=12)),
    ("holt", ExponentialSmoothing(trend="add",  seasonal="multiplicative", sp=12)),
    ("damped", ExponentialSmoothing(trend="add",  seasonal="multiplicative", sp=12))
])
pred4 = prediction_table(y,forecaster,fh,'EnsembleForecaster')

In [16]:
forecaster = TBATS(sp=12, use_trend=True, use_box_cox=True)
pred5 = prediction_table(y,forecaster,fh,'TBATS')

In [17]:
z = y.copy()
z = z.to_timestamp(freq="M")
fhz = ForecastingHorizon(
    pd.date_range('2020-09-01', periods=12, freq="M"), is_relative=False
 )

In [18]:
from sktime.forecasting.fbprophet import Prophet
forecaster = Prophet(
    seasonality_mode="multiplicative",
    n_changepoints=int(len(y) / 8),
    add_country_holidays={"country_name": "Ukraine"},
    yearly_seasonality=True,
    weekly_seasonality=False,
    daily_seasonality=True,
)
forecaster.fit(z)
y_pred = forecaster.predict(fhz)

In [19]:
pr_prophet = pd.DataFrame(y_pred).reset_index()
pr_prophet['ds'] = pd.to_datetime(pr_prophet['ds'])
pr_prophet['method']='Prophet'
z_er = z['2020-09-01':]
max_z = max(z.index).strftime('%Y-%m-%d')
pred_err = y_pred['2020-09-01':max_z]
pr_prophet['MAPE']=mean_absolute_percentage_error(z_er, pred_err)
pr_prophet.columns=[['date','value','method','MAPE']]
pr_prophet

Unnamed: 0,date,value,method,MAPE
0,2020-09-30,203.206403,Prophet,0.03465
1,2020-10-31,195.214779,Prophet,0.03465
2,2020-11-30,208.971512,Prophet,0.03465
3,2020-12-31,189.268628,Prophet,0.03465
4,2021-01-31,184.156254,Prophet,0.03465
5,2021-02-28,157.149268,Prophet,0.03465
6,2021-03-31,187.274074,Prophet,0.03465
7,2021-04-30,190.23858,Prophet,0.03465
8,2021-05-31,191.740579,Prophet,0.03465
9,2021-06-30,173.478535,Prophet,0.03465


In [20]:
y.index = y.index.to_timestamp()

fact = pd.DataFrame(y)
fact.rename(columns={'time':'val'},inplace=True)

fact.reset_index(inplace=True)

fact['method']='fact'

fact.columns=[['date','value','method']]

full = pd.concat([fact,pred1,pred2,pred3,pred4,pred5,pr_prophet])

full

Unnamed: 0,MAPE,date,method,value
0,,2018-02-01,fact,130.000000
1,,2018-03-01,fact,177.000000
2,,2018-04-01,fact,160.000000
3,,2018-05-01,fact,167.000000
4,,2018-06-01,fact,153.000000
...,...,...,...,...
7,0.03465,2021-04-30,Prophet,190.238580
8,0.03465,2021-05-31,Prophet,191.740579
9,0.03465,2021-06-30,Prophet,173.478535
10,0.03465,2021-07-31,Prophet,207.932125


In [21]:
# запис у таблицю
sqlite_connection = engine.connect()
sqlite_table = "ts_pred"
full.to_sql(sqlite_table, sqlite_connection, if_exists='replace')
sqlite_connection.close()