In [1]:
# Завантажуємо дані

import pandas as pd
import numpy as np
from plotly.graph_objects import *
from plotly.offline import init_notebook_mode,iplot
from plotly.subplots import make_subplots
import plotly.express as px
init_notebook_mode(connected=True)
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.holtwinters import SimpleExpSmoothing, Holt, ExponentialSmoothing
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.model_selection import TimeSeriesSplit
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('../Machine-Learning-2/datasets/airline-passengers.csv', parse_dates=['Month'], index_col=['Month'])
df.head()

Unnamed: 0_level_0,Passengers
Month,Unnamed: 1_level_1
1949-01-01,112
1949-02-01,118
1949-03-01,132
1949-04-01,129
1949-05-01,121


In [2]:
# Декомпозуємо наш часовий ряд по пасажирах і виділяємо тренд, сезонність ті залишки
decompose_result = seasonal_decompose(df["Passengers"],model="multiplicative")

In [3]:
# Будуємо графік наших спостережень, тренду, сеззонності та залишків
fig = make_subplots(rows= 4, cols = 1)

fig.append_trace(Scatter(x = decompose_result.observed.index,
                        y = decompose_result.observed.values,
                        name = 'Observations'),
                row = 1, col = 1)

fig.append_trace(Scatter(x = decompose_result.trend.index,
                        y = decompose_result.trend.values,
                        name = 'Trend'),
                row = 2, col = 1)
fig.append_trace(Scatter(x = decompose_result.seasonal.index,
                        y = decompose_result.seasonal.values,
                        name = 'Seasonal'),
                row = 3, col = 1)
fig.append_trace(Scatter(x = decompose_result.resid.index,
                        y = decompose_result.resid.values,
                        name = 'Residual'),
                row = 4, col = 1)
fig.show()

In [4]:
# Встановлюємо частоту індексу дати і часу як початок місяця
df.index.freq = "MS"
# Встановлюємо значення Alpha і визначаємо m (період часу)
m = 12
alpha = 1/(2*m)

<h1>Holt Winters Single Exponential Smoothing<h1>

In [5]:
df["HWES1"] = SimpleExpSmoothing(df["Passengers"]).fit(smoothing_level=alpha,optimized=False,use_brute=True).fittedvalues

In [6]:
trace0 = Scatter(x = df.index,
                y = df.Passengers,
                line = {'color': 'red'},
                name = 'Original data')

trace1 = Scatter(x = df.index,
                y = df.HWES1,
                line = {'color': 'green'},
                name = 'Holt Winters Single Exponential Smoothing')

iplot(Figure(data = [trace0, trace1]))

Просте експоненційне згладжування більше схоже на відображення тренду через дуже великий ступінь згладжуваності, аніж на реальні дані. Тому його використовувати не будемо.

<h1>Holt Winters Double Exponential Smoothing<h1>

In [7]:
df["HWES2_ADD"] = ExponentialSmoothing(df["Passengers"],trend="add").fit().fittedvalues
df["HWES2_MUL"] = ExponentialSmoothing(df["Passengers"],trend="mul").fit().fittedvalues

In [8]:
trace0 = Scatter(x = df.index,
                y = df.Passengers,
                line = {'color': 'red'},
                name = 'Original data')

trace1 = Scatter(x = df.index,
                y = df.HWES2_ADD,
                line = {'color': 'green'},
                name = 'Holt Winters Double Exponential Smoothing: Additive trend')

trace2 = Scatter(x = df.index,
                y = df.HWES2_MUL,
                line = {'color': 'orange'},
                name = 'Holt Winters Double Exponential Smoothing: Multiplicative Trend')

iplot(Figure(data = [trace0, trace1, trace2]))

Подвійне експоненційне згладжування виглядає вже досить непогано і предікт дуже схожий на реальні дані

<h1>Holt Winters Triple Exponential Smoothing<h1>

In [9]:
df["HWES3_ADD"] = ExponentialSmoothing(df["Passengers"],trend="add",seasonal="add",seasonal_periods=12).fit().fittedvalues
df["HWES3_MUL"] = ExponentialSmoothing(df["Passengers"],trend="mul",seasonal="mul",seasonal_periods=12).fit().fittedvalues

In [10]:
trace0 = Scatter(x = df.index,
                y = df.Passengers,
                line = {'color': 'red'},
                name = 'Original data')

trace1 = Scatter(x = df.index,
                y = df.HWES3_ADD,
                line = {'color': 'green'},
                name = 'Holt Winters Triple Exponential Smoothing: Additive trend')

trace2 = Scatter(x = df.index,
                y = df.HWES3_MUL,
                line = {'color': 'orange'},
                name = 'Holt Winters Triple Exponential Smoothing: Multiplicative Trend')

iplot(Figure(data = [trace0, trace1, trace2]))

Виглядає вже набагато краще і схоже на правду. Також можна придивитись, що мультиплікативна модель більш точно будує прогноз.

In [19]:
# Розділимо на навчальну і тестову вибірку
train = df[:132]
test = df[132:]

In [21]:
print('Holt Winters Triple Exponential Smoothing: Multiplicative Trend')

fitted_model = ExponentialSmoothing(train["Passengers"],trend="mul",seasonal="mul",seasonal_periods=12).fit()
test_predictions = fitted_model.forecast(12)

trace0 = Scatter(x = train.index,
                y = train.Passengers,
                line = {'color': 'red'},
                name = 'TRAIN')

trace1 = Scatter(x = test.index,
                y = test.Passengers,
                line = {'color': 'green'},
                name = 'TEST')

trace2 = Scatter(x = test.index,
                y = test_predictions,
                line = {'color': 'purple'},
                name = 'PREDICTION')

iplot(Figure(data = [trace0, trace1, trace2]))

print(f"Mean Absolute Error = {mean_absolute_error(test.Passengers,test_predictions)}")
print(f"Mean Squared Error = {mean_squared_error(test.Passengers,test_predictions)}")
print(f"R2 score = {r2_score(test.Passengers,test_predictions)}")

Holt Winters Triple Exponential Smoothing: Multiplicative Trend


Mean Absolute Error = 20.84597775539434
Mean Squared Error = 666.0554855468457
R2 score = 0.8797619233697231


<h1>Holt<h1>

Ще спробуємо подивитись як буде показувати себе чистий Хотьт без сезонності

In [35]:
print("Holt: Multiplicative Trend")

holt = Holt(train["Passengers"], damped=True)
fitted_model_holt = holt.fit(smoothing_level=0.1, smoothing_trend=0.2)
test_predictions_holt = fitted_model_holt.forecast(12)

trace0 = Scatter(x = train.index,
                y = train.Passengers,
                line = {'color': 'red'},
                name = 'TRAIN')

trace1 = Scatter(x = test.index,
                y = test.Passengers,
                line = {'color': 'green'},
                name = 'TEST')

trace2 = Scatter(x = test.index,
                y = test_predictions_holt.values,
                line = {'color': 'purple'},
                name = 'PREDICTION')

iplot(Figure(data = [trace0, trace1, trace2]))

print(f"Mean Absolute Error = {mean_absolute_error(test.Passengers,test_predictions_holt)}")
print(f"Mean Squared Error = {mean_squared_error(test.Passengers,test_predictions_holt)}")
print(f"R2 score = {r2_score(test.Passengers,test_predictions_holt)}")

Holt: Multiplicative Trend


Mean Absolute Error = 57.42925815901399
Mean Squared Error = 5515.402946975642
R2 score = 0.004345048459675205


Отже, Хольт не враховує сезонність, тому і моделька предиктить дуже погано.
Як фінальну модель обираємо модель Хольта Вінтерса з потрійним експоненціальним згладжуванням, з мультиплікативним трендом.

<h3>Validate final model and predict for 1 month<h3>

Подивимось на значення метрик моделі Хольта Вінтерса з потрійним експоненціальним згладжуванням на кросс валідації

In [36]:
tscv = TimeSeriesSplit(test_size=12)
s = pd.Series(data = df['Passengers'].values)
r2_score_list = []

trace0 = Scatter(x = s.index,
                y = s.values,
                line = {'color': 'grey'},
                name = 'Original data')

for i, (train_index, test_index) in enumerate(tscv.split(s)):
    train = s[train_index]
    test = s[test_index]
    
    fitted_model = ExponentialSmoothing(train,trend="mul",seasonal="mul",seasonal_periods=12).fit()
    test_predictions = fitted_model.forecast(len(test))
    
    trace1 = Scatter(x = test.index,
                    y= test.values,
                    name = 'Train')
    trace2 = Scatter(x = test_predictions.index,
                    y= test_predictions.values,
                    name = 'test')
    
    print(f"Mean Absolute Error = {mean_absolute_error(test,test_predictions)}")
    print(f"Mean Squared Error = {mean_squared_error(test,test_predictions)}")
    print(f"R2 score = {r2_score(test,test_predictions)}")
    
    r2_score_list+={r2_score(test,test_predictions)}
    
    
    iplot(Figure(data = [trace0, trace1, trace2]))

Mean Absolute Error = 6.471923414215922
Mean Squared Error = 60.16743098728543
R2 score = 0.9713468525851031


Mean Absolute Error = 7.999172466196602
Mean Squared Error = 114.23617043059308
R2 score = 0.9628146712615079


Mean Absolute Error = 39.050263234939614
Mean Squared Error = 1688.2282088356203
R2 score = 0.5577274045752206


Mean Absolute Error = 11.376160139983648
Mean Squared Error = 156.3658737872769
R2 score = 0.9650179506305031


Mean Absolute Error = 20.84597775539434
Mean Squared Error = 666.0554855468457
R2 score = 0.8797619233697231


In [37]:
print(f'Середнє значення метрики r2 по кросс-валідації на 5 фолдах по моделі Хольта Вінтерса з потрійним експоненціальним = {pd.Series(r2_score_list).mean()}')

Середнє значення метрики r2 по кросс-валідації на 5 фолдах по моделі Хольта Вінтерса з потрійним експоненціальним = 0.8673337604844116


In [38]:
# Навчимо модель на усіх даних і розрахуємо предікт на один місяць за моделькою Хольта Вінтерса
fitted_model_final = ExponentialSmoothing(df["Passengers"],trend="mul",seasonal="mul",seasonal_periods=12).fit()
predict_for_1month = fitted_model_final.forecast(1)
predict_for_1month

1961-01-01    450.676188
Freq: MS, dtype: float64

Отже, за січень місяць 1961 року очікуємо мати приблизно 450 тисяч пассажирів