# Продажи австралийского вина
Известны ежемесячные продажи австралийского вина в тысячах литров с января 1980 по июль 1995, необходимо построить прогноз на следующие два года.

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pylab as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['figure.figsize'] = (12,8)

In [None]:
data = pd.read_csv('monthly-australian-wine-sales-th.csv', parse_dates=[0], delimiter=',')
data.head()


In [None]:
data.columns = ['date', 'wine']
data.head()

In [None]:
sns.lineplot(data['date'],data['wine'])

Попробуем поделить на число дней в месяце: 

In [None]:
values = data['wine'].values.copy()
days = [31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31]
for i in range(len(values)):
    values[i]/=days[i%12]
sns.lineplot(data['date'],values)

Ряд не стал более регулярным, так что вернёмся к исходным данным.

STL-декомпозиция ряда:

In [None]:
data = data.set_index(pd.DatetimeIndex(data['date']))

In [None]:
data.head()

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
stl_data = seasonal_decompose(data['wine'])
_= stl_data.plot()

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
transformed,lam = st.boxcox(data['wine'])
data['bc'] = transformed
print (lam)
stl_data = seasonal_decompose(transformed, freq=12)
_= stl_data.plot()

# ARIMA
Стационарность:

In [None]:
from statsmodels.tsa.stattools import kpss
kpss(data['wine'])

Cделаем сезонное дифференцирование: 

In [None]:
diff_ts = data['wine'].diff(12)[12:]
plt.plot(diff_ts)
kpss(diff_ts)

Ряд всё ещё нестационарен. Проведём ещё одно дифференцирование: 

In [None]:
diff_diff_ts = diff_ts.diff(1)[1:]
plt.plot(diff_diff_ts)
kpss(diff_diff_ts)

Для полученного ряда гипотеза стационарности не отвергается

Посмотрим на ACF и PACF полученного продифференцированного ряда:

In [None]:
from statsmodels.graphics.tsaplots import plot_acf
_ = plot_acf(diff_diff_ts, lags=15)


In [None]:
from statsmodels.graphics.tsaplots import plot_pacf
_ = plot_pacf(diff_diff_ts, lags=15)


На ACF значимы лаги 1 и 12, на PACF — 1-3. Будем искать модель, оптимальную по AICc, в окрестности ARIMA(3,1,1)

In [None]:
from statsmodels.tsa.arima_model import ARIMA

In [None]:
for i in range(-1,2):
        for k in range(-1, 2):
            order = (3+i,1,1+k)
            try:
                # ваш код                
            except:
                pass 

In [None]:
arima = ARIMA(data['wine'], order=(2,1,1), freq='MS').fit()
arima.summary2()


In [None]:
plt.plot(arima.resid)
_=plot_pacf(arima.resid, lags=15)
_=plot_acf(arima.resid, lags=15)

In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

In [None]:
for i in range(-1,2):
    for j in range(-1, 2):
            order = (3+i,1,1+j)
            sorder = (1,1,1,12)
            # ваш код 

Наилучшая по AIC модель — ARIMA(3,1,1)(1,1,1, 12). Посмотрим на её остатки: 

In [None]:
arima = SARIMAX(data['wine'], order=(3,1,1), seasonal_order=(1,1,1,12)).fit()


plt.plot(arima.resid)
_=plot_pacf(arima.resid, lags=15)
_=plot_acf(arima.resid, lags=15)

In [None]:
from statsmodels.stats.diagnostic import acorr_ljungbox
plt.scatter(range(16), acorr_ljungbox(arima.resid, lags=16)[1])


Q-Q plot: 

In [None]:
_ = st.probplot(arima.resid, plot=plt)
print (st.shapiro(arima.resid))
plt.show()
plt.hist(arima.resid)

In [None]:
arima = SARIMAX(data['wine'][:-12], order=(3,1,1), seasonal_order=(1,1,1,12)).fit()
predicted = arima.predict(0, data.shape[0])

In [None]:
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)


In [None]:
arima = SARIMAX(data['wine'][:-12], order=(3,1,1), seasonal_order=(1,1,1,12)).fit()
predicted = arima.predict( data.shape[0]-12, data.shape[0], dynamic=True)

In [None]:
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)


# Прогноз ETS

In [None]:
from statsmodels.tsa.holtwinters import ExponentialSmoothing

In [None]:
ets = ExponentialSmoothing(data['wine'][12:]).fit(optimized=True)

predicted = ets.predict(0, data.shape[0])
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)


In [None]:
ets = ExponentialSmoothing(data['wine'][12:],  trend='add', seasonal_periods=12).fit()

predicted = ets.predict(0, data.shape[0])
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)
ets.aic

In [None]:
ets = ExponentialSmoothing(data['wine'][12:], seasonal='mul', trend='add', seasonal_periods=12).fit()

predicted = ets.predict(0, data.shape[0])
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)
ets.aic

In [None]:
_ = st.probplot(ets.resid, plot=plt)
print (st.shapiro(ets.resid))
plt.show()
plt.hist(ets.resid)

In [None]:
ets = ExponentialSmoothing(data['wine'][12:], seasonal='mul', trend='add', seasonal_periods=12).fit(use_boxcox=True)

predicted = ets.predict(0, data.shape[0])
plt.plot(data['wine'][:-12], alpha=0.5, ls='--')
plt.plot(data['wine'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)
ets.aic

In [None]:
_ = st.probplot(ets.resid, plot=plt)
print (st.shapiro(ets.resid))
plt.show()
plt.hist(ets.resid)

In [None]:
ets = ExponentialSmoothing(data['bc'][12:], seasonal='mul', trend='add', seasonal_periods=12).fit()

predicted = ets.predict(0, data.shape[0])
plt.plot(data['bc'][:-12], alpha=0.5, ls='--')
plt.plot(data['bc'][-12:], alpha=0.5, ls='--')
plt.plot(predicted)
ets.aic

In [None]:
_ = st.probplot(ets.resid, plot=plt)
print (st.shapiro(ets.resid))
plt.show()
plt.hist(ets.resid)