In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

from sklearn.metrics import r2_score, median_absolute_error, mean_absolute_error
from sklearn.metrics import median_absolute_error, mean_squared_error, mean_squared_log_error

from scipy.optimize import minimize
import statsmodels.tsa.api as smt
import statsmodels.api as sm

In [2]:

from tqdm import tqdm_notebook

from itertools import product

# определяем среднюю среднюю процентную ошибку (MAPE) , так как это будет наша метрика ошибки

def mean_absolute_percentage_error(y_true, y_pred):
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

In [3]:
data = pd.read_csv("yahoo_stock.csv")
data.head(2000)

FileNotFoundError: [Errno 2] No such file or directory: 'yahoo_stock.csv'

In [None]:
plt.figure(figsize=(17, 8))
plt.plot(data.Close)
plt.title('Yahoo stock')
plt.ylabel('Price')
plt.xlabel('Trading date')
plt.grid(False)

plt.show()

In [None]:
plot_moving_average(data.Close, 30)

In [None]:
plot_moving_average(data.Close, 90, plot_intervals=True)

In [None]:
def tsplot(y, lags=None, figsize=(12, 7), syle='bmh'):
    
    if not isinstance(y, pd.Series):
        y = pd.Series(y)
        
    with plt.style.context(style='bmh'):
        fig = plt.figure(figsize=figsize)
        layout = (2,2)
        ts_ax = plt.subplot2grid(layout, (0,0), colspan=2)
        acf_ax = plt.subplot2grid(layout, (1,0))
        pacf_ax = plt.subplot2grid(layout, (1,1))
        
        y.plot(ax=ts_ax)
        p_value = sm.tsa.stattools.adfuller(y)[1]
        ts_ax.set_title('Time Series Analysis Plots\n Dickey-Fuller: p={0:.5f}'.format(p_value))
        smt.graphics.plot_acf(y, lags=lags, ax=acf_ax)
        smt.graphics.plot_pacf(y, lags=lags, ax=pacf_ax)
        plt.tight_layout()
        
tsplot(data.Close, lags=30)


In [None]:

data_diff = data.Close - data.Close.shift(1)

tsplot(data_diff[1:], lags=30)

In [None]:
# Установите начальные значения и некоторые границыs
ps = range(3)
d=1
qs = range(3)
Ps = range(2)
D=1
Qs = range(2)

# Составьте список со всеми возможными комбинациями параметров
parameters = product(ps, qs, Ps, Qs)
parameters_list = list(parameters)
len(parameters_list)

In [None]:
%%time
results = []
best_aic = float("inf")
warnings.filterwarnings('ignore')

for param in parameters_list:
    #try except нужен, потому что на некоторых наборах параметров модель не обучается
    try:
        model=sm.tsa.statespace.SARIMAX(data['Close'], order=(param[0], d, param[1]), 
                                        seasonal_order=(param[2], D, param[3], 12)).fit(disp=True)
    #выводим параметры, на которых модель не обучается и переходим к следующему набору
    except ValueError:
        print('wrong parameters:', param)
        continue
    aic = model.aic
    #сохраняем лучшую модель, aic, параметры
    if aic < best_aic:
        best_model = model
        best_aic = aic
        best_param = param
    results.append([param, model.aic])
    
warnings.filterwarnings('default')

In [None]:
print(best_model.summary())

In [None]:
print(best_model.predict(start=data.Close.shape[0], end=data.Close.shape[0] + 5))

In [None]:
comparison = pd.DataFrame({'actual': [3569.89454, 3593.10995, 3593.5445, 3628.51000, 3623.1101, 3585.21997],
                          'predicted': [ 3557.017636, 3555.730716, 3551.204610, 3554.255503, 3554.026949, 3553.991775]}, 
                          index = pd.date_range(start='2020-11-20', periods=6,))
comparison.head()