# Временные ряды и прогнозирование

Под временным рядом понимаются последовательно измеренные через некоторые (зачастую равные) промежутки времени данные.

### Анализ временных рядов
Объединяет методы изучения временных рядов, как пытающиеся понять природу точек данных (откуда они взялись? что их породило?), так и пытающиеся построить прогноз.
### Прогнозирование временных рядов
Зключается в построении модели для предсказания будущих событий основываясь на известных событий прошлого, предсказания будущих данных до того как они будут измерены. Типичный пример — предсказание цены открытия биржи основываясь на предыдущей её деятельности.

Существует несколько методов анализа данных, применимых для временных рядов.

## Общее исследование
- Визуальное изучение графических представлений временных рядов
- Автокорреляционный анализ для изучения зависимостей
- Спектральный анализ для изучения циклического поведения, не связанного с сезонностью

## Описание
- Разделение компонент: тренд, сезонность, медленно и быстро меняющиеся компоненты, циклическая нерегулярность
- Простейшие свойства частных распределений

## Прогнозирование и предсказание
- Полноценные статистические модели при стохастическом моделировании для создания альтернативных версий временных рядов, показывающих, что могло бы случиться на произвольных отрезках времени в будущем (предсказание)
- Упрощённые или поноценные статистические модели для описания вероятные значения временного ряда в ближайшем будущем при известных последних значениях (прогноз)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

In [None]:
data = pd.read_csv("C:/Users/s.voronkov/Downloads/SBER_191211_201211_2.csv", sep = '\t')
data.head()

In [None]:
data['<DATE>'] = pd.to_datetime(data['<DATE>'], format="%Y%m%d")

In [None]:
data.info()

In [None]:
#Создаём столбец с уровнями ряда
data['t'] = list(range(1,data.shape[0]+1))
data.head(10)

# Нарисуем график временного ряда

In [None]:
plt.figure(figsize=(25,10))
plt.plot(data['<DATE>'], data['<CLOSE>'], '#28abb9')
plt.grid(True)
plt.show()
#как видите тут пригодились навыки визуализации из предыдущей лекции

In [None]:
from sklearn.linear_model import LinearRegression
X=data['t'].values
Y=data['<CLOSE>'].values
X = X.reshape(len(X), 1)
Y = Y.reshape(len(Y), 1)
regr = LinearRegression()
regr.fit(X, Y)
plt.figure(figsize=(25,10))
plt.plot(data['<DATE>'], data['<CLOSE>'], '#28abb9', data['<DATE>'], regr.predict(X), '#2d6187')
plt.grid(True)
plt.show()

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
series = data['<CLOSE>']
result = seasonal_decompose(series, period = 30, model='additive').plot()

In [None]:
series = data['<CLOSE>']
result = seasonal_decompose(series, period = 30, model='multiplicative')
result.plot()
plt.show()

In [None]:
result = seasonal_decompose(series, period = 30, model='additive')
type(result.seasonal)

In [None]:
lm = LinearRegression()
model = lm.fit(X,Y)
predictions = lm.predict(X)
print(predictions[0:5])

In [None]:
lm.score(X,Y)

In [None]:
lm.coef_

In [None]:
#Создаём столбец с уровнями ряда
data['t'] = list(range(1,data.shape[0]+1))
data.head(10)

In [None]:
X = data['t']
y = data['<CLOSE>']
X = sm.add_constant(X)


model = sm.OLS(y, X).fit()
predictions = model.predict(X)

model.summary()

Для проверки модели используется несколько критериев, один из них - это коэффициент детерминации, который основан на методе наименьших квадратов (МНК)

In [None]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://i0.wp.com/ogic.ru/wp-content/uploads/2016/07/oooekoans_html_5aaace8e.gif")

Коэффициент детерминации ( - R-квадрат ) - это доля дисперсии зависимой переменной (y), объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Его рассматривают как универсальную меру связи одной случайной величины от множества других. В частном случае линейной зависимости является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x .

Основная проблема применения (выборочного) R^2 заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством признаков с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

In [None]:
data['t_2'] = data['t']**2
data.head(10)

In [None]:
X = data[["t", "t_2"]] 
y = data["<CLOSE>"]
X = sm.add_constant(X)


model = sm.OLS(y, X).fit()
predictions_2 = model.predict(X)


model.summary()

In [None]:
plt.figure(figsize=(25,10))
plt.plot(data['t'], data['<CLOSE>'], '#28abb9', data['t'], model.predict(X), '#2d6187')
plt.grid(True)
plt.show()

In [None]:
data['t_3'] = data['t']**3
data.head(10)

In [None]:
X = data[["t", "t_2", 't_3']]
y = data["<CLOSE>"]
X = sm.add_constant(X)


model = sm.OLS(y, X).fit()
predictions_2 = model.predict(X)

model.summary()

In [None]:
plt.figure(figsize=(25,10))
plt.plot(data['t'], data['<CLOSE>'], '#28abb9', data['t'], model.predict(X), '#2d6187')
plt.grid(True)
plt.show()

Начнем моделирование с наивного предположения — "завтра будет, как вчера", но вместо модели где предсказанное значение просто равно ближайшему предыдущему, будем считать, что будущее значение переменной зависит от среднего её предыдущих значений, а значит, воспользуемся скользящей средней.

In [None]:
def moving_average(series, n):
    return np.average(series[-n:])

moving_average(data['<CLOSE>'], 3)

К сожалению, такой прогноз долгосрочным сделать не удастся — для получения предсказания на шаг вперед предыдущее значение должно быть фактически наблюдаемой величиной. Зато у скользящей средней есть другое применение — сглаживание исходного ряда для выявления трендов. В пандасе есть готовая реализация — DataFrame.rolling(window).mean(). Чем больше зададим ширину интервала — тем более сглаженным окажется тренд. В случае, если данные сильно зашумлены, что особенно часто встречается, например, в финансовых показателях, такая процедура может помочь с определением общих паттернов.

In [None]:
data['mean_7'] =  data['<CLOSE>'].rolling(7).mean()
data['mean_30'] =  data['<CLOSE>'].rolling(30).mean()

In [None]:
data.head(30)

In [None]:
plt.figure(figsize=(20,5))
plt.plot(data['t'], data['<CLOSE>'], '#28abb9', data['t'], data['mean_7'], '#2d6187',  data['t'], data['mean_30'], '#2d7000')
plt.grid(True)
plt.show()

In [None]:
moving_average(data['<CLOSE>'], 7)

In [None]:
moving_average(data['<CLOSE>'], 30)

Модификацией простой скользящей средней является взвешенная средняя, внутри которой наблюдениям придаются различные веса, в сумме дающие единицу, при этом обычно последним наблюдениям присваивается больший вес. Веса можно проставлять экспертно, но можно пойти и другим путём.

Посмотрим, что произойдёт, если вместо взвешивания последних значений ряда мы начнем взвешивать все доступные наблюдения, при этом экспоненциально уменьшая веса по мере углубления в исторические данные. В этом нам поможет формула простого экспоненциального сглаживания:

In [None]:
#можно описать функцию самостоятельно
def exponential_smoothing(series, alpha):
    result = [series[0]] # first value is same as series
    for n in range(1, len(series)):
        result.append(alpha * series[n] + (1 - alpha) * result[n-1])
    return result
exponential_smoothing(data['<CLOSE>'], 0.05)

In [None]:
plt.figure(figsize=(20,5))
plt.plot(data['t'], data['<CLOSE>'], '#28abb9', data['t'], exponential_smoothing(data['<CLOSE>'], 0.05), '#2d6187')
plt.grid(True)
plt.show()

In [None]:
with plt.style.context('seaborn-white'):    
    plt.figure(figsize=(20, 8))
    for alpha in [0.001,0.3, 0.05]:
        plt.plot(exponential_smoothing(data['<CLOSE>'], alpha), label="Alpha {}".format(alpha))
    plt.plot(data['<CLOSE>'].values, "c", label = "Actual")
    plt.legend(loc="best")
    plt.axis('tight')
    plt.title("Exponential Smoothing")
    plt.grid(True)

In [None]:
from statsmodels.tsa.holtwinters import SimpleExpSmoothing
# prepare data
# create class
model = SimpleExpSmoothing(data['<CLOSE>'][0:data.shape[0]-10])
# fit model
model_fit = model.fit(smoothing_level=0.5)
# make prediction
yhat_1 = model_fit.predict(0) #, end = data.shape[0]+7
yhat_2 = model_fit.predict(240, end = data.shape[0]+6)

In [None]:
data.shape[0]

In [None]:
print(model_fit)

In [None]:
plt.figure(figsize=(20,5))
plt.plot(yhat, '#2d6187')
plt.grid(True)
plt.show()

In [None]:
print(yhat_1)

In [None]:
print(yhat_2)

In [None]:
data['<CLOSE>'][240:251]