In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import statsmodels.api as sm
import warnings
from itertools import product

%matplotlib inline
%pylab inline

import warnings
warnings.filterwarnings('ignore')

Populating the interactive namespace from numpy and matplotlib


`%matplotlib` prevents importing * from pylab and numpy
  "\n`%matplotlib` prevents importing * from pylab and numpy"


In [2]:
sns.set(style='darkgrid', palette='pastel', color_codes=True)
plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (15, 7)

## Предисловие

Вам предоставлены данные индекса объема сельскохозяйственного производства с поправкой с 1993 по 2020 год. Баллы за задания указаны перед ними. Для получения полного балла за каждое задание необходимо соответствовать двум критериям:
1. Правильно выполнить задание;
2. Подробно прокомментировать свои действия (старайтесь объяснить свои выводы понятным языком, не требуется использовать определения из учебников).

При выполнении проекта помните, что подобного рода задачи вполне могут встретиться на реальном проекте, где требуется прогнозировать макроэкономические показатели. Старайтесь оформить свое решение так, как будто собираетесь презентовать файл заказчику. 

## Шаг 1. Изучение временного ряда. 

Разложение на тренд, сезонность и шум, обработка пропусков. Проверка на стационарность. Нужно ли брать первую/вторую разность?        

**[0.5б] Задание 1.1** Визуализировать временной ряд. Библиотеки на выбор: matplotlib/seaborn. Прологарифмируйте данные, если они достаточно волатильны. Добавьте месяц в качестве признака.

In [3]:
df = pd.read_csv('agro_index.csv')
df.head()

Unnamed: 0,date,agr_m_sa
0,1993-01-01,260.1
1,1993-02-01,258.3
2,1993-03-01,255.9
3,1993-04-01,252.9
4,1993-05-01,249.5


**[0.5б] Задание 1.2** На основе того, что вы изучили на курсах по временным рядам, попробуйте сделать предположения о временном ряде. Ответьте на вопросы ниже. 

* Что вы можете сказать о ряде по его графику? 
* Есть ли у Вас гипотезы о тренде и/или сезонности? 
* Есть ли у Вас гипотезы о пиках и чем они могут быть объяснены?
* Стоит ли добавить какие-то переменные, исходя из Вашего первичного анализа? 

**Ответ:**

**[0.5б] Задание 1.3** Проверить на наличие пропусков. При необходимости заполнить средним двух соседей.

**[1б] Задание 1.4** Разложить ряд на тренд, сезонность, шум. Сделать выводы.

Используйте функцию https://www.statsmodels.org/stable/generated/statsmodels.tsa.seasonal.seasonal_decompose.html с параметрами x=df['agr_m_sa'], period=30 (т.к. период у нас равен месяцу).

**[1б] Задание 1.5** Проверить ряд на стационарность с помощью критерия Дики-Фуллера. Взять первую/вторую разность при необходимости. Если Вы планируете работать с первой/второй разностью, то добавьте ее новым столбцом и прогнозируйте ее в дальнейшем.

Используйте https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.adfuller.html с параметром autolag='AIC'.

## Шаг 2. БОНУС. Самостоятельный подбор и выгрузка дополнительных признаков (например, экономических индексов, курсов валют и т.д.).

**[0.5б] Задание 2.1** Предположить, какие данные могут пригодиться.

**[3б] Задание 2.2** Выгрузить их, добавить к признакам, дополнить предобработку при необходимости.

## Шаг 3. Корреляционный анализ. Отбор признаков.

**[0.5б] Задание 3.1** Провести корреляционный анализ. Какие признаки стоит оставить (из-за сильной корреляции с целевой переменной), а какие оставить? Удалить сильно коррелирующие признаки.

## Шаг 4. Валидация временного ряда

Для валидации моделей, связанных с предсказанием временных рядов, существует 2 классических подхода: метод скользящего окна и метод расширяющегося окна. При использовании скользящего окна для обучения модели используется фиксированный размер тестовой выборки, сдвигающийся по времени на размер окна. Метод расширяющегося окна на каждом шаге использует все больше тренировочных данных, но тестовое окно, аналогично предыдущему случаю, остаются фиксированным. Мы воспользуемся последним, так как он чаще применяется при небольших выборках согласно исследованию Убера, которое можно посмотреть $\href{https://eng.uber.com/forecasting-introduction/}{здесь.}$ Нас интересует как будет меняться значение метрики с увеличением окна, а также последнее и среднее значения. Мы задали 7 окон, т.к. на более маленькие подвыборки делить данные смысла нет, иначе тестовый набор не позволит хорошо оценить модели.

**[1б] Задание 4.1** Написать функцию для метода расширяющегося окна, которая считает метрику на каждом шаге и возвращает список результатов для каждого окна (длина списка равна числу окон, n_splits в TimeSeriesSplir). На вход функция принимает X, y, модель, метрику и количество сплитов. Вам может помочь [TimeSeriesSplit](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html).

## Шаг 5. Построение и предсказание с помощью модели ARIMA. Подбор p, q с помощью графиков автокорреляции. Какие лаги стоит добавить?

**[1б] Задание 5.1** Визуализировать графики автокорреляции, используя функции по ссылкам ниже. Какие лаги стоит добавить к исходному набору признаков? 

ACF: https://www.statsmodels.org/stable/generated/statsmodels.graphics.tsaplots.plot_acf.html

PACF: https://www.statsmodels.org/stable/generated/statsmodels.graphics.tsaplots.plot_pacf.html

**[1.5б] Задание 5.2** Подобрать параметры p, q. Обучить модель ARIMA. Сравнить качество с лагами и без.

**[1.5б] Задание 5.3** 

1. **[0.5б]** Визуализировать истинные и предсказанные моделью значения. Какие выводы можно сделать?
2. **[1б]** Воспользуйтесь функцией [plot_diagnostics](https://www.statsmodels.org/stable/generated/statsmodels.tsa.arima.model.ARIMAResults.plot_diagnostics.html). Прокомментируйте каждый график (что он значит и какие выводы можно сделать).

## Шаг 6. Построение предсказания на следующий месяц. Аналитическое задание.

**[0.5б] Задание 6.1** Сделать предсказание на будущий месяц. Не забыть взять экспоненту, если целевая переменная была логарифмирована.

**[0.5б] Задание 6.2** Ответить на вопросы из списка ниже.

* Что можно сказать о поведении ряда?
* Почему были выбраны именно эта метрика и метод валидации?
* Если бы была возможность запросить дополнительные данные, что бы Вы запросили?


**Ответ:**