# Курсовая работа по машинному обучению.

## Тема: анализ временных рядов

### Выполнил: Еремин Максим Дмитриевич

#### Введение

Анализ временных рядов - очень обширная и одновременно очень узкая тема для обсуждения на сегодняшний день. Под временным рядом можно подразумевать любую последовательность чисел, которую можно разбить на определенные временные промежутки. Такие последовательности поддаются анализу с помощью методов математической статистики, стохастическим анализом и стандартными алгоритмами для машинного обучения, в том числе и нейронным сетям. Но пожалуй дадим сперва четкие определения терминам, которые будем использовать в дальнейшем.

#### Временной ряд

Пусть есть функция $f(x)$, зависящая от времени и временные периоды $t=\{t_1, t_2, \dots, t_n\}$. Последовательность замеров значений $Y=\{y_1,y_2,\dots,y_t\}$ называется временным рядом, где $y_i\in\mathbb{R}$. Иным языком, временным рядом называется последовательность значений, описывающих протекающий во времени некий процесс, измеренный в одинаковые периоды времени.

Для анализа и прогнозирования временных рядов используют различные методы из различных подходов - эконометрический, статистический, машинное обучение и нейронные сети. 

Любой подход прогнозирования временного ряда называется моделью временного ряда. Выглядит она следующим образом:

$\hat{y}_{t+d}(w) = f_{t,d}(y_1,\dots y_t;w)$, где $d = 1,\dots,D$, $D$ - горизонт прогнозирования, $w$ - вектор параметров модели

Классическим способом прогнозирования временных рядов является метод наименьших квадратов:

$Q_{t}(w) = \sum_{i = t_0}^t(\hat{y_i}(w) - y_i)^{2} \rightarrow \min_w$

Но с таким подходом возникают следующие проблемы:

* Рядов много
* Поведение рядов описывается разными моделями
* Модель должна перестроиться к моменту $t+1$
* Функция потерь может быть неквадратичной

#### Датасет

Прежде чем мы ближе рассмотрим различные методы прогнозирования, сперва посмотрим на те данные, которые я выбрал для данной работы. В качестве датасета мы будем использовать собранную статистику по заболевшим в разных странах вирусом COVID-19. Для загрузки и визуализации данных нам понадобятся следующие библиотеки: ```pandas```, ```numpy```, ```seaborn```, ```matplotlib```

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.dates as mdates

В нашем распоряжении есть данные по количеству заболевших с 22 января по 18 мая

In [2]:
covid_df = pd.read_csv('Datasets/covid_19_data.csv')
covid_confirmed_df = pd.read_csv('Datasets/time_series_covid_19_confirmed.csv')
covid_deaths_df = pd.read_csv('Datasets/time_series_covid_19_deaths.csv')

In [3]:
covid_df.head()

Unnamed: 0,SNo,ObservationDate,Province/State,Country/Region,Last Update,Confirmed,Deaths,Recovered
0,1,01/22/2020,Anhui,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
1,2,01/22/2020,Beijing,Mainland China,1/22/2020 17:00,14.0,0.0,0.0
2,3,01/22/2020,Chongqing,Mainland China,1/22/2020 17:00,6.0,0.0,0.0
3,4,01/22/2020,Fujian,Mainland China,1/22/2020 17:00,1.0,0.0,0.0
4,5,01/22/2020,Gansu,Mainland China,1/22/2020 17:00,0.0,0.0,0.0


In [4]:
covid_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26336 entries, 0 to 26335
Data columns (total 8 columns):
SNo                26336 non-null int64
ObservationDate    26336 non-null object
Province/State     12686 non-null object
Country/Region     26336 non-null object
Last Update        26336 non-null object
Confirmed          26336 non-null float64
Deaths             26336 non-null float64
Recovered          26336 non-null float64
dtypes: float64(3), int64(1), object(4)
memory usage: 1.6+ MB


In [5]:
covid_confirmed_df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,5/9/20,5/10/20,5/11/20,5/12/20,5/13/20,5/14/20,5/15/20,5/16/20,5/17/20,5/18/20
0,,Afghanistan,33.0,65.0,0,0,0,0,0,0,...,4033,4402,4687,4963,5226,5639,6053,6402,6664,7072
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,856,868,872,876,880,898,916,933,946,948
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,5558,5723,5891,6067,6253,6442,6629,6821,7019,7201
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,754,755,755,758,760,761,761,761,761,761
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,43,45,45,45,45,48,48,48,48,50


In [6]:
covid_confirmed_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 266 entries, 0 to 265
Columns: 122 entries, Province/State to 5/18/20
dtypes: float64(2), int64(118), object(2)
memory usage: 253.6+ KB


In [7]:
covid_deaths_df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,5/9/20,5/10/20,5/11/20,5/12/20,5/13/20,5/14/20,5/15/20,5/16/20,5/17/20,5/18/20
0,,Afghanistan,33.0,65.0,0,0,0,0,0,0,...,115,120,122,127,132,136,153,168,169,173
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,31,31,31,31,31,31,31,31,31,31
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,494,502,507,515,522,529,536,542,548,555
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,48,48,48,48,49,49,49,51,51,51
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,2,2,2,2,2,2,2,2,2,3


In [8]:
covid_deaths_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 266 entries, 0 to 265
Columns: 122 entries, Province/State to 5/18/20
dtypes: float64(2), int64(118), object(2)
memory usage: 253.6+ KB


Судя по данным из pandas мы можем видеть, что по последнему обновлению мы имеем 26336 строк по обнолвениям в разных странах, имеем 266 стран, в которых есть подтвержденные случаи заражения и 122 страны с подтвержденными смертями. Поскольку, у нас колонка отвечает только лишь за дату, а сам ряд разбит по датам в ряд. Поэтому попробуем посмотреть как выглядит ряд для нескольких стран, например, России, Италии, Китая и США. Также сравним с такими странами, как Республика Беларусь и Швеция (страны, которые не предпринимали никаких шагов для предотвращения эпидемии)

In [9]:
covid_russia_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'Russia'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_russia_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'Russia'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_china_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'China'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_china_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'China'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_italy_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'Italy'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_italy_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'Italy'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_us_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'US'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_us_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'US'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_sweden_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'Sweden'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_sweden_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'Sweden'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_belarus_confirmed_df = covid_confirmed_df[covid_confirmed_df['Country/Region'] == 'Belarus'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)
covid_belarus_death_df = covid_deaths_df[covid_confirmed_df['Country/Region'] == 'Belarus'].drop(['Province/State', 'Country/Region', 'Lat', 'Long'], axis=1)

Далее напишем функцию, для составления удобного ряда для визуализации. Представлять мы их будем в виде нового датафрейма из двух сопоставленных массивов и даты, где по X будут находиться даты, а по Y - количество зараженных и умерших

In [10]:
from time import strptime

def convert_to_vis(conf, death):
    df = pd.DataFrame(columns=['Date', 'Confirmed', 'Deaths'])
    df['Date'] = pd.to_datetime(conf.columns, format="%m/%d/%y", )
    df['Confirmed'] = conf.to_numpy()[0]
    df['Deaths'] = death.to_numpy()[0]
    return df

In [11]:
russia = convert_to_vis(covid_russia_confirmed_df, covid_russia_death_df)
russia.head()

Unnamed: 0,Date,Confirmed,Deaths
0,2020-01-22,0,0
1,2020-01-23,0,0
2,2020-01-24,0,0
3,2020-01-25,0,0
4,2020-01-26,0,0


Теперь напишем функцию для правильной визуализации датасета

In [12]:
def vis(df):
    %matplotlib notebook
    fig, ax = plt.subplots(figsize=(9,6))
    ax.set_xticklabels(labels=df['Date'], rotation=45, ha='right')
    locator = mdates.AutoDateLocator()
    dt_format = mdates.DateFormatter("%m-%d-%y")
    ax.xaxis.set_major_locator(locator)
    ax.xaxis.set_major_formatter(dt_format)
    sns.lineplot(x="Date", y="Confirmed", data=df, markers=True, ax=ax, lw=2, legend="full")
    sns.lineplot(x="Date", y="Deaths", data=df, markers=True, ax=ax, lw=2, legend="full")
    plt.show()

На следующем графике мы видим распределение подтвержденных заболеваний и смертей в России.

##### Россия

In [13]:
vis(russia)

<IPython.core.display.Javascript object>


To register the converters:
	>>> from pandas.plotting import register_matplotlib_converters
	>>> register_matplotlib_converters()


А теперь сравним с другими странами

##### США

In [14]:
us = convert_to_vis(covid_us_confirmed_df, covid_us_death_df)
vis(us)

<IPython.core.display.Javascript object>

##### Китай

In [15]:
china = convert_to_vis(covid_china_confirmed_df, covid_china_death_df)
vis(china)

<IPython.core.display.Javascript object>

##### Италия

In [16]:
italy = convert_to_vis(covid_italy_confirmed_df, covid_italy_death_df)
vis(italy)

<IPython.core.display.Javascript object>

##### Швеция

In [17]:
sweden = convert_to_vis(covid_sweden_confirmed_df, covid_sweden_death_df)
vis(sweden)

<IPython.core.display.Javascript object>

##### Республика Беларусь

In [18]:
belarus = convert_to_vis(covid_belarus_confirmed_df, covid_belarus_death_df)
vis(belarus)

<IPython.core.display.Javascript object>

А теперь рассмотрим наши данные не с точки зрения общей статистики, а как прирост на каждом промежутке. Напишем метод, который из всех данных покажет нам, как у нас менялась тенденция. Для этого мы пройдем по всему ряду и произведем разность по всем замерам. То есть новое значение в каждом промежутке будет выглядеть как $y_{new} = y_{t} - y_{t-1}$

In [19]:
def new_value(y, y_prev):
    return y - y_prev

def new_value_df(df):
    new_df = pd.DataFrame(columns=df.columns)
    new_df['Date'] = df['Date']
    conf_in = []
    death_in = []
    conf_val = 0
    death_val = 0
    for i, row in df.iterrows():
        conf_in.append(new_value(row.Confirmed, conf_val))
        death_in.append(new_value(row.Deaths, death_val))
        conf_val = row.Confirmed
        death_val = row.Deaths
        
    new_df['Confirmed'] = conf_in
    new_df['Deaths'] = death_in
    return new_df

##### Прирост в России

In [20]:
russia_increase = new_value_df(russia)
vis(russia_increase)

<IPython.core.display.Javascript object>

##### Прирост в США

In [21]:
us_increase = new_value_df(us)
vis(us_increase)

<IPython.core.display.Javascript object>

##### Прирост в Китае

In [22]:
china_increase = new_value_df(china)
vis(china_increase)

<IPython.core.display.Javascript object>

##### Прирост в Италии

In [None]:
italy_increase = new_value_df(italy)
vis(italy_increase)

##### Прирост в Швеции

In [23]:
sweden_increase = new_value_df(sweden)
vis(sweden_increase)

<IPython.core.display.Javascript object>

##### Прирост в Республике Беларусь

In [24]:
belarus_increase = new_value_df(belarus)
vis(belarus_increase)

<IPython.core.display.Javascript object>

Данные показывают нам, как изменялась тенденция заболеваний и на каком моменте начинали происходить смерти в зависимости от начала эпидемии в той или иной стране (первый заболевший)

Теперь рассмотрим следующие методы для анализа временных рядов и посмотрим, как модели подстраиваются от страны к стране и как модель, обученная на данных из одной страны будет реагировать на данные от другой страны и какую тенденцию демонстрировать.

По скольку данные имеют свою специфичность (нет как таковой сезонности, но есть определенные волнообразные промежутки), то будем делать поправку на эту волнообразность.

В одном графике мы будем сравнивать изначальные данные и те, что у нас получились, поэтому напишем новую функцию, которая будет перебирать наши новые данные и рисовать их на графике.


In [25]:
def vis_eq(df):
    %matplotlib notebook
    fig, ax = plt.subplots(figsize=(9,6))
    ax.set_xticklabels(labels=df['Date'], rotation=45, ha='right')
    locator = mdates.AutoDateLocator()
    dt_format = mdates.DateFormatter("%m-%d-%y")
    ax.xaxis.set_major_locator(locator)
    ax.xaxis.set_major_formatter(dt_format)
    sns.lineplot(x="Date", y="Confirmed", data=df, markers=True, ax=ax, lw=2, legend="full")
    sns.lineplot(x="Date", y="Deaths", data=df, markers=True, ax=ax, lw=2, legend="full")
    sns.lineplot(x="Date", y="Confirmed_predicted", data=df, markers=True, ax=ax, lw=2, legend="full")
    sns.lineplot(x="Date", y="Deaths_predicted", data=df, markers=True, ax=ax, lw=2, legend="full")
    plt.show()

#### Линейная регрессия

Линейная регрессия - это метод восстановления зависимости между двумя переменными. Ее можно выразить в виде простой линейной модели:

$y_i = f(w, x_i) + \epsilon_i$,
где $\epsilon$ - аддитивная случайная величина. Предполагается, что случайная величина распределена нормально с нулевым матожиданием и фиксированной дисперсией, не зависящая от переменных $x, y$. Веса $w$ вычисляются с помощью метода наименьших квадратов.

In [26]:
from sklearn.linear_model import LinearRegression

reg = LinearRegression()

length = len(russia_increase)
reg.fit(np.arange(length).reshape(length, 1), russia_increase['Confirmed'].to_numpy().reshape(length, 1))

new_russia_df = russia_increase.copy()
new_russia_df['Confirmed_predicted'] = reg.predict(np.arange(length).reshape(length, 1))

reg = LinearRegression()

reg.fit(np.arange(length).reshape(length, 1), russia_increase['Deaths'].to_numpy().reshape(length, 1))

new_russia_df['Deaths_predicted'] = reg.predict(np.arange(length).reshape(length, 1))

vis_eq(new_russia_df)

<IPython.core.display.Javascript object>

Обычная линейная регрессия не сможет нам повторить тот ряд, который у нас был изначально, и тем более не даст нам адекватного прогнозирования, но может показать что-то похожее на тренд на основе предыдущих данных, что у нас были.

Ниже можно наблюдать реализацию метода выявления переменных $b_0$ и $b_1$ для линейной регрессии

In [244]:
def estimate_coefs(x, y):
    n = np.size(x)
    
    mean_x, mean_y = np.mean(x), np.mean(y)
    
    SSE_xy = np.sum(y*x - n*mean_y*mean_x)
    SSE_xx = np.sum(x*x - n*mean_x*mean_x)
    
    b_1 = SSE_xy / SSE_xx
    b_0 = mean_y - b_1*mean_x
    
    return b_0, b_1

estimate_coefs(np.arange(len(russia_increase)), russia_increase['Confirmed'])



(8.344562678089005, 41.9662960457751)

#### Скользящая средняя

Наивное предположение, заявляющее, что следующее значение будет зависеть от ряда предыдущих замеров.

$\hat{y}_t = \frac{1}{k}\sum_{n=0}^{k-1}y_{t-n}$

In [33]:
def moving_average_step(series, n):
    return np.average(series[-n:])

def moving_average(series, n):
    res = []
    for i in range(len(series)):
        res.append(moving_average_step(series[i:i+n], n))
    return res

def moving_average_df(df, n):
    new_df = df.copy()
    new_df['Confirmed_predicted'] = moving_average(df['Confirmed'], n)
    new_df['Deaths_predicted'] = moving_average(df['Deaths'], n)
    return new_df

##### Скользящее среднее - Россия - 30 дневный срез

In [36]:
vis_eq(moving_average_df(russia_increase, 30))

<IPython.core.display.Javascript object>

##### Скользящее среднее - Россия - 7 дневный срез

In [37]:
vis_eq(moving_average_df(russia_increase, 7))

<IPython.core.display.Javascript object>

Судя по исходным данным (синий график по подтвержденным случаям) и данным, полученным по скользящему среднему по срезу за 30 дней, метод скользящего среднего не самый лучший вариант, для анализа по такому малому количеству данных, но определенный тренд по росту и снижению заболевших он уже показывает в очень грубой форме. Если же сделать срез по неделям, то выйдет более правдоподобный прогноз, но все же еще немного грубый. Попробуем посмотреть, как это будет выглядеть на данных не по России, а по Китаю 

##### Скользящее среднее - Китай - 30 дневный срез

In [38]:
vis_eq(moving_average_df(china_increase, 30))

<IPython.core.display.Javascript object>

По 30 дневному срезу алгоритм показал неправильный результат, идущий на спад, хотя реальные данные показывают рост с двумя пиками.

##### Скользящее среднее - Китай - 7 дневный срез

In [39]:
vis_eq(moving_average_df(china_increase, 7))

<IPython.core.display.Javascript object>

Здесь же мы видем менее правильный график, но можно заметить, что по более пологому графику смертей (оранжевый) скользящее среднее аккуратно отреагировало на всплеск смертей на 7-ми дневном срезе.

Все же приходим к выводу, что использование скользящего среднего для очень короткого периода не самая лучшая идея, поскольку этот алгоритм крайне наивен и предполагает что прошлые данные дают реальную основу для следующего замера не используя какие-либо факторы, которые бы влияли на прогнозируемый результат и коррелирующие с реальными данными.

#### Линейная модель авторегрессии

Основная формула для линейной модели авторегрессии выглядит следующим образом:

$\hat{y}_{t+1}(w) = \sum_{j=1}^{n}w_jy_{t-j+1}, w \in \mathbb{R}^n$

где n - это количество предыдущих наблюдений ряда.

Функционал квадрата ошибки:

$Q_t(w, X^\mathbb{l}) = \sum_{i=n}^{t}(\hat{y}_i(w) - y_i)^2 = \vert\vert{Fw - y}\vert\vert^2 \rightarrow \min_w$

По сути это является улучшеннием метода скользящего среднего, имеющего веса на каждой итерации. Также этот метод называется взвешенная средняя. Внутри каждой итерации для наблюдений придаются различные веса, в сумме дающие 1, но при этом последним значением обычно присваивается наибольший вес. 

In [242]:
def weighted_average_step(series, weights):
    result = 0.0
    weights.reverse()
    weight_length = len(weights)
    for n in range(weight_length):
        result += series[-n-1] * weights[n]
    return result

def weighted_average(series, weights):
    weight_length = len(weights)
    length = len(series)
    average_length = length - weight_length
    res = []
    for i in range(average_length):
        res.append(weighted_average_step(np.array(series[i:i + weight_length]), weights))
    for i in range(average_length, length):
        res.append(weighted_average_step(np.array(series[i-weight_length:i]), weights))
    return res

def weighted_average_df(df, weights):
    new_df = df.copy()
    new_df['Confirmed_predicted'] = weighted_average(df['Confirmed'], weights)
    new_df['Deaths_predicted'] = weighted_average(df['Deaths'], weights)
    return new_df

###### Скользящее взвешенное среднее - Россия

In [243]:
vis_eq(weighted_average_df(russia_increase, [0.6, 0.2, 0.1, 0.07, 0.03]))

<IPython.core.display.Javascript object>

В результате среднего взвешенного мы можем наблюдать неплохое подобие графика и примерно похожую тенденцию, которая потенциально может спрогнозировать следующие значения нашего изначального ряда. Сравним теперь с другими весами и на примере Китая и США

In [248]:
vis_eq(weighted_average_df(russia_increase, [0.7, 0.1, 0.05, 0.06, 0.02, 0.01, 0.2]))

<IPython.core.display.Javascript object>

###### Скользящее взвешенное среднее - Китай

In [249]:
vis_eq(weighted_average_df(china_increase, [0.6, 0.2, 0.1, 0.07, 0.03]))

<IPython.core.display.Javascript object>

In [250]:
vis_eq(weighted_average_df(china_increase, [0.7, 0.1, 0.05, 0.06, 0.02, 0.01, 0.2]))

<IPython.core.display.Javascript object>

###### Скользящее взвешенное среднее - США

In [251]:
vis_eq(weighted_average_df(us_increase, [0.6, 0.2, 0.1, 0.07, 0.03]))

<IPython.core.display.Javascript object>

In [259]:
vis_eq(weighted_average_df(us_increase, [0.7, 0.1, 0.05, 0.06, 0.02, 0.01, 0.2]))

<IPython.core.display.Javascript object>

На данных графиках видно, что точность прогноза выросла как для смертей, так и для заболевших. Благодаря правильно подобранным весам можно сделать достаточно точный прогноз. 

#### Экпоненциальное сглаживание

Экспоненциальное сглаживание - метод математического преобразования, используемый при прогнозировании рядов. 

$s_t = \begin{cases} c_1, & \mbox{if } t=1 \\ s_{t-1}+\mathbb{a}\dot(c_t-s_{t-1}), & \mbox{if } t>1 \end{cases}$,

где $s_t$ - сглаженный ряд, $c_t$ - исходный ряд, $\mathbb{a}$ - коэффициент сглаживания, который выбирается априори от 0 до 1

Пусть $X = \{x_1, \}$