## Задача: 
Реализовать дискретную версию SIR модели, в которой параметры зависят от номера дня и моделируются некоторыми вспомогательными функциями (эти функции могут зависеть от погоды, плотности населения и т.д.; далее будет рассмотрен случай, когда функции линейны), сравнить предсказания такой модели с предсказаниями других моделями.

# Как пользоваться этим блокнотом
Необходимо запустить все cells по порядку. Код сгенерирует веб-интерфейс для настройки моделей.

# Библиотеки
```
$ cat requirements.txt
jupyter==1.0.0
matplotlib==3.3.2
pandas==1.1.2
scipy==1.5.2
```

# Данные
## Источники
- COVID-19: [Архив статистики от Яндекса](https://yandex.ru/covid19/stat) (собирает статистику со [стопкоронавирус.рф](https://стопкоронавирус.рф/information/))
- Погода: [Архив фактической погоды от Росгидромедцентра](https://meteoinfo.ru/archive-pogoda) (доступны только последние 6 месяцев)

## Структура директорий
```
./
└── csv/
    ├── activity/
    │   ├─── info.csv
    │   └─── yandex_activity_index.json
    ├── weather/
    │   ├─── info.csv
    │   ├─── 1138.csv
    │   ├─── 1486.csv
    │   ├─── 1624.csv
    │   ├─── 1700.csv
    │   ├─── 1819.csv
    │   ├─── 2223.csv
    │   ├─── 2532.csv
    │   ├─── 2718.csv
    │   ├─── 1179.csv
    │   ├─── 1498.csv
    │   ├─── 1631.csv
    │   ├─── 1705.csv
    │   ├─── 1834.csv
    │   ├─── 2262.csv
    │   ├─── 2535.csv
    │   ├─── 2740.csv
    │   ├─── 1206.csv
    │   ├─── 1557.csv
    │   ├─── 1634.csv
    │   ├─── 1707.csv
    │   ├─── 1887.csv
    │   ├─── 2292.csv
    │   ├─── 2539.csv
    │   ├─── 4994.csv
    │   ├─── 1238.csv
    │   ├─── 1567.csv
    │   ├─── 1647.csv
    │   ├─── 1709.csv
    │   ├─── 1913.csv
    │   ├─── 2322.csv
    │   ├─── 2556.csv
    │   ├─── 5019.csv
    │   ├─── 1248.csv
    │   ├─── 1581.csv
    │   ├─── 1654.csv
    │   ├─── 1732.csv
    │   ├─── 1930.csv
    │   ├─── 2430.csv
    │   ├─── 2616.csv
    │   ├─── 5031.csv
    │   ├─── 1302.csv
    │   ├─── 1590.csv
    │   ├─── 1656.csv
    │   ├─── 1754.csv
    │   ├─── 1935.csv
    │   ├─── 2446.csv
    │   ├─── 2628.csv
    │   ├─── info.csv
    │   ├─── 1318.csv
    │   ├─── 1599.csv
    │   ├─── 1659.csv
    │   ├─── 1759.csv
    │   ├─── 1980.csv
    │   ├─── 2450.csv
    │   ├─── 2697.csv
    │   ├─── 1401.csv
    │   ├─── 1613.csv
    │   ├─── 1679.csv
    │   ├─── 1768.csv
    │   ├─── 1987.csv
    │   ├─── 2455.csv
    │   ├─── 2700.csv
    │   ├─── 1433.csv
    │   ├─── 1614.csv
    │   ├─── 1680.csv
    │   ├─── 1803.csv
    │   ├─── 2094.csv
    │   ├─── 2496.csv
    │   ├─── 2715.csv
    │   ├─── 1452.csv
    │   ├─── 1617.csv
    │   ├─── 1685.csv
    │   ├─── 1807.csv
    │   ├─── 2107.csv
    │   ├─── 2513.csv
    │   ├─── 2716.csv
    │   ├─── 1468.csv
    │   ├─── 16186.csv
    │   ├─── 1686.csv
    │   ├─── 1815.csv
    │   ├─── 2200.csv
    │   ├─── 2530.csv
    │   └─── 2717.csv
    ├─── info.csv
    ├─── RU_ALT.csv
    ├─── RU_AMU.csv
    ├─── RU_ARK.csv
    ├─── RU_AST.csv
    ├─── RU_BEL.csv
    ├─── RU_BRY.csv
    ├─── RU_VLA.csv
    ├─── RU_VGG.csv
    ├─── RU_VLG.csv
    ├─── RU_VOR.csv
    ├─── RU_YEV.csv
    ├─── RU_ZAB.csv
    ├─── RU_IVA.csv
    ├─── RU_IRK.csv
    ├─── RU_KB.csv
    ├─── RU_KGD.csv
    ├─── RU_KLU.csv
    ├─── RU_KAM.csv
    ├─── RU_KC.csv
    ├─── RU_KEM.csv
    ├─── RU_KIR.csv
    ├─── RU_KOS.csv
    ├─── RU_KDA.csv
    ├─── RU_KYA.csv
    ├─── RU_KGN.csv
    ├─── RU_KRS.csv
    ├─── RU_LEN.csv
    ├─── RU_LIP.csv
    ├─── RU_MAG.csv
    ├─── RU_MOW.csv
    ├─── RU_MOS.csv
    ├─── RU_MUR.csv
    ├─── RU_NEN.csv
    ├─── RU_NIZ.csv
    ├─── RU_NGR.csv
    ├─── RU_NVS.csv
    ├─── RU_OMS.csv
    ├─── RU_ORE.csv
    ├─── RU_ORL.csv
    ├─── RU_PNZ.csv
    ├─── RU_PER.csv
    ├─── RU_PRI.csv
    ├─── RU_PSK.csv
    ├─── RU_AD.csv
    ├─── RU_AL.csv
    ├─── RU_BA.csv
    ├─── RU_BU.csv
    ├─── RU_DA.csv
    ├─── RU_IN.csv
    ├─── RU_KL.csv
    ├─── RU_KR.csv
    ├─── RU_KO.csv
    ├─── RU_CR.csv
    ├─── RU_ME.csv
    ├─── RU_MO.csv
    ├─── RU_SA.csv
    ├─── RU_SE.csv
    ├─── RU_TA.csv
    ├─── RU_TY.csv
    ├─── RU_KK.csv
    ├─── RU_ROS.csv
    ├─── RU_RYA.csv
    ├─── RU_SAM.csv
    ├─── RU_SPE.csv
    ├─── RU_SAR.csv
    ├─── RU_SAK.csv
    ├─── RU_SVE.csv
    ├─── RU_SMO.csv
    ├─── RU_STA.csv
    ├─── RU_TAM.csv
    ├─── RU_TVE.csv
    ├─── RU_TOM.csv
    ├─── RU_TUL.csv
    ├─── RU_TYU.csv
    ├─── RU_UD.csv
    ├─── RU_ULY.csv
    ├─── RU_KHA.csv
    ├─── RU_KHM.csv
    ├─── RU_CHE.csv
    ├─── RU_CE.csv
    ├─── RU_CU.csv
    ├─── RU_CHU.csv
    ├─── RU_YAN.csv
    └─── RU_YAR.csv
```

## Формат
### COVID
Файл `./csv/info.csv` содержит инофрмацию следующие поля:
- `keys` -- ключи, по которым код обращается к файлам с статистикой по covid. Эти же ключи используются Яндексом и сайтом стопкоронавирус.рф.
- `name` -- название населенного пункта. Кодом не используется.
- `url` -- ссылка на json с данными яндекса.
- `population` -- население города.


Файлы `./csv/RU_*.csv` содержат статистику по covid для одного региона. Именная часть файла соответствует ключу из поля `key` файла `./csv/info.csv`. Файлы `./csv/RU_*.csv` содержат следующие поля:
- `date` -- дата
- `cases_total` -- общее количество случаев заражения
- `cases_new` -- количество новых случаев заражения за день `date`
- `deaths_total` -- общее количество летальных исходов
- `deaths_new` -- количество новых летальных исходов за день `date`
- `cured_total` -- общее количество выздоровевших
- `cured_new` -- количество новых количество выздоровевших за день `date`


### Погода
Файл `./csv/weather/info.csv` содержит следующие поля:
- `id` -- идентификатор города, по которому код обращается к файлам. Этот же идентификатор используется сайтом Росгидромедцентра.
- `friendly_name` -- название региона. Данным кодом не используется.
- `region_key` -- ключ региона, совпадающий с ключем из `./csv/info.csv`. Используется для сопоставления региона с файлами `./csv/weather/!(info.csv)` по идентификатору.


Файлы `./csv/weather/!(info.csv)` содержат информацию о погоде для конкретного региона. Поля получены с сайта Росгидромедцентра автоматически. Поля, которые использует данный код:
- `timestamp` -- время измерения в формате UNIX timestamp.
- `Температура воздуха, °C`
- `Относительная влажность, %`


### Индекс активности Яндекс
Файл `./csv/activity/info.csv` содержит следующие поля:
- `region_key` -- ключ региона, совпадающий с ключем из `./csv/info.csv`.
- `json_key` -- соотвествует названию города из региона region_key, для которго имеются данные, так же являюется ключюком
в словаре `./csv/activity/yandex_activity_index.json`


Файл `./csv/activity/yandex_activity_index.json` содержат информацию об индексе активности населения. Формат json-файла:  
{ 
  
     json_key: -- город,  
         [
             {"date" : дата1, "value" : value1},  
             ...
             {"date" : датаN, "value" : valueN}
         ]  
}



## SIR как линейная модель 
В данном ноутбуке изучается возможность применения модели $SIR$ для моделирования распространения Короновирсуной инфекции. Берется дискретная $SIR$ модель:  
$(1) : \begin{cases}
    S_{t+1} = S_t - \beta\cfrac{S}{N} \cdot I_t    \\
    I_{t+1} = I_t + \beta \cfrac{S}{N}\cdot I_t - \gamma \cdot I_t  \\ 
    R_{t+1} = R_{t} + \gamma \cdot I_t  \\  
\end{cases}\\$
где каждый параметр зависит не от непрерывной величины - времени, а от дискретного номера дня $t$. 

Далее так же заменим $\beta \cfrac{S}{N}$ на $\alpha$ и будем рассматривать $\alpha$ и $\gamma$ как линейные модели от известных данных или функций от известных данных в день, предшествующий прогнозу. К данным мы относим $S$, $I$, $R$, данные о погоде, населении и активности населения в конкретном регионе (те, что можно получить).

Таким образом, модель прогноза получается линейной. В дальнейшем мы будем называть такую модель для краткости LDSIR (линейный дискретный SIR) и DSIR - просто дискретный SIR. Это можно явно увидеть, если сделать некоторые преобразования:

$$V_t = \begin{bmatrix} S_t & I_t & R_t \end{bmatrix}^T $$  
$$ V_{t} = V_t +I_t\begin{bmatrix} -1 & 0 \\ 1 & -1 \\ 0 & 1 \end{bmatrix}\cdot\begin{bmatrix}\alpha_t \\ \gamma_t \end{bmatrix}$$  
$$ \Delta V = V_{T+1} - V_{T} $$  
$$ \Delta V_{t} =I_t\begin{bmatrix} -1 & 0 \\ 1 & -1 \\ 0 & 1 \end{bmatrix}\cdot\begin{bmatrix}\alpha_t \\ \gamma_t \end{bmatrix}$$
### Учтём, что  $\alpha$  И $\beta$ сами являются моделями:
$ \text{data}_\alpha, \text{data}_\gamma$ - данные на которых мы обучаем линейную модель (факторы, которые мы учитываем; это данные для которых мы подбираем линейные коэффициенты)  
$P_\alpha = [P_{\alpha1}, ..., P_{\alpha q}]^T,\; P_\gamma = [P_{\gamma1}, ..., P_{\gamma k}]^T$ - параметры моделей.  
$$\alpha_t =  \text{data}_\alpha^T \cdot P_\alpha$$    
$$\gamma_t =  \text{data}_\gamma^T \cdot P_\gamma$$    
$$\Delta V_{t} =I_t\begin{bmatrix} -1 \\ 1 \\ 0 \end{bmatrix}\cdot\text{data}_\alpha^T \cdot P_\alpha + I_t\begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}\cdot\text{data}_\gamma^T \cdot P_\gamma$$  
$$\Delta V_{t} =I_t\begin{bmatrix}\begin{bmatrix} -1 \\ 1 \\ 0 \end{bmatrix}\cdot\text{data}_\alpha^T & \begin{bmatrix} 0 \\ -1 \\ 1 \end{bmatrix}\cdot\text{data}_\gamma^T \cdot \end{bmatrix}\cdot \begin{bmatrix}P_\alpha \\ P_\gamma\end{bmatrix}$$  
    $$ \Delta V_{t} = A_t\cdot \begin{bmatrix} P_\alpha & P_\gamma \end{bmatrix}^T$$
### Векторизация, когда у нас несколько дней, а не один:
$ A = \begin{bmatrix} A_1 & A_2 & ... A_N \end{bmatrix}^T$   
$ \Delta V = \begin{bmatrix} \Delta V_1 & \Delta V_2 & ... \Delta V_N \end{bmatrix}^T$   
Тогда:  
$$ \Delta V = A\cdot \begin{bmatrix} P_\alpha & P_\gamma \end{bmatrix}^T$$

Подбор параметров происходит с помощью применения МНК к такой системе.


In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from scipy.optimize import lsq_linear

In [None]:
#Класс, реализующий вышеописанную модель.
class linear_SIR:
    def __init__(self, alpha_formulas, gamma_formulas,
                 init_alphas = None,
                 init_gammas = None):
        '''
            alpha_formulas - str, формула модели alpha. Должна представлять из себя мономы (или полиномы),
            разделенные пробелами. Каждый моном должен содержать константы или или известные величины.
            Предполагается, что всем указанным величинам будут соответствовать столбцы в двумерном массиве
            данных, который подается на вход методов predict, predict_n, fit, а соответствие между столбцами
            и данными указывается в data_cols.
            
            gamma_formulas - str, формула модели gamma. Формат аналогичен alpha_formualas.
            
            init_alpha - значения параметров в модели для alpha
            init_gammas - значения параметров в модели для gamma
        '''
        
        
        self.a_formulas = alpha_formulas
        self.g_formulas = gamma_formulas
        
        if init_alphas is not None:
            self.alphas = init_alphas
        else:
            self.alphas = np.zeros(len(self.a_formulas))
            
        if init_gammas is not None:
            self.gammas = init_gammas
        else:
            self.gammas = np.zeros(len(self.g_formulas))
        

    def predict(self, data, data_cols):
        '''
            Делает предсказание модели. 
            Формат входных данных:
            data - np.array размера predict_case x len(data_cols)
                каждая строка соответствует одному дню и для каждой строки модель возвращает 
                предсказание [S, I, R] для следующего дня.
            data_cols - dict, ключи - наименования величин, значения - номер столбца, в котором
            содержится данная величина
            
            return np.arra размера predict_case x 3. В каждой строке предсказание [S, I, R] для
            соответствующего случая.
        '''
        A = self._build_data_matrix(data, data_cols)
        
        SIR_cols = [data_cols['S'], data_cols['I'], data_cols['R']]
        
        SIR = A @ np.hstack([self.alphas, self.gammas])[None].T
        
        SIR = data[:, SIR_cols]  + SIR.reshape(-1,3)
        
        return SIR.reshape(-1,3)
    
    
    def predict_n(self, data_list, data_cols, n):
        '''
            предсказания на n дней вперед. 
            
            data_list - list, каждый элемент которого есть np.array типа data из метода predict.
            столбцы, соответствующие S, I, R для будущих дней могут быть любыми, они не используются
            для предсказания (Обратите внимание, чтобы пользоваться этим методом, надо знать вспомогательные
            данные (погоду и пр.) для будущих дней).
            
            data_cols - dict, ключи - наименования величин, значения - номер столбца, в котором
            содержится данная величина
            
            return np.array n x predict_case x 3 - первая размерность отвечает за номер дня с момента
            начала предсказания. При фиксированной значении первого индекса формат результата аналогичен
            формату результата метода predict.
        '''
        SIR_cols = [data_cols['S'], data_cols['I'], data_cols['R']]

        SIR_n_days = list(data_list[0][:, SIR_cols])
        
        for i in range(n):
            tmp_data = data_list[i].copy()

            tmp_data[:,SIR_cols] = SIR_n_days[-1]
            
            tmp_SIR = self.predict(tmp_data, data_cols)
            
            SIR_n_days.append(tmp_SIR)
        
        
        return np.array(SIR_n_days[1:])
            
        
    def fit(self, data, data_cols, method='LSM'):
        '''
            Подгонка параметров методом МНК

            data, data_cols - формат аналогичен методу predict
            data_cols должен содержать информацию об истинных значениях предсказываемых величин,
            которые должны быть обозначены как aI, aS, aR

        '''
        
        
        A = self._build_data_matrix(data, data_cols)
        
        SIR_cols = [data_cols['S'], data_cols['I'], data_cols['R']]
        ANS_cols = [data_cols['aS'], data_cols['aI'], data_cols['aR']]
        
        b = (data[:, ANS_cols] - data[:, SIR_cols]).reshape(-1)
        
        #Solve Ax = b
        self.fit_result = lsq_linear(A, b)
        
        self.alphas = self.fit_result.x[:len(self.alphas)]
        self.gammas = self.fit_result.x[-len(self.gammas):]
 
    
    def _build_data_matrix(self, data, data_cols):
        '''
            Построение матрицы линейной модели (см. описание выше)
        '''
        
       #alpha params part
        al_matr = np.zeros((len(data), len(self.a_formulas)))
        for i in range(len(self.a_formulas)):
            s = self.a_formulas[i]
            
            for L in sorted(data_cols, key=lambda x: -len(x)):
                s = s.replace(L, 'data[:,{0}]'.format(data_cols[L]))
                
            al_matr[:,i] = eval(s)
        
        #gamma params part
        ga_matr = np.zeros((len(data), len(self.g_formulas)))     
        for i in range(len(self.g_formulas)):
            s = self.g_formulas[i]
            
            for L in sorted(data_cols, key=lambda x: -len(x)):
                s = s.replace(L, 'data[:,{0}]'.format(data_cols[L]))
                
            ga_matr[:,i] = eval(s)
        
        # some matrix transfomation
        al_vec = np.array([[-1,1, 0]]).T
        al_matr = np.einsum('ij,cjk', al_vec, al_matr[:,np.newaxis,:])
        al_matr = al_matr.reshape(-1, len(self.a_formulas))
        
        ga_vec = np.array([[0,-1, 1]]).T
        ga_matr = np.einsum('ij,cjk', ga_vec, ga_matr[:,np.newaxis,:])
        ga_matr = ga_matr.reshape(-1, len(self.g_formulas))
        
        
        #Join the Parts
        
        triple_I = np.vstack((data[:, data_cols['I']],)*3).T.reshape(-1,1)
        A = triple_I * np.hstack([al_matr, ga_matr]) 
        
        return A

# Построение Датасета

In [None]:
from Globals import region_population
from Globals import region_friendly_name_inv as rfn_inv

from Globals import get_weather_region_data
from Globals import get_covid_region_data
from Globals import get_region_activity_data

In [None]:
def make_data(regions): 
    #Вертикально стакаем данные по разным регионам в один датафрейм.
    index_pointer = 0
    for region in regions:
        df_covid = get_covid_region_data(region)
        df_weather = get_weather_region_data(region)[['time', 'date','Температура воздуха, °C', 
                                                    'Атмосферное давление на уровне станции, мм рт.ст.', 
                                                    'Относительная влажность, %' ]]
        #усреднение данных погоды за день
        df_weather = df_weather.groupby(['date']).mean()

        df_activity = get_region_activity_data(region) 
        df_activity.set_index('date', inplace = True)

        df_covid.set_index('date', inplace=True)
        tmp_df = df_weather.join(df_covid)
        tmp_df = tmp_df.join(df_activity)
        
        tmp_df['date'] = tmp_df.index
        tmp_df['population'] = region_population[region] 
        
        tmp_df_len = len(tmp_df)
        
        
        tmp_df.set_index(pd.Series(range(index_pointer, index_pointer+tmp_df_len)))
          
        if index_pointer == 0:
            df = tmp_df
        else:
            df = pd.concat([df,tmp_df], axis=0)
        
        index_pointer += tmp_df_len
    
    #Собираем из полученного датафрейма массив данных.
    
    #covid data
    I = df['cases_total'] -  df['cured_total'] - df['deaths_total']
    R = df['cured_total'] + df['deaths_total']
    S = df['population'] - R - I

    data = np.vstack((S,I,R, df['population'])).T
    data = np.hstack((data[:-1,:], data[1:,:3]))


    data_order = {'S' : 0, 'I' : 1, 'R' : 2, 'N' : 3, 'aS' : 4, 'aI' : 5, 'aR' : 6}

    #weather
    T = df['Температура воздуха, °C'].values[:-1,np.newaxis]
    P = df['Атмосферное давление на уровне станции, мм рт.ст.'].values[:-1,np.newaxis]
    H = df['Относительная влажность, %'].values[:-1, np.newaxis]
    
    data = np.hstack((data, T, P, H))
    
    data_order.update({'T' : 7, 'P' : 8, 'H' : 9})
    
    #activity
    A = df['activity_rate'].values[:-1,np.newaxis]

    data = np.hstack((data, A))
    
    data_order.update({'A' : 10})
    
    #for HIT
    data = np.hstack((data,df['cases_total'].values[:-1,np.newaxis]))
    data_order['TC'] = 11
    
    return data, data_order, df['date'].values[1:]

In [None]:
#График предсказаний и точных значений.
def draw(l_SIR, data, data_order, dates, var, fork_day):
    
    SIR_pred = l_SIR.predict_n(list(data[fork_day:, np.newaxis,:]), data_order, len(data) - fork_day).reshape(-1,3)
    I_pred = np.hstack((data[:fork_day, data_order['a'+var]], SIR_pred[:,data_order[var]]))
    I_true = data[:, data_order['a'+var]]

    plt.figure(figsize=(12,10))

    plt.plot(dates, I_pred, label = var+'_pred')
    plt.plot(dates, I_true, label = var+'_true')
    
    minimum, maximum = min(np.min(I_pred), np.min(I_true)), max(np.max(I_pred),np.max(I_true))

    plt.plot((dates[fork_day],)*2, (minimum,maximum), label='predicton begin day')
    plt.xlabel('date')
    plt.ylabel(var)
    plt.legend()
    plt.grid()
    plt.show()

In [None]:
def general_pipline(fit_regions, 
                    predict_region, fork_date, var,
                   a_formulas, g_formulas, fit_start_day, fit_end_day):
    
    if isinstance(fit_regions, str):
        fit_regions = [fit_regions, ]
    
    #Получение данных по нужным регионам
    data, data_order, dates = make_data(fit_regions)
    
    #Выбор данных за нужный период времени
    within_timewindow = (dates >= pd.to_datetime(fit_start_day)) & (dates <= pd.to_datetime(fit_end_day))
    data = data[within_timewindow]
    dates = dates[within_timewindow]
    
    #Подбор коэффициентов
    l_SIR = linear_SIR(a_formulas.split(' '), g_formulas.split(' '))
    l_SIR.fit(data, data_order)
    
    #Предсказание для выбранного региона и сравнение предсказания с реальными значениями
    data, data_order, dates = make_data([predict_region,])
    fork_day = np.where(dates==pd.to_datetime(fork_date))[0][0]
    
    def gs(n):
        if n>0:
            return '+'
        else:
            return ''
    
    print('Модели:')
    print('alpha:', end=' ')
    for i in range(len(l_SIR.alphas)):
        print('{0}{1:.3e}·({2})'.format(gs(l_SIR.alphas[i]), l_SIR.alphas[i], l_SIR.a_formulas[i]), end='')
    print('\ngamma:', end=' ')
    for i in range(len(l_SIR.gammas)):
        print('{0}{1:.3e}·({2})'.format(gs(l_SIR.gammas[i]), l_SIR.gammas[i], l_SIR.g_formulas[i]), end='')
    print('')
    
    draw(l_SIR, data, data_order, dates, var, fork_day) 

In [None]:
import ipywidgets as widgets
from Globals import region_friendly_name
from Globals import get_regions_with_activity_check
def interactive_SIR():
    
    check_reg =get_regions_with_activity_check()
    options = [region_friendly_name[reg] for reg in check_reg]
    
    Pred_region =  widgets.Dropdown(options=options,value='Москва',description='Predict_Region',disabled=False)
    
    Fit_regions = widgets.SelectMultiple(options=options, value = ['Москва',],
                                        description='Fit_regions', disabled=False)
    
    alpha_model = widgets.Text(value=' '.join(['T*S/N', 'P*S/N', 'H*S/N', 'A']), description='alpha_model')
    gamma_model = widgets.Text(value='1.', description='gamma_model')
    
    widgets.interact(general_pipline, fit_regions = Fit_regions, 
                    predict_region = Pred_region, fork_date='2020-09-01', var=['I', 'S','R'],
                   a_formulas = alpha_model , g_formulas = gamma_model, 
                     fit_start_day ='2020-06-01', fit_end_day='2020-09-30')

## Допустимые для использования парамеры в $\alpha$ и $\gamma$ моделях:
$S, I, R$ - из модели SIR   
$N$ - число житилей в Регионе  
$P$ - давление  
$T$ - температура  
$H$ - влажность  
$A$ - индекс активности от Яндекса  
Параметры по погоде являются средними за день.

При оценке модели, предполагается, что эти данные нам точно известны для будущих дней.

In [None]:
interactive_SIR()

# Сравнение с другими моделями
Сравним модель LDSIR c TIR моделью (при $\Delta=10$ и $\gamma(t) = \cfrac{1}{10}\sum\limits_{i=1}^{10}\gamma(t-i)$ как на covidviward.com) и с простой версией SIR модели - DSIR (система (1) в самом начале ноутбука).

In [None]:
%load_ext autoreload
%autoreload 2
from HIT import HIT
from Globals import get_covid_region_data
from datetime import timedelta

In [None]:
def make_comparsion(
                    fitting_regions = ['Москва',],
                    fit_start_day ='2020-06-01', fit_end_day='2020-09-30',
                    predicting_region = 'Москва',
                    start_predcting = '2020-09-01',
                    compl_SIR_formula = 'T*S/N P*S/N H*S/N A',
                    max_day_predict = 10):

     
    fitting_time_wind =(fit_start_day, fit_end_day)
    
    #Подготавливаем Данные для подгонки коэффциентов.
    data, data_order, dates = make_data(fitting_regions)

    within_timewindow = (dates >= pd.to_datetime(fitting_time_wind[0])) & (dates <= pd.to_datetime(fitting_time_wind[1]))
    data = data[within_timewindow]
    dates = dates[within_timewindow]

    #Подготавливаем простой SIR
    complic_SIRm = linear_SIR(compl_SIR_formula.split(), '1.'.split())
    complic_SIRm.fit(data, data_order)

    #Подготавливаем сложный SIR
    simple_SIRm = linear_SIR('S/N'.split(), '1.'.split())
    simple_SIRm.fit(data, data_order)

    #Подготавливаем HIT


    #Подготавливаем Данные для проноза.
    data, data_order, dates = make_data([predicting_region,])

    #Прогноз
    day_id = np.where(dates == pd.to_datetime(start_predcting))[0][0]

    complic_SIRm_pred = complic_SIRm.predict_n(
                                    list(data[day_id-1:day_id+max_day_predict-1, np.newaxis,:]), 
                                    data_order, 
                                    max_day_predict
                            ).reshape(-1,3)[:, 1:].sum(axis=1)

    simple_SIRm_pred = simple_SIRm.predict_n(
                                    list(data[day_id-1:day_id+max_day_predict-1, np.newaxis,:]), 
                                    data_order, 
                                    max_day_predict
                            ).reshape(-1,3)[:, 1:].sum(axis=1)


    HITm = HIT(dates[:day_id], data[:,data_order['TC']][:day_id])
    HIT_dates, gammas = HITm.get_gamma()

    avg_win = 10
    for i in range(1,max_day_predict+1):

        day = np.datetime64(pd.to_datetime(HIT_dates[-1])+timedelta(days=1))

        HIT_dates = np.append(HIT_dates, day)
        gammas = np.append(gammas, gammas[-avg_win:].mean())

    HIT_dates = pd.to_datetime(HIT_dates)
    HITm.update_T(HIT_dates[-max_day_predict:], gammas[-max_day_predict:])

    HITm_pred = HITm.get_T()[-max_day_predict-1:][1][-max_day_predict:]


    #Строим графики предсказаний
    connect_point = data[:,data_order['TC']][day_id-1]

    plt.figure(figsize=(15,10))

    plt.plot(dates[day_id-12:day_id+max_day_predict],
             data[:,data_order['TC']][day_id-12:day_id+max_day_predict], label='true_T')

    plt.plot(dates[day_id-1:day_id+max_day_predict],
             np.hstack((connect_point, complic_SIRm_pred)), label='LDSIR_T')

    plt.plot(dates[day_id-1:day_id+max_day_predict],
             np.hstack((connect_point, simple_SIRm_pred)), label='DSIR_T')

    plt.plot(dates[day_id-1:day_id+max_day_predict],
             np.hstack((connect_point, HITm_pred)), label='HIT_T')

    plt.xlabel('date')
    plt.ylabel('Total cases of infection')
    plt.grid()
    plt.legend()

    #Cчитаем ошибку:
    true_T = data[:,data_order['TC']][day_id:day_id+max_day_predict]
    RMSE = lambda a,b: np.sqrt(((a - b) ** 2).mean())
    print('{:<17}  {:<17}'.format('Алгоритм', 'RMSE ошибка T'))
    print('{:<17}  {:<17}'.format('simple_SIR', np.round(RMSE(true_T, simple_SIRm_pred),2)))
    print('{:<17}  {:<17}'.format('comple_SIR', np.round(RMSE(true_T, complic_SIRm_pred),2)))
    print('{:<17}  {:<17}'.format('HIT', np.round(RMSE(true_T, HITm_pred),2)))

In [None]:
import ipywidgets as widgets
from Globals import region_friendly_name
from Globals import get_regions_with_activity_check
def interactive_comparsion():
    
    check_reg =get_regions_with_activity_check()
    options = [region_friendly_name[reg] for reg in check_reg]
    
    Pred_region =  widgets.Dropdown(options=options,value='Москва',description='Predict_Region',disabled=False)
    
    Fit_regions = widgets.SelectMultiple(options=options, value = ['Москва',],
                                        description='Fit_regions', disabled=False)
    
    alpha_model = widgets.Text(value=' '.join(['T*S/N', 'P*S/N', 'H*S/N', 'A']), description='alpha_model')
    gamma_model = widgets.Text(value='1.', description='gamma_model')
    
    max_day_predict = widgets.IntSlider(value=10,min=0,max=100,step=1,description='prediction days',
                                    disabled=False,continuous_update=False,orientation='horizontal',
                                    readout=True,readout_format='d')
    
    widgets.interact(make_comparsion,   fitting_regions = Fit_regions,
                    predicting_region = Pred_region,
                    start_predcting = '2020-09-01',
                    max_day_predict = max_day_predict)

In [None]:
interactive_comparsion()

# Выводы:
*  Для модели LDSIR не получается найти такую линейную зависимость $\alpha$ данных, чтобы она хорошо подходила для всех регионов.
* Модель LDSIR которая использует известные нам данные (см. выше) работает хуже (имеет большую ошибку, если делает предсказания по данным, по которым она не обучалась), чем HIT (а зачастую хуже даже чем простой DSIR) и требует больше информации.