In [37]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

In [38]:
columns = {
    'Сводные данные о продаже наличной иностранной '
    'валюты кредитными организациями физическим лицам (x1)': 'x1',
    'Курс рубля к доллару США (x2)': 'x2',
    'Цена нефти марки "Юралс" (x3)': 'x3',
    'Динамика потребительских цен по группам товаров и услуг '
    '(месяц к соответствующему месяцу предыдущего года,%)  (x4)': 'x4',
    'Объем денежных накоплений в РФ миллиард руб. (y)': 'y'
}

In [39]:
df = pd.read_excel('data/task.xlsx', header=3, usecols=[1, 2, 3, 4, 5])
df = df.rename(columns=columns)
df

Unnamed: 0,y,x1,x2,x3,x4
0,12345.0,2769,29.67,94.2,9.6
1,12091.9,3065,28.94,101.1,9.5
2,12339.7,3899,28.43,111.6,9.5
3,12450.6,3790,27.5,119.7,9.6
4,12832.1,3963,28.07,112.0,9.6
5,12892.1,4224,28.08,112.0,9.4
6,13224.5,4645,27.68,115.3,9.0
7,13449.9,4914,28.86,109.6,8.2
8,13476.8,4830,31.88,112.6,7.2
9,13588.9,4815,29.9,108.7,7.2


# Множественная регрессия

## Построение и расчет модели

#### Регрессионная модель

$$ y_i = a + b_1 x_{1i} + b_2 x_{2i} + b_3 x_{3i} + b_4 x_{4i} + e_i $$

#### Оценочная модель

$$ \hat{y_i} = \hat{a} + \hat{b_1} x_{1i} + \hat{b_2} x_{2i} + \hat{b_3} x_{3i} + \hat{b_4} x_{4i} $$

#### Результативный признак

In [40]:
y = df['y']
y

0     12345.0
1     12091.9
2     12339.7
3     12450.6
4     12832.1
5     12892.1
6     13224.5
7     13449.9
8     13476.8
9     13588.9
10    13600.4
11    13768.5
12    14796.6
13    14424.2
14    14607.3
15    14688.0
16    15057.3
17    15161.0
18    15534.6
19    15544.5
20    15644.4
21    15717.8
Name: y, dtype: float64

#### Факторы модели

In [41]:
x = df[['x1', 'x2', 'x3', 'x4']]
x

Unnamed: 0,x1,x2,x3,x4
0,2769,29.67,94.2,9.6
1,3065,28.94,101.1,9.5
2,3899,28.43,111.6,9.5
3,3790,27.5,119.7,9.6
4,3963,28.07,112.0,9.6
5,4224,28.08,112.0,9.4
6,4645,27.68,115.3,9.0
7,4914,28.86,109.6,8.2
8,4830,31.88,112.6,7.2
9,4815,29.9,108.7,7.2


#### Добавление константы

In [42]:
import warnings

warnings.filterwarnings('ignore')

x = sm.add_constant(x)
x

Unnamed: 0,const,x1,x2,x3,x4
0,1.0,2769,29.67,94.2,9.6
1,1.0,3065,28.94,101.1,9.5
2,1.0,3899,28.43,111.6,9.5
3,1.0,3790,27.5,119.7,9.6
4,1.0,3963,28.07,112.0,9.6
5,1.0,4224,28.08,112.0,9.4
6,1.0,4645,27.68,115.3,9.0
7,1.0,4914,28.86,109.6,8.2
8,1.0,4830,31.88,112.6,7.2
9,1.0,4815,29.9,108.7,7.2


#### Применение метода наименьших квадратов

$$ \sum_{i}^{n}{(y_i - \hat{y_i})^2} \rightarrow \min_{n} $$

$$ B = (X^T X)^{-1} X^T Y $$

In [43]:
model = sm.OLS(y, x).fit()

In [44]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.806
Model:                            OLS   Adj. R-squared:                  0.761
Method:                 Least Squares   F-statistic:                     17.70
Date:                Sat, 02 Oct 2021   Prob (F-statistic):           6.83e-06
Time:                        05:01:23   Log-Likelihood:                -168.61
No. Observations:                  22   AIC:                             347.2
Df Residuals:                      17   BIC:                             352.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        1.04e+04   6169.698      1.686      0.1

#### Найденные коэффициенты

$$ \hat{y_i} = 1.04e\text{+}4 + 0.4838 x_{1i} + 130.3151 x_{2i} - 6.4678 x_{3i} - 276.3727 x_{4i} $$

#### Оценки среднеквадратичного отклонения оценок параметров

$S_{\hat{a}} = 6169.698$

$S_{\hat{b_1}} = 0.196$

$S_{\hat{b_2}} = 132.126$

$S_{\hat{b_3}} = 25.698$

$S_{\hat{b_4}} = 78.946$

## Оценка качества модели

**Оценка среднеквадратического отклонения возмущений:** $ S_{ei} = 586.3208 $ - **умеренная**.

In [45]:
np.sqrt(model.mse_resid)

586.3207563508021

**Коэффициент детерминации:** $R^2 = 0.806$ - доля дисперсии $y$,
объясняемая текущей моделью (т.е. объясняющими переменными).

$ R^2 > 0.7 $ - качество модели **хорошее**.

**Средняя относительная ошибка аппроксимации:** $A = 2.597$.

$A < \{10\%, 5\%\}$ - **отличная** оценка

In [46]:
np.mean(np.abs(model.resid / y)) * 100

2.5974298012728068

## Оценка модели на значимость

**F-критерий Фишера:**

$$ H_0: b_1 = ... = b_k = 0, \\ H_1: b^2_1 + ... + b^2_k > 0. $$

$$ F_{набл} = \frac{\frac{R^2}{k}}{\frac{1 - R^2}{(n - k - 1)}} $$

$F = 17.7$,

$p\text{-}value = 6.83e\text{-}06 $

$p\text{-}value < \alpha\{0.1;0.05;0.01\} \rightarrow$ отвергаем гипотезу $H_0$, т.е. модель регрессии в целом **значима**.

## Оценка значимости параметров модели

**t-критерий Стьюдета для оценки значимости параметров модели:**

$$ H_0: b_i = 0, \\ H_1: b_i \neq 0. $$

$$ t_{b_i} = \frac{\hat{b_i} - 0}{\hat{\sigma_{b_i}}} $$

$t_a = 1.686$, $p\text{-}value = 0.11$, $p\text{-}value > \alpha\{0.1;0.05;0.01\} \rightarrow$
гипотеза $H_0$ верна - параметр $a$ **незначим**.

$t_{b_1} = 2.463$, $p\text{-}value = 0.025$, $\alpha\{0.1;0.05\} > p\text{-}value > \alpha\{0.01\} \rightarrow$
гипотеза $H_0$ отвергается - параметр $b_1$ **значим**.

$t_{b_2} = 0.986$, $p\text{-}value = 0.338$, $p\text{-}value > \alpha\{0.1;0.05;0.01\} \rightarrow$
гипотеза $H_0$ верна - параметр $b_2$ **незначим**.

$t_{b_3} = -0.252$, $p\text{-}value = 0.804$, $p\text{-}value > \alpha\{0.1;0.05;0.01\} \rightarrow$
гипотеза $H_0$ верна - параметр $b_3$ **незначим**.

$t_{b_4} = -3.501$, $p\text{-}value = 0.003	$, $\alpha\{0.1;0.05;0.01\} > p\text{-}value \rightarrow$
гипотеза $H_0$ отвергается - параметр $b_4$ **значим**.

**Доверительные интервалы:**

$$ \hat{b_i} - 2\hat{\sigma} \leq b_i \leq \hat{b_i} + 2\hat{\sigma} $$

Для **95%**:

$a: (-2616.991; 2.34e\text{+}04)$

$b_1: (0.069; 0.898)$

$b_2: (-148.446; 409.076)$

$b_3: (-60.686; 47.750)$

$b_4: (-442.935; -109.810)$

## Интерпретация параметров

Линейная зависимость **объема денежных накоплений в РФ**:
- коэффициент 0.4838 означает, что каждая единица **продажи наличной иностранной
  валюты кредитными организациями физическим лицам** увеличивает **объема денежных
  накоплений в РФ** на 0.4838 каких-то единиц денег.
- коэффициент 130.3151 означает, что рост **курса рубля к доллару США** очень сильно
  увеличивает **объем денежных накоплений в РФ**.
- коэффициент -6.4678 означает, что рост **цены нефти марки "Юралс" негативно влияет на
  **объем денежных накоплений в РФ**.
- коэффициент -276.3727 означает, что положительная **динамика потребительских цен по
  группам товаров и услуг (месяц к соответствующему месяцу предыдущего года)** значительно
  снижает **объем денежных накоплений в РФ**.
- константа 10400 означает что при полном 'отсутствии экономики' у РФ есть **объема денежных накоплений в РФ** в
  размере 10400 млрд. руб.

# Парная регрессия

## Построение и расчет модели

На основании оценки значимости параметров предыдущей модели и матрицы корреляции факторов для
построения парной регрессии выбирается фактор **x4** - динамика потребительских цен по группам
товаров и услуг (месяц к соответствующему месяцу предыдущего года)

In [47]:
df.corr()

Unnamed: 0,y,x1,x2,x3,x4
y,1.0,0.701097,0.690454,0.06795,-0.794822
x1,0.701097,1.0,0.50996,0.255408,-0.460771
x2,0.690454,0.50996,1.0,-0.385527,-0.560071
x3,0.06795,0.255408,-0.385527,1.0,-0.166677
x4,-0.794822,-0.460771,-0.560071,-0.166677,1.0


#### Регрессионная модель

$$ y_i = a + b x_i $$

#### Оценочная модель

$$ \hat{y_i} = \hat{a} + \hat{b} x_i $$

#### Результативный признак

In [48]:
y = df['y']
y

0     12345.0
1     12091.9
2     12339.7
3     12450.6
4     12832.1
5     12892.1
6     13224.5
7     13449.9
8     13476.8
9     13588.9
10    13600.4
11    13768.5
12    14796.6
13    14424.2
14    14607.3
15    14688.0
16    15057.3
17    15161.0
18    15534.6
19    15544.5
20    15644.4
21    15717.8
Name: y, dtype: float64

#### Фактор модели

In [49]:
x = df['x4']
x

0     9.6
1     9.5
2     9.5
3     9.6
4     9.6
5     9.4
6     9.0
7     8.2
8     7.2
9     7.2
10    6.8
11    6.1
12    4.2
13    3.7
14    3.7
15    3.6
16    3.6
17    4.3
18    5.6
19    5.9
20    6.6
21    6.5
Name: x4, dtype: float64

#### Добавление константы

In [50]:
x = sm.add_constant(x)
x

Unnamed: 0,const,x4
0,1.0,9.6
1,1.0,9.5
2,1.0,9.5
3,1.0,9.6
4,1.0,9.6
5,1.0,9.4
6,1.0,9.0
7,1.0,8.2
8,1.0,7.2
9,1.0,7.2


#### Применение метода наименьших квадратов

$$ \sum_{i}^{n}{(y_i - \hat{y_i})^2} \rightarrow \min_{n} $$

$$ B = (X^T X)^{-1} X^T Y $$

In [51]:
model = sm.OLS(y, x).fit()

In [52]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.632
Model:                            OLS   Adj. R-squared:                  0.613
Method:                 Least Squares   F-statistic:                     34.31
Date:                Sat, 02 Oct 2021   Prob (F-statistic):           9.92e-06
Time:                        05:01:23   Log-Likelihood:                -175.68
No. Observations:                  22   AIC:                             355.4
Df Residuals:                      20   BIC:                             357.5
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const       1.682e+04    513.342     32.774      0.0

#### Найденные коэффициенты

$$ \hat{y_i} = 1.682e\text{+}4 - 421.024 x_{i} $$

#### Оценки среднеквадратичного отклонения оценок параметров

$S_{\hat{a}} = 513.342$

$S_{\hat{b}} = 71.878$

## Оценка качества модели

**Оценка среднеквадратического отклонения возмущений:** $ S_{ei} = 745.4526 $ - **слишком много**.

In [53]:
np.sqrt(model.mse_resid)

745.4525998718326

**Коэффициент детерминации:** $R^2 = 0.632$ - доля дисперсии $y$,
объясняемая текущей моделью (т.е. объясняющими переменными).

$ R^2 > 0.5 $ - качество модели **среднее**.

**Средняя относительная ошибка аппроксимации:** $A = 3.774$.

$A < \{10\%, 5\%\}$ - **отличная** оценка

In [54]:
np.mean(np.abs(model.resid / y)) * 100

3.773801731390099

## Оценка модели на значимость

**F-критерий Фишера:**

$$ H_0: b_1 = ... = b_k = 0, \\ H_1: b^2_1 + ... + b^2_k > 0. $$

$$ F_{набл} = \frac{\frac{R^2}{k}}{\frac{1 - R^2}{(n - k - 1)}} $$

$F = 34.31$,

$p\text{-}value = 9.92e\text{-}06 $

$p\text{-}value < \alpha\{0.1;0.05;0.01\} \rightarrow$ отвергаем гипотезу $H_0$, т.е. модель регрессии в целом **значима**.

**Доверительные интервалы:**

$$ \hat{b_i} - 2\hat{\sigma} \leq b_i \leq \hat{b_i} + 2\hat{\sigma} $$

Для **95%**:

$a: (1.58e\text{+}04; 1.79e\text{+}04)$

$b: (-570.96; -271.088)$

# Выводы

Было лучше.
