In [4]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

In [5]:
columns = {
    'Сводные данные о продаже наличной иностранной '
    'валюты кредитными организациями физическим лицам (x1)': 'x1',
    'Курс рубля к доллару США (x2)': 'x2',
    'Цена нефти марки "Юралс" (x3)': 'x3',
    'Динамика потребительских цен по группам товаров и услуг '
    '(месяц к соответствующему месяцу предыдущего года,%)  (x4)': 'x4',
    'Объем денежных накоплений в РФ миллиард руб. (y)': 'y'
}

In [6]:
df = pd.read_excel('data/task.xlsx', header=3, usecols=[1, 2, 3, 4, 5])
df = df.rename(columns=columns)
df

Unnamed: 0,y,x1,x2,x3,x4
0,12345.0,2769,29.67,94.2,9.6
1,12091.9,3065,28.94,101.1,9.5
2,12339.7,3899,28.43,111.6,9.5
3,12450.6,3790,27.5,119.7,9.6
4,12832.1,3963,28.07,112.0,9.6
5,12892.1,4224,28.08,112.0,9.4
6,13224.5,4645,27.68,115.3,9.0
7,13449.9,4914,28.86,109.6,8.2
8,13476.8,4830,31.88,112.6,7.2
9,13588.9,4815,29.9,108.7,7.2


## Построение и расчет модели

#### Регрессионная модель

$$ y_i = a + b_1 x_{1i} + b_2 x_{2i} + b_3 x_{3i} + b_4 x_{4i} + e_i $$

#### Оценочная модель

$$ \hat{y_i} = \hat{a} + \hat{b_1} x_{1i} + \hat{b_2} x_{2i} + \hat{b_3} x_{3i} + \hat{b_4} x_{4i} $$

#### Результативный признак

In [14]:
y = df['y']
y

0     12345.0
1     12091.9
2     12339.7
3     12450.6
4     12832.1
5     12892.1
6     13224.5
7     13449.9
8     13476.8
9     13588.9
10    13600.4
11    13768.5
12    14796.6
13    14424.2
14    14607.3
15    14688.0
16    15057.3
17    15161.0
18    15534.6
19    15544.5
20    15644.4
21    15717.8
Name: y, dtype: float64

#### Факторы модели

In [8]:
x = df[['x1', 'x2', 'x3', 'x4']]
x

Unnamed: 0,x1,x2,x3,x4
0,2769,29.67,94.2,9.6
1,3065,28.94,101.1,9.5
2,3899,28.43,111.6,9.5
3,3790,27.5,119.7,9.6
4,3963,28.07,112.0,9.6
5,4224,28.08,112.0,9.4
6,4645,27.68,115.3,9.0
7,4914,28.86,109.6,8.2
8,4830,31.88,112.6,7.2
9,4815,29.9,108.7,7.2


#### Добавление константы

In [15]:
import warnings
warnings.filterwarnings('ignore')

x = sm.add_constant(x)
x

Unnamed: 0,const,x1,x2,x3,x4
0,1.0,2769,29.67,94.2,9.6
1,1.0,3065,28.94,101.1,9.5
2,1.0,3899,28.43,111.6,9.5
3,1.0,3790,27.5,119.7,9.6
4,1.0,3963,28.07,112.0,9.6
5,1.0,4224,28.08,112.0,9.4
6,1.0,4645,27.68,115.3,9.0
7,1.0,4914,28.86,109.6,8.2
8,1.0,4830,31.88,112.6,7.2
9,1.0,4815,29.9,108.7,7.2


#### Применение метода наименьших квадратов

$$ \sum_{i}^{n}{(y_i - \hat{y_i})^2} \rightarrow \min_{n} $$

$$ B = (X^T X)^{-1} X^T Y $$

In [11]:
model = sm.OLS(y, x).fit()

In [12]:
model.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.806
Model:,OLS,Adj. R-squared:,0.761
Method:,Least Squares,F-statistic:,17.7
Date:,"Fri, 01 Oct 2021",Prob (F-statistic):,6.83e-06
Time:,22:14:44,Log-Likelihood:,-168.61
No. Observations:,22,AIC:,347.2
Df Residuals:,17,BIC:,352.7
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,1.04e+04,6169.698,1.686,0.110,-2616.991,2.34e+04
x1,0.4838,0.196,2.463,0.025,0.069,0.898
x2,130.3151,132.126,0.986,0.338,-148.446,409.076
x3,-6.4678,25.698,-0.252,0.804,-60.686,47.750
x4,-276.3727,78.946,-3.501,0.003,-442.935,-109.810

0,1,2,3
Omnibus:,5.043,Durbin-Watson:,1.083
Prob(Omnibus):,0.08,Jarque-Bera (JB):,2.978
Skew:,0.808,Prob(JB):,0.226
Kurtosis:,3.797,Cond. No.,232000.0


#### Найденные коэффициенты

$$ \hat{y_i} = 1.04e{-4} + 0.4838 x_{1i} + 130.3151 x_{2i} - 6.4678 x_{3i} - 276.3727 x_{4i} $$

#### Оценки среднеквадратичного отклонения оценок параметров

$S_{\hat{a}} = 6169.698$

$S_{\hat{b_1}} = 0.196$

$S_{\hat{b_2}} = 132.126$

$S_{\hat{b_3}} = 25.698$

$S_{\hat{b_4}} = 78.946$

## Оценка качества модели

**Оценка среднеквадратического отклонения возмущений:** $ S_{ei} = 586.3208 $ - **умеренная**.

In [16]:
np.sqrt(model.mse_resid)

586.3207563508021

**Коэффициент детерминации:** $R^2 = 0.806$ - доля дисперсии $y$,
объясняемая текущей моделью (т.е. объясняющими переменными).

$ R^2 > 0.7 $ - качество модели **хорошее**.

**Средняя относительная ошибка аппроксимации:** $A = 2.597$.

$A < \{10\%, 5\%\}$ - **отличная** оценка

In [17]:
np.mean(np.abs(model.resid / y)) * 100

2.5974298012728068

## Оценка модели на значимость

**F-критерий Фишера:**

$$ H_0: b_1 = ... = b_k = 0, \\ H_1: b^2_1 + ... + b^2_k > 0. $$

$$ F_{набл} = \frac{\frac{R^2}{k}}{\frac{1 - R^2}{(n - k - 1)}} $$

$F = 17.7$,

$p{-value} = 6.83e{-06} $

$p{-value} < \alpha\{0.1;0.05;0.01\}$ - отвергаем гипотезу $H_0$, т.е. модель регрессии в целом значима.

## Оценка значимости параметров модели

In [None]:
predictions = model.predict(x)
predictions
