In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pandas as pd
from IPython.display import Markdown

from src.utils import to_math
from src.test_ import FTest
from src.display import ModelView
from src.stats import LinearRegression, add_constant

In [3]:
columns = {
    'Сводные данные о продаже наличной иностранной '
    'валюты кредитными организациями физическим лицам (x1)': 'x1',
    'Курс рубля к доллару США (x2)': 'x2',
    'Цена нефти марки "Юралс" (x3)': 'x3',
    'Динамика потребительских цен по группам товаров и услуг '
    '(месяц к соответствующему месяцу предыдущего года,%)  (x4)': 'x4',
    'Объем денежных накоплений в РФ миллиард руб. (y)': 'y'
}

In [4]:
df = pd.read_excel('data/task.xlsx', sheet_name='Лист1', header=3, usecols=[1, 2, 3, 4, 5])
df = df.rename(columns=columns)

In [5]:
y = df['y']
multiple_params = ['x1', 'x2', 'x3', 'x4']
x = add_constant(df[multiple_params])

In [6]:
model = LinearRegression(y, x)
model_view = ModelView(model)

In [7]:
Markdown(model_view.specification())

$$ y_i = a_{0} + b_{1} x_{i1} + b_{2} x_{i2} + b_{3} x_{i3} + b_{4} x_{i4} + e_i $$

In [8]:
Markdown(model_view.true_form())

$$ \hat{y_i} = \hat{a_{0}} + \hat{b_{1}} x_{i1} + \hat{b_{2}} x_{i2} + \hat{b_{3}} x_{i3} + \hat{b_{4}} x_{i4} $$

In [9]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.806
Model:                            OLS   Adj. R-squared:                  0.761
Method:                 Least Squares   F-statistic:                     17.70
Date:                Mon, 04 Oct 2021   Prob (F-statistic):           6.83e-06
Time:                        02:57:58   Log-Likelihood:                -168.61
No. Observations:                  22   AIC:                             347.2
Df Residuals:                      17   BIC:                             352.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        1.04e+04   6169.698      1.686      0.1

In [20]:
Markdown(model_view.parameterized())

$$ \hat{y_i} = 1.04e+04 + 0.484 x_{i1} + 130 x_{i2} + -6.47 x_{i3} + -276 x_{i4} $$

In [21]:
Markdown('<br><br>'.join(model_view.bse(inline=True)))

$ S_\hat{a} = 6.17e+03 $<br><br>$ S_{\hat{b_{1}}} = 0.196 $<br><br>$ S_{\hat{b_{2}}} = 132 $<br><br>$ S_{\hat{b_{3}}} = 25.7 $<br><br>$ S_{\hat{b_{4}}} = 78.9 $

In [13]:
Markdown(model_view.rmsd_resid())

$$ S_{e_i} = 586 $$

In [14]:
Markdown(model_view.rsquared())

$$ R^2 = 0.806 $$

In [15]:
Markdown(model_view.mapprxe())

$$ A = 2.6 $$

In [16]:
f_test = FTest(model)

In [17]:
Markdown(f_test.hypotheses())

$$ H_0: b_1 = ... = b_k = 0, \\ H_1: b_1^2 + ... + b_k^2 > 0. $$

In [18]:
Markdown(to_math(f_test.F_FORMULA))

$$ F = \frac{\frac{R^2}{k}}{\frac{1 - R^2}{(n - k - 1)}} $$

In [19]:
Markdown(f_test.test_report())

$ F_{набл} = 17.7 $<br>
$ p\text{-}value_F = 6.83e-06 $
<br><br>
$ \alpha = 0.05 $<br>
$ F_{табл_{0.05}} = 2.21 $
<br><br>
$ 6.83e-06 < 0.05 $<br>
$ p\text{-}value < \alpha \rightarrow $ гипотеза $ H_0 $ отвергается - модель в целом значима.