# 1 F-тест: значимость регрессии

## 1.2 cost equation #1
1) Тестируется значимость каждой регрессии. Уровень значимости 1%. Вычислите соотвествующию тестовые статистики. Ответ округлите до 2-х десятичных знаков.

2) Вычислите критическое значение для каждой регрессии. Ответ округлите до 2-х десятичных знаков.

3) Какая из регрессий значима?

In [37]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from scipy.stats import f # F-распределение

In [38]:
# загрузим данные
sleep_df = pd.read_csv('Electricity.csv')

In [39]:
# подгоним модель
mod1 = smf.ols(formula='np.log(cost)~np.log(q)+np.log(pl)+np.log(pk)+np.log(pf)', data=sleep_df).fit()

In [40]:
# коэффициенты
mod1.params.round(3)

Intercept    -7.472
np.log(q)     0.838
np.log(pl)    0.044
np.log(pk)    0.188
np.log(pf)    0.713
dtype: float64

In [45]:
# Результаты F-теста на значимость регрессии (тестовая статистика и P-значение)
mod1.fvalue, mod1.f_pvalue

(2106.9335637703575, 1.2469920264493475e-132)

In [46]:
#1%-критическое значение F-распределения
f.ppf(q=1-0.01, dfn=mod1.df_model, dfd=mod1.df_resid)

3.4441889156629664

In [47]:
# Тестовая статистика по формуле
mod1.rsquared/(1-mod1.rsquared)*(mod1.df_resid/mod1.df_model)

2106.9335637703543

In [10]:
# Число наблюдений в модели, число регрессоров и степени свободы для t_cr
mod1.nobs, mod1.df_model, mod1.df_resid

(158.0, 4.0, 153.0)

In [12]:
# R^2
mod1.rsquared

0.982169358069865

In [13]:
# adj R^2
mod1.rsquared_adj

0.9817031974965282

# 3.1 cost equation

Для набора данных Electricity рассмотрим линейную регрессию log(cost) на log(q), log^2(q), log(pl), log(pk), log(pf)

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_col # вывод подгонки
from scipy.stats import f # F-распределение

In [4]:
# загрузим данные
electro_df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/Electricity.csv')
# подгоним модель
mod2 = smf.ols(formula='np.log(cost)~np.log(q)+I(np.log(q)**2)+np.log(pl)+np.log(pk)+np.log(pf)', data=electro_df).fit()
# коэффициенты
mod2.params.round(3)

Intercept           -6.739
np.log(q)            0.403
I(np.log(q) ** 2)    0.030
np.log(pl)           0.146
np.log(pk)           0.157
np.log(pf)           0.685
dtype: float64

In [5]:
table = mod2.summary().tables[1]
table

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6.7387,0.706,-9.541,0.000,-8.134,-5.343
np.log(q),0.4030,0.032,12.734,0.000,0.340,0.466
I(np.log(q) ** 2),0.0304,0.002,14.024,0.000,0.026,0.035
np.log(pl),0.1461,0.070,2.073,0.040,0.007,0.285
np.log(pk),0.1571,0.058,2.721,0.007,0.043,0.271
np.log(pf),0.6847,0.043,16.043,0.000,0.600,0.769


In [7]:
# Результаты F-теста на значимость регрессии (тестовая статистика и P-значение
mod2.fvalue, mod2.f_pvalue

(3880.4073625741557, 2.4509394896460408e-158)

In [18]:
# F-статистика, p-value, df2, df1
print( mod2.f_test('np.log(pf)+np.log(pl)+np.log(pk)=1'))

<F test: F=0.014541184876268065, p=0.9041775484872097, df_denom=152, df_num=1>


In [24]:
# критическое значение
# уровень значимости 0,01%
f.ppf(q=1-0.01, dfn=1, dfd=mod2.df_resid)

6.804589881738003

In [25]:
# F-статистика, p-value, df2, df1
print( mod2.f_test('np.log(pl)=np.log(pk)'))

<F test: F=0.020086275898526424, p=0.8874840609151121, df_denom=152, df_num=1>


In [32]:
# критическое значение
# уровень значимости 0,01%
f.ppf(q=1-0.01, dfn=1, dfd=mod2.df_resid)

6.804589881738003

Потестируем гипотезу H0:βpf=βpl=βpk
 Какая интерпретация?

In [28]:
# F-статистика, p-value, df2, df1
print( mod2.f_test('np.log(pf)=np.log(pl)=np.log(pk)'))

<F test: F=26.417080686252184, p=1.4240695015055136e-10, df_denom=152, df_num=2>


In [35]:
# критическое значение
# уровень значимости 0,01%
f.ppf(q=1-0.01, dfn=1, dfd=mod2.df_resid)

6.804589881738003

# 2.3 sleep equation #3

Для датасета sleep75 рассмотрим регрессию sleep на totwrk, age, age^2, male, south, male⋆
totwrk

In [48]:
# загрузим данные
sleep_df = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
# подгоним модель
mod5 = smf.ols(formula='sleep~totwrk+age+I(age**2)+male+south+male*totwrk', data=sleep_df).fit()

Уровень значимости 1%. Какие коэффициенты значимы? Ответ

In [50]:
table = mod5.summary().tables[1]
table

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3587.1783,220.238,16.288,0.000,3154.770,4019.586
totwrk,-0.1491,0.026,-5.673,0.000,-0.201,-0.098
age,-6.2587,11.192,-0.559,0.576,-28.232,15.715
I(age ** 2),0.1065,0.134,0.796,0.426,-0.156,0.369
male,161.8901,82.177,1.970,0.049,0.546,323.234
south,112.1436,40.717,2.754,0.006,32.201,192.087
male:totwrk,-0.0347,0.036,-0.956,0.339,-0.106,0.037


In [66]:
# F-статистика, p-value, df1
mod5_restr = smf.ols(formula='sleep~totwrk+age+I(age**2)+south', data=sleep_df).fit()
mod5.compare_f_test(mod5_restr)

(3.94303004067739, 0.01982218606003623, 2.0)

In [87]:
f.ppf(q=1-0.01, dfn=2, dfd=mod5_restr.df_resid)

4.635556462057863

In [71]:
table = mod5_restr.summary().tables[1]
table

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,3625.9842,219.314,16.533,0.000,3195.394,4056.575
totwrk,-0.1492,0.017,-8.852,0.000,-0.182,-0.116
age,-6.3586,11.239,-0.566,0.572,-28.424,15.707
I(age ** 2),0.1125,0.134,0.838,0.403,-0.151,0.376
south,108.3872,40.743,2.660,0.008,28.395,188.379


In [72]:
mod5_restr.fvalue

23.66492065381564

In [78]:
# Число наблюдений в модели, число регрессоров и степени свободы для t_cr
mod5.nobs, mod5.df_model, mod5.df_resid

(706.0, 6.0, 699.0)