# F-тест: Значимость регрессии

Тестируется гипотеза
$$H_0:\beta_1=\cdots=\beta_k=0 $$
Тестовая статистика $$F=\frac{R^2}{1-R^2}\cdot\frac{n-k-1}{k}$$
Критическое значение $$F_{cr}=F_{df1=k, df2=n-k-1}(\alpha)$$

Гипотеза отвергается если $F>F_{cr}$ или $P<\alpha$

In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from scipy.stats import f # t-распределение

## Sleep equation 1
Для датасета `sleep75` рассмотрим регрессию **sleep на totwrk, age, age^2, south, male, smsa, yngkid, marr, union**
Подгонка модели

In [None]:
# загрузим данные
df_sleep = pd.read_csv('https://raw.githubusercontent.com/artamonoff/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
# подгоним модель
mod1 = smf.ols(formula='sleep~totwrk+age+I(age**2)+south+male+smsa+yngkid+marr+union', data=df_sleep).fit()

Результаты F-теста на значимость регрессии (тестовая статистика и P-значение)

In [None]:
mod1.fvalue, mod1.f_pvalue

5%-критическое значение F-распределения

In [None]:
f.ppf(q=1-0.05, dfn=mod1.df_model, dfd=mod1.df_resid)

*Вывод*: регрессия значима!

In [None]:
# Тестовая статистика по формуле
mod1.rsquared/(1-mod1.rsquared)*(mod1.df_resid/mod1.df_model)

### Sleep equation 2
Для датасета `sleep75` рассмотрим регрессию **sleep на smsa, yngkid, marr, union**
Подгонка модели

In [None]:
# подгоним модель
mod2 = smf.ols(formula='sleep~smsa+yngkid+marr+union', data=df_sleep).fit()

Результаты F-теста на значимость регрессии (тестовая статистика и P-значение)

In [None]:
mod2.fvalue, mod2.f_pvalue

5%-критическое значение F-распределения

In [None]:
f.ppf(q=1-0.05, dfn=mod2.df_model, dfd=mod2.df_resid)

*Вывод*: регрессия незначима

Альтернативный способ: явно специфицируем тестируемую гипотезу

In [None]:
mod2.f_test('smsa=0, yngkid=0, marr=0, union=0')