## F-тест для регрессий

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from scipy.stats import f # t-распределение

## Значимость регресии
Тестируется гипотеза
$$H_0:\beta_1=\cdots=\beta_k=0 $$
Тестовая статистика $$F=\frac{R^2}{1-R^2}\cdot\frac{n-k-1}{k}$$
Критическое значение $$F_{cr}=F_{df1=k, df2=n-k-1}(\alpha)$$

### Sleep equation 1
Для датасета `sleep75` рассмотрим регрессию **sleep на totwrk, age, age^2, south, male, smsa, yngkid, marr, union**
Подгонка модели

In [2]:
# загрузим данные
df_sleep = pd.read_csv('sleep75.csv')
# подгоним модель
mod1 = smf.ols(formula='sleep~totwrk+age+I(age**2)+south+male+smsa+yngkid+marr+union', data=df_sleep).fit()

Результаты F-теста на значимость регрессии (тестовая статистика и P-значение)

In [14]:
mod1.fvalue, mod1.f_pvalue

(11.803442151355283, 2.1244300478606626e-17)

In [16]:
# Тестовая статистика по формуле
mod1.rsquared/(1-mod1.rsquared)*(mod1.df_resid/mod1.df_model)

11.803442151355277

5%-критическое значение F-распределения

In [6]:
f.ppf(q=1-0.05, dfn=mod1.df_model, dfd=mod1.df_resid)

1.8933165104204854

### Sleep equation 2
Для датасета `sleep75` рассмотрим регрессию **sleep на smsa, yngkid, marr, union**
Подгонка модели

In [3]:
# подгоним модель
mod2 = smf.ols(formula='sleep~smsa+yngkid+marr+union', data=df_sleep).fit()

Результаты F-теста на значимость регрессии (тестовая статистика и P-значение)

In [4]:
mod2.fvalue, mod2.f_pvalue

(1.3140729513840412, 0.26315144044872907)

5%-критическое значение F-распределения

In [5]:
f.ppf(q=1-0.05, dfn=mod2.df_model, dfd=mod2.df_resid)

2.384637913666586

Альтернативный способ: явно специфицируем тестируемую гипотезу

In [7]:
mod2.f_test('smsa=0, yngkid=0, marr=0, union=0')

<class 'statsmodels.stats.contrast.ContrastResults'>
<F test: F=1.3140729513839888, p=0.26315144044875166, df_denom=701, df_num=4>

## Совместная значимость