# Бинарная регрессия с Statsmodels. Тестирование гипотез

In [None]:
import numpy as np
import pandas as pd

import statsmodels.formula.api as smf
from statsmodels.iolib.summary2 import summary_params

from scipy.stats import norm, chi2

In [None]:
df = pd.read_csv('TableF5-1.csv')

## Пример 1: logit-регрессия
На датасете/датафрейме `df` подгоним регрессия `LFP` на `WA, WA^2, WE, log(FAMINC), CIT, KL6, K618`. Спецификация (как уравнение)
$$
	P(LFP=1)=\Lambda(\beta_0+\beta_1 WA+\beta_2 WA^2+\beta_3 WE+\beta_4\log(FAMINC)+\beta_5CIT+\beta_6 KL6+\beta_7 K618)
$$

In [None]:
mod = smf.logit(formula='LFP~WA+I(WA**2)+WE+np.log(FAMINC)+CIT+KL6+K618', data=df)

res = mod.fit()

### z-тест

In [None]:
summary_params(results=res, alpha=0.05, xname=['const', 'возраст', 'квадрат возраста', 'образование', 'log(FAMINC)', 'CIT', 'KL6', 'K618']).round(4)

Компоненты z-теста

In [None]:
# критическое значение распределения N(0,1)
sign_level=0.05
round( norm.ppf(q=1-sign_level/2), 3)

In [None]:
# z-статистики
res.tvalues

In [None]:
# P-значения для z-статистик
res.pvalues.round(3)

In [None]:
# s.e. коэффициентов
res.bse

## Пример 2: probit-регрессия
На датасете/датафрейме `df` подгоним регрессия `LFP` на `CIT, K618`. Спецификация (как уравнение)
$$
	P(LFP=1)=\Phi(\beta_0+\beta_1CIT+\beta_2 K618)
$$

In [None]:
mod = smf.probit(formula='LFP~CIT+K618', data=df)

res = mod.fit()

### Значимость регрессии: LR-тест
тестовая статистика
$$ 
	LR=2(\log L-\log L_{null})
$$

In [None]:
# Тестовая статистка и её P-значение
res.llr, res.llr_pvalue

In [None]:
# критическое значение распределения chi2
sign_level = 0.05
chi2.ppf(q=1-sign_level, df=res.df_model)

## Пример 3: logit-регрессия
На датасете/датафрейме `df` подгоним регрессия `LFP` на `WA, WA^2, WE, log(FAMINC), CIT, KL6, K618`. Спецификация (как уравнение)
$$
	P(LFP=1)=\Lambda(\beta_0+\beta_1 WA+\beta_2 WA^2+\beta_3 WE+\beta_4\log(FAMINC)+\beta_5CIT+\beta_6 KL6+\beta_7 K618)
$$

In [None]:
mod = smf.logit(formula='LFP~WA+I(WA**2)+WE+np.log(FAMINC)+CIT+KL6+K618', data=df)

res = mod.fit()

res.summary()

### Совместная значимость: тест Вальда

Тестируем совместную значимость `WA, WA**2`

In [None]:
res.wald_test('WA=I(WA ** 2)=0', use_f=False, scalar=True)

In [None]:
# критическое значение распределения chi2 с df=2=df_denom
sign_level = 0.05
chi2.ppf(q=1-sign_level, df=2)