# t-тест в Python

In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from scipy.stats import t # t-распределение

## Значимость коэффициентов
Тестируем гипотезу $H_0:\beta=0$

Тестовая статистика $$t=\frac{\hat{\beta}}{s.e.(\beta)}$$

Критическое $t_{cr}=t_{df=n-k-1}(\alpha)$

Для набора данных `sleep75` рассмотрим линейную регрессию
**sleep на totwrk, age, south, male, smsa, yngkid, marr, union, log(hrwage)**

In [None]:
# Загрузим данные
df_sleep = pd.read_csv('sleep75.csv')
mod1 = smf.ols(formula='sleep~totwrk+age+south+male+smsa+yngkid+marr+union+np.log(hrwage)', 
                       data=df_sleep).fit()
# коэффициенты
mod1.params.round(3)

In [None]:
# Число наблюдений в модели, число регрессоров и степени свободы для t_cr
mod1.nobs, mod1.df_model, mod1.df_resid

In [None]:
# 5%-критическое значение t-распределения
t.ppf(q=1-0.05/2, df=mod1.df_resid)

### Значимость выбранных коэффициентов
Потестируем значимость $\beta_{totwrk}$ и $\beta_{male}$

In [None]:
mod1.t_test('totwrk=0, male=0')

### Значимость всех коэффициентов

In [None]:
summary_params(mod1) #.round(3)

### Отдельные составляющие t-теста 

In [None]:
# стандарные ошибки s.e.(beta)
mod1.bse

In [None]:
# t-статистики
mod1.tvalues

In [None]:
# p-values
mod1.pvalues

## Общий t-тест
Тестируем $H_0:\beta=\theta$ ($\theta$ -- заданное число)

Тестовая статистика $$t=\frac{\hat{\beta}-\theta}{s.e.(\beta)}$$

Для набора данных `Labour` рассмотрим регрессию **log(output) на log(capital) и log(labour)**


In [None]:
# Загрузим данные
df_labour = pd.read_csv('Labour.csv')
# Результаты подгонки
mod2 = smf.ols(formula='np.log(output)~np.log(capital)+np.log(labour)', data=df_labour).fit()
summary_params(mod2)

Тестируется гипотеза $H_0:\beta_{capital}=0.5$ 

Результаты тестирования

In [None]:
mod2.t_test('np.log(capital)=0.5')

In [None]:
# 5%-критическое значение t-распределения
t.ppf(q=1-0.05/2, df=mod2.df_resid)

## Стандарные ошибки коэффициентов
Ковариационная матрица коэффициентов $\hat{V}=s^2(X'X)^{-1}$

Её диагоннальные коэффициенто – квадраты стандарных ошибок коэффициентов

In [None]:
# Ковариационная матрица
mod2.cov_params()

In [None]:
## диагональные элементы
np.diag(mod2.cov_params())

In [None]:
np.diag(mod2.cov_params())**0.5