# t-тест в Python

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_params # вывод результатов тестирования
from scipy.stats import t # t-распределение

## Значимость коэффициентов
Тестируем гипотезу $H_0:\beta=0$

Тестовая статистика $$t=\frac{\hat{\beta}}{s.e.(\beta)}$$

Критическое $t_{cr}=t_{df=n-k-1}(\alpha)$

Для набора данных `sleep75` рассмотрим линейную регрессию
**sleep на totwrk, age, south, male, smsa, yngkid, marr, union, log(hrwage)**

In [2]:
# Загрузим данные
df_sleep = pd.read_csv('https://raw.githubusercontent.com/ryupepa/Econometrica/master/python-notebooks/data-csv/sleep75.csv')
mod1 = smf.ols(formula='sleep~totwrk+age+south+male+smsa+yngkid+marr+union+np.log(hrwage)', 
                       data=df_sleep).fit()
# коэффициенты
mod1.params.round(3)

Intercept         3431.804
totwrk              -0.158
age                  2.437
south               78.046
male                36.485
smsa               -34.965
yngkid              50.136
marr                54.072
union               27.019
np.log(hrwage)      -2.727
dtype: float64

In [3]:
# Число наблюдений в модели, число регрессоров и степени свободы для t_cr
mod1.nobs, mod1.df_model, mod1.df_resid

(532.0, 9.0, 522.0)

In [4]:
# 5%-критическое значение t-распределения
t.ppf(q=1-0.05/2, df=mod1.df_resid)

1.9645189418326978

### Значимость выбранных коэффициентов
Потестируем значимость $\beta_{totwrk}$ и $\beta_{male}$

In [5]:
mod1.t_test('totwrk=0, male=0')

<class 'statsmodels.stats.contrast.ContrastResults'>
                             Test for Constraints                             
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
c0            -0.1581      0.021     -7.576      0.000      -0.199      -0.117
c1            36.4854     43.350      0.842      0.400     -48.677     121.648

### Значимость всех коэффициентов

In [6]:
summary_params(mod1) #.round(3)

Unnamed: 0,Coef.,Std.Err.,t,P>|t|,[0.025,0.975]
Intercept,3431.803558,96.309432,35.633099,6.698446e-142,3242.601854,3621.005262
totwrk,-0.158079,0.020867,-7.575548,1.638747e-13,-0.199073,-0.117086
age,2.437082,1.671818,1.457744,0.1455125,-0.847236,5.7214
south,78.046123,45.287154,1.723361,0.0854154,-10.921349,167.013595
male,36.485386,43.350193,0.841643,0.4003732,-48.676889,121.647661
smsa,-34.964643,38.231919,-0.914541,0.3608551,-110.071972,40.142686
yngkid,50.136466,54.789835,0.915069,0.360578,-57.499204,157.772136
marr,54.071604,46.920123,1.152418,0.2496767,-38.103866,146.247073
union,27.018684,43.044039,0.627699,0.5304759,-57.542145,111.579514
np.log(hrwage),-2.726776,32.202444,-0.084676,0.9325514,-65.989087,60.535535


### Отдельные составляющие t-теста 

In [7]:
# стандарные ошибки s.e.(beta)
mod1.bse

Intercept         96.309432
totwrk             0.020867
age                1.671818
south             45.287154
male              43.350193
smsa              38.231919
yngkid            54.789835
marr              46.920123
union             43.044039
np.log(hrwage)    32.202444
dtype: float64

In [8]:
# t-статистики
mod1.tvalues

Intercept         35.633099
totwrk            -7.575548
age                1.457744
south              1.723361
male               0.841643
smsa              -0.914541
yngkid             0.915069
marr               1.152418
union              0.627699
np.log(hrwage)    -0.084676
dtype: float64

In [9]:
# p-values
mod1.pvalues

Intercept         6.698446e-142
totwrk             1.638747e-13
age                1.455125e-01
south              8.541540e-02
male               4.003732e-01
smsa               3.608551e-01
yngkid             3.605780e-01
marr               2.496767e-01
union              5.304759e-01
np.log(hrwage)     9.325514e-01
dtype: float64

## Общий t-тест
Тестируем $H_0:\beta=\theta$ ($\theta$ -- заданное число)

Тестовая статистика $$t=\frac{\hat{\beta}-\theta}{s.e.(\beta)}$$

Для набора данных `Labour` рассмотрим регрессию **log(output) на log(capital) и log(labour)**


In [10]:
# Загрузим данные
df_labour = pd.read_csv('https://raw.githubusercontent.com/ryupepa/Econometrica/master/python-notebooks/data-csv/Labour.csv')
# Результаты подгонки
mod2 = smf.ols(formula='np.log(output)~np.log(capital)+np.log(labour)', data=df_labour).fit()
summary_params(mod2)

Unnamed: 0,Coef.,Std.Err.,t,P>|t|,[0.025,0.975]
Intercept,-1.711459,0.096711,-17.69672,4.187931e-56,-1.901415,-1.521504
np.log(capital),0.20757,0.017188,12.076774,4.875689e-30,0.173811,0.241329
np.log(labour),0.714847,0.023142,30.890017,1.569331e-123,0.669393,0.760301


Тестируется гипотеза $H_0:\beta_{capital}=0.5$ 

Результаты тестирования

In [11]:
mod2.t_test('np.log(capital)=0.5')

<class 'statsmodels.stats.contrast.ContrastResults'>
                             Test for Constraints                             
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
c0             0.2076      0.017    -17.014      0.000       0.174       0.241

In [12]:
# 5%-критическое значение t-распределения
t.ppf(q=1-0.05/2, df=mod2.df_resid)

1.9641641010840298

## Стандарные ошибки коэффициентов
Ковариационная матрица коэффициентов $\hat{V}=s^2(X'X)^{-1}$

Её диагоннальные коэффициенто – квадраты стандарных ошибок коэффициентов

In [13]:
# Ковариационная матрица
mod2.cov_params()

Unnamed: 0,Intercept,np.log(capital),np.log(labour)
Intercept,0.009353,0.000948,-0.002175
np.log(capital),0.000948,0.000295,-0.000267
np.log(labour),-0.002175,-0.000267,0.000536


In [14]:
## диагональные элементы
np.diag(mod2.cov_params())

array([0.00935293, 0.00029541, 0.00053554])

In [15]:
np.diag(mod2.cov_params())**0.5

array([0.09671054, 0.01718756, 0.02314168])