# Значимость коэффициентов. Тест Стьюдента

In [None]:
import numpy as np
import pandas as pd
import io
import statsmodels.formula.api as smf
import scipy.stats as stats

## Решение задачи 1.1 из [Листка 04](https://nbviewer.org/github/artamonoff/Econometrica/blob/master/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8/List04-t-test.html)

In [None]:
date_string = '''Estimate Std. Error
(Intercept) 3446.830     81.840
totwrk        -0.169      0.018
age            2.714      1.472
south        102.272     41.925
male          87.108     35.173
smsa         -54.188     33.193
yngkid       -13.051     50.459
marr          31.360     42.263
union         11.866     38.186'''

In [None]:
df = pd.read_csv(io.StringIO(date_string), sep='\s+')
df

#### Тестируем гипотезу $$H_0:\beta_{j}=0$$  $$H_1:\beta_{j}\ne 0$$ 


###### в столбце $Std.$: $\hat{\beta}_{j}$

###### в столбце $Error$: $s.e.(\beta_{j})$

###### в столбце $t$:  $t$-value, $\displaystyle t=\frac{\hat{\beta_j}}{s.e.(\beta_j)}$

In [None]:
df['t_value'] = df['Std.']/df['Error']

In [None]:
df

Табличный критерий Стьюдента для $$\alpha = 0.5$$, степеней свободы 
$$n-k$$
n -- количество наблюдений -- 707
k -- количество регрессоров +1 -- 9
Тест двухсторонний, поэтому указываем значение 
$$
1 - \frac{\alpha}{2}
$$




In [None]:
t_critil = stats.t.ppf(1 - 0.025, 707 - 9)
t_critil

In [None]:
df['znachimost'] = df.apply(lambda x: 'znachimo' if np.abs(x['t_value']) > t_critil else 'ne_znachimo', axis=1 )
df

## Решение задачи 2.2 из[Листка 04](https://nbviewer.org/github/artamonoff/Econometrica/blob/master/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8/List04-t-test.html)

In [None]:
date_string = '''               Estimate  Std. Error t value  Pr(>|t|)    
(Intercept) 3431.803558   96.309432 35.6331 < 2.2e-16 ***
totwrk        -0.158079    0.020867 -7.5755 1.639e-13 ***
age            2.437082    1.671818  1.4577   0.14551    
south         78.046123   45.287154  1.7234   0.08542 .  
male          36.485386   43.350193  0.8416   0.40037    
smsa         -34.964643   38.231919 -0.9145   0.36086    
yngkid        50.136466   54.789835  0.9151   0.36058    
marr          54.071604   46.920123  1.1524   0.24968    
union         27.018684   43.044039  0.6277   0.53048    
log(hrwage)   -2.726776   32.202444 -0.0847   0.93255    '''

In [None]:
df = pd.read_csv(io.StringIO(date_string), sep='\s+')
df

In [None]:
# Переименуем колонки DataFrame в соотвествии с их значениями,
# так как из-за различного количества элементов в каждой строке,
# наблюдается несоотвествие.
df.rename(columns={'Std.':'std.errror','Error':'t_value'}, inplace=True)
df

In [None]:
# Удалим ненужные нам столбцы:'t', 'value','Pr(>|t|)' с помощью метода drop
# аргумент inplace=True указывает на то, что изменнеи неообходимо провести в самом DataFrame, а не 
# определять новый DateFrame.

df.drop(columns={'t','value','Pr(>|t|)'}, inplace=True)
df

#### Тестируем гипотезу $$H_0:\beta_{j}=0$$  $$H_1:\beta_{j}\ne 0$$ 


###### в столбце $Std.$: $\hat{\beta}_{j}$

###### в столбце $Error$: $s.e.(\beta_{j})$

###### в столбце $t$:  $t$-value, $\displaystyle t=\frac{\hat{\beta_j}}{s.e.(\beta_j)}$

In [None]:
alpha= 0.1
#len(df) возвращает количество строк в DataFrame, по совместительству количество коэффициентов
t_critical = stats.t.ppf(1 - alpha/2,707-len(df))
t_critical

Табличный критерий Стьюдента для $$\alpha = 0.1$$, степеней свободы 
$$n-k$$
n -- количество наблюдений -- 707
k -- количество регрессоров +1 -- 9
Тест двухсторонний, поэтому указываем значение 
$$
1 - \frac{\alpha}{2}
$$





In [None]:
df['Znachimost'] = df.apply(lambda x: 'znachim' if np.abs(x['t_value'])>t_critical else 'ne znachim', axis=1 )
df