(주의) 본 매뉴얼에서 Stata 기능은 라이선스 이슈로 아직까지는 BIDAS 환경에서 사용할 수 없다. 로컬 pc 환경(내부망, 인터넷망)에서는 사용 가능하다.

# BOK Workspace
- 작성자: 고려대학교 경제학과 한치록 교수

BOK Workspace는 Stata 수준의 편리함을 python에서 구현하고자 개발된 모듈(workspace.py) 이다. 사용의 편의성과 결과의 가독성을 제고하여 사용자들의 장벽을 낮추고자 한 일종의 frontend이다. 기본적인 사용방식은 다음과 같다.

In [2]:
import bok_da as bd

ws = bd.Workspace(data = 'data/Death.csv')
reg = ws.regress('deathrate~drink+smoke+aged', vce='cl', cluster='region')


Linear regression                               Number of obs     =   [1m   258.0[0;0m
                                                F([1m3[0;0m, [1m254[0;0m)         =   [1m  945.48[0;0m
                                                Prob > F          =   [1m  0.0000[0;0m
                                                R-squared         =   [1m  0.9153[0;0m
                                                Root MSE          =   [1m  .63186[0;0m

                                (Std. err. adjusted for [1m86[0;0m clusters in [1mregion[0;0m)
------------------------------------------------------------------------------
             |               Robust
   deathrate | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
       drink |  [1m .0061861[0;0m  [1m .0142559[0;0m[1m     0.43[0;0m[1m   0.664[0;0m    [1m-.0316453[0;0m   [1m .0440174[0;0m
       smoke |  [1m .

Stata 수준의 결과가 제시되며 리턴된 `reg` object는 statsmodels의 fit 실행 결과를 그대로 담고 있으므로 메쏘드들을 사용할 수 있다.

In [3]:
print(reg.summary(slim=True))

                            OLS Regression Results                            
Dep. Variable:              deathrate   R-squared:                      0.9153
Model:                            OLS   Adj. R-squared:                 0.9143
No. Observations:                 258   F-statistic:                     945.5
Covariance Type:              cluster   Prob (F-statistic):             0.0000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     0.41729    0.89141       0.47      0.640    -1.32985     2.16443
drink         0.00619    0.01426       0.43      0.664    -0.02176     0.03413
smoke         0.02778    0.02036       1.36      0.172    -0.01213     0.06770
aged          0.39397    0.01340      29.39      0.000     0.36770     0.42024

Notes:
1. Standard Errors are robust to cluster correlation (cluster)


간편 PyStata 모듈 실행 방법도 구현하였다.

In [3]:
# ws.set_stata('/Applications/Stata', 'mp', splash=False)
# ws.stata.use(ws.data, force = True)
# ws.stata.run('reg deathrate drink smoke aged, vce(cl region)')

. reg deathrate drink smoke aged, vce(cl region)

Linear regression                               Number of obs     =        258
                                                F(3, 85)          =     945.48
                                                Prob > F          =     0.0000
                                                R-squared         =     0.9153
                                                Root MSE          =     .63186

                                (Std. err. adjusted for 86 clusters in region)
------------------------------------------------------------------------------
             |               Robust
   deathrate | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
       drink |   .0061861   .0142559     0.43   0.665    -.0221585    .0345306
       smoke |   .0277839   .0203644     1.36   0.176     -.012706    .0682738
        aged |   .3939672   .0134032    29.3

결과는 다음 방식으로 리턴할 수 있다.

In [4]:
# b = ws.stata.get_b()
# b

Unnamed: 0,drink,smoke,aged,_cons
0,0.006186,0.027784,0.393967,0.417292


현재 버전에서 다음이 구현되어 있다.

* regress (OLS, WLS)
* ivregress (2SLS, LIML)
* eval_forecasts
* dm_test (Diebold-Mariano test)
* cw_test (Clark-West test)