In [54]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

import statsmodels.api as sm
from statsmodels.iolib.summary2 import summary_col

# OLS 
import statsmodels.formula.api as smf
# VIF
from patsy import dmatrices
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
# Q-Q plot
from scipy import stats
# Jarque-Bera
import statsmodels.stats.api as sms
from statsmodels.compat import lzip
# Durbin-Watson
import statsmodels.stats.stattools as tools
# Breusch - Godfrey tset
import statsmodels.stats.diagnostic as sm_diagnostic
# 강건표준오차(자기상관)
import statsmodels.stats as sm_stats
# 램지테스트 (모형설정의오류)
import statsmodels.stats.outliers_influence as oi

## 다중공산성 / 오차항의 정규성 / 이분산 / 자기상관 / 모형설정의 오류 

## 자기상관 가정에 대한 탐지 및 치료

In [10]:
df = pd.read_csv('consumption.txt' , sep='\t')

df.columns

Index(['year', 'consumption', 'income', 'wealth', 'interest', 'lnconsump',
       'lndpi', 'lnwealth', 'dlnconsump', 'dlndpi', 'dlnwealth', 'dinterest',
       'rlnconsump', 'rlndpi', 'rlnwealth', 'rinterest', 'dconsump', 'dincome',
       'dwealth', 'rconsump', 'rincome', 'rwealth', 'rinterest2', 'time'],
      dtype='object')

### 실질소비량 = 실질가처분소득 , 실질재산 , 실질 이자율
#### log(c) = log(DPI) + log(W) + log(r) + u 

In [14]:
reg1 = smf.ols('lnconsump ~ lndpi + lnwealth + interest' , missing='drop' , data=df).fit()

print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:              lnconsump   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 3.783e+04
Date:                Mon, 22 Jun 2020   Prob (F-statistic):           7.12e-84
Time:                        00:10:48   Log-Likelihood:                 164.59
No. Observations:                  54   AIC:                            -321.2
Df Residuals:                      50   BIC:                            -313.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.4677      0.043    -10.934      0.0

### 코멘트 
   
    - OLS.summary 하는것 으로 Durbin-Watson 의 수치를 알 수 있다. 
    - Durbin-Waston 의 수치가 2에 가까우면 자기상관이 X  ( 기준 = 1.5~2.5 )
    - 상단의 OLS 에선 1.289 임으로 자기상관이 있다고 할수도 없다고 할 수있는 상황이다 ( Waston 의 기준수치가 명확하지않기 때문.)
    
    - 따라서 Durin-Waston 을 구체적으로 파악해보자 

## Durbin-Watson 1 : AR(1) 

In [18]:
residulas = reg1.resid

import statsmodels.stats.stattools as tools

dw = tools.durbin_watson(residulas)

print(dw)

1.2892472895549987


### 코멘트 

    - statsmodels.stats.stattools 사용해 AR(1) 방법으로 
    - Durbin-Waston 의 수치를 구하는 방법. 허나 이 방법은 OLS summary 와 수치값이 같다 

## Breusch - Godfrey test : up to 3 lags

In [24]:
import statsmodels.stats.diagnostic as sm_diagnostic
# lzip 

# 
name =['LM-stat', 'LM : P-value' , 'F-value' , ' F : P-value']
bg_t = sm_diagnostic.acorr_breusch_godfrey(reg1 , nlags=2 ) 
print( pd.DataFrame( lzip(name , bg_t) ) )

              0         1
0       LM-stat  6.447028
1  LM : P-value  0.039815
2       F-value  3.253817
3   F : P-value  0.047295


### 코멘트
    
    - Breusch-Godfrey 방법을 통해 
    - 'LM-stat', 'LM : P-value' , 'F-value' , ' F : P-value' 을 구하고 
    - LM-stat 의 p-값, F-value의 p-값을 구한다 
    
    - 만약 p-값이 reject 에 가까운 수치를 보여준다면 ( p값이 0.05보다 작다면 ) 
    - 자기상관이 O 라는 뜻이며 , 이는 자기상관 문제의 해결이 필요함을 알 수 있다. 

## 자기상관 해결법 1 :first - difference model



In [30]:
# reg2 = smf.ols('dlnconsump ~ dlndpi + dlnwealth + dinterest' , data=df , missing='drop')
#  interest 를 없애야 하는데 interest 를 포함함으로 사용하지 않는다 


Y = df['dlnconsump']
X = df[['dlndpi' , 'dlnwealth' , 'dinterest']]
reg2 = sm.OLS(Y,X , missing='drop').fit()
print(reg2.summary())

                                 OLS Regression Results                                
Dep. Variable:             dlnconsump   R-squared (uncentered):                   0.924
Model:                            OLS   Adj. R-squared (uncentered):              0.919
Method:                 Least Squares   F-statistic:                              205.7
Date:                Mon, 22 Jun 2020   Prob (F-statistic):                    1.81e-28
Time:                        00:27:21   Log-Likelihood:                          168.34
No. Observations:                  54   AIC:                                     -330.7
Df Residuals:                      51   BIC:                                     -324.7
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

### 코멘트 
    
    reg1.OLS 표에서는 interest 의 t-값이 유의하게 나왔으나.
    first - difference model 방법을 통해 구한 dlinterest 의 t-값을 볼 때, 유의하지 않음을 찾을 수 있었다.

## 자기상관 해결법 2 : 강건표준오차 

In [33]:
import statsmodels.stats as sm_stats

V_HAC = sm.stats.sandwich_covariance.cov_hac_simple( reg1 , nlags = 1)
print(V_HAC)

[[ 2.59204931e-03  2.73991741e-04 -5.05818036e-04  2.74189368e-05]
 [ 2.73991741e-04  3.39938381e-04 -3.13569826e-04 -3.38585924e-06]
 [-5.05818036e-04 -3.13569826e-04  3.16306973e-04 -1.79943636e-07]
 [ 2.74189368e-05 -3.38585924e-06 -1.79943636e-07  8.80267343e-07]]


In [34]:
reg3 = reg1.get_robustcov_results( cov_type ='HAC' , maxlags =1 )
print(reg3.summary())

                            OLS Regression Results                            
Dep. Variable:              lnconsump   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 2.433e+04
Date:                Mon, 22 Jun 2020   Prob (F-statistic):           4.40e-79
Time:                        00:31:30   Log-Likelihood:                 164.59
No. Observations:                  54   AIC:                            -321.2
Df Residuals:                      50   BIC:                            -313.2
Df Model:                           3                                         
Covariance Type:                  HAC                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.4677      0.049     -9.547      0.0

### 코멘트 

    - 강건표준오차 방법을 통해 t-값의 변화를 찾으려해도 , t-값의 변화를 찾을 수없다.
    - 다만 , Warnings 코멘트를 확인한다면, 
    
    = [1] 표준 오차는 1 지연을 사용하고 작은 샘플 보정없이 이분산성 및 자기 상관 강건 (HAC)입니다
    
    - 이 뜻은 자기상관을 넣었더니 , 이분산과 자기상관에 대해서 강건한 표준오차 를 갖는다를 알 수 있다.

In [35]:
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:              lnconsump   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 3.783e+04
Date:                Mon, 22 Jun 2020   Prob (F-statistic):           7.12e-84
Time:                        00:33:56   Log-Likelihood:                 164.59
No. Observations:                  54   AIC:                            -321.2
Df Residuals:                      50   BIC:                            -313.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.4677      0.043    -10.934      0.0

## Feasible GLS - Cochrane-Orcutt ( CORC ) 

In [39]:
reg1_model = smf.ols('lnconsump ~ lndpi + lnwealth + interest' , missing='drop' , data=df)
reg1_CORC = sm.GLSAR(reg1_model.endog, reg1_model.exog)

reg1_CORC_fit = reg1_CORC.iterative_fit(maxiter=100) # OLS fit() 
print(reg1_CORC_fit.summary())

                           GLSAR Regression Results                           
Dep. Variable:                      y   R-squared:                       0.998
Model:                          GLSAR   Adj. R-squared:                  0.998
Method:                 Least Squares   F-statistic:                     8883.
Date:                Mon, 22 Jun 2020   Prob (F-statistic):           5.19e-67
Time:                        00:41:54   Log-Likelihood:                 171.71
No. Observations:                  53   AIC:                            -335.4
Df Residuals:                      49   BIC:                            -327.5
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.3986      0.064     -6.193      0.0

### 코멘트

    - CORC 의 방법은 ? 
    - 자기상관이 있다고 가정을 하고, rho 를 추정을 한다. 
    
    - 기존의 변수를
    - rho_hat 값을 새롭게 만들어 낸다. 
    
    - 그후 기존의 데이터와 CORC 데이터를 차감하여 
    - 불필요한 데이터가 무엇인지 확인한다.
    
### 출력후 어떤걸 봐야하는가 

    - x1 = lndpi 
    - x2 = lnwealth
    - x3 = interest 
    
    - t-값을 볼때, 
    - x3 인 interest 의 변수가 불필요 한 데이터임을 알 수있다.
    - Durin-Watson 수치 또한 1.835 로 자기상관 X 에 가까워졌다.

In [40]:
print(reg1_CORC.rho)

[0.58755422]


## 모형설정오류 탐지 : 램지 테스트
    - Ramsey regression specification error test ( RESET) 
    
    - 잘못된 함수 형태 또는 누락변수 들을 찾는데 유용한 테스트 
    - 기존의 변수에서 제곱 하거나 , 교차항으로 곱함으로 누락된 형태를 찾는다
    
    - 또, 제곱이 빠졌거나 ( 제곱이 없어서 비선형이거나 )
    - 교차항이 빠졋거나 를 찾는다 ( 비선형의 원인들 )
    
    - 만약 null hypothesis , P-값이 충분히 작으면 원래 있던 변수들이 잘못 됨을 나타낸다.
    
   

In [44]:
import statsmodels.stats.outliers_influence as oi

print(oi.reset_ramsey(reg1 , degree=2)) # 차수는 = 2

<F test: F=array([[31.11085009]]), p=1.0395422986943174e-06, df_denom=49, df_num=1>


### 코멘트 

    - P-값의 1.0395422986943174e-06 은 거의 0에 가깝다.
    
    - 이뜻은 상당히 reject 이고 , 모형설정오류가 있음을 보여준다
    
    - 누락변수가 있거나, 제곱이 빠졋거나 , 교차항이 빠졋거나를 알수있다.