# Dickey-Fuller 단위근 검정

## DF 검정

Dickey-Fuller 단위근 검정(unit root test)은 ARIMA 모형의 적분 차수를 판단하기 위한 검정 방법의 하나이다.

**적분 차수가 1차인 경우가 귀무가설(null hypothesis)**이 되며 이 경우 특성 방정식의 해에 $x=1$ 즉 단위근(unit root)이 포함되기 때문에 단위근 검정이라고 한다.

DF 검정의 검정 통계량(test statistics)은 회귀분석의 결과로 나타나는 계수이다.

시계열 $Y_t$의 차분 $\nabla Y_t=Y_t - Y_{t-1}$를 종속변수로, 원 시계열 $Y_t$와 차분값의 지연 값들 $\nabla Y_{t-1}, \nabla Y_{t-2}, \cdots, \nabla Y_{t-k}$을 독립변수로 회귀 분석을 실시하고 그 결과로 나오는 $Y_t$의 계수값이 검정 통계량이 된다.

DF 검정의 원리는 다음과 같다.

만약 시계열 $Y_t$의 적분 차수가 1이면 다음 식에서 $a=0$이 된다. 

$$ Y_t = (a + 1) Y_{t-1} + X_t $$

이 식에서 $X_t$는 다음과 같이 표현 가능한 AR(p) 과정이다.

$$ X_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + e_t $$

$a=0$ 성립하는 경우, 이 두 식을 정리하면 다음과 같다.

$$ \nabla Y_t = a Y_{t-1} + \phi_1 \nabla Y_{t-1} + \phi_2 \nabla Y_{t-2} + \cdots + \phi_p \nabla Y_{t-p} + e_t $$

따라서  $\nabla Y_t=Y_t - Y_{t-1}$를 종속변수로, 원 시계열 $Y_t$와 차분값의 지연 값들 $\nabla Y_{t-1}, \nabla Y_{t-2}, \cdots, \nabla Y_{t-k}$을 독립변수로 회귀 분석을 실시하여 $a$를 구할 수 있다. 이 $a$값이 검정 통계량이 되고 귀무가설이 성립하면 $a=0$이 된다.

DF 검정의 검정 통계량 $a$는 일반적인 검정과 달리 정규분포 등의 간단한 수식으로 나타나지 않고 미리 계산된 표를 사용하거나 근사식을 사용한다.

## ADF 검정

Augmented Dickey-Fuller (ADF) 검정은 1차 누적에 의한 확률적 추세뿐 아니라 2차항으로 나타나는 결정론적 추세를 포함하는 시계열에 대해서 단위 근 검정을 할 수 있도록 DF 검정을 일반화 한 것이다.

ADF 검정도 DF 검정과 마찬가지로 회귀 분석 결과로 나온 계수를 검정 통계량으로 사용하며 회귀 방정식은 다음과 같다.

$$ \nabla Y_t = \alpha + \beta t + \gamma Y_{t-1} + \phi_1 \nabla Y_{t-1} + \phi_2 \nabla Y_{t-2} + \cdots + \phi_p \nabla Y_{t-p} + e_t $$

이 식에석 $\gamma$값이 검정 통계량이며 귀무가설이 성립하는 경우 $\gamma=0$이다.

ADF 검정은 DF 검정을 포함하기 때문에 대부분의 통계 패키지는 ADF만을 지원한다.

## Python을 사용한 ADF 검정

statsmodels 패키지는 [`statsmodels.tsa.adfuller`](http://statsmodels.sourceforge.net/stable/generated/statsmodels.tsa.stattools.adfuller.html) 라는 ADF 검정 함수를 제공한다. 

입력 인수와 반환값은 다음과 같다.

* 입력 인수

  * x : 시계열 자료
  * maxlag : ADF 검정에 사용할 시차의 수. 디폴트 12*(nobs/100)^{1/4}
  * regression : 검정 사용할 모형. 
    * 'nc': 결정론적 추세 없음. DF 검정
    * 'c': 상수항만 사용
    * 'ct': 상수항과 1차 추세 사용
    * 'ctt': 상수항과 1차 추세, 2차 추세 사용
  *  autolag : 검정 AR 모형의 차수를 자동 결정하는 알고리즘 {‘AIC’, ‘BIC’, ‘t-stat’, None}


* 반환값

  * adf : 검정 통계량
  * pvalue : MacKinnon(1994) 방식을 사용한 p-value 추정치
  * usedlag : 사용된 시차의 수
  * nobs : 분석에 자료의 수
  * critical values : 1%, 5%, 10% 수준에 해당되는 검정 통계량의 값

실제로 시뮬레이션으로 생성된 시계열 자로에 대해 ADF 검정을 실시해 본다.

In [1]:
p = sm.tsa.ArmaProcess([1], [-1, 0.6])
y2 = p.generate_sample(100).cumsum().cumsum()  #  ARIMA d=2
y1 = np.diff(y2)
y0 = np.diff(y1)

In [2]:
sm.tsa.adfuller(y2)

(0.092775088009529133,
 0.96556433991241486,
 4,
 95,
 {'1%': -3.5011373281819504,
  '10%': -2.5832749307479226,
  '5%': -2.8924800524857854},
 238.18644357271461)

In [3]:
sm.tsa.adfuller(y1)

(-0.92860667212087555,
 0.77840593684886783,
 3,
 95,
 {'1%': -3.5011373281819504,
  '10%': -2.5832749307479226,
  '5%': -2.8924800524857854},
 232.88855221406413)

In [4]:
sm.tsa.adfuller(y0)

(-9.6672843078902009,
 1.3049624757032689e-16,
 2,
 95,
 {'1%': -3.5011373281819504,
  '10%': -2.5832749307479226,
  '5%': -2.8924800524857854},
 230.28463671694846)

위 분석에서 보듯이 적분 차수가 $d=2$, $d=1$인 시계열에 대해서는 97%, 78%의 p-value가 나왔다. 즉, 검정통계량이 0이고 적분 과정이라는 귀무가설이 맞다는 뜻이다. 

마지막 적분 차수가 $d=0$인 정상 과정에 대해서는 p-value가 0으로 정상 과정임을 나타낸다.