# **파트 3: 전통적 예측 & 시계열 방법론**

---

# 16. 전통적 예측 & 시계열 분석의 기본 원칙

---

### **핵심 아이디어**
- 이 파트의 목표는 인과관계를 규명하는 **"왜(Why)?"**가 아니라, 변수의 미래 경로를 맞추는 **"무엇을(What)?"**에 집중한다.
- 따라서, 모델의 '해석 가능성'이나 '계수의 편향성'보다는, **'예측 오차(Prediction Error)'를 최소화**하는 것이 지상 최대의 과제가 된다.

<br>

### **예측 모델링의 공통 원칙**

- **모델 평가: In-Sample vs. Out-of-Sample**
    - 예측 모델의 진정한 성능은 **'처음 보는 데이터(Out-of-Sample)'**를 얼마나 잘 맞추는지로 평가해야 한다.
    - 이를 위해 데이터를 **훈련 데이터(training set)**와 **테스트 데이터(test set)**로 분리하는 것이 표준적인 절차이다. 모델은 훈련 데이터로만 만들고, 평가는 테스트 데이터로만 수행한다.

- **과적합 (Overfitting)과 편향-분산 상충관계 (Bias-Variance Tradeoff)**
    - **과적합**: 모델이 훈련 데이터의 '우연한 노이즈'까지 과도하게 학습하여, 새로운 데이터에 대한 예측력이 떨어지는 현상.
    - **편향-분산 상충관계**: 모델이 너무 단순하면(high bias) 데이터의 패턴을 제대로 못 잡고, 너무 복잡하면(high variance) 노이즈까지 학습해버리는 딜레마 관계. 좋은 예측 모델은 이 둘 사이의 최적의 균형점을 찾는 것을 목표로 한다.

<br>

### **시계열 분석의 고유한 원칙**

- **시계열 데이터의 주요 특징**
    - **추세 (Trend)**: 데이터가 장기적으로 상승하거나 하락하는 경향.
    - **계절성 (Seasonality)**: 특정 계절, 월, 요일 등 주기적으로 나타나는 패턴. (예: 여름철 아이스크림 판매량)
    - **자기상관 (Autocorrelation)**: 오늘의 데이터가 어제의 데이터와 관련이 있는 현상. 시계열 분석의 가장 핵심적인 특징.

- **정상성 (Stationarity)**
    - **정의**: 시계열의 통계적 특성(평균, 분산)이 시간에 따라 변하지 않는 상태. 즉, 추세나 계절성이 없는 안정적인 시계열을 의미한다.
    - **중요성**: 대부분의 전통적 시계열 모형(ARIMA 등)은 데이터가 '정상성'을 만족한다고 가정한다. 따라서, 비정상적인 데이터를 안정적인 데이터로 변환하는 전처리 과정이 매우 중요하다.
    - **변환 방법**: **차분 (Differencing)**. 현재 시점의 데이터에서 이전 시점의 데이터를 빼주는 것 Y'(t) = Y(t) - Y(t-1) 으로, 레벨(level) 데이터가 아닌 '변화량(change)' 데이터로 만들어 추세를 제거하는 가장 일반적인 방법이다.

- **자기상관함수 (ACF) 와 부분자기상관함수 (PACF)**
    - 시계열 모델(ARIMA)의 구조를 결정(몇 시차 전의 과거까지를 고려할지, p와 q를 결정)하기 위해 사용하는 핵심적인 진단 도구.
    - **ACF (Autocorrelation Function)**: 시차(lag)에 따른 자기상관을 모두 보여주는 그래프. 과거의 영향이 현재에 어떻게 '직간접적으로' 모두 합쳐져 있는지를 보여준다.
    - **PACF (Partial Autocorrelation Function)**: 다른 시차들의 영향을 모두 통제했을 때, 특정 시차의 과거 값이 현재 값에 미치는 '순수한' 영향을 보여주는 그래프.

# 17. AR (Autoregressive, 자기회귀) 모형

---

### **핵심 아이디어**
- 시계열 예측의 가장 기본적이고 직관적인 아이디어: **"미래를 예측하는 가장 좋은 정보는 바로 과거의 자기 자신이다."**
- 마치 관성이 있는 물체처럼, 시계열 데이터가 가진 **'지속성' 또는 '관성'**을 모델링한다. 즉, **"어제의 관성이 오늘에 영향을 미친다"**는 개념을 수식으로 표현한 것이다.
- (예: 어제 주가가 높았다면, 특별한 충격이 없는 한 오늘도 높을 가능성이 크다. 어제 날씨가 더웠다면, 오늘도 더울 가능성이 크다.)

<br>

### **모형과 수식 (Model and Equation)**

AR 모형은 현재 시점($t$)의 값($Y_t$)이, 자신의 과거 값들의 선형 결합으로 결정된다고 가정한다. 몇 기 전의 과거까지 볼 것인지를 나타내는 $p$를 사용하여 **$AR(p)$ 모형**이라고 부른다.

$$
Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \phi_p Y_{t-p} + \epsilon_t
$$

- $Y_t$ : 현재 시점의 값 (우리가 예측하려는 값)
- $c$ : 상수항 (시계열의 장기 평균과 관련)
- $Y_{t-1}, Y_{t-2}, \dots, Y_{t-p}$ : **시차 변수 (Lagged Variables)**. 각각 1기 전, 2기 전, ..., p기 전의 과거 값들을 의미한다.
- $\phi_1, \dots, \phi_p$ : **자기회귀 계수**. 각 과거의 값이 현재 값에 얼마나 큰 영향을 미치는지를 나타내는 가중치.
- $\epsilon_t$ : **오차항 (Error Term)**. 과거의 값만으로는 설명할 수 없는, 현재 시점에 발생한 예측 불가능한 '백색소음(white noise)' 충격.
- $p$ : **모형의 차수 (Order)**. 몇 기 전의 과거까지를 독립변수로 사용할지를 결정하는 중요한 파라미터.

<br>

### **주요 개념 및 OLS와의 관계**

- **시차 (Lag)**: $Y_{t-1}$은 $Y_t$의 '1차 시차 변수(first lag)'라고 부른다. 시계열 분석에서는 이 시차 변수를 만드는 것이 분석의 첫 단계이다.
- **정상성 (Stationarity)**: AR 모형이 안정적이고 의미 있는 예측을 하기 위해서는, 해당 시계열이 '정상성'을 만족해야 한다. (즉, 시간이 흘러도 평균과 분산이 일정한 상태를 유지해야 한다.) 만약 시계열이 불안정하다면(예: 계속 우상향하는 추세), 계수($\phi$)의 합이 1에 가까워져 예측력이 떨어지는 '단위근(unit root)' 문제를 가질 수 있다.
- **차수($p$) 결정**: 최적의 시차 $p$를 결정하는 것은 매우 중요하다. 너무 작으면 과거의 정보를 충분히 활용하지 못하고, 너무 크면 불필요한 노이즈까지 학습하게 된다(과적합). 보통 **부분자기상관함수(PACF)** 그래프를 보고, 통계적으로 유의미한 시차의 개수를 파악하여 $p$를 결정한다.
- **OLS와의 관계**: 위 수식을 잘 보면, $Y_t$를 종속변수로, $Y_{t-1}, Y_{t-2}, \dots$를 독립변수로 하는 **단순한 다중 회귀분석(OLS)**이라는 것을 알 수 있다. 즉, AR 모형은 OLS를 시계열 데이터에 맞게 응용한 버전이다.

<br>

### **사용 예시**

- **연구 질문**: "지난 분기까지의 대한민국 GDP 성장률 데이터를 이용해, 이번 분기 GDP 성장률을 예측하고 싶다."
- **논리**: GDP 성장률은 보통 강한 관성을 가진다. 경기가 한번 좋아지면 몇 분기 동안은 그 추세가 이어지고, 한번 나빠지면 그 추세가 이어지는 경향이 있다.
- **간단한 모형**: $AR(1)$ 모형
$$
\mathrm{GDP\_growth}_{t} = c + \phi_{1} \mathrm{GDP\_growth}_{t-1} + \epsilon_{t}
$$
- **해석**: 이 모형은 "이번 분기 성장률은, 지난 분기 성장률에 어떤 상수($\phi_1$)를 곱한 값과 비슷할 것이다"라고 예측하는, 매우 간단하면서도 많은 경우 꽤 효과적인 예측 모델이다.

# 18. MA (Moving Average, 이동평균) 모형

---

### **핵심 아이디어**
- AR 모형이 "미래는 과거의 관성을 따른다"고 본다면, MA 모형은 **"미래는 과거에 예측하지 못했던 '충격(shock)'들의 잔향에 의해 결정된다"**고 본다.
- 즉, 시계열 데이터에 가해진 예측 불가능한 외부 충격($\epsilon_t$)이 일시적으로 끝나는 것이 아니라, **시간차를 두고 몇 기간 동안 데이터에 계속 영향을 미치는 현상**을 모델링한다.
- (예: 갑작스러운 유가 쇼크($\epsilon_t$)가 발생하면, 그 영향이 이번 분기 GDP뿐만 아니라 다음 분기, 다다음 분기 GDP에도 연쇄적으로 영향을 미친다.)
- **주의**: 이름에 '이동평균'이 들어가지만, 단순히 데이터의 평균을 내는 기술통계의 '이동평균'과는 완전히 다른 개념이다.

<br>

### **모형과 수식 (Model and Equation)**

MA 모형은 현재 시점($t$)의 값($Y_t$)이, 현재와 과거의 예측 오차(백색소음 충격)들의 선형 결합으로 결정된다고 가정한다. 몇 기 전의 충격까지 볼 것인지를 나타내는 $q$를 사용하여 **$MA(q)$ 모형**이라고 부른다.

$$
Y_t = c + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \dots + \theta_q \epsilon_{t-q}
$$

- $Y_t$ : 현재 시점의 값
- $c$ : 시계열의 장기 평균($\mu$)
- $\epsilon_t$ : **현재 시점의 예측 불가능한 '백색소음(white noise)' 충격.** (평균이 0이고 분산이 일정한 순수한 랜덤 변수)
- $\epsilon_{t-1}, \dots, \epsilon_{t-q}$ : **과거 시점에 발생했던 충격들.**
- $\theta_1, \dots, \theta_q$ : **이동평균 계수.** 과거의 충격($\epsilon_{t-k}$)이 현재 값($Y_t$)에 얼마나 큰 영향을 미치는지를 나타내는 가중치.
- $q$ : **모형의 차수 (Order)**. 몇 기 전의 충격까지를 고려할지를 결정하는 파라미터.

<br>

### **주요 개념 및 AR과의 비교**

- **충격의 기억 (Memory of Shocks)**: MA 모형의 가장 큰 특징은 **'유한한 기억력'**을 가진다는 것이다. $MA(q)$ 모형에서는, 어떤 충격이 발생하면 그 영향이 정확히 $q$ 기간 동안만 지속되고, $(q+1)$ 기간부터는 그 영향이 **완벽하게 사라진다.** 이는 일시적인 이벤트의 단기적 파급 효과를 모델링하는 데 유용하다.
- **AR과의 차이**: $AR(1)$ 모형($Y_t = c + \phi_1 Y_{t-1} + \epsilon_t$)에서는, 하나의 충격($\epsilon_t$)이 발생하면 그 영향이 $Y_t$에 반영되고, 다시 그 $Y_t$가 $Y_{t+1}$에 영향을 주고... 하는 식으로 그 영향이 **이론적으로는 영원히(무한히) 지속**된다(점점 약해지기는 하지만).
- **차수($q$) 결정**: 최적의 시차 $q$를 결정할 때는 **자기상관함수(ACF)** 그래프를 주로 사용한다. $MA(q)$ 모형은 이론적으로 $q$ 시차 이후의 자기상관이 정확히 '0'으로 끊어지는 특징이 있기 때문이다. ACF 그래프에서 $q$ 시차 이후에 상관계수가 급격히 0으로 떨어지는 지점을 찾아 $q$를 결정한다.

<br>

### **사용 예시**

- **연구 질문**: "정부의 깜짝 재난지원금 발표(예측 불가능한 긍정적 충격)가 월별 소매 판매액에 미치는 단기적 파급 효과는?"
- **논리**: 재난지원금이라는 충격($\epsilon_t$)은 발표된 그 달의 소매 판매액($Y_t$)을 크게 증가시킬 것이다. 그리고 그 돈을 미처 다 쓰지 못한 사람들이 다음 달($t+1$)에도 소비를 이어가면서, 그 충격의 '잔향'($\epsilon_t$가 $Y_{t+1}$에 영향을 줌)이 남을 수 있다. 하지만 몇 달이 지나면 그 효과는 사라질 것이다.
- **간단한 모형**: $MA(1)$ 모형
$$
\mathrm{Sales}_{t} = c + \epsilon_{t} + \theta_{1} \epsilon_{t-1}
$$
- **해석**: 이 모형은 "이번 달 소매 판매액은, 장기 평균($c$)에 더해, 이번 달에 발생한 예측 불가능한 충격($\epsilon_t$)과, 바로 지난달에 발생했던 충격의 일정 부분($\theta_1 \epsilon_{t-1}$)을 더한 값으로 결정된다"고 설명한다.

# 19. ARIMA (Autoregressive Integrated Moving Average) 모형

---

### **핵심 아이디어**
- 이름 그대로 **AR(자기회귀) 모형, I(누적/차분), MA(이동평유) 모형** 세 가지 요소를 모두 결합한 '종합선물세트' 같은 모델이다.
- 현실의 많은 시계열 데이터(GDP, 주가 등)가 가진 복잡한 패턴을 모델링하기 위해 고안되었다.
    - **AR 부분**: 데이터 자체의 **'관성' 또는 '지속성'**을 잡아낸다. (어제의 값 → 오늘의 값)
    - **MA 부분**: 데이터에 가해지는 **'예측 불가능한 충격의 잔향'**을 잡아낸다. (어제의 충격 → 오늘의 값)
    - **I (Integrated) 부분**: 꾸준히 상승하거나 하락하는 데이터의 **'추세(trend)'**를 처리한다.

<br>

### **가장 중요한 추가 요소: I (Integrated, 누적/차분)**
- **문제점**: 대부분의 경제 시계열 데이터는 꾸준히 성장하는 '추세'를 가지고 있어 **비정상적(non-stationary)**이다. AR이나 MA 모형은 데이터가 안정적이라고 가정하므로, 이런 비정상 시계열에 직접 적용하면 잘못된 결과가 나온다.
- **해결책: 차분 (Differencing)**
    - 시계열 데이터의 현재 값에서 바로 이전 값을 빼주어(Y'_{t} = Y_{t} - Y_{t-1}), '레벨'이 아닌 **'변화량' 또는 '증가분'** 시계열로 변환하는 것.
    - 대부분의 경우, 1차 차분을 거치면 불안정했던 시계열이 안정적인 정상 시계열로 변환된다.
    - ARIMA에서 **'I'**는 바로 이 차분 작업을 수행한다는 것을 의미한다.

<br>

### **ARIMA(p, d, q) 모형의 이해**
ARIMA 모델은 세 개의 모수(parameter)로 그 구조를 정의한다.

$$
\text{ARIMA}(p, d, q)
$$

- **p: AR 모형의 차수 (Order of AR)**
    - 현재 값이 몇 기 전의 **'과거 값'**에 의해 영향을 받는지를 나타낸다.
    - **PACF(부분자기상관함수)** 그래프를 보고 결정한다.

- **d: 차분(Differencing)의 횟수 (Degree of Differencing)**
    - 비정상 시계열을 안정적인 정상 시계열로 만들기 위해 **차분을 몇 번 수행했는지**를 나타낸다.
    - 대부분의 경제 데이터는 1차 차분($d=1$)으로 정상성을 만족한다. 2차 차분($d=2$)은 매우 드물다.

- **q: MA 모형의 차수 (Order of MA)**
    - 현재 값이 몇 기 전의 **'과거 예측 오차(충격)'**에 의해 영향을 받는지를 나타낸다.
    - **ACF(자기상관함수)** 그래프를 보고 결정한다.

<br>

### **ARIMA 모델링 과정 (Box-Jenkins 방법론)**
1.  **식별 (Identification)**: 원본 시계열 데이터의 그래프를 보고, 차분이 필요한지(d) 판단한다. 차분 후 ACF와 PACF 그래프를 보고 잠정적인 p와 q 값을 정한다.
2.  **추정 (Estimation)**: 결정된 (p, d, q) 값으로 ARIMA 모델을 만들어 계수($\phi, \theta$)들을 추정한다.
3.  **진단 (Diagnostic Checking)**: 추정된 모델의 잔차(residuals)가 백색소음(white noise)의 형태를 띠는지 확인하여, 모델이 데이터를 잘 설명하는지 진단한다. 그렇지 않다면 1단계로 돌아가 p, q를 수정한다.
4.  **예측 (Forecasting)**: 완성된 모델을 사용하여 미래 값을 예측한다.

<br>

### **사용 예시**
- **연구 질문**: "과거 월별 종합 주가 지수(KOSPI) 데이터를 사용하여 다음 달 주가 지수를 예측하고 싶다."
- **논리**: 주가 지수는 보통 꾸준히 상승하는 '추세'를 가지며(비정상), 어제의 주가가 오늘에 영향을 주고(AR), 갑작스러운 경제 뉴스(충격)의 영향이 며칠간 지속(MA)되는 복합적인 특징을 가진다.
- **모형**: `ARIMA(1, 1, 1)` 모형 (가장 기본적인 형태 중 하나)
- **해석**: "주가 지수의 '차분값'(전월 대비 상승/하락분)은, 한 달 전의 '차분값'(AR(1) 부분)과 한 달 전의 '예측하지 못했던 충격'(MA(1) 부분)에 의해 결정된다"고 모델링하여 미래를 예측한다.

# 20. VAR (Vector Autoregression, 벡터 자기회귀) 모형

---

### **핵심 아이디어**
- ARIMA가 하나의 변수만 다루는 **단변량(univariate)** 분석이라면, VAR은 **여러 개의 시계열 변수들을 하나의 '시스템'으로 묶어** 동시에 분석하는 **다변량(multivariate)** 분석 방법이다.
- 시스템에 포함된 모든 변수들은 서로에게 영향을 주는 **'내생변수(endogenous variable)'**로 취급된다.
- 시스템 내의 각 변수는 자신의 과거 값(AR의 아이디어)뿐만 아니라, **시스템 내 다른 모든 변수들의 과거 값**에 의해서도 결정된다고 모델링한다.

<br>

### **언제 VAR이 유용한가?**
- 여러 경제 변수들 간의 **상호 의존적인 동태적 관계**를 파악하고 싶을 때. (예: 금리, 물가, 실업률의 관계)
- 경제 이론에 기반한 엄격한 제약을 가하지 않고, **데이터 스스로가 변수들 간의 관계를 보여주도록** 하고 싶을 때.

<br>

### **모형과 수식 (Model and Equation)**
2개의 변수($Y_t$와 $X_t$)와 1개의 시차($p=1$)를 갖는 $VAR(1)$ 모형은 다음과 같은 연립방정식 시스템으로 표현된다.

$$
\begin{align*}
Y_{t} &= c_{1} + \alpha_{11}Y_{t-1} + \alpha_{12}X_{t-1} + \epsilon_{1t} \\
X_{t} &= c_{2} + \alpha_{21}Y_{t-1} + \alpha_{22}X_{t-1} + \epsilon_{2t}
\end{align*}
$$

- 위 시스템의 첫 번째 식은 $Y_{t}$가 자신의 과거($Y_{t-1}$)와 다른 변수의 과거($X_{t-1}$)에 의해 어떻게 결정되는지를 보여준다.
- 두 번째 식은 $X_{t}$가 $Y_{t-1}$와 $X_{t-1}$에 의해 어떻게 결정되는지를 보여준다.
- 이 시스템의 각 방정식은 그 자체로 하나의 **OLS 회귀식**이다. 즉, VAR 모형은 여러 개의 다중 회귀분석을 동시에 추정하는 것과 같다.

<br>

### **VAR 모형의 진정한 가치: 예측을 넘어서**
VAR 모형은 개별 변수들의 미래를 예측하는 데에도 사용되지만, 진정한 가치는 시스템 전체의 동태적 특성을 분석하는 다음 두 가지 도구에서 나온다.

1.  **충격반응함수 (Impulse Response Function, IRF)**
    - **핵심 질문**: "시스템 내의 한 변수에 외부의 **예기치 못한 '충격(shock)'**($\epsilon$)이 발생했을 때, 그 영향이 시스템 내 다른 변수들에게 **시간에 따라 어떻게 파급되는가?**"
    - **분석 예시**: "중앙은행이 금리를 예기치 않게 1%p 인상하는 충격($\epsilon_{\text{금리}}$)을 주면, 앞으로 GDP와 물가는 몇 분기에 걸쳐 어떻게 반응할까?"

2.  **분산 분해 (Variance Decomposition)**
    - **핵심 질문**: "각 변수의 미래 움직임(예측 오차의 분산)은, **어떤 변수로부터 발생한 충격에 의해 주로 설명되는가?**"
    - **분석 예시**: "향후 10분기 동안 대한민국 GDP 변동성의 70%는 GDP 자체의 충격 때문이지만, 20%는 금리 충격, 10%는 환율 충격 때문이다."

<br>

### **한계 및 고려사항**
- **무이론적**: 데이터에 기반한다는 장점이 있지만, 때로는 경제학적 해석이 어려운 결과를 내놓기도 한다.
- **차원의 저주 (Curse of Dimensionality)**: 변수나 시차($p$)의 수가 늘어날수록 추정해야 할 계수(parameter)의 수가 기하급수적으로 늘어나, 모델의 정확성이 떨어질 수 있다.
- **충격의 식별 문제**: 충격반응함수를 제대로 해석하기 위해서는, 서로 상관되어 있는 오차항들($\epsilon_{1t}, \epsilon_{2t}$)로부터 경제학적 의미를 갖는 '구조적 충격(structural shock)'을 식별해내는 별도의 과정이 필요하다.

# 21. 단위근과 공적분 (Unit Root and Cointegration)

---

### **1. 불안정 시계열과 단위근 (Non-stationary Time Series & Unit Root)**

- **불안정 시계열**: GDP나 주가지수처럼, 시간이 지남에 따라 평균이나 분산이 변하고, **장기적으로 돌아오려는 '평균'이 없는** 시계열. 마치 '랜덤 워크(random walk)'처럼 어디로 튈지 모른다.
- **단위근 (Unit Root)**: 시계열이 '불안정'하다는 것을 나타내는 통계적 용어. $AR(1)$ 모형($Y_t = \phi_1 Y_{t-1} + \epsilon_t$)에서 계수 $\phi_1$이 **정확히 1**인 경우를 의미한다. 이 경우, 어제의 충격($\epsilon_{t-1}$)이 오늘의 $Y_t$에 100% 그대로 전달되어, 그 효과가 영원히 사라지지 않고 데이터 안에 축적된다.
- **단위근 검정 (Unit Root Test)**: 주어진 시계열에 단위근이 존재하는지(불안정한지)를 검정하는 절차. (예: Dickey-Fuller Test)

<br>

### **2. 허구적 회귀 (Spurious Regression)**

- **가장 큰 문제**: 서로 아무런 인과관계가 없는 **두 개의 불안정 시계열(단위근을 가진 시계열)**을 가지고 회귀분석(OLS)을 하면, 매우 높은 확률로 둘 사이에 **의미 있는 관계가 있는 것처럼 잘못된 결과**가 나온다. (R-squared가 높고, t-값이 매우 유의하게 나옴)
- **예시**: "한국의 쌀 생산량(우상향 추세)"과 "미국 프로야구 선수들의 평균 연봉(우상향 추세)"을 회귀분석하면, 둘 사이에 매우 강한 양의 관계가 있는 것처럼 보일 것이다. 하지만 이는 아무런 인과관계가 없는, 그저 각자의 '추세' 때문에 발생하는 통계적 착각일 뿐이다.
- **결론**: 시계열 데이터를 분석할 때는, 허구적 회귀의 함정에 빠지지 않기 위해 반드시 변수들의 '안정성(stationarity)'을 먼저 검토해야 한다.

<br>

### **3. 공적분 (Cointegration)**

- **핵심 아이디어**: **"두 변수가 각각 장기적인 추세를 가진 술 취한 사람처럼 비틀거리며 걷고 있지만(불안정 시계열), 둘의 손목이 보이지 않는 '수갑'으로 묶여 있어, 장기적으로는 서로 멀리 떨어지지 않고 안정적인 관계를 유지하는 현상."**
- **정의**: 두 개 이상의 불안정 시계열 변수($Y_t$, $X_t$)들이 각각 단위근을 가지고 있더라도, 이들의 **특정한 선형 조합**($Y_t - \beta X_t$)이 **안정적인(stationary) 시계열**이 될 때, 이 변수들은 **'공적분 관계에 있다'**고 말한다.
- **의미**: 두 변수 사이에 **장기적인 균형(long-run equilibrium)** 관계가 존재함을 의미한다. 단기적으로는 이 균형에서 벗어날 수 있지만, 장기적으로는 항상 그 균형 상태로 되돌아오려는 힘이 작용한다.

<br>

### **공적분 검정과 오차수정모형(VECM)**

- **공적분 검정 (Cointegration Test)**: 변수들 사이에 공적분 관계가 존재하는지를 통계적으로 검정하는 절차.
    - **Engle-Granger 2단계 검정법 (직관적)**:
        1. $Y_t$를 $X_t$에 OLS 회귀분석하여 잔차($\hat{u}_t = Y_t - \hat{\beta}X_t$)를 구한다.
        2. 이 잔차($\hat{u}_t$)에 대해 단위근 검정을 실시한다.
        3. 만약 잔차가 안정적(no unit root)이라면, 두 변수는 공적분 관계에 있다고 결론 내린다. (두 변수 사이의 '거리'인 잔차가 안정적이라는 의미)
- **오차수정모형 (Vector Error Correction Model, VECM)**:
    - 변수들 사이에 공적분 관계가 존재할 때 사용하는, **VAR 모형의 특별한 형태**.
    - VECM은 각 변수의 과거 값들(VAR의 요소)뿐만 아니라, **과거 시점에서 '장기 균형'으로부터 얼마나 벗어나 있었는지를 나타내는 '오차수정항(error correction term)'**을 추가로 포함한다.
    - 이 오차수정항은 변수들이 장기 균형 관계로 다시 되돌아가도록 '수정'하는 역할을 모델링한다.

# 22. 구조적 VAR (Structural VAR, SVAR) 모형

---

### **핵심 아이디어**
- 우리가 이전에 배운 VAR 모형(축약형 VAR)은 변수들 간의 통계적 상관관계만을 보여줄 뿐, 그 관계의 근본적인 **'경제학적 원인'**을 직접적으로 알려주지는 못한다.
- **구조적 VAR(SVAR)**은 **경제 이론**에 기반한 **'식별 제약(identifying restrictions)'**을 추가하여, 축약형 VAR의 예측 오차로부터 경제학적으로 의미 있는 **'구조적 충격(structural shocks)'**을 추출해내는 방법론이다.
- **비유**: 병원에서 환자의 여러 증상(데이터)을 관찰하는 것이 '축약형 VAR'이라면, 의학 지식(경제 이론)을 동원하여 "이 증상들은 '바이러스 감염'이라는 근본 원인 때문에 발생했다"고 원인을 규명하는 과정이 바로 '구조적 VAR'이다.

<br>

### **무엇이 문제인가?: 충격의 식별 문제 (The Identification Problem)**
- 축약형 VAR 모델의 각 방정식에서 나온 오차항($\epsilon_{Yt}, \epsilon_{Xt}$)들은 서로 상관되어 있는 경우가 많다.
- 예를 들어, '물가 오차항'과 '금리 오차항'이 동시에 양(+)의 값을 가졌을 때, 이것이 "예상치 못한 수요 증가로 인해 물가와 금리가 모두 올랐는지", 아니면 "중앙은행이 예상치 못하게 긴축 정책을 펴서 금리가 오르고, 이것이 물가에 영향을 미쳤는지"를 구분할 수 없다.
- 즉, 우리가 데이터에서 관찰하는 오차항($\epsilon$)은 여러 근본적인 경제 충격들이 뒤섞여 있는 **'혼합물'**과 같다. SVAR의 목표는 이 혼합물에서 의미 있는 단일 성분(구조적 충격)을 분리해내는 것이다.

<br>

### **SVAR의 해법: 식별 제약 (Identifying Restrictions)**
구조적 충격을 식별하기 위해, 연구자는 '경제 이론'에 기반한 가정을 모델에 부과해야 한다. 가장 대표적인 제약 방식은 다음과 같다.

1.  **단기 제약 (Short-run Restrictions)**: **촐레스키 분해 (Cholesky Decomposition)**
    - **가장 널리 쓰이는 고전적인 방법.**
    - **가정**: 변수들 사이에 **'동시적인(contemporaneous)' 인과관계 순서**가 존재한다고 가정한다.
    - **예시 (거시경제)**:
        1.  가장 외생적인 변수(예: 유가)는 다른 변수에 동시적으로 영향을 받지 않는다.
        2.  두 번째 변수(예: GDP)는 유가에는 동시적으로 영향을 받지만, 금리에는 받지 않는다.
        3.  세 번째 변수(예: 금리)는 유가와 GDP에 모두 동시적으로 영향을 받는다.
    - 이처럼 변수들의 '서열'을 정해주면, 수학적으로 구조적 충격을 유일하게 식별해낼 수 있다.
    - **한계**: 이 '서열' 가정의 타당성은 전적으로 연구자의 경제 이론과 논리에 달려있어, 순서가 바뀌면 결과도 달라질 수 있다.

2.  **장기 제약 (Long-run Restrictions)**:
    - **가정**: 특정 구조적 충격은 **장기적으로** 특정 변수에 영향을 미치지 못한다는 경제 이론을 활용한다.
    - **예시 (화폐의 장기 중립성)**: "통화 정책 충격(돈을 푸는 것)은 장기적으로 실질 GDP에 아무런 영향을 미치지 못한다"는 고전적인 거시경제 이론을 제약으로 사용한다.

<br>

### **SVAR의 최종 목표: 의미 있는 경제 분석**
- 성공적으로 구조적 충격을 식별하고