# ch 3. ARIMA

이번 챕터에서는 본격적으로 시계열 예측 모델들에 대해서 배웁니다. 그 중에서도 ARIMA는 가장 기본적인 시계열 예측 모델입니다.

## 데이터 셋 준비

과적합 여부 파악과 성능 평가를 위해 특정 시점을 기준으로 train과 test 셋을 나누겠습니다.

## ARIMA

ARIMA 모델은 가장 기본적인 시계열 예측 모델이며 크게 세가지 구성 요소로 이루어져 있습니다. 

- AR(Auto Regression): 현재 관측값과 이전 기간의 관측값 사이의 종속 관계를 활용하는 회귀 모델입니다.
- I(Integration):  시계열을 고정시키기 위해 관측치 차분을 사용합니다. 미분은 시계열의 현재 값에서 이전 값 d 횟수를 빼는 것을 포함합니다.
- MA(Moving Average): 잔차 오차와 관측치 간의 종속성을 사용하는 모델입니다. 이동 평균 성분은 모델의 오차를 이전 오차 항의 조합으로 나타냅니다.

ARIMA 모델을 학습시키기 위해서는 p, d, q 세가지 파라미터를 결정해야 하며, 이를 위해선 각 구성 요소들이 어떻게 동작하는지 이해해야 합니다.

### Auto Regressive

이전 시점의 값들을 feature로 사용하여 다음에 올 값을 예측하는 회귀 모델입니다. 스스로를 feature로 사용하기 때문에 auto regressive 모델이라고 부릅니다. 

$$Y_{t}=\alpha+\beta_{1}Y_{t-1}+\beta_{t-2}+...+\beta_{p}Y_{t-p}+\epsilon_{t}$$

여기서 몇번째 lag 까지를 회귀식에 포함할 지를 의미하는 p가 ARIMA 모델을 학습시키기 위해 필요한 첫번째 파라미터입니다.

간단하게 AR 모델을 학습시켜보고, 시각화해보겠습니다.

예측 결과가 얼마나 정확한지 오차를 측정해보겠습니다.

### Moving Average

ARIMA 모델에서 등장하는 moving average는 이전에 직접 구해보았던 이동 평균과는 다른 개념입니다. 이는 auto regressive 모델의 예측값과 실제 값 사이의 오차를 feature로 사용하는 회귀 모델입니다. 앞서 학습시킨 auto regressive의 예측값과 실제 값 사이에 오차항을 확인해보겠습니다.

Moving Average는 AR 모델의 오차항들을 feature로 사용해서 예측을 하는 모델입니다. 이 때, 현재 시점으로부터 몇번째 전의 오차항까지 볼 것인지를 결정하는 파라미터가 q입니다. 

$$Y_{t}=\alpha+\epsilon_{t}+\phi_{1}\epsilon_{t-1}+\phi_{2}\epsilon_{t-2}+...+\phi_{q}\epsilon_{t-q}$$

$$\epsilon_{t}=Y_{t}-\hat{Y}_{t}$$

Moving Average 모델은 Auto Regressive 모델을 필요로 하기에, 단독으로 사용되지 않고, ARMA나 ARIMA 모델에서 AR 모델과 결합된 형태로 사용됩니다.

### ARMA

ARMA 모델은 AR 모델과 MA 모델을 단순 결합시킨 모델입니다. 이는 과거 시점의 데이터와 auto regressive 모델의 오차항을 독립 변수로 사용하는 회귀 모델입니다. 수식으로 표현하면 아래와 같습니다.

$$Y_{t}=\alpha+\beta_{1}Y_{t-1}+\beta_{t-2}Y_{t-2}+...+\beta_{p}Y_{t-p}+\epsilon_{t} +\phi_{1}\epsilon_{t-1}+\phi_{2}\epsilon_{t-2}+...+\phi_{q}\epsilon_{t-q}$$ 

이는 statsmodels에서 별도로 클래스로 제공하는 것은 없고, ARIMA 모델 생성시에 전달하는 차분 파라미터 d를 0으로 설정하면 학습시킬 수 있습니다.

### ARIMA

드디어 오늘의 주인공 ARIMA입니다. ARIMA는 차분을 적용하여 정상성을 확보한 데이터에 ARMA 모델을 학습시킨 모델입니다.

- AR: auto regressive (p)
- I: integrated (d)
- MA: Moving Average (q)

ARIMA 모델을 학습시키기 위해서는 p, q, d 세 파라미터가 필요합니다. 

- p: auto regressive 모델이 몇 lag 까지를 모델에 포함시킬 것인가
- d: 차분을 몇번 적용할 것인가
- q: moving average 모델이 몇 lag 까지를 모델에 포함시킬 것인가

여기서는 간단하게 임의의 파라미터를 지정해서 ARIMA를 학습시켜보고 결과를 시각화해보겠습니다.

AR 모델과 ARIMA 모델의 성능을 측정해보겠습니다.

## 정리

이번 챕터에서는 기본적인 시계열 예측 모델인 ARIMA에 대해서 배워보았습니다. 그리고 ARIMA 모델을 학습시키기 위해서 필요한 파라미터 p, d, q에 대해서 알아보았고, 임의의 파라미터를 지정해서 모델을 학습시키고 결과를 확인해보았습니다. p, d, q 파라미터를 결정하기 위해서는 ACF, PACF 플랏을 보고, 복잡한 규칙을 적용해서 결정해야 합니다만, 생략하겠습니다.

ARIMA를 발전시킨 ARIMA 계열의 알고리즘들도 많이 존재합니다.
- SARIMA: 계절성을 반영한 ARIMA
- SARIMAX: 계절성과 외생 변수를 함께 고려한 ARIMA
- VAR: 여러 시계열 데이터를 한번에 고려한 ARIMA
- VARX: 여러 시계열 데이터와 외생변수를 고려한 ARIMA

그러나 이론들이 지나치게 복잡하고, 파라미터의 영향을 많이 받으며, 파라미터의 설정이 까다로워서 활용도가 높지 않습니다. (그리고 무엇보다 잘 안맞습니다 ㅎㅎ) 때문에 ARIMA 계열 알고리즘들을 더 깊게파기 보다는, 메타에서 새롭게 공개한 prophet 라이브러리를 익혀보고자 합니다.