# ARIMA
## Components of ARIAM
1. AR - AutoRegression(자기회귀 모델)
2. I - Integrated (통합)
3. MA - Moving Average(이동평균 모델)

### AR
AR은 변화하는 관심 변수, 즉 우리가 예측하려는 새로운 미래의 y값이 데이터 자체의 lag된 값 즉, 이전의 값으로 회귀한다는 것을 의미  
${\displaystyle y_{t} = c + \phi_{1}y_{t-1} + \phi_{2}y_{t-2} + \dots + \phi_{p}y_{t-p} + \varepsilon_{t}}$   
$\phi_{1}, \phi_{2}$와 같은 이전(lag된)값의 계수을 가지고 얼마나 많은 지연을 고려해야 되는지를 결정해야 한다.  

### MR
MR 성분은 회귀 오차가 실제로 오차 항들의 선형 조합임을 나타냄  
오차 항들의 이 선형 조합은 과거의 다양한 시간에 동시적으로 발생한 오차 항 값들의 조합  
지연된 관찰 값에 적용된 이동평균 모델에서 나온 관찰 값과 잔여 오차 사이의 의존성을 이용함  
그래서 Pandas의 이동평균을 plot으로 나타날 때 시계열에서 noise를 'smoothing'했다는 걸 기억한다.  
그러면 그건 실제 값들과 그런 평탄화된 이동평균 값의 차이가 될 것이다.  
이 오차를 이용하여 또 다른 단순화된 회귀모델을 구성할 수 있다.  
$\epsilon_t + \theta_1\epsilon_{t-1}+ \cdots+\theta_q\epsilon_{t-q}$  
$\epsilon$: 잔차항  
역시 MA를 구축하기 위해 이동평균모델에서 얼마나 많은 지연을 해야 할지를 결정해야 한다. 
이 MA에 대한 또 다른 차수를 선택할 수 있는데 이는 일반화된 버전이다.  
우리가 결정해야 할 매개변수는 q이다.

### Integrated
I는 값과 이전 값의 차이로 데이터 값이 대체되었음을 나타냄 $\rightarrow$ 차분
즉, 정상 상태를 얻어서 AR과 MA가 함께 작동하도록 하기 위해서 몇개의 차분을 가져야 하느냐는 것

## Non-seasonal ARIMA
비계절성 ARIMA 모델은 일반적으로 ARIMA(p,d,q)라고 표기한다. 
p, d, q는 음수가 아닌 정수  
p = AR 모델의 차수  
d = 데이터의 차분 횟수  
q = MR 모델의 차수

ARMA($p^\prime$, $q$)는 다음과 같이 정의된다.  
$\underbrace{X_t - \alpha_1X_{t-1}-\cdots-\alpha_{p^\prime}X_{t-p^\prime}}_{AR}=\underbrace{\epsilon_t+\theta_1\epsilon_{t-1}+\cdots+\theta_q\epsilon_{t-q}}_{MR}$  
$X_t=$시계열 데이터  
$t=$ 인덱스  
$\alpha=$ AR 모델의 매개변수  
좌변 = AR에서 우리가 원하는 차수 p를 선택해야 하고, 이전 지연 값을 기초로 한 실제 회귀 모델  
우변 = $\epsilon_t$는 오차항이고 $\theta$는 MA 모델의 매개변수들

위의 식을 수학적 표현을 이용해서 간단히 표기하면 다음과 같이 정의할 수 있다.  
${\displaystyle \underbrace{\left( 1-\sum_{i=1}^{p^{\prime}}\alpha_iL^i\right)X_t}_{AR} = \underbrace{\left( 1+\sum_{i=1}^q\theta_iL^i\right)\epsilon_t}_{MA}}$  
$L= $지연 연산자  

ARIMA($p^{\prime}$, $d$, $q$)는 다음과 같이 정의한다.  
${\displaystyle\left( 1-\sum_{i=1}^{p^{\prime}}\phi_iL^i\right)(1-L)^dX_t = \left( 1+\sum_{i=1}^q\theta_iL^i\right)\epsilon_t}$   
$I$의 구성요소는 $1-L$, 즉 지연 연산자의 d 제곱이 된다. $\rightarrow$ 차분을 나타내는 수학적 표현

즉, ARIMA 모델은 잔여오차를 기반으로 한 자기회귀 모델과 이동평균 모델와 이 두 모델을 stationary하게 만드는 차분이 합쳐진 모델이다.  
ARIMA 모델을 적용시키기 위해 해야할 일은 p(AR 모델의 차수), d(MA 모델의 차수), p(차분의 횟수)를 구해야 한다.

# Choosing ARIMA Orders
ARIMA 모델의 p,d,q를 구하는 가장 고전적인 방식은 ACF, PACF plot을 읽는 방법이다.  
맨 처음 지역, 즉 lag-1에서 자기상관 plot이 양의 자기상관을 나타내면 이는 지연과 관련하여 실제로 AR 항을 포함시키고 사용함을 암시한다.  
만일 첫 번째 지연에서 음의 자기상관을 나타내는 자기상관 plot이라면, MA항을 사용해야 한다.  
p는 모델의 AR에 포함된 관찰 값의 개수였고 d는 원 관찰값들이 차분된 횟수였으며 q는 이동평균의 window의 크기였다.(MA의 차수)  
![image](https://user-images.githubusercontent.com/70187490/152482727-8b1d468a-a927-4cce-a9ce-3e496e2148c9.png)

통상적으로 지연 k 뒤에 가파르게 하강한다. 이러한 가파르게 하강하는 지연을 세면서 AR의 차수인 k를 사용해야 한다라는 것을 알 수 있다.  
만약 점진적으로 감소한다면, MA 모델을 사용해야 한다.  
AR 모델은 부분 자기상관 함수로 가장 잘 식별이 가능하며, MA 모델은 자기상관 함수로 가장 잘 식별할 수 있다.  

<br>

하지만 일반적인 상황에선 ACF와 PACF를 읽는 것이 쉽지 않을 수 있다.  
그래서 다양한 p, d, q 값들의 조합에 대해서 GridSearch를 사용하는 것이 효과적이며 일반적이다.  
그러한 결과로 나온 AIC값을 평가 기준으로 해서 어떤 모델이 가장 성능이 비교한다.

<br>

pmdarima 라이브러리는 AIC를 평가 기준으로 사용해서 다양한 ARIMA 모델들의 성능을 비교한다.  
AIC 정보 기준을 사용한 이유는 간단한 모델에 비해 유의미한 개선사항이 없으면 매우 높은 차수의 모델에 벌점을 주기 때문  
그렇게 해서 훈련 데이터의 오버피팅을 방지하게 된다.  
AIC의 방정식은 다음과 같다.  
$\text{AIC}=2k-2\ln(\hat L)$  
$k$를 모델에서 예측된 매개변수의 개수라고 하고, $L$을 모델의 우도 함수의 최댓값이다.

In [6]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Load a non-stationary dataset
df1 = pd.read_csv('../Data/airline_passengers.csv',
                 index_col='Month',
                 parse_dates=True)
df1.index.freq = 'MS'

# load a stationary dataset
df2 = pd.read_csv('../Data/DailyTotalFemaleBirths.csv',
                 index_col='Date',
                 parse_dates=True)
df2.index.freq = 'D'

In [7]:
from pmdarima import auto_arima

stepwise_fit = auto_arima(df2['Births'], start_p=0, start_q=0, max_p=6, max_q=3, seasonal=False, trace=True) 
# start_p = 0: AR 성분이 없다는 뜻
# max_p (or q): 상한값을 설정
# seasonal: 데이터에 계절성이 있냐 없냐
# trace: auto_arima가 피팅하려고 하는 첫 몇 개의 ARIMA를 출력해줌
# auto_arima는 자동적으로 gridsearch 기능을 지원하며 AIC를 기준으로 early stop기능까지도 지원한다.

Fit ARIMA: order=(0, 1, 0); AIC=2650.760, BIC=2658.555, Fit time=0.125 seconds
Fit ARIMA: order=(1, 1, 0); AIC=2565.234, BIC=2576.925, Fit time=0.121 seconds
Fit ARIMA: order=(0, 1, 1); AIC=2463.584, BIC=2475.275, Fit time=0.191 seconds
Fit ARIMA: order=(1, 1, 1); AIC=2460.154, BIC=2475.742, Fit time=25.511 seconds
Fit ARIMA: order=(1, 1, 2); AIC=2460.515, BIC=2480.000, Fit time=34.275 seconds
Fit ARIMA: order=(2, 1, 2); AIC=2461.879, BIC=2485.262, Fit time=38.351 seconds
Fit ARIMA: order=(2, 1, 1); AIC=2461.271, BIC=2480.757, Fit time=32.371 seconds
Total fit time: 130.949 seconds


In [8]:
stepwise_fit.summary()
# summary를 호출함으로써 가장 성능이 좋은 모델에 대한 report를 출력한다.


0,1,2,3
Dep. Variable:,D.y,No. Observations:,364.0
Model:,"ARIMA(1, 1, 1)",Log Likelihood,-1226.077
Method:,css-mle,S.D. of innovations,7.0
Date:,"Fri, 04 Feb 2022",AIC,2460.154
Time:,16:01:00,BIC,2475.742
Sample:,1,HQIC,2466.35
,,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
const,0.0152,0.014,1.068,0.286,-0.013,0.043
ar.L1.D.y,0.1299,0.056,2.334,0.020,0.021,0.239
ma.L1.D.y,-0.9694,0.019,-51.415,0.000,-1.006,-0.932

0,1,2,3,4
,Real,Imaginary,Modulus,Frequency
AR.1,7.6996,+0.0000j,7.6996,0.0000
MA.1,1.0316,+0.0000j,1.0316,0.0000


In [9]:
stepwise_fit = auto_arima(df1['Thousands of Passengers'], start_p=0, start_q=0, max_p=4, max_q=4, 
                          seasonal=True, trace=True, m=12)
# m: 계절당 기간의 개수
## 분기 데이터라면 m이 4가 될것이며 월간 데이터라면 12가 될걸이며 연간 데이터면 1이다.(연간 데이터가 1이라면 seasonal data가 아니라는 말이다.)

Fit ARIMA: order=(0, 1, 0) seasonal_order=(1, 0, 1, 12); AIC=nan, BIC=nan, Fit time=nan seconds
Fit ARIMA: order=(0, 1, 0) seasonal_order=(0, 0, 0, 12); AIC=1415.278, BIC=1421.203, Fit time=0.184 seconds
Fit ARIMA: order=(1, 1, 0) seasonal_order=(1, 0, 0, 12); AIC=nan, BIC=nan, Fit time=nan seconds
Fit ARIMA: order=(0, 1, 1) seasonal_order=(0, 0, 1, 12); AIC=1299.259, BIC=1311.110, Fit time=1.283 seconds
Fit ARIMA: order=(0, 1, 1) seasonal_order=(1, 0, 1, 12); AIC=nan, BIC=nan, Fit time=nan seconds
Fit ARIMA: order=(0, 1, 1) seasonal_order=(0, 0, 0, 12); AIC=1398.827, BIC=1407.716, Fit time=0.831 seconds
Fit ARIMA: order=(0, 1, 1) seasonal_order=(0, 0, 2, 12); AIC=nan, BIC=nan, Fit time=nan seconds
Fit ARIMA: order=(0, 1, 1) seasonal_order=(1, 0, 2, 12); AIC=nan, BIC=nan, Fit time=nan seconds
Fit ARIMA: order=(1, 1, 1) seasonal_order=(0, 0, 1, 12); AIC=1301.228, BIC=1316.042, Fit time=1.764 seconds
Fit ARIMA: order=(0, 1, 0) seasonal_order=(0, 0, 1, 12); AIC=1304.383, BIC=1313.271, Fit

In [10]:
stepwise_fit.summary()

0,1,2,3
Dep. Variable:,y,No. Observations:,144.0
Model:,"SARIMAX(2, 1, 2)x(0, 0, 1, 12)",Log Likelihood,-626.801
Date:,"Fri, 04 Feb 2022",AIC,1267.601
Time:,16:08:09,BIC,1288.341
Sample:,0,HQIC,1276.029
,- 144,,
Covariance Type:,opg,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
intercept,0.7024,0.168,4.169,0.000,0.372,1.033
ar.L1,1.4368,0.109,13.169,0.000,1.223,1.651
ar.L2,-0.7066,0.080,-8.815,0.000,-0.864,-0.549
ma.L1,-1.4832,0.174,-8.524,0.000,-1.824,-1.142
ma.L2,0.5033,0.175,2.877,0.004,0.160,0.846
ma.S.L12,0.7444,0.077,9.730,0.000,0.594,0.894
sigma2,345.6775,37.222,9.287,0.000,272.723,418.631

0,1,2,3
Ljung-Box (Q):,164.01,Jarque-Bera (JB):,10.84
Prob(Q):,0.0,Prob(JB):,0.0
Heteroskedasticity (H):,5.46,Skew:,0.46
Prob(H) (two-sided):,0.0,Kurtosis:,3.98
