## 시계열 분석 개념
- 시계열 데이터를 통해 시간의 흐름에 따른 종속변수의 변화를 예측하는 것으로 주가, 환율, 원별 재고량 등이 시계열 자료에 해당된다.
- 회귀분석은 변수 간의 독립성을 전제로 분석을 하지만 시계열 분석은 변수 간의 자기상관성을 전제로 한다는 것이 가장 큰 차이이며 회귀분석의 경우 순서에 영향을 받지 않지만 시계열 분석은 데이터의 순서가 매우 중요하다.
- 정상 시계열 분석과 비정상 시계열 분석으로 구분. 정상성 조건을 모두 만족시키면 정상 시계열, 정상성 조건을 하나라도 만족하지 못하면 비정상 시계열이라 한다.
- 시계열 분석에서 대부분의 자료는 비정상 시계열 자료이므로 이를 정상시계열로 변환한 후에 분석을 수행한다.
- 정상시계열은 추세성, 계절성 등의 패턴을 보이지 않으며 자료의 변화 폭이 일정하고 시간의 흐름에 따라 자기 상관성이 상이하지 않다는 특징을 가지게 된다.
  [정상성의 조건]  
  - 시계열의 평균이 시간에 따라서 일정하다.
  - 분산이 시점에 의존하지 않고 일정하다.
  - 시점간의 공분산이 특정 시점에 의존하지 않고 오직 시차에만 의존한다. 즉 t 시점과 t-1 시점의 공분산은 t 시점과 t+1 시점의 공분산과 같다는 것을 의미한다.
- 평균이 일정하지 않은 경우에는 현시점 자료에서 이전 시점 자료를 빼는 차분을 통해 정상 시계열화할 수 있다.
- 시계열 데이터가 계절성을 가지는 경우에는 현시점 자료에서 여러 시점 전의 자료를 빼는 계절차분을 이용한다.
- 분산이 일정하지 않은 경우에는 변환을 통해 정상 시계열화할 수 있다.  
- 시계열은 추세요인, 계절요인, 순환요인, 불규칙요인으로 구성되며 이들 요인이 복잡하게 혼합되어 하나의 시계열 데이터를 구성한다. 분석목적에 따라 특정요인만을 분리해 분석하거나 제거하는 작업을 하게 되는데 이를 분해시계열이라고 한다.
[시계열의 구성요소]  
  - 추세요인 : 인구의 증가, 기술의 변화 등과 같은 요인에 의해 장기간 일정한 방향으로 상승 또는 하락하는 경향을 보이는 요인으로 급격한 충격이 없는 한 지속되는 특징이 있다.
  - 순환요인 : 정확히 알려진 이유가 없고 주기가 일정하지 않은 변동을 순환요인이라고 한다. 보통 추세선을 따라 상하로 반복 운동하는 형태로 나타난다.
  - 계절요인 : 요일별, 월별, 분기별, 계절별 일정한 주기를 가지는 상하 반복의 규칙적인 변동을 계절변동이라 한다. 매년 같은 시기에 유사한 패턴으로 나타나므로 예측하기가 상대적으로 쉬우며 순환요인보다 주기가 짧은 것이 특징이다.
  - 불규칙요인 : 위의 세가지 요인으로 설명하지 못하는 오차에 해당하는 요인으로 어떠한 규칙성 없이 우연히 발생하는 예측 불가능한 변동이다.   

#### 시계열 분석(Time series analysis) 기법
- 평활법 : 자료에 내재된 불규칙적인 변동이나 계절성을 제거하여 시계열 그림을 조금 더 평탄한 형태로 만드는 방법으로 이동평균법과 지수평활법 등이 있다.
 - 이동평균법 : 시계열 데이터을 일정 기간별로 자료를 묶어 평균을 구하는 방법
 - 지수평활법 : 최근 자료가 과거 자료보다 예측에 효과적이라는 가정하에 최근 데이터일수록 큰 가중치 부여하는 방식을 사용해 평균을 계산. m기간의 평균을 계산하는 이동평균법과 달리 지수평활법은 전체 시계열 데이터를 사용해 평균을 구한다는 특징이 있다.
- 분해법 : 시계열 데이터에서 추세, 순환, 계절, 불규칙 요인을 분리하는 방법이다.
 - 가법모형 : 시계열 데이터(Y) = 추세요인(T) + 순환요인(C) + 계절요인(S) + 불규칙요인(I)
 - 승법모형 : 시계열 데이터(Y) = 추세요인(T) * 순환요인(C) * 계절요인(S) * 불규칙요인(I)
#### 시계열 모형
- ARIMA는 Autoregressive Integrated Moving Average의 약자로, Autoregressive는 자기회귀모형을 의미하고, Moving Average는 이동평균모형을 의미
 - AR: 자기회귀(Autoregression). 변수들의 자기상관성을 기반으로 한 시계열 모형으로 현시점의 자료를 p 시점 전의 과거 자료를 통해 설명할 수 있는 모델이다. 즉 과거 데이터의 자기 상관성을 분석해 시계열의 특성을 분석한다. 자기 자신의 과거 값이 이후 자신의 값에 영향을 주기 때문에 자기회귀모형이라고 하며 AR(p) 모형이라고도 한다. AR 모형에서는 몇 시점 전의 데이터가 현시점의 데이터에 영향을 주는지를 알아야 하며 현시점의 데이터가 1 시점 전의 데이터에만 영향을 받는다면 AR(1) 모형이라고 한다. 
 - I: Intgrated. 누적을 의미하는 것으로, 차분을 이용하는 시계열모형들에 붙이는 표현이라고 생각하면 편하다
 - MA: 이동평균(Moving Average). 관측값이 이전의 연속적인 오차항의 영향을 받는다는 모형이다. 즉 이동평균 과정으로 현재 데이터가 과거 백색잡음의 선형 가중합으로 구성된다는 모형이다. 백색잡음 과정은 서로 독립이고 평균이 0인 확률변수이므로 항상 정상성을 만족한다는 특징이 있으며 이들의 선형 결합으로 구성된 MA 모형 또한 항상 정상성을 만족하므로 이동평균모형은 정상성 가정이 필요없는 모델이다.  
- ARIMA는 자기회귀와 이동평균을 둘 다 고려하는 모형인데, ARMA와 ARIMA의 차이점은 ARIMA의 경우 시계열의 비정상성(Non-stationary)을 설명하기 위해 관측치간의 차분(Diffrance)을 사용한다는 차이점
 - 현실에 존재하는 시계열자료는 불안정(Non-stationary)한 경우가 많다. 그런데 AR(p), MA(q) 모형이나, 이 둘을 합한 ARMA(p, q)모형으로는 이러한 불안정성을 설명할 수가 없다. 따라서 모형 그 자체에 이러한 비정상성을 제거하는 과정을 포함한것이 ARIMA모형이며 ARIMA(p, d, q)로 표현

#### ARIMA(Autoregressvie integrated MovingAverage)

- AR(자기상관) : 이전의 값이 이후의 값에 영향을 미치고 있는 상황 
 * AR(1) : Xt = theta * Xt-1 + epsilont
 * 제일 기본적인 AR(1) 식으로, theta는 자기상관계수, epsilon은 white noise이다. Time lag은 1이 될수도 있고 그 이상이 될 수도 있다
- MA(이동평균) : 랜덤 변수의 평균값이 지속적으로 증가하거나 감소하는 추세 #
 * MA(1) : Xt = epsilont - beta * epsilont-1
 * 가장 기본적인 MA(1) 모형을 나타낸 식으로, beta는 이동평균계수, epsilont은 t시점의 오차항
 
차분은 비정상성을 정상성으로 만들기 위해, 관측값들의 차이를 계산하는 것.
(비정상성에서 정상성으로)

#### ARIMA 모수 설정
- ARIMA의 모수는 크게 3가지가 있으며 AR모형의 Lag을 의미하는 p, MA모형의 Lag을 의미하는 q, 차분(Diffrence)횟수를 의미하는 d 가 있음. p, d, q의 순서로 쓴다. 
- 통상적으로 p + q < 2, p * q = 0 인 값들을 많이 사용하는데 p * q = 0 이라 하면, 두 값중 하나는 0이라는 이야기이다. ARIMA는 AR모형과 MA모형을 하나로 합쳤다면서 둘 중 하나의 모수가 0인건 또 무슨소리? 라고 할지 모르겠지만, 실제로 대부분의 시계열 자료에서는 하나의 경향만을 강하게 띄기 때문에, 이렇게 사용하는것이 더 잘 맞는다
- ACF plot와 PACF plot을 통해 AR 및 MA의 모수를 추정
- ACF(Autocorrelation function) : Lag에 따른 관측치들 사이의 관련성을 측정하는 함수
- PACF(Partial autocorrelation function) : k 이외의 모든 다른 시점 관측치의 영향력을 배제하고 yt와 yt-k 두 관측치의 관련성을 측정하는 함수
- 시계열 데이터가 AR의 특성을 띄는 경우, ACF는 천천히 감소하고 PACF는 처음 시차를 제외하고 급격히 감소한다.
- 반대로, MA의 특성을 띄는 경우 ACF는 급격히 감소하고 PACF는 천천히 감소한다.
- 급격히 감소하는 시차를 각 AR과 MA 모형의 모수(p, q)로 사용할 수 있다. 또한 데이터를 차분하여 ACF 및 PACF 계산함으로써 적절한 차분횟수까지 구할 수 있다

정상성(Stationary)
정상성(stationarity)을 나타내는 시계열은 시계열의 특징이 해당 시계열이 관측된 시간에 무관합니다. 따라서, 추세나 계절성이 있는 시계열은 정상성을 나타내는 시계열이 아닙니다

추세와 계절성은 서로 다른 시간에 시계열의 값에 영향을 줄 것이기 때문입니다.
반면에, 백색잡음(white noise) 시계열은 정상성을 나타내는 시계열입니다 — 언제 관찰하는지에 상관이 없고, 시간에 따라 어떤 시점에서 보더라도 똑같이 보일 것이기 때문입니다.
주기성 행동을 가지고 있는 (하지만 추세나 계절성은 없는) 시계열은 정상성을 나타내는 시계열입니다. 왜냐하면 주기가 고정된 길이를 갖고 있지 않기 때문에, 시계열을 관측하기 전에 주기의 고점이나 저점이 어디일지 확실하게 알 수 없습니다.
일반적으로는, 정상성을 나타내는 시계열은 장기적으로 볼 때 예측할 수 있는 패턴을 나타내지 않을 것입니다. (어떤 주기적인 행동이 있을 수 있더라도) 시간 그래프는 시계열이 일정한 분산을 갖고 대략적으로 평평하게 될 것을 나타낼 것입니다.

현실에 존재하는 시계열자료는 불안정(Non-stationary)한 경우가 많으며 AR(p), MA(q) 모형이나 이 둘을 합한 ARMA(p,q)모형으로는 이러한 불안정성을 설명할 수가 없다. 따라서 모형 그 자체가 이러한 비정상성을 제거하는 과정을 포함하는 것이 ARIMA 모형이며 ARIMA(p,d,q)로 표현한다. 이러한 특징에 따라 ARIMA(p,d,q)는 AR, MA, ARMA를 모두 표현할 수 있다.

AR(p) = ARIMA(p,0,0)
MA(q) = ARIMA(0,0,q)
ARMA(p,q) = ARIMA(p,0,q)