# 시계열 분석 개요

경향을 표현하는 것이지 정확도가 떨어진다.

## #01. 시계열 자료의 이해

- 시간의 흐름에 따라 관찰된 값들
- 시계열 데이터의 분석을 통해 `미래의 값을 예측`하고 경향, 주기, 계절성 등을 파악하여 활용한다. 

### 1. 시계열 자료의 종류

`정상성` : 관측된 시간에 대해 무관한 데이터. 평균과 분산이 일정함(ex.백색소음)

`비정상성` : 시간에 따라 평균 수준이 다르거나 추세나 계절성에 영향을 받는 데이터(ex. 겨울에 난방비 증가, 여름에 아이스크림 판매량 증가)

비정상성 데이터는 예측범위가 무한대이고 고려할 파라미터들이 많다. 따라서, 비정상성 데이터를 정상성으로 변환하여 분석을 진행하면 예측범위가 일정범위로 줄어들어 예측성능이 개선되고, 고려할 파라미터의 수가 감소하여 보다 단순한 알고리즘으로 예측이 가능하며, over fitting도 방지할 수 있다.

변환 방법 중에는 `평균의 정상화를 위한 차분` 과 `분산의 안정화를 위한 로그변환`, `제곱/제곱급 변환` 등이 있다.

(`차분` : 현시점 데이터에서 d시점 이전 데이터를 뺀 것)

|종류|설명|
|---|--|
|`비정상성` 시계열 자료| 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료|
|`정상성` 시계열 자료| 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변화한 자료|

#### 정상성

평균과 분산이 일정하고 공분산도 단지 시차에만 의존하고 특정 시점에는 의존하지 않는 상태

##### 평균이 일정할 경우

- 모든 시점에 대해 일정한 평균을 갖는다. 
- 실제 대부분의 자료는 평균이 일정하지 않다. 이 경우 차분(Difference 기법)을 통해 정상화 할 수 있다. 

##### 분산이 일정할 경우

- 분산도 특정 시점에 의존하지 않고 일정해야 한다. 
- 분산이 일정하지 않을 경우 변환(Transformation기법) 을 통해 정상화 할 수 있다. 

##### 약한 의미의 정상성(약정상성)

모든 시점에 평균 일정, 시점과 분산 독립, 공분산은 시차에만 의존.

#### 비정상-> 정상 : 변환(transformation), 차분(variance)

|이름|설명|
|---|---|
|변환|분산이 일정하지 않은 비정상 시계열에 대해 수행|
|차분(t1-t0)|평균이 일정하지 않은 비정상 시계열에 대해 수행|
|일반차분(regular difference)|바로 전 시점의 자료를 빼는 방법이다|
|계절차분(seasonal difference)|여러 시점 전의 자료를 빼는 방법, 주로 계절성을 갖는 자료를 정상화 하는데 사용한다|

![시계열그림](./res/img.png)

#### 정상 시계열

|구분|설명|
|---|---|
| (a) | 일반적으로 수집되는 비정상 시계열. 시간에 따라 변동폭이 일정하지 않고, 추세와 계절적 영향이 존재하는 형태|
| (b) | (a) 상태의 비정상 시계열에 로그변환을 수행하여 변동폭을 일정하게 변경한 상태 <br> `변환` 을 수행하여 평균을 일정하게 처리함 |
| (c) | (a) 상태의 비정상 시계열에 `차분`을 수행하여 평균을 일정하게 맞춘 상태. 1차 차분으로 정상성을 띄지 않으면 반복 수행한다.(n차) |
| (d) | (b),(c) 를 함께 적용하여 정상 시계열로 변환한 상태|

## #02. 시계열 분석방법

### 1. 시계열 분석 방법의 종류
|종류|설명|
|---|---|
|평균이동법|과거로부터 현재까지의 시계열 데이터를 대상으로 일정기간별 이동평균을 계산하고 이들의 추세를 파악하여 다음기간을 예측하는 방법. 가장 고전적인 예측방법|
|지수평활법|일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구한다. 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법|
|분해 시계열|시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법|
|통계적 모형 활용|자기회귀모형(AR), 이동평균모형(MA), 자기회귀누적이동평균모형(ARIMA), 계량경제모형 등|

### 2. 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀분석적 방법 주로 사용

분해된 시계열의 구성요소
|요소|설명|
|---|--|
|추세요인(trend factor)|자료가 어떤 특정한 형태를 취할 때|
|계절요인(seasonal factor)|고정된 주기에 따라 자료가 변화|
|불규칙요인(irregular factor)|회귀분석에서 오차에 해당하는 요인|

- 분해시계열분석법에서는 각 구성요인을 정확히 분리하는 것이 중요
- 요인 정확히 분리하기 쉽지 않으며 이론적 약점 존재 but 많이 사용됨


## #3. 통계적 시계열 분석방법

### AR모형(자기회귀모형)

- 특정 시점 전의 자료가 현재 자료에 영향을 주는 형태
- 판단조건 : 자기상관함수(ACF)가 빠르게 감소하고 부분자기상관함수(PACF)는 어느 시점에 절단점을 갖음.

![AR모형](./res/m1.png)

### 2. MA모형(이동평균모형)

- 유한한 개수의 백색잡음의 결합.
- 항상 정상성을 만족
- ACF에서 절단점을 갖고 PACF가 빠르게 감소

![MA모형](./res/m2.png)

### 3. ARIMA 모형(자기회귀누적이동평균모형)

- 가장 일반적인 모형 (이것만 사용)
- 비정상시계열 모형
- 차분이나 변환을 통해 AR/MA/ARIMA 모형으로 정상화 가능
- 세가지 지표를 사용하는 $(p,d,q모형)$ 이라고도 함

|대상|설명|
|---|---|
|AR 자귀회귀모형(Autoregressive)| p시점 만큼 앞선 시점까지의 값에 영향을 받는 모형|
|I 누적 integrated|비정상성(Non-stationary) 데이터의 변환(평균의 정상화)를 위해 차분을 이용하는 시계열 모형에 붙이는 표현|
|MA 이동평균모형(Moving Average)| q시점 만큼 앞선 시점까지의 연속적인 오차값들(shock)의 영향을 받는 모형|

=>AR(p),MA(q)모형에 차분(d)을 이용해 비정상성을 제거하는 과정을 더하여 ARIMA(p,d,q)로 표현한다.

$p$는 AR과 관련있는 차수.

$q$는 MA 모형과 관련 있는 차수.

$p$와 $q$는 ARIMA 모형에서 ARMA로 정상화 할 때 차분한 횟수를 의미

|종류|의미|
|----|---|
|$p=0$ | $IMA(d,q)$ 모형이라 부르고 $d$번 차분하면 $MA(q)$모형을 따른다|
|$d=0$ | $ARMA(p,q)$ 모형이라 부르고 이 모형은 정상성을 만족한다|
|$q=0$ | $ARI(p,b)$ 모형이라 부르고 $d$번 차분하면 $AR(p)$모형을 따른다|

예시
|예|내용|
|---|---|
|$ARIMA(0,1,1)$|1차분 후 $MA(1)$모형을 활용|
|$ARIMA(1,1,0)$|1차분 후 $AR(1)$모형을 활용|