# 시계열 분석 개요

#### 시계열 자료의 자기상관성

- 서로 이웃하는 자료들끼리 일종의 상관관계를 가진다.
- 공분산은 두 개의 확률 변수의 선형관계르 나타낸다. 하나의 확률 변수의 증감에 따른 다른 확률 변수의 증감 경향에 대한 측도다. 분산이라는 개념을 확장하여 두 개의 확률 변수의 흩어진 정도를 표현한 것이 공분산이다.
- 만약 두 확률 변수의 공분산이 0이라면 그건 자기 상관성이 없는 독립적인 확률 변수로 봐야 한다. 
- 공분산은 자료들의 평균이나 편차에 대해 정규화가 안 된 값이니 그 정도나 비교가 어렵다. 그래서 공분산을 정규화한 것이 상관계수다. 

## 1. 시계열 자료의 이해 

- 시간의 흐름에 따라 관찰된 값들
- 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용한다.


### 시계열 분석의 자료 분석 필수 
- 정상성 자료만 가능하다 = 평균이 일정, 분산이 시점에 의존하지 않을 것 


### 1. 시계열 자료의 종류

| 종류 | 설명 |
|--|--|
| `비정상성` 시계열 자료 | 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료 |
| `정상성` 시계열 자료 | 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료 |


#### 정상성
평균과 분산이 일정하고 공분산도 단지 시차에만 의존하고 특정 시점에는 의존하지 않는 상태

- 시차($s$) : 시점과 시점간의 차이   
- 시점($t$) : 특정한 시간의 관점 


##### 평균이 일정할 경우

- 모든 시점에 대해 일정한 평균을 갖는다.
- 실제 대부분의 자료는 평균이 일정하지 않다. 이 경우 차분(Difference)을 통해 정상화 할 수 있다.
- 차분 : 현 시점의 자료 값에서 전 시점의 자료 값을 빼는 것 


##### 분산이 일정할 경우

- 분산도 특정 시점에 의존하지 않고 일정해야 한다.
- 분산이 일정하지 않을 경우 변환 (Transformation) 을 통해 정상화 할 수 있다. 
- 변환 : 자료 값에 지수 혹은 로그를 취하는 것 
- 시간에 따라 변하는 분산의 크기를 안정시킨다. 

##### 약한 의미의 정상성(약정상성)

모든 시점에 평균 일정, 시점과 분산 독립, 공분산은 시차에차에만 의존한다.


#### 비정상→정상 : 변환(transformation), 차분(difference)



| 이름 | 설명 |
|--|--|
| 변환 | 분산이 일정하지 않은 비정상 시계열에 대해 수행 |
| 차분(t1-t0) | 평균이 일정하지 않은 비정상 시계열에 대해 수행 |
| 일반차분 (regular difference) | 바로 전 시점의 자료를 빼는 방법이다 |
| 계절차분 (seasonal difference) | 여러 시점 전의 자료를 빼는 것 방법 , 주로 계절성을 갖는 자료를 정상화 하는데 사용한다 |











#### 정상 시계열

![img](res/img.png)

| 구분 | 설명 |
|---|---|
| (a) | 일반적으로 수집되는 비정상 시계열. 시간에 따라 변동폭이 일정하지 않고, 추세와 계절적 영향이 존재하는 형태 |
| (b) | (a)상태의 비정상 시계열에 로그 변환을 수행하여 변동폭을 일정하게 변경한 상태<br/>변환을 수행하여 평균을 일정하게 처리함 | 
| (c) | (a)상태의 비정상 시계열에 차분을 수행하여 평균을 일정하게 맞춘 상태. 1차 차분으로 정상성을 띄지 않으면 반복 수행한다. (n차) |
| (d) | (b),(c)를 함께 적용하여 정상 시계열로 변한한 상태 |

## 시계열 분석 방법



### 1. 시계열 분석 방법의 종류

| 종류 | 설명 |
|---|---|
| 평균이동법 | 과거로부터 현재까지의 시계열 데이터를 대상으로 일정기간별 이동평균을 계산하고 이들의 추세를 파악하여 다음 기간을 예측하는 방법.<br>가장 고전적인 예측 방법 |
| 지수평활법 | 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구한다. 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법 |
| 분해 시계열 | 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 |
| 통계적 모형 활용 | 자기회귀모형(AR), 이동평균모형(MA) 자기회귀누적이동평균모형(ARIMA), 계량경제 모형 등 |

### 2. 분해 시계열

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀분석적 방법 주로 사용

#### 분해된 시계열의 구성 요소 

| 요소 | 설명 |
|---|---|
| 추세요인(trend factor) | 자료가 어떤 특정한 형태를 취할 때 |
| 계절요인(seasonal factor) | 고정된 주기에 따라 자료가 변화 |
| 불규칙요인(irregular factor) | 회귀분석에서 잔차에 해당하는 요인 |

- 분해시계열분석법에서는 각 구성요인을 정확히 분리하는 것이 중요
- 요인 정확히 분리하기 쉽지 않으며 이론적 약점 존재 but 많이 사용됨





### 3. 통계적 시계열 분석 방법

#### AR 모형 (자기회귀모형)

- AR(auto-regressive) 과거 데이터에 기반하여 미래를 예측하는 모형으로 추세선을 통한 예측 과정은 선형회귀모델과 같다. 
- 특정 시점 전의 자료가 현재 자료에 영향을 주는 형태
- 판단조건 : 자기상관함수(ACF)가 빠르게 감소하고 부분자기상관함수(PACF)는 어느 시점에 절단점을 가짐
- 특정 시점 전의 자료가 현재 자료에 영향을 주는 형태
- 판단조건 : 자기상관함수(ACF)가 빠르게 감소하고 부분자기상관함수(PACF)는 어느 시점에 절단점을 갖음

![m1](res/m1.png)

#### MA 모형 (이동평균모형)

- 유한한 개수의 백색잡음의 결합.
- 항상 정상성을 만족
- ACF에서 절단점 갖고 PACF가 빠르게 감소
- MA(Moving-average) 직전 데이터와 현재 데이터의 평균인 이동평균을 이용한 시계열 분석법
- 전체 자료 가운데 다른 하위 데이터에 대한 이동평균을 따로 생성해 활용하는 것도 가능하다.  
- 직전 데이터와 지금 데이터의 평균
- 유한한 개수의 백색잡음의 결합.
- 항상 정상성을 만족
- ACF에서 절단점 갖고 PACF가 빠르게 감소


![m2](res/m2.png)

#### ARIMA 모형 (자기회귀누적이동평균모형)

- 가장 일반적인 모형 (이것만 사용)
- 비정상시계열 모형
- 차분이나 변환을 통해 AR/MA/ARMA 모형으로 정상화 가능
- 세가지 지표를 사용하는 $(p,d,q)$ 모형이라고도 함
- AR + MA + Momentom 
- 회귀분석의 한 형태로, 정상 시계열 자료로만 회귀 예측(추세선 예측) 을 한다.
- MA에 대한 수 차례의 차분을 통해 정상성을 높이고 AR을 수행한다.
- 가장 일반적인 모형 (이것만 사용)
- 비정상시계열 모형
- 차분이나 변환을 통해 AR/MA/ARMA 모형으로 정상화 가능
- 세가지 지표를 사용하는 $(p,d,q)$ 모형이라고도 함


$p$는 AR 모형과 관련 있는 차수.

$q$는 MA 모형과 관련 있는 차수.

$p$와 $q$는 ARIMA 모형에서 ARMA로 정상화 할 때 차분한 횟수를 의미

| 종류 | 의미 |
|---|---|
| $p=0$ | $IMA(d,q)$ 모형이라고 부르고, $d$번 차분하면 $MA(q)$ 모형을 따른다 |
| $d=0$ | $ARMA(p,q)$ 모형이라 부르고，이모형은 정상성을 만족한다. |
| $q=0$ | $ARI(p,d)$ 모형이라 부르고, $d$번 차분하면 $AR(p)$ 모형을 따른다. |

#### 예시

| 예 | 내용 |
|--|--|
| $ARIMA(0, 1, 1)$ | 1차분 후 $MA(1)$모형을 활용 |
| $ARIMA(1, 1, 0)$ | 1차분 후 $AR(1)$모형을 활용 |


## #03. 분해 시계열

- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 회귀분석적 방법 주로 사용

### 시계열 구성 요소 

| 요소 | 설명 |
|---|---|
| 추세요인(trend factor) | 자료가 어떤 특정한 형태를 취할 때 |
| 계절요인(seasonal factor) | 고정된 주기에 따라 자료가 변화 |
| 순환요인(cyclical factor) | 알려지지 않은 주기를 갖고 자료가 변화 |
| 불규칙요인(irregular factor) | 회귀분석에서 오차에 해당하는 요인 |

- 분해시계열분석법에서는 각 구성요인을 정확히 분리하는 것이 중요
- 요인 정확히 분리하기 쉽지 않으며 이론적 약점 존재 but 많이 사용됨



##### 지수 평활법

모든 시계열 자료를 사용해 평균을 구하고 시간 흐름에 따라 최근 시계열에 더 높은 가중치를 부여 해 추세를 계산한다. 