# ch 1. 시계열 분석 기초 개념

## 시계열 데이터
서로 다른 또는 일정한 시간 간격으로 기록된 일련의 데이터 포인트 또는 관측치입니다. 일반적으로 시계열은 동일한 시간 간격으로 수집된 일련의 데이터 포인트입니다. 기록된 데이터 포인트의 빈도는 시간별, 일별, 주별, 월별, 분기별 또는 연간일 수 있습니다. 시장 수요, 매출 예측, 방문자 수 예측, 주식 가격 예측 등이 있습니다.

x축이 시간, y축이 시계열 데이털로 시간의 흐름 순으로 그래프를 그릴 수 있습니다.

## 시계열 데이터의 속성

### Trend
추세는 장기간에 걸친 시계열 데이터의 일반적인 방향을 보여줍니다. 추세는 증가, 감소 또는 수평일 수 있습니다.

### Seasonality
계절성은 시기, 방향 및 규모와 관련하여 반복되는 추세를 나타냅니다. 더운 날씨로 인해 여름철 물 소비량이 증가하는 것을 예로 들 수 있습니다.

### Cycle
특정 기간 동안 일정하게 반복되지 않는 추세를 말합니다. 사이클은 시계열의 상승과 하락, 호황과 불황의 주기를 말하며, 주로 경기 사이클에서 관찰됩니다. 이러한 주기는 계절적 변화를 나타내지는 않지만 일반적으로 시계열의 특성에 따라 3~12년의 기간에 걸쳐 발생합니다.

### Irregular Variation
예측할 수 없고 불규칙하게 등장하는 변동입니다. 시계열 데이터에서 추세와 계절서을 제거하면 드러나는 변동입니다.

![image.png](attachment:9fa420e5-3fff-4c26-a329-5708f44b9d63.png)

## 시계열 데이터 분해

statsmodels를 이용해서 시계열 데이터에서 추세와 계절성을 분해할 수 있습니다. 이 때, 시계열 데이터를 바라보는 두 가지 관점에 따라서 분해 결과가 달라집니다. 여기서는 시계열 데이터의 추세, 계절정, 에러를 분해해서 볼 수 있다는 것만 확인하고 넘어가겠습니다.

### Additive Timeseries

시계열 데이터를 기본 값과 추세, 계절성, 오차의 합으로 보는 관점입니다.

$$Value=\text{Base Level}+Trend+Seasonality+Error$$

### Multiplicative Time Series

시계열 데이터를 기본 값과 추세, 계절성, 오차의 곱으로 보는 관점입니다.

$$Value=Base Level*Trend*Seasonality*Error$$

## Stationary와 Non stationary

### Stationary Data
- 속성이 시간에 의존하지 않는 시계열 데이터
- 평균과 분산이 시간이 지남에 따라서 변하지 않음

### Non stationary Data
- 속성이 시간에 의존하는 시계열 데이터
- 평균과 분산이 시간이 지남에 따라서 변함

![image.png](attachment:5ab55861-abe5-4b21-88ac-39ae3ddcc2cf.png)

## Stationary 변환

시계열 예측 모델은 non-stationary 데이터를 stationary 데이터로 변환한 다음, 예측을 합니다. non-stationary data를 stationary data로 변환하는 데에는 다음과 같은 기법이 사용됩니다.

- 차분(Differencing)
- 로그 혹은 루트 취해주기
- 둘을 섞어서 사용하기

### stationary 변환의 목적 

1. 고정 계열을 예측하는 것이 비교적 쉽고 예측의 신뢰도가 높습니다.
2. auto regressive 모델은 기본적으로 시계열 자체의 지연을 예측 변수로 활용하는 선형 회귀 모델이기 때문입니다.
3. 선형 회귀는 독립 변수가 서로 상관관계가 없을 때 가장 잘 작동한다는 것을 알고 있습니다. 따라서 시계열을 안정화하면 지속적인 자기 상관 관계를 제거하여 독립 변수들 간의 독립성을 확보해야 합니다.

### 차분

현 시점의 데이터에서 이전 시점의 데이터를 빼주는 것이 차분입니다.

$$Y=Y_{t}-Y_{t-1}$$

예를 들어 매달 1일을 기준으로 주가를 측정한 데이터가 있다고 가정하겠습니다. 다음달 주가에서 이전달 주가를 빼주어 차분을 구할 수 있습니다.

|  | 주가 | 1차 차분 |
| --- | --- | --- |
| 2023-01-01 | 10 | nan |
| 2023-02-01 | 15 | 5 |
| 2023-03-01 | 12 | -3 |
| 2023-04-01 | 17 | 5 |

한번 차분해준 값을 다시 차분할 수 있습니다. 차분하는 횟수를 차분의 차원이라고 표현합니다.

|  | 매출 | 1차 차분 | 2차 차분 |
| --- | --- | --- | --- |
| 2023-01-01 | 10 | nan | nan |
| 2023-02-01 | 15 | 5 | nan |
| 2023-03-01 | 12 | -3 | -8 |
| 2023-04-01 | 17 | 5 | 8 |

차분을 이용해서 정상성을 확보하는 것은 다음 챕터에서 알아보도록 하겠습니다. 여기서는 간단히 차분을 한번 적용하고, 시각화 해보겠습니다.

### 로그

시계열 데이터에 로그를 취해주는 방식입니다. 간단히 한번 적용해보고 넘어가겠습니다.

### 로그와 차분 동시에 적용하기

## 전통적인 시계열 예측

시계열 예측(timeseries forecasting)이란 이전 시점의 데이터를 가지고 이후 시점에 발생할 값들에 대해서 예측을 하는 모델들을 말합니다. 시계열 예측은 특히 금융 데이터 분석에서 활용도가 높습니다만, 실제로 사용해보면 파라미터 결정이 어렵고 정확도가 낮아서 정말 잘 정제되어 있는 데이터에 한해서 적용할 수 있습니다.

- MA(moving average)
- EWMA(exponentially weighted moving average)
- AR(auto regressive)
- ARMA(auto regressive moving average)
- ARIMA(auto regressive integrated moving average)
- SARIMA(seasonal ARIMA)
- SARIMAX(seaonal ARIMA with exogneous)
- VAR(vector auto regressive)

때문에 최근에는 이런 전통적인 시계열 데이터 분석 기법들의 한계를 극복하고자 등장한 meta의 prophet이라는 라이브러리가 인기를 끌고 있습니다. 실제로 많은 금융사들이 prophet을 기반으로 데이터 분석을 하고 있습니다.

## 정리

이번 챕터에서는 시계열 데이터의 개념과 기본적인 속성에 대해서 배워보았습니다. 이어지는 챕터에서는 prophet을 이용한 시계열 데이터 분석을 배워보겠습니다.