# Feature Engineering for Time Series

## 대표적인 시계열 변수추출 방향 7종 (Feature Engineering)

> 데이터 과학자로서 이미 수동/자동 변수 생성(Feature Engineering)에 익숙하지만, 신규 변수를 생성하는 것은 분석에서 가장 중요하고 시간이 많이 걸리는 작업 중 하나입니다.
>> "변수 생성시 주의할 점!"  
>> 1) 미래의 실제 종속변수 예측값이 어떤 독립/종속변수의 FE에 의해 효과가 있을지 단정할 수 없음  
>> 2) 독립변수의 예측값을 FE를 통해 생성될 수 있지만 이는 종속변수의 예측에 오류증가를 야기할 수 있음  

## 빈도(Frequency): 계절성 패턴(Seasonality)이 나타나기 전까지의 데이터 갯수로 사람이 정해야 함 

> 빈도 설정을 위한 Python 함수 옵션: 

| Alias | Description |
|--------|-----------------------|
| B | Business day |
| D | Calendar day |
| W | Weekly |
| M | Month end |
| Q | Quarter end |
| A | Year end |
| BA | Business year end |
| AS | Year start |
| H | Hourly frequency |
| T, min | Minutely frequency |
| S | Secondly frequency |
| L, ms | Millisecond frequency |
| U, us | Microsecond frequency |
| N, ns | Nanosecond frequency |

| Method | Description |
|---------|-----------------------------------------------------------|
| bfill | Backward fill |
| count | Count of values |
| ffill | Forward fill |
| first | First valid data value |
| last | Last valid data value |
| max | Maximum data value |
| mean | Mean of values in time range |
| median | Median of values in time range |
| min | Minimum data value |
| nunique | Number of unique values |
| ohlc | Opening value, highest value, lowest value, closing value |
| pad | Same as forward fill |
| std | Standard deviation of values |
| sum | Sum of values |
| var | Variance of values |

## Trend($T_t$)
- Trend is a pattern in data that shows the movement of a series to relatively higher or lower values over a long period of time.
- A trend is observed when there is an increasing or decreasing slope in the time series.
- Trend usually happens for some time and then disappears, it does not repeat.
- 확률과정($Y_t$)이 추정이 가능한 결정론적 추세함수($f(t)$)와 정상확률과정($Y^s_t$)의 합
$$
Y_t = f(t) + Y^s_t
$$

## Seasonality($S_t$)
- The presence of variations that occur at specific regular intervals less than a year, such as weekly, monthly, or quarterly.
- Seasonality may be caused by various factors, such as weather, vacation, and holidays and consists of periodic, repetitive, and generally regular and predictable patterns in the levels of a time series.
- Seasonal fluctuations in a time series can be contrasted with cyclical patterns.
- 일정한 빈도로 주기적으로 반복되는 패턴($m$), 특정한 달/요일에 따라 기대값이 달라지는 것 
- 계설정 반영 방법은 크게 2가지: 수치값 그대로, 발생 시점으로 분리  
- 주기적 패턴이 12개월마다 반복($m$ = 12)  
<center><img src='Image/Seasonal.png' width='400'></center>

## 주기(Cycle, $C_t$): 일정하지 않은 빈도로 발생하는 패턴(계절성) 
> 빈도가 1인 경우에도 발생 가능($m$ = 1).  
<center><img src='Image/Cycle.png' width='400'></center>

## 시계열 분해(추세/계절성/잔차(Residual, $e_t$)):
<center><img src='Image/Decomposed-into-its-trend-seasonal-and-irregular.png' width='600'></center>

- 더미변수(Dummy Variables, $D_i$): 이진수(0 또는 1)의 형태로 변수를 생성하는 것으로 휴일, 이벤트, 캠페인, Outlier 등을 생성 가능
    - 생성법:
        1. 범주형 변수(Categorical Variable)의 기준값을 미리 결정 (ex. 계절일 경우 봄)
        2. 기준값을 제외한 채 더미변수를 생성 (ex. $D_1$ = 여름, $D_2$ = 가을, $D_3$ = 겨울) 
        2. 각 더미변수의 값을 0 또는 1로 채우며 1은 각 더미변수의 정의와 같음을 의미
        
> 확실한 패턴이 존재하는 경우에만 효과가 있으며 오히려 모델의 오류를 증가시킬 수 있음 

## 지연값(Lagged Variables, $Lag_t(X_1)$): 변수의 지연된 값을 독립변수로 반영하는 것으로,ARIMA/VAR/NNAR 등이 활용  
<center><img src='Image/Lag-explanation.PNG' width='400'></center>

- 시간변수: 시간변수를 미시/거시 적으로 분리하거나 통합하여 생성된 변수  

- 요약:
    >- <U>시계열 구성요소는 각 변수의 시간패턴을 파악하는데 중요
    >- <U>FE를 통해 생성된 변수의 입력(Input) 형태로 모형 선택을 하는데 필요 
    >- <U>생성된 변수의 패턴이 기존 모델에서 반영하지 않던 패턴이라면 예측 성능을 높임 
    >- <U>예측성능 향상 뿐 아니라 결과를 해석하고 해당 속성을 분석하며 가능한 원인 식별에 도움