## `Transfer Learning for Time Series Forecasting`

[address of ref](https://medium.com/unit8-machine-learning-publication/transfer-learning-for-time-series-forecasting-87f39e375278)

> 쭉 봤더니, 모델 수개를 돌리며 평가를 확인하고 있음. 해당 관점에서 AutoML이 매우 유용하게 사용될 것으로 보이고, data scientist에게 이런 비교 활용의 관점에서 매우 가치있는 도구가 될 것 같음

---

> ### *Abstracts*

- exponential smoothing 혹은 arima와 같은 고전적인 방법에서는 일반적으로 한 번에 하나의 시리즈로 추정되는 방법이었음
  - 그에 반해, 기계 학습 모델은 매개변수가 잠재적으로 많은 수의 시리즈에서 추정될 수 있음
- 머신러닝 모델은 충분한 데이터가 없다면 유효하게 작동하기 쉽지 않음
  - 이 관점에서 전이학습은 시계열 분석을 통한 예측에 적용하여 그 확장성을 기대할 수 있음

- 해당 칼럼에서는 규모가 크고 다양한 dataset을 통해 학습된 모델을 통해 또 다른 시계열 분석에 활용할 것임
  - 즉, 전이학습 시행.
  - 이를테면 인구통계학, 재무, 산업 등 다양한 domain에서 공유될 수 있는 모델을 만드는 것
  - 추가적인 학습 단계를 줄여, 새로운 과업에 할당될 수 있는 모델을 만드는 것이 목적

---

> ### *Air Passengers dataset*

    air_train => training part
    air_teset => 따로 할당된 validation set 18개월 분량 존재.
    
    향후 예측의 품질을 평가하가 위해서 sMAPE를 이용할 것임
    
    ***** sMAPE : 백분율(또는 상대) 오류를 기반으로 하는 정확도 측정
    - MAPE : 실제값과 예측값 사이의 차이를 실제값으로 나눠줌으로써 오차가 실제값에서 차이하는 상대적인 비율을 산출. 그리고 해당 값을 절대값 취한 후 평균을 구한다. 
      - 오차의 정도를 백분율 값으로 나타내기 때문에 모델의 성능을 직관적으로 이해하기 쉬우며, 타겟 변수가 여러개 일 때 각 변수별 모델의 성능을 평가하기 용이하다. 
    - limitation? 실제값에 0이 존재한다면 MAPE는 정의될 수 없음. 분모에 0이 들어갈 순 없으니 말이다. 또한 절대적인 값의 오차가 같더라도 실제값과 예측값과의 대소 관계에 따라 과대 추정하는 예측갑셍 패널티를 더 부여하는 문제가 있다. 
    
    - 왜? 당연히 과대추정한다는 것은 예측값이 더 크다는 것을 의미하고, 실제값이 더 작기 때문에 분모가 더 작아지게 됨.
    - 즉 MAPE는 분모가 더 작아져서 해당 평가지표는 더 큰 값을 가지게 되고 더 큰 패널티를 갖게 되는 것.
    
    - 예를 들면, 실제값이 예측값보다 작을 때(예측값이 과대추정)와 실제값이 예측값돠 큰 경우일 때(예측값이 과소추정)인 경우 MAE는 동일할지라도 전자에서 MAPE가 더 큰 값을 가지게 된다. 
      - MAPE는 작을 수록 좋은 평가지표이다. 
      
    - 이러한 MAPE를 보완한 것이 sMAPE이다. 
    - 분모에 예측값이 추가적으로 들어가게 되어 동일한 MAE라면 자연스레 MAPE에선 달랐을지라도 sMAPE에선 같게 된다. 
    - 하지만 분모에 예측값까지 추가적으로 들어가서 산출되는 평가지표이기 때문에, 예측값에 의존적이게 된다. 
    - 예측값이 과소추정할 때 분모가 더 작아지므로 계산되는 오차가 커지는 현상이 발생하게 된다.

![image.png](attachment:37da461b-d7d4-4691-afbf-eb0148bb21c9.png)

- x축 범위도 공유하지 않으며, 시리즈 모양도 상당히 다름

---

> ### *Predicting Air Passengers with Local Models*

    기존의 classical한 모델(e.g. Exponential Smoothing or ARIMA) 사용하여 각각의 시계열에서 모델을 fitting 해보자
    (이때 이 모델을 local models라고 칭하는 것 같음)
    
    먼저, 두 함수를 정의한다.
    
    첫째, eval_forecasts() 함수 : 해당 local models가 도출해낸 예측값의 sMAPE error 중앙값을 계산하고 이 error의 분포를 보여주는 함수
    둘째, eval_local_model() 함수 : 모든 시리즈들을 iterate, 그리고 각각의 시리즈들에 대해 local model을 build. 그 후 예측값들을 저장.
      - 그 후에, 첫째 함수인 eval_forecasts()를 호출하고 모든 시리즈들에 대한 sMAPE errors들을 plot으로 확인가능

---

> ### *Getting Some Forecasts*

    1) 첫 번째 naive model
    훈련 시리즈의 마지막 값을 맹목적으로 반복하는 naive한 모델
    (??? 여기서 말하는 마지막 값을 맹목적으로 반복한다는 것은 무엇을 의미할까 ???)
    > 이때 sMAPE는 29.422
    
    2) 1번과 동일한 모델 사용, 하지만 파라미터 K값을 12로 변경하여 모델 생성
    대부분의 월별로 시리즈가 12의 계절성을 띈다는 것을 활용하여 덜 naive한 모델을 생성해보자
    (이때, eval_local_model을 활용하여 K=12라는 파라미터값을 조정하여 대개 월별 시리즈가 계절성이 12 띄는 것을 활용했음)
    > 이때 sMAPE는 25.829
    
    3) ExponentialSmoothing을 통해 예측한 결과
    해당 모델은 default로 월별 시리즈에 한해서 12의 계절성을 사용함
    > 이때 sMAPE는 23.401
    
    4) Theta 모델을 이용
    > 이때 sMAPE는 22.915
    
    5) ARIMA 모델 이용
    > 이때 sMAPE는 21.818

### Mid Summary

    - 모델을 변경하여 생성할수록 sMAPE값이 계속 낮아지는 것을 확인할 수 있음
    
    ******************************************************************************************
    해당 경우들에 한해선 ARIMA 모델이 가장 우수한 결과를 냈음
    하지만 아래 그래프를 확인해보면 모델 학습 경과 시간은 ARIMA가 가장 오래 걸렸음
    ******************************************************************************************    
    오히려 Theta 모델이 tradeoff 관점에서 제일 적합해보임
    예측도 ARIMA에 비해 크게 뒤지지 않으며 시간은 50배 빨랐음
    ******************************************************************************************
    
     Can we maybe find a better compromise by considering global models — i.e., models that are trained only once, jointly on all time series?
     모든 시계열에 대해 한 번만 학습된 모델들, 즉 전역 모델에서 더 나은 절충안을 찾을 수 있을까?
     즉, 좋은 전이학습 결과를 도출해낼 모델을 찾을 수 있을까?

![image.png](attachment:c660f3b6-87c1-4aaf-8f04-f3b4c05a3011.png)

- 여기까진 Local Model !!

---

> ### Predicting Air Passengers with Global Models

    global 모델을 활용해보자
    즉 어떤 모델을 활용하겠다는 건가?
    ******************************************************************************************
    다양한 시계열에 대해 한 번만 학습된 모델을 사용해보자
    이걸 발전시켜 전이학습에 활용하겠다는 의미겠지?
    
    해당 칼럼에서는 Darts에 속해있는 두 종류의 global model을 활용!
    
    하나는 사이킷런의 wrapper를 활용
    나머지 하나는 PyTorch 기반의 모델을 활용
    ******************************************************************************************
    
    Both models can be trained on multiple series by “tabularizing” the data — i.e., taking many (input, output) sub-slices from all the training series, and training machine learning models in a supervised fashion to predict the output based on the input.
    두 모델 모두 데이터를 표 형식화하여 여러 시리즈에 대해 훈련할 수 있다. 
    
    위에서 정의했던 eval_local_model과 유사한 eval_global_model이라는 이름의 function을 정의해보자

### Using RegressionModel's
딥러닝 모델과는 달리 global model로 가기에 좋음

왜? 많은 하이퍼 파라미터를 갖고 있지 않기 때문에, 좀 더 빠른 속도로 학습이 가능함

### Let's try linear regression

```python
lr_smapes, lr_time = eval_global_model(air_train, air_test, LinearRegressionModel, lags=30, output_chunk_length=1)
```

이때, 파라미터 lags , output_chunk_length는 각각 훈련에 사용되는 입력/출력 하위 슬라이스의 길이에 해당

예를 들어, 현재 lags가 30 그리고 output_chunk)length가 1인데 이는 다음을 의미함

- 모델이 과거의 30 lags를 소비하여 다음의 1을 예측한다는 것.


> Mid Summary

    1) LinearRegressionModel
    
    sMAPE = 22.023
    
    2) LGBM
    
    sMAPE = 23.220
    
    3) RandomForest
    
    sMAPE = 23.606

---

> ### Using Deep Learning

    1) N-BEATS 
    
    sMAPE = 24.331
    
    - 아래 그림을 살펴보면, <모든 시리즈들에 대해 공동으로 학습한> limear regression model이 정확도와 속도 측면에서 모두 우수
    ARIMA보다 정확도 측면에서 대동소이하지만, 속도는 85배 빠름을 알 수 있음
    - N-BEATS 모델은 그닥 좋은 성과를 내고 있지 못함
    
    ******************************************************************************************
    다음으로, 전적으로 다른 dataset에서 어떻게 결과가 나올지 확인해보자
    ******************************************************************************************

![image.png](attachment:00cc1627-d9e9-4bcb-91e8-9b0badca37d2.png)

> Transger Learning with the N-BEATS Modal

    딥러닝 모델은 종종 대규모의 dataset에서 결과가 더 좋음
    더 큰 dataset에서 재학습 + 예측까지 해보자
    
    모델은 동일하게 N-BEATS 모델을 활용할 것임
    
    또한!!
    ***************************************************************************************************
    여기서는 전이 학습 방식으로 모델을 재사용하므로 추론 부분만 타이밍할 것임. 
    ??? 전이학습이란 개념이 모델이 사전 훈련되었다고 가정하기 때문에 !!!
    ***************************************************************************************************

> ### 종전에 사용했던 동일 모델(즉, 사전 훈련되었다고 가정한 모델을 사용했으며 공급해주는 dataset만 규모가 큰 dataset으로 변경해주었음) N-BEATS 예측 결과

    1) 전이 학습 결과 (동일 모델, 사전에 학습된 N-BEATS을 사용했으며 dataset만 대규모로 재공급해주었음)
    
    sMAPE = 22.701
    로 정확도가 24.331에서 상승했음을 알 수 있다. 
    
    아래 그림은 지금까지 사용한 모델들의 sMAPE이다.

![image.png](attachment:cb6f09a6-cca1-4dc2-ac74-159ca719b7a1.png)

> ### mid summary

    정확도 측면에서 절대적으로 우세한 것은 아니나 상위권임
    
    더군다나 주목할만한 점은, 해당 모델은 전이학습으로 예측한 결과라는 점에서 training 필요가 전혀 없었다!
    ??? 근데 잠깐? 그럼 이때, 종전의 N-BEATS 모델 학습시 사용했던 dataset과 현 예측시 사용한 dataset이 아예 다른 dataset인가?
    그래야 의미있는 결과라고 생각할 수 있는 거 아닌가?
    
    ARIMA보다 350배나 빠르고, 그나마 우세한 결과를 산출했던 linear regression 모델보다도 4배 빨랐음

- 추가적으로, 또 다른 시계열 dataset에서 어떻게 예측을 하나 살펴보자
- 해당 칼럼에서는 milk production을 활용했음
- ![image.png](attachment:22f4baa2-5467-4f4c-87e1-2782e95f5777.png)
- 꽤 의미있는 결과를 내고있음
> 그렇다면, 이런 결과는 과연 N-BEATS만의 특징인 것일까 아니면 다른 global model에서도 동일하게 적용할 수 있는 특징일까?

> ### *Trying Transfer Learning With Other Global Models*

    1) LinearRegressionModel의 경우를 살펴보자
    
    - sMAPE = 23.234 
    
    2) LightGBMModel의 경우를 살펴보자
    
    - sMAPE = 27.006

![image.png](attachment:30ba46ad-ddb3-4158-8a74-9a731500b37c.png)

- 해당 그래프에서 별 모양으로 plotting된 것들이 전이학습으로 학습된 모델의 결과들이다.
  - 선형 회귀도 경쟁력있는 성능을 제공하고 있음
  - N-BEATS가 시계열 배치에 걸쳐 효율적으로 배치되고 GPU에서 수행되기 때문에 다소 빠를 순 있다. 

> ### *Recap: Use the Same Model on M3 Dataset*

    지금까지 너무 예상대로 좋은 결과만 냈다.
    새로운 new dataset인 M3에 대한 inference를 진행해보자
    아래의 그래프는 새로운 dataset인 M3에 대한 sMAPE들이다.

![image.png](attachment:6a7354dc-d2c9-42ea-9741-2c413443169c.png)

- pre-trainede된 N-BEATS 모델에서 합리적인 정확도가 도출됨
  - ~가장 높은 정확도는 아니지만~

---

---

-----

> ### *Conclusion*

    전이 학습, 메타 학습은 시계열 예측에서 분명 흥미로운 주제임엔 틀림없음
    
    전이학습이 언제 성공?
    전이학습이 언제 실패?
    fine-tuning통해서 좀 더 발전적인 모델 생성 가능?
    언제 사용되어져야만 하는지?
    
    ################################################################################################
    충분한 자료와 배경이 있는 독립적인 시리즈를 다룰 땐 ARIMA와 같은 classical한 방법이 효과가 있을 수 있음
    and 대규모의 dataset을 다룰 수 있는 컴퓨팅 성능이 준비된다면, 또 효과가 있을 순 있음
    

# `BUT!!!!!!!!!!!!!!!!!!!!!!!!!!!`

컴퓨팅 성능도 충분치 않고, 그런데 dataset은 크며, 일변량 시계열이 아닌 다변량 시계열이라면, MLmethods와 global model이 방법이 될 수 있음

이것들은 광범위한 또 다른 시계열 문제에 걸쳐 패턴을 파악할 수 있으며, 일반적으로 빠르다.

또한, 좀 더 복잡한 패턴을 파악해야 하거나, 추론 속도가 매우 중요한 안건이라면 딥러닝 모델을 사용할 수도 있겠다. 

이런 관점에서 N-BEATS 모델이 메타 러닝에서 가치있을 수 있다. 하지만, 다른 모델과도 함께 사용할 수 있다. 
