# Naive Methods and Metrics of Forcasting

這邊我們先給各位看一下使用numpy手刻完成一些最簡單的forcasting

numpy手刻只是為了讓同學了解這些算法在使用python實現的方式，後面我們會附上一些簡單使用的套件，以後在使用時直接call套件的class或者funciton就可以簡單實現演算法

課程包含以下內容:
- Data Split
- Naive Forcasting
    - K-Step Ahead
    - Seasonal K-Step Ahead
- Metrics for Forcasting

#### **開始前請先安裝或import基本套件**
#### **若使用Jupyter Notebook開啟請轉成tree view方便顯示plotly出來的圖**

In [None]:
! pip install --user plotly

In [None]:
%matplotlib notebook

import numpy as np
import matplotlib.pyplot as plt

from plotly import express as px

**另外我們也先準備一個畫圖的function，我們不會放重點在這邊但後面會用它來看一些time series處理的過程**

In [None]:
def plot_series(time, series, start=0, end=None, labels=None, title=None):
    #  Visualizes time series data
    # Args:
    #  time (array of int) - 時間點, 長度為T
    #  series (list of array of int) - 時間點對應的資料列表，列表內時間序列數量為D，
    #                                  每筆資料長度為T，若非為列表則轉為列表
    #  start (int) - 開始的資料序(第幾筆)
    #  end (int) -   結束繪製的資料序(第幾筆)
    #  labels (list of strings)- 對於多時間序列或多維度的標註
    #  title (string)- 圖片標題

    # 若資料只有一筆，則轉為list
    if type(series) != list:
        series = [series]

    if not end:
        end = len(series[0])

    if labels:
        # 設立dictionary, 讓plotly畫訊號線時可以標註label
        dictionary = {"time": time}
        for idx, l in enumerate(labels):
            # 截斷資料，保留想看的部分，並分段紀錄於dictionary中
            dictionary.update({l: series[idx][start:end]})
        # 畫訊號線
        fig = px.line(dictionary,
                      x="time",
                      y=list(dictionary.keys())[1:],
                      width=1000,
                      height=400,
                      title=title)
    else:
        # 畫訊號線
        fig = px.line(x=time, y=series, width=1000, height=400, title=title)
    fig.show()

這邊也附上我們的toy data產生器

In [None]:
def trend(time, slope=0):
    # 產生合成水平直線資料，其長度與時間等長，直線趨勢與設定slope相同
    # Args:
    #  time (array of int) - 時間點, 長度為T
    #  slope (float) - 設定資料的傾斜程度與正負
    # Returns:
    #  series (array of float) -  產出slope 與設定相同的一條線

    series = slope * time

    return series


def seasonal_pattern(season_time, pattern_type='triangle'):
    # 產生某個特定pattern，
    # Args:
    #  season_time (array of float) - 周期內的時間點, 長度為T
    #  pattern_type (str) -  這邊提供triangle與cosine
    # Returns:
    #  data_pattern (array of float) -  根據自訂函式產出特定的pattern

    # 用特定function生成pattern
    if pattern_type == 'triangle':
        data_pattern = np.where(season_time < 0.5,
                                season_time*2,
                                2-season_time*2)
    if pattern_type == 'cosine':
        data_pattern = np.cos(season_time*np.pi*2)

    return data_pattern


def seasonality(time, period, amplitude=1, phase=30, pattern_type='triangle'):
    # Repeats the same pattern at each period
    # Args:
    #   time (array of int) - 時間點, 長度為T
    #   period (int) - 週期長度，必小於T
    #   amplitude (float) - 序列幅度大小
    #   phase (int) - 相位，為遞移量，正的向左(提前)、負的向右(延後)
    #   pattern_type (str) -  這邊提供triangle與cosine
    # Returns:
    #   data_pattern (array of float) - 有指定周期、振幅、相位、pattern後的time series

    # 將時間依週期重置為0
    season_time = ((time + phase) % period) / period

    # 產生週期性訊號並乘上幅度
    data_pattern = amplitude * seasonal_pattern(season_time, pattern_type)

    return data_pattern


def noise(time, noise_level=1, seed=None):
    # 合成雜訊，這邊用高斯雜訊，機率密度為常態分布
    # Args:
    #   time (array of int) - 時間點, 長度為T
    #   noise_level (float) - 雜訊大小
    #   seed (int) - 同樣的seed可以重現同樣的雜訊
    # Returns:
    #   noise (array of float) - 雜訊時間序列

    # 做一個基於某個seed的雜訊生成器
    rnd = np.random.RandomState(seed)

    # 生與time同長度的雜訊，並且乘上雜訊大小 (不乘的話，標準差是1)
    noise = rnd.randn(len(time)) * noise_level

    return noise


def toy_generation(time=np.arange(4 * 365),
                   bias=500.,
                   slope=0.1,
                   period=180,
                   amplitude=40.,
                   phase=30,
                   pattern_type='triangle',
                   noise_level=5.,
                   seed=2022):
    signal_series = bias\
                  + trend(time, slope)\
                  + seasonality(time,
                                period,
                                amplitude,
                                phase,
                                pattern_type)
    noise_series = noise(time, noise_level, seed)

    series = signal_series+noise_series
    return series

In [None]:
# 先合成資料
time = np.arange(4 * 365)  # 定義時間點
series_sample = toy_generation(time)  # 這就是我們合成出來的資料

# 畫
plot_series(time, series_sample)

## Data Split

我們做機器學習一定要切訓練與測試集，但時間序列是會要求使用過去資料預測未來資料，所以切的時後須帶有序列性並且testing資料需要取training資料的後面的資料。

In [None]:
def split(x, train_size):
    # 最簡單直接取前後，並且時間點也記得要切，我們直接立個function
    return x[..., :train_size], x[..., train_size:]


time_train, time_test = split(time, 365*3)
series_train, series_test = split(series_sample, 365*3)

In [None]:
# 畫一下
plot_series(time_train, series_train, title="Training")
plot_series(time_test, series_test, title="Testing")

## K-step Ahead

這邊我們用最天真的方式來預測看看我們手上的資料，

K-step ahead即是每次利用上K個時間資料直接預測下個時間點資料。

這個前提是我們已經拿到K個時間點前的資料了，例如我們用今天的車流量去預測明天的車流量。

In [None]:
# 使用前面時間點資料預測下時間點
K = 1
forcast = series_train[:-K]
ground_truth_for_view = series_train[K:]
time_for_view = time_train[K:]

plot_series(time_for_view,
            [forcast, ground_truth_for_view],
            labels=['prediction', 'ground truth'])

可以看到巨觀來講會蠻準的，但是把顯示圖片zoom-in一下會看到實際上會有跟noise大小差不多的差距。

## Seasonal K-step Ahead

這個超參數K很吃資料，若不是對資料很清楚，會產生非常大的偏移。因為K-step ahead可看做對資料做時間平移。

但也可以利用這個平移的特性，因為我們已經知道周期了，所以或許還可以使用一個周期來預測資料。

但因為我們的case裡面有trend，所以直接apply週期上會不準

In [None]:
K = 5
P = 180
forcast = series_train[:-K-P]
ground_truth_for_view = series_train[K+P:]
time_for_view = time_train[K+P:]

plot_series(time_for_view,
            [forcast, ground_truth_for_view],
            labels=['prediction', 'ground truth'])

我們完成一個predictor可以把它包起來包成一個function，以供後續使用

很多time series forcasting method都會讓資料喪失資料點，會喪失K個

In [None]:
def k_step_ahead(data, k):
    # 產生k-step ahead預測
    # Args:
    #  data (array of float) - 輸入資料
    # Returns:
    #  forcast (array of float) -  k-step ahead預測結果

    forcast = data[:-k]
    return forcast

In [None]:
# 試用
K = 3
forcast = k_step_ahead(series_train, K)
ground_truth_for_view = series_train[K:]
time_for_view = time_train[K:]

plot_series(time_for_view, 
            [forcast, ground_truth_for_view],
            labels=['prediction', 'ground truth'])

## Metrics for Forcasting

當有了預測方式後，我們可以用一些指標衡量這些預測，通常是藉由error來計算的
<img src="https://hackmd.io/_uploads/rJ0CGvbY3.png" width=400 align="right">


**一些常見做法:**
- Mean Absolute Error (MAE)
- Mean Square Error (MSE)
- R square Score (R2)

下面我們自己刻一下

### Home Brew Metric Function

<img src="https://hackmd.io/_uploads/SyIxQvZYh.png" width=200 align="left">

In [None]:
def MAE(pred, gt):
    # 計算Mean Absolute Error
    # Args:
    #  pred (array of float) - 預測資料
    #  gt (array of float) - 答案資料
    # Returns:
    #  計算結果 (float)
    return abs(pred-gt).mean()

In [None]:
MAE(forcast, series_train[K:])

<img src="https://hackmd.io/_uploads/SyabXvbFh.png" width=200 align="left">

In [None]:
def MSE(pred, gt):
    # 計算Mean Square Error
    # Args:
    #  pred (array of float) - 預測資料
    #  gt (array of float) - 答案資料
    # Returns:
    #  計算結果 (float)
    return pow(pred-gt, 2).mean()

In [None]:
MSE(forcast, series_train[K:])

<img src="https://hackmd.io/_uploads/rJiEXvWYn.png" width=400 align="left">

In [None]:
def R2(pred, gt):
    # 計算R square score
    # Args:
    #  pred (array of float) - 預測資料
    #  gt (array of float) - 答案資料
    # Returns:
    #  計算結果 (float)
    return 1-pow(pred-gt, 2).sum()/pow(gt-gt.mean(), 2).sum()

In [None]:
R2(forcast, series_train[K:])

# 輸出值會在 [-inf~1]，若等於0代表error與原本訊號的

### Call Function from Module

而在tensorflow有直接使用的套件，都在```tensorflow.keras.metrics```裡面。

In [None]:
import tensorflow.keras.metrics as metrics

In [None]:
# MAE
print(metrics.mean_absolute_error(forcast, series_train[K:]))
# MSE
print(metrics.mean_squared_error(forcast, series_train[K:]))

比較特別的是它們會用tf.Tensor的方式跑，也會儲存為tf.Tensor。

如果自己設計training+validation機制，用tensorflow的這幾個算法可以讓Metric計算都在GPU裡面執行