# Sequential Modeling

Sequential modeling adalah salah satu metode pemodelan yang dikhususkan untuk data-data yang memliki struktur berupa barisan. Beberapa data yang masuk kategori ini adalah:

- Data runtun waktu (*time series*): *Stock market*, *speech*, *video*
- Terurut: Teks, kode genetik

Beberapa model sequential yang akan dipelajari adalah:

- Hidden Markov Model (HMM)
    - Conditional Random Field
- Reccurent Neural Network (RNN)
    - Long-Short Term Memory (LSTM)
    - Gated Recurrent Unit (GRU)
- Convolutional Neural Network (CNN)
    - CNN-1D
    
Beberapa aplikasi dari model-model tersebut diantaranya:

**Time Series Modeling**

![Time Series](./images/timeseries.png)

Sumber: https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb

**Part-of-Speech Tagging (POS-TAG)**

![POS-TAG](./images/pos-title.jpg)

Sumber: https://blog.aaronccwong.com/2019/building-a-bigram-hidden-markov-model-for-part-of-speech-tagging/

**Named Entity Recognition (NER)**

![NER](./images/ner.png)

Sumber: http://www.europeana-newspapers.eu/named-entity-recognition-for-digitised-newspapers/

**Natural Language Generator (NLG)**

![NLG](./images/nlg.gif)

Sumber: https://medium.com/human-on-tech/i-googled-for-you-natural-language-generation-35dd894d593d

## Hidden Markov Model

Hidden Markov Models (HMM) adalah salah satu model probabilistik berbasis graf yang memampukan kita untuk memprediksi sebarisan kejadian pada variabel yang tidak diketahui (*hidden*) dari sekumpulan variabel yang teramati (*observed variables*).

![HMM](./images/hmm.png)

Sumber: https://medium.com/@postsanjay/hidden-markov-models-simplified-c3f58728caab

Secara matematis, HMM dapat dimodelkan sebagai berikut:

![HMM-Math](./images/hmm-math.png)

1. Observasi $o_{1}, ..., o_{T} \in V$ dimana $V$ adalah ruang observasi
2. *Hidden states* $s_{i}, ..., s_{T} \in Q$ dimana $Q$ adalah ruang *hidden state*
3. HMM memberikan nilai pronbabilitas pada tiap barisan $s_{1}, ..., s_{T}$, dimana:

$$P(s_{1}, ..., s_{T}) = \Pi^{T}_{t=1} P(s_{T}|s_{0}, ..., s_{t-1}) = \Pi^{T}_{t=1} P(s_{t}|s_{<t})$$

Dimana $s_{0}$ dikatakan sebagai *state* permulaan.

4. Tiap observasi $o_{t}$ hanya bergantung pada *hidden state* $s_{t}$, atau secara matematis dapat didefinisikan sebagai:

$$P(o_{t}|o_{<t}, s_{<t}) = P(o_{t}, s_{t})$$

Sifat ini disebut sebagai asumsi independensi.

## Varian HMM: Conditional Random Field (CRF)

Conditional Random Field adalah pengembangan dari dua model Markov, yaitu HMM dan MEMM. Dengan menggabungkan kedua model sekuensial ini, CRF dapat diterapkan di berbagai kasus, mulai dari NER sampai deteksi objek.

![CRF](./images/crf.jpeg)

Sumber: https://medium.com/razorthink-ai/how-are-conditional-random-fields-applied-to-image-segmentation-ef511bf34a3f

## Recurrent Neural Network

Recurrent neural network (RNN) adalah salah model sequential yang berbasis neural network.

Berbeda dari arsitektur model MLP dan CNN, RNN secara struktur dapat dipakai untuk memodelkan data yang secara struktur memiliki pola sekuensial dengan cara menyimpan "memori" pada "state" sebelumnya. Istilah seperti *sekuensial* dan *states* menjadi penting untuk diketahui untuk mempelajari RNN.

**Cara kerja RNN**

- Data diubah menjadi vektor sehingga dapat diolah oleh model RNN

![RNN-1](./images/rnn-1.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

- Dalam prosesnya, tiap node akan memberikan *hidden state* ke node didepannya.

![RNN-2](./images/rnn-2.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

- Selanjutnya, *hidden state* dan input dihitung didalam node RNN sehingga diperoleh vektor yang membawa informasi dari input dan *hidden state* dari node sebelumnya. Vektor tersebut lalu diolah oleh fungsi aktivasi (dalam hal ini $\tanh$) dan menghasilkan output berupa *hidden state* yang baru.

![RNN-3](./images/rnn-3.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

- Nilai dari vektor tersebut akan diteruskan melalui node-node lainnya

![RNN-4](./images/rnn-4.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21


## Varian RNN: Long-Short Term Memory (LSTM)

Secara alur kerja, LSTM memiliki kemiripan dengan RNN, hanya saja memiliki banyak operasi yang terdapat di dalam nodenya.

![RNN-5](./images/rnn-5.png)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21


LSTM memiliki tiga bagian penting di dalamnya, yaitu forget gate, input gate dan cell gate.

### Forget Gate

![RNN-6](./images/rnn-6.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Forget gate berfungsi untuk menentukan informasi mana yang penting dan yang tidak. Hal ini diatur dengan cara memproses *hidden state* dan input melalui fungsi aktivasi sigmoid. Semakin dekat nilainya ke 0 maka semakin tidak penting informasi tersebut.

### Input Gate

![RNN-7](./images/rnn-7.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Input gate berfungsi untuk melakukan *updating* pada *cell state*. Pertama-tama, nilai *hidden state* dan nilai input dimasukkan ke dalam fungsi aktivasi sigmoid untuk menghitung seberapa penting informasi gabungan dari kedua nilai tersebut. Gabungan kedua nilai ini juga dihitung ke dalam fungsi $\tanh$. Output dari kedua fungsi ini selanjutnya dikali untuk memberi bobot pada informasi yang diperoleh dari fungsi $\tanh$.

### Cell Gate

![RNN-8](./images/rnn-8.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Cell gate berfungsi untuk menghitung *cell state* dari node lainnya sehingga diperoleh nilai *cell state* yang baru. Hal ini dilakukan dengan cara melakukan perkalian *pointwise* antara nilai *cell state* sebelumnya dengan nilai dari forget gate. Output dari perkalian *pointwise* ini akan dihitung kembali dengan nilai dari input gate dengan operasi penjumlahan *pointwise* sehingga diperoleh *cell state* yang baru.

### Output Gate

![RNN-9](./images/rnn-9.gif)

Sumber: https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

Output gate berfungsi untuk menentukan *hidden state* yang baru. Hal ini dilakukan dengan cara memasukkan vektor gabungan nilai *hidden state* dari node sebelumnya dan nilai input ke dalam fungsi aktivasi sigmoid. Selanjutnya, vektor yang diperoleh dari fungsi aktivasi akan dihitung dengan *cell state* yang sudah ditransformasi sebelumnya oleh fungsi $\tanh$ sehingga diperoleh *hidden state* yang baru untuk diteruskan ke node selanjutnya.

### Studi Kasus: LSTM untuk Pemodelan Time Series Univariate

**Load Library**

In [None]:
from keras.models import Sequential
from keras.layers import LSTM, Dense, Flatten

import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from keras.utils import plot_model

import matplotlib.pyplot as plt

**Load Dataset**

In [None]:
raw_data = pd.read_csv('./dataset/airline/airline-passengers.csv', usecols=[1])
raw_data

In [None]:
plt.plot(raw_data)
plt.show()

**Windowing & Train-Test Splitting**

In [None]:
def timeseries_to_supervised(data, time_step=1):
    df = pd.DataFrame(data)
    columns = [df.shift(i) for i in range(1, time_step+1)]
    columns.append(df)
    df = pd.concat(columns, axis=1)
    df.fillna(0, inplace=True)
    return df

In [None]:
data_for_model = timeseries_to_supervised(raw_data.values, 12).values

data_for_model

In [None]:
data_for_model.shape

In [None]:
train, test = data_for_model[0:-120], data_for_model[-120:]

**Reshaping trainX**

In [None]:
X, y = train[:, 0:-1], train[:, -1]
X = X.reshape(X.shape[0], 1, X.shape[1])

In [None]:
X

**Model Fitting**

In [None]:
# inisiasi model
model = Sequential()

# menambah layer LSTM
model.add(LSTM(units=1, batch_input_shape=(1, X.shape[1], X.shape[2]), stateful=True))

# layer output
model.add(Dense(1))

# compile model
model.compile(loss='mean_squared_error', optimizer='adam')

In [None]:
from IPython.display import Image
plot_model(model, to_file='multiple_inputs.png', dpi=300)
Image(retina=True, filename='multiple_inputs.png')

In [None]:
for i in range(3000):
    model.fit(X, y, epochs=1, batch_size=1, verbose=1, shuffle=False)
    model.reset_states()

In [None]:
testX = testX.reshape(testX.shape[0], 1, testX.shape[1])

testX

In [None]:
y_pred = []
for i in range(len(X)-1):
    prediksi = model.predict(X[0:-1][i].reshape(1,1,12), batch_size=1)
    y_pred.append(prediksi.tolist()[0][0])

In [None]:
y_pred

In [None]:
trainPredict = model.predict(trainX)
testPredict = model.predict(testX)

trainPredictPlot = np.empty_like(raw_data)
trainPredictPlot[:, :] = np.nan
trainPredictPlot[time_step:len(trainPredict)+time_step, :] = trainPredict

testPredictPlot = np.empty_like(raw_data)
testPredictPlot[:, :] = np.nan
testPredictPlot[len(trainPredict)+(time_step*2)+1:len(raw_data)-1, :] = testPredict

plt.plot(raw_data)
plt.plot(trainPredictPlot)
plt.plot(testPredictPlot)
plt.show()

**?**

**Latihan**

1. Lakukan proses differencing pada data sebelum dijadikan data latih untuk menghilangkan efek trend dan seasonal dengan fungsi dibawah, lalu lanjutkan preprocessing lainnya seperti 
2. Optimalkan model LSTM diatas dengan cara menambah layer, mengganti fungsi optimasi, menambah jumlah epoch dan hyperparameter lainnya.

**Fungsi differencing**

In [None]:
# untuk raw_data
def difference(raw_data, interval=1):
    diff = list()
    for i in range(interval, len(raw_data)):
        value = raw_data[i] - raw_data[i - interval]
        diff.append(value)
    return pd.Series(diff)

In [None]:
# untuk kelas target
def inverse_difference(history, yhat, interval=1):
    return yhat + history[-interval]

**Fungsi Scaling**

In [None]:
from sklearn.preprocessing import MinMaxScaler

# inisiasi MinMaxScaler
scaler = MinMaxScaler(feature_range=(-1, 1))

# fit pada trainX
scaler = scaler.fit(trainX)

# transform trainX menjadi train_X_scaled
trainX = trainX.reshape(trainX.shape[0], trainX.shape[1])
train_X_scaled = scaler.transform(trainX)

# transform testX menjadi test_X_scaled
testX = testX.reshape(testX.shape[0], testX.shape[1])
test_X_scaled = scaler.transform(testX)

In [None]:
train_scaled

In [None]:
def invert_scale(scaler, X, value):
    new_row = [x for x in X] + [value]
    array = numpy.array(new_row)
    array = array.reshape(1, len(array))
    inverted = scaler.inverse_transform(array)
    return inverted[0, -1]

**Contoh**

In [None]:
hasil = difference(raw_data.Passengers,1)
hasil

In [None]:
hasil = pd.DataFrame(hasil).values
hasil = hasil.astype('float32')
hasil