<img src="assets/logo.png" width="150">

**Coursebook: Time Series Forecasting with Pytorch**

- Last Update: February 2023
___

Developed by Kevin Wibowo


The coursebook is prepared by [Algoritma](https://algorit.ma). The coursebook is intended for a restricted audience only, i.e. the individuals and organizations having received this coursebook directly from the training organization. It may not be reproduced, distributed, translated or adapted in any form outside these individuals and organizations without permission.

Algoritma is a data science education center based in Jakarta. We organize workshops and training programs to help working professionals and students gain mastery in various data science sub-fields: data visualization, machine learning, data modeling, statistical inference etc.

# Kata Pengantar

## Background

Perubahan iklim dalam beberapa waktu ke belakang telah memberikan dampak yang besar pada kehidupan manusia, salah satunya adalah peningkatan tinggi muka air laut. Siklus perubahan tinggi muka air laut yang normalnya hanya dipengaruhi oleh gaya tarik bulan dan matahari tidak lagi stabil secara berulang tetapi terjadi peningkatan yang signifikan. Oleh karena itu kita ingin melakukan analisis perubahan tinggi muka air laut akibat perubahan iklim dengan melakukan peramalan peningkatannya. Berdasarkan masalah ini, kita akan membuat model machine learning dengan library PyTorch.

# Python Programming Basic

## Setting up Anaconda Environment

**Cara membuat virtual environment:**

1. Buka Anaconda Prompt

2. Buat virtual environment baru menggunakan syntax:
    ```
    conda create -n <ENV_NAME> python=<PYTHON_VERSION>
    ```
    Contoh: `conda create -n dss_tsfeb python=3.10`


3. Aktivasi virtual environment baru:
    ```
    conda activate <ENV_NAME>
    ```
    For example: `conda activate dss_tsfeb`
    
    
4. Ubah working directory terminal ke lokasi tempat menaruh requirements.txt. Sebagai contoh jika file .txt tersebut tersimpan di Desktop, gunakan: `cd Desktop`


5. Untuk standardisasi library, silakan install menggunakan requirementx.txt yang sudah dibagikan. Gunakan syntax berikut:
    ```
    pip install -r requirements.txt
    ```
    
6. Install kernel agar virtual environment tersambung ke Jupyter Notebook.
    ```
    python -m ipykernel install --user --name=<ENV_NAME>
    ```
    For example: `python -m ipykernel install --user --name=dss_tsfeb`


## Working with Jupyter Notebook

### Markdown Cell and Code Cell

Kumpulan shortcut: **CTRL + SHIFT + P**

Tipe cell dalam notebook:
1. Markdown 
2. Code

Area ini adalah markdown cell. Kita dapat menulis text dengan format seperti **bold** atau *italic*. Tidak hanya itu, kita bahkan dapat menulis formula matematika seperti:

\begin{equation}
f(x) = \frac{e^{-x}}{(1+e^{-x})}
\end{equation}


### Command Mode and Edit Mode

Mode cell dalam notebook:
1. Command mode (cell berwarna BIRU)
    - `a` : add cell above 
    - `b` : add cell below 
    - `d` + `d` : delete selected cell 
    - `x` : cut selected cell 
    - `c` : copy selected cell 
    - `v` : paste selected cell 
    - `z` : undo 
    - `m` : change cell type to markdown 
    - `y` : change cell type to code
    - `enter` : enter Edit Mode
    - `h` : show keyboard shortcuts


2. Edit mode (cell berwarna HIJAU)
    - `Ctrl + Enter`: eksekusi satu cell
    - `Shift + enter`: eksekusi satu cell
    - `Esc`: Mengubah edit mode menjadi command mode

## Variables and Keywords

**Variable** adalah sebuah nama yang dipakai untuk menunjukkan sebuah nilai. Tanda `=` dipakai untuk membuat variable baru. Proses ini sering disebut sebagai **assignment**.

Python adalah bahasa pemrograman yang **case-sensitive** sehingga penamaan variable menjadi hal yang perlu diperhatikan. Misal penulisan variable `activity` dengan awalan huruf `a` kecil berbeda dengan yang diawali dengan huruf `A` besar.

Berikut beberapa anjuran dalam memberikan nama variable pada Python:
- Menggunakan kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel. (contoh: you&me) 
- Tidak boleh menggunakan angka di awal. (contoh: 123Algoritma)
- Tidak boleh menggunakan keyword pada Python
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda
___

**Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.7) keyword yang ada pada Python adalah sebagai berikut:

In [None]:
# Cek daftar keyword
import keyword
keyword.kwlist

## Data Structure

### List

`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakkan nilai di dalam tanda kurung (yaitu: `x = [1,2,3]` )

Operasi list yang biasa digunakan
- `x.append(a)` : tambahkan a ke x
- `len(x)` : ekstrak panjang daftar
- `x[i]` : mengakses elemen ke-i dari x

### Dictionaries

Kita telah belajar tentang urutan dalam Python tetapi sekarang kita akan beralih dan belajar tentang mapping pada Python. Jika Anda terbiasa dengan bahasa lain, Anda dapat menganggap Dictionaries ini sebagai tabel hash.

Python dictionary terdiri dari **key** dan kemudian **value** terkait. Nilai itu bisa berupa hampir semua objek Python.

### Dataframe

Dataframe merupakan sebuah struktur data tabular yang dapat diakses menggunakan library `pandas` yang biasanya digunakan ketika kita melakukan persiapan dan pembersihan data. Pada [dokumentasi official](https://pandas.pydata.org) dari pandas tertulis statement berikut:
> Python has long been great for data munging and preparation, but less so for data analysis and modeling. pandas helps fill this gap, enabling you to carry out your entire data analysis workflow in Python without having to switch to a more domain specific language like R.

Untuk menggunakan `pandas` kita akan menggunakan `import` function. Setelah di-import maka kita dapat mengakses berbagai fungsi `pandas` menggunakan notasi *pandas.function_name*.

In [None]:
import pandas as pd
print(pd.__version__)

Pada course ini kita akan membahas terkait fenomena tinggi muka air laut. Untuk mengakses data ini kita dapat menggunakan `pd.read_csv()`.

Untuk melihat 5 data teratas kita menggunakan method `head()`. Sebaliknya untuk melihat 5 data terbawah kita menggunakan method `tail()`. Data yang kita lihat tidak terbatas 5 jumlahnya. Kita dapat mengatur seberapa banyak data yang kita lihat menggunakan parameter `n` di dalam kedua method tersebut.

Untuk melihat informasi detail dari sebuah dataframe kita dapat menggunakan method `info()`.

Beberapa informasi yang dapat kita ambil dari hasil keluaran `info()` yaitu:

- Jumlah data kita sebesar 1215 baris/observasi
- Terdapat 2 buah kolom yang secara spesifiknya sebagai berikut:
    - `yearmonth`: terdapat 1215 non-NA data bertipe object
    - `msl_mm`: terdapat 1215 non-NA data bertipe int64

#### Subsetting 

Pada pandas dataframe, kita dapat mengambil kolom yang kita ingin lihat secara khusus atau ingin diubah (yang akan dibahas pada bagian berikutnya).
Untuk melakukan hal ini kita akan menggunakan kurung siku `[]` setelah nama dataframe kita.

#### Data Types

Jika kita lihat pada bagian sebelumnya, hasil dari `info()` menampilkan bagian Dtype yang merupakan tipe data suatu kolom. Secara umum pandas akan mendefinisikan tipe datanya tetapi terkadang pandas akan mengeluarkan hasil yang salah sehingga kita harus melakukan pengubahan tipe data sendiri.

Untuk pengecekan tipe data secara spesifik kita menggunakan attribute `dtypes`.

Pada kasus data kita, terdapat satu buah kolom yang kurang tepat tipe datanya yaitu `yearmonth`. Hal ini karena pandas memiliki tipe data `date` yang lebih sesuai untuk data kita ini. Pengubahan tipe data dapat menggunakan cara-cara berikut ini:

- `df["column"].astype("new_data_type", format = "%y/%m/%d")`
- `pd.to_datetime(df["column"])`
- menggunakan parameter parse_dates pada fungsi `read_csv()`, contohnya: `pd.read_csv("file", parse_dates = ["judul_kolom"])`

**Rangkuman tipe data pada pandas dataframe:**

| Pandas dtype  | Python type  | NumPy type                                                     | Usage                                        |
|---------------|--------------|----------------------------------------------------------------|----------------------------------------------|
| object        | str or mixed | string_, unicode_, mixed types                                 | Text or mixed numeric and non-numeric values |
| int64         | int          | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers                              |
| float64       | float        | float_, float16, float32, float64                              | Floating point numbers                       |
| bool          | bool         | bool_                                                          | True/False values                            |
| datetime64    | NA           | datetime64[ns]                                                 | Date and time values                         |
| timedelta[ns] | NA           | NA                                                             | Differences between two datetimes            |
| category      | NA           | NA                                                             | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

<!---
|Tipe Data|String|Number|Boolean|
|:-|:-|:-|:-|
|Data tersimpan|Seluruh huruf, angka, maupun spesial karakter|Angka|True/False|
|Karakteristik|diapit oleh tanda kutip ("kata") ketika didefinisikan|dapat dilakukan operasi matematika dan operasi perbandingan nilai (*/+- dan <>==) |jika diubah ke bentuk number bernilai 1 dan 0|
-->

Jika kolom `yearmonth` kita sudah diubah menjadi tipe `datetime64`, kita dapat melakukan ekstraksi komponen waktu seperti tahun, bulan, dan hari. Berikut adalah syntax dari beberapa nilai yang biasa digunakan.

**Date component (numeric)**
- `.dt.year` -> partisi tahun
- `.dt.month` -> partisi bulan (angka)
- `.dt.day` -> partisi day/tanggal (dalam angka)
- `.dt.dayofweek` -> Monday=0, Sunday=6

**Date component (string)**
- `.dt.month_name()`-> partisi bulan (nama)
- `.dt.day_name()`-> partisi hari (nama)

[Klik di sini untuk Dokumentasinya](https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties)

#### Conditional Subsetting

Tidak hanya bisa memilih suatu kolom, menggunakan pandas kita juga dapat memberikan syarat nilai yang kita inginkan. Contoh syarat yang bisa digunakan:
```python
df["judul_kolom"] == suatu_nilai
```

Jika data kita berbentuk numerik, kita juga dapat menggunakan operator seperti ==, !=, >, <, >=, <=

#### Playing with Dataframe Index

Index dari dataframe dapat diubah sesuai kebutuhan, terdapat 2 buah method yang biasa digunakan yaitu:
- `.reset_index()`: mengambil informasi index menjadi kolom 
- `.set_index()`: menentukan index berdasarkan judul kolom

## Specific Data Structure

### Numpy Array

Numpy adalah library utama untuk scientific computing menggunakan Python. Library ini menyediakan objek multidimensional array  dan berbagai function yang dapat dimanfaatkan untuk array tersebut.

**Numpy array** adalah kumpulan nilai, yang memiliki tipe data yang sama, dan diindeks oleh tuple bilangan bulat non-negatif. 
Jumlah dimensi adalah deretan array; bentuk array adalah tuple bilangan bulat yang menunjukkan ukuran array pada setiap dimensi.

In [None]:
import numpy as np

In [None]:
np.random.seed(2102)
dummy = np.random.randint(1,100, size=(3,4,5))
dummy

### Tensor

Secara bentuknya tensor sama saja dengan numpy array yaitu sebuah n-dimensional array. Yang membedakan keduanya adalah kita dapat melakukan komputasi menggunakan GPU pada PyTorch. Input dari model PyTorch sendiri nantinya haruslah dimulai dari bentuk tensor.

In [None]:
import torch

#### Konversi numpy array ke torch tensor

Pembentukan tensor menggunakan method `.tensor()` dari library torch. Jika ingin mengubah ke bentuk spesifik, kita dapat mengubah tipe data di dalamnya menggunakan parameter `dtype` atau bisa menggunakan method spesifiknya. Catatan method ini dapat dilihat melalui [link berikut](https://pytorch.org/docs/stable/tensors.html).

In [None]:
dummy_tensor = 


#### Shape & reshaping

Untuk melihat bentuk tensor, kita dapat menggunakan atribut `.shape` ke object tensor kita.
Sementara untuk mengubah bentuknya, kita gunakan method `view()` dan masukkan bentuk yang kita inginkan.

In [None]:
# cek shape


In [None]:
# reshaping


#### Konversi torch tensor ke numpy array atau ke python object

Bentuk tensor dapat diubah kembali ke bentuk numpy array maupun python object. Untuk mengubah kembali ke bentuk numpy array, ktia cukup menggunakan method `.numpy()`. Sementara untuk mengembalikan ke bentuk python object dapat menggunakan `.item()`
dengan catatan bahwa pengembalian ke dalam bentuk python object hanya dapat dilakukan untuk tensor berdimensi 1 (hanya memiliki 1 nilai saja). 

In [None]:
# ke numpy array


In [None]:
# ke python 


## Function

Function merupakan sekelompok perintah yang digunakan untuk melakukan tugas tertentu. Ketika kita melakukan sesuatu yang berulang dan rumit, alangkah baiknya kita menggunakan fungsi agar tidak ada langkah yang berubah maupun penulisan kode yang salah. Penulisan umum sebuah fungsi yaitu:
```python
def nama_fungsi(parameter):
    perintah
```
Pada syntax umum di atas, `def` merupakan inisiator untuk sebuah fungsi. Sementara hal-hal yang harus kita tentukan yaitu nama dari fungsi, parameter yang akan digunakan di dalamnya, serta perintah atau kode. 

Sebagai contoh, kita akan membuat sebuah fungsi pemanggilan nama.

## Class

Python adalah bahasa pemrograman yang berorientasi pada object (Object Oriented Programming). Oleh karena itu hampir seluruh hal yang ada di python adalah object. Class sendiri dapat dikatakan "blueprint" dari sebuah object. Penulisan umum sebuah class yaitu:
```python
class nama_class:
    def __init__(self, parameter):
        self.parameter = parameter
```
Syntax di atas kita menggunakan `class` untuk mendefinisikan dan memulai sebuah class. Agar lebih jelas kita akan coba membuat sebuah kelas tentang identitas dimana pengguna akan memasukkan nilai **nama, umur, dan domisili**.

Pada kasus di atas kita mendefinisikan sebuah method dari class kita, yaitu nama, umur, dan domisili. Sebuah class tidak terbatas pada hanya pendefinisian attribute saja melainkan kita juga dapat mendefinisikan sebuah method. Contohnya adalah ketika kita ingin melakukan **update nilai dari domisili** yang artinya kita mengganti nilai awal yang telah kita masukkan. Berikut adalah contohnya.

### Inheritance

Inheritance merupakan sebuah metode pada python dimana kita dapat mendefinisikan sebuah class yang memiliki method dan attribute dari class lain. Sebagai contoh jika kita memiliki class A dan kita ingin menggunakan method dan attribute yang terdapat pada class A pada class B, kita tidak harus menulis class A kembali.
Pada kasus di atas class A disebut sebagai parent class dan class B sebagai child class.

Untuk lebih memahaminya, kita akan menggunakan class Identity yang telah dibuat sebelumnya untuk membuat class baru yaitu Background, dimana pada class ini terdapat informasi yang sama dengan informasi class Identity tetapi terdapat tambahan berupa **universitas dan tahun lulus**.

**Notes:**

Mempelajari class dan inheritance menjadi penting ketika menggunakan pytorch, hal ini karena kita akan membuat class dengan mengambil properties dan method yang telah dibangun oleh pytorch pada model kita nanti.

## Looping in Python

Looping merupakan sebuah metode untuk melakukan perulangan sebuah proses pada batas yang kita tentukan. Pada python terdapat 2 jenis looping yaitu `for` dan `while` loop dan pada course kali ini kita akan berfokus pada `for` loop.

Secara umum, syntax dari `for` loop adalah:
```python
for i in range(n):
    '''do_something_here'''
```

Dari syntax tersebut, secara naratif kita bisa membacanya sebagai lakukan suatu hal (perintah kita) selama masih dalam range nilai n. Jika sudah mencapai batas nilai yang ditentukan (n) maka perulangan akan berhenti.

# Neural Network

**Neural network** atau artificial neural network (ANN) adalah metode machine learning yang *terinspirasi dari cara kerja otak manusia* mengirimkan informasi melalui sistem saraf (biological neural network). Terdapat 2 hal utama dari neural network: **arsitektur** & **learning process** yang dilakukan.

## Arsitektur Neural Network

Sistem saraf yang dimiliki manusia terdiri dari sel saraf yang dinamakan **neuron**, dan neuron tersebut amat banyak hingga membentuk **jaringan**. Tiap stimulus/input dari luar akan diterima oleh panca indra sebagai signal kemudian akan dialirkan melalui satu sel saraf ke sel saraf lainnya. Jaringan sel saraf tersebar dari ujung jari hingga otak dan berlanjut kembali ke seluruh tubuh kita. 
    
> Jaringan sel saraf mengalirkan informasi dari area stimulus/**input**, diproses melalui otak, lalu dikembalikan kepada tubuh sebagai **output** atau respon yang kita berikan.

Human Neuron  |  Artificial Neural Network's Neuron
-- | --
![neuron](assets/bnn.png) | ![neuron](assets/ann.PNG)

Arsitektur sistem saraf inilah yang menginspirasi terbentuknya model neural network. Berikut adalah gambar lebih jelas dari skema model neural network:

![neuron](assets/ann.PNG)
💡 Pada model neural network, informasi dialirkan dan diproses melalui arsitektur yang terdiri dari:

* **neuron/node**: tempat informasi disimpan
* **input layer**: layer yang menerima input sekaligus layer pertama; node sejumlah variable input/prediktor (x1, x2, ..., xn)
* **hidden layer**: layer antara input & output, tempat *proses informasi*; jumlah layernya bisa lebih dari 1, yang menentukan adalah user
* **output layer**: layer yang mengeluarkan output (hasil prediksi) sekaligus layer terakhir; node sejumlah variabel target (y)
- _**weight**_: informasi yang dibawa oleh setiap neuron. Awalnya bobot ini akan di inisialisasi secara random.

## Learning Process in Neural Network

Neural Network bekerja dengan mengevaluasi error dan mengupdate nilai bobot/weight. 1 Proses mengevaluasi dan mengupdate bobot disebut dengan 1 step/epoch. 1 step terdiri dari 2 fase:

* **Feed Forward** : Memprediksi nilai target (y)
* **Back Propagation** : Mengupdate nilai bobot berdasarkan nilai error yang didapatkan

![nn works](assets/nn_works.png)

1. Membuat weight dan bias secara random

Ulangi langkah berikut hingga mencapai konvergen (tidak mengalami penurunan error yang signifikan) atau batas yang ditentukan (jumlah step):

2. Feed Forward : Memprediksi nilai target y sesuai dengan bobot yang dimiliki sekarang

3. Menghitung nilai error

4. Back Propagation : Mencari perubahan bobot yang memberikan error minimum

5. Update Bobot sesuai hasil Back Propagation

### Feed Forward

Feed forward adalah proses model memprediksi nilai target berdasarkan bobot dan bias yang dimiliki. Pada ilustrasi berikut, model akan menerima input dari setiap prediktor/feature yang kemudian akan diolah sesuai dengan bobot dari masing-masing neuron/node ditambah dengan nilai biasnya. 

- Tanda `S` pada hidden layer dan output layer menunjukkan bahwa terjadi perubahan skala data menjadi 0-1 karena kita menggunakan activation function berupa `Sigmoid Function`.

![feed forward](assets/forward.gif)

### Activation Functions

**Activation Function** berfungsi untuk mentransformasi input sebelum diteruskan ke layer selanjutnya sesuai dengan kebutuhan. Istilah activation function terinspirasi dari cara otak bekerja dengan mengaktifkan atau menonaktifkan sel syaraf. Hal ini bermanfaat agar:

* nilai yang diteruskan sudah dalam bentuk sepatutnya (misal output klasifikasi berupa peluang: 0~1)
* menjaga agar nilai yang diteruskan ke node-node selanjutnya tidak semakin besar dan memperberat komputasi.

💡 Beberapa jenis activation function:

- **Linier**
    + jenis default perhitungan linier 
    
- Tanh
    + (Hyperbolic tangent) : digunakan pada hidden layer
    + Alternatif untuk sigmoid. Skala output yang dihasilkan adalah -1 hingga 1 (zero centered).

- **Rectified Linear unit (ReLU)**
    + Biasa digunakan di hidden layer. bagus untuk kasus image (range 0 ~ inf)
    + Jika nilai inputnya kurang dari 0 (negatif), maka diubah menjadi 0.

- Logistic (sigmoid)
    + Cocok di output dan untuk kasus klasifikasi (biner) (range 0 ~ 1).
    + Mengkonversi nilai numerik menjadi skala 0-1, sehingga cocok untuk klasifikasi 2 kelas.  

- Softmax
    + Biasa digunakan di output layer untuk kasus klasifikasi (multiclass) (range 0 ~ 1)
    + Sama seperti dengan sigmoid, hanya saja dapat menerima lebih dari 2 kelas (multiclass). Softmax akan memastikan bahwa output dari sebuah vektor adalah distribusi peluang yang jika ditotal semuanya adalah 1. Misalkan untuk klasifikasi dengan 3 kelas (high, low, normal) maka peluang dari masing-masing kelas saat ditotal adalah 1.


<img src="https://drive.google.com/uc?export=view&id=1KAcL458IRdWsMYfTSZRA6K61zAhrAeY9" width="80%">

### Loss Function / Cost Function (Error)

Loss function digunakan untuk pedoman belajar dari model Neural Network. Loss function untuk setiap jenis permasalahan bisa berbeda-beda. Dokumentasi dapat dilihat pada: https://pytorch.org/docs/stable/nn.html#loss-functions

Memilih Loss Function yang tepat untuk problem yang tepat sangatlah penting: Neural Network akan mengambil jalan pintas apa pun yang dapat dilakukan untuk meminimalkan kerugian. Loss function, yang dapat digunakan untuk mengestimasi kerugian model sehingga bobot dapat diperbarui untuk mengurangi kerugian pada evaluasi berikutnya.

+ Pada kasus regresi /target variabel numerik, loss yang biasa digunakan adalah:
    - **MSE atau Mean Squared Error**. 
        + Seperti namanya, kerugian ini dihitung dengan mengambil rata-rata perbedaan kuadrat antara nilai aktual (target) dan prediksi. Pengkuadratan berarti bahwa kesalahan yang lebih besar menghasilkan lebih banyak kesalahan daripada kesalahan yang lebih kecil, artinya model dihukum karena membuat kesalahan yang lebih besar.
    - **MAE atau Mean Absolute Error**
        + Kerugian ini dihitung sebagai rata-rata perbedaan absolut antara nilai aktual dan prediksi. Cocok digunakan untuk data yang memiliki banyak outlier. 

### Backpropagation

Back Propagation adalah proses mengupdate bobot berdasarkan informasi yang didapatkan dari error hasil prediksi. Informasi yang dicari adalah informasi tentang nilai update yang optimal dengan menggunakan nilai gradient, sehingga metodenya disebut dengan *Gradient Descent*. Untuk mengatur seberapa cepat dan detail model belajar, nilai *Learning Rate* dapat diatur. Semakin kecil learning rate, semakin detail model belajar. Nilai yang biasa digunakan untuk Learning Rate adalah 0.01.

Gradient Descent akan membuat model belajar mencari nilai dari masing-masing bobot yang tepat sehingga mendapatkan loss yang semakin kecil. Besar penambahan/penurunan bobot adalah `bobot awal - (gradient x learning rate)`. **Learning rate** adalah seberapa cepat model melakukan update bobot (range: 0 ~ 1):

- learning rate rendah:
     + membuat model mengupdate bobot sedikit demi sedikit
     + waktu untuk mencapai titik lokal optimum dari bobot akan lebih lama
     + Namun, jika model sudah menyentuh **local optima** atau titik terendah di antara dua area yang lebih tinggi errornya, model akan sulit untuk lepas dari area tersebut sehingga terdapat kemungkinan juga model tidak bisa mendapatkan **global optima** atau error yang paling rendah.
- learning rate tinggi:
     + membuat model belajar lebih cepat dengan jumlah step yang lebih sedikit
     + kemungkinan besar akan melewatkan titik terendahnya sehingga tidak bisa mencapai nilai error yang optimal.
- Pemilihan learning rate adalah salah satu hal yang penting dalam membuat Neural Network.

![learning rate](assets/learning_rate.jpg)

Apabila tertarik dengan matematika di balik *Gradient Descent*, dapat mengunjungi:
- https://ruder.io/optimizing-gradient-descent/
- https://jermwatt.github.io/machine_learning_refined/notes/3_First_order_methods/3_6_Descent.html

## Hyperparameter Tuning

**Learning Rate**\
Learning Rate mempengaruhi seberapa cepat model akan belajar. Tingkat pembelajaran yang besar mungkin menghasilkan waktu yang lebih cepat untuk konvergen tetapi meningkatkan risiko terjebak dalam local optima.

**Epoch** \
Epoch yang besar akan memberikan model kesempatan untuk mempelajari data lebih banyak, diharapkan menghasilkan kinerja yang lebih baik dari waktu ke waktu. Namun, model mungkin terkena masalah overfit.

## Batch Learning

Batch Learning tidak ada hubungannya dengan kinerja model. Namun, hal ini mempengaruhi penggunaan memori untuk setiap model yang kita gunakan.

Training tanpa membagi data menjadi batch-batch kecil akan membuat proses learning dilakukan setelah seluruh data terproses, sementara jika menggunakan partial batch proses evaluasi dan pembaruan bobot akan dilakukan pada setiap batch.
Semakin besar ukuran batch, semakin banyak memori yang dibutuhkan untuk melakukan satu siklus pembelajaran (feed forward + backpropagation) tetapi waktu pembelajaran lebih cepat. Disarankan untuk menjaga agar batch tetap rendah untuk mencegah kegagalan model saat memprediksi data.

Pada pytorch, batch size ditentukan ketika mendefinisikan `DataLoader` yaitu pada parameter `batch_size`.

**Hal yang perlu diperhatikan**
1. Semakin banyak batch (ukuran batch) 
    - Prosesnya akan semakin lama karena proses optimasi model semakin banyak
    - Namun bisa mencegah beban komputasi yang besar di satu waktu sekaligus
2. Semakin banyak epoch:
    - Erronya semakin kecil
    - Prosesnya semakin lama
    - Rentan overfit (keadaan dimana nilai train lebih bagus daripada test/validation)
    - Biasanya untuk menentukan epoch diawal bisa menggunakan 10/15
   

**Contoh implementasi neural network menggunakan PyTorch tidak akan dibahas di kelas, tetapi jika ingin melakukan eksplorasi bisa menonton [video tutorial ini](https://www.youtube.com/playlist?list=PLXsFtK46HZxWKgwYZzh_c2MmGxIDnRGUT).**

# Tidal theory

Pada course kali ini kita akan secara khusus membahas terkait kasus naik turunnya tinggi muka air laut atau biasa disebut sebagai pasang surut. Fenomena ini terjadi karena adanya gaya tarik gravitasi dari bulan dan matahari yang digambarkan sebagai berikut.

<img src="https://cdn.britannica.com/79/94579-050-608F6924/Earth-Tides-pull-water-Sun-and-the.jpg" width="70%">

Fenomena pasang surut (pasut) secara umum adalah hasil dari superposisi berbagai komponen gelombang laut (yang juga diakibatkan oleh gaya tarik bulan dan matahari). Selain itu lingkungan juga berperan dalam mempengaruhi tinggi muka air laut, seperti kedalaman perairan, bentuk pantai, dsb. Hal ini menyebabkan kondisi pasang surut di setiap lokasi di dunia akan berbeda baik ketinggian serta polanya. Komponen gelombang laut ini diwaliki oleh nilai-nilai yang sering disebut sebagai konstanta harmonik dan contoh dari konstanta ini dapat dilihat pada [link berikut](https://tidesandcurrents.noaa.gov/harcon.html?id=9410170).

Konstanta harmonik di atas biasanya didapatkan dari berbagai metode, salah satu yang sering digunakan adalah metode admiralty dari data hasil pengukuran. Jika konstanta harmonik sudah kita dapatkan, sebenarnya kita dapat menghitung kenaikan tinggi muka air laut secara sederhana dan dapat digunakan untuk meramalkan tinggi muka air laut. 

Berdasarkan penelitian dengan menggunakan metode harmonik ini, didapatkan bahwa pasang surut secara general dipengaruhi oleh siklus astronomi dengan periode 18.6 tahun. Artinya akan terdapat pola naik dan turun yang berbeda tetapi setiap 18.6 tahun pola tersebut akan berulang. Fenomena lebih lengkap terkait hal ini dapat dibaca pada [link berikut](https://noc.ac.uk/news/highest-tides-186-years).

Sayangnya metode perhitungan menggunakan konstanta di atas hanya memperhitungkan tinggi muka air laut berdasarkan fenomena gaya tarik bulan dan matahari serta dengan asumsi siklus hidrologi berjalan dengan seimbang. Sementara dengan adanya efek gas rumah kaca yang menyebabkan perubahan iklim, jumlah es yang meleleh tidak lagi seimbang dengan pembentukannya, sehingga hal ini menyebabkan volume air di laut bertambah dari waktu ke waktu. 

<img src=https://cdn.britannica.com/89/62689-050-66A0068F/water-hydrologic-cycle-land-surface-atmosphere-ocean.jpg width="70%"> 

Selain akibat dari perubahan iklim, masih terdapat faktor eksternal lain yang berpengaruh seperti penurunan muka tanah akibat penggunaan air tanah yang berlebihan salah satu contohnya yang terjadi di area Jakarta (spesifik untuk Jakarta Utara yang berbatasan langsung dengan laut, source: [paper](https://www.researchgate.net/publication/251389443_Land_subsidence_of_Jakarta_Indonesia_and_its_relation_with_urban_development)).

Oleh karena hal itu mulai terdapat penelitian menggunakan machine learning sebagai metode untuk memperkirakan tinggi muka air laut. Hal ini karena machine learning dapat memperhitungkan efek-efek eksternal tersebut karena mempelajari pola data.

# Recurrent Neural Network

Pada kasus data time series seperti kasus kita sekarang, informasi dari urutan data sangatlah penting karena model mempelajari pola berdasarkan urutan datanya. Hal ini tidak difasilitasi oleh model Neural Network biasa karena model Neural Network biasa akan mengambil data secara random pada proses learningnya dan tidak memedulikan urutan. Oleh karena hal itulah digunakan metode bernama Recurrent Neural Network (RNN). 

## Perbedaan RNN dengan vanilla Neural Network

Arsitektur dari RNN mirip dengan arsitektur Neural Network, bedanya adalah hidden layer dari satu proses feed forward akan digunakan sebagai input pada feed forward selanjutnya, hal ini disebut sebagai memori. Skema dari RNN digambarkan sebagai berikut:

<img src="assets/nn_vs_rnn.png" width = "70%">

Oleh karena itu, input dari RNN meliputi fitur yang kita gunakan serta informasi hidden layer sebelumnya. Jika kita gambarkan secara umum, maka proses pembelajaran dari RNN akan menjadi seperti berikut:

<img src="https://cdn.jsdelivr.net/gh/AuthurWhywait/images/20211202145041.png" width="70%">

# Reference

Tidal theory
1. https://www.britannica.com/science/tide
2. https://tidesandcurrents.noaa.gov/constitu.html
3. https://noc.ac.uk/news/highest-tides-186-years
4. https://oceanservice.noaa.gov/education/tutorial_tides/tides02_cause.html
5. https://web.njit.edu/~gary/320/Lecture12.html
6. https://www.britannica.com/science/water-cycle

Recurrent Neural Network <br>

7. https://authurwhywait.github.io/blog/2021/12/02/introduction_to_dl02/
8. http://karpathy.github.io/2015/05/21/rnn-effectiveness/
9. https://www.kaggle.com/code/namanmanchanda/rnn-in-pytorch/notebook
10. https://www.simplilearn.com/tutorials/deep-learning-tutorial/rnn