# Gradient Descent

Gradient Descent (Desent/Turun Gradien) adalah algoritma optimasi yang digunakan untuk mencari nilai minimum (atau maksimum) dari sebuah fungsi. Algoritma ini sering digunakan dalam machine learning dan deep learning untuk mengoptimalkan model dengan cara meminimalkan fungsi kerugian (loss function) atau fungsi objektif.

Berikut adalah konsep dasar dari Gradient Descent:

Fungsi Objektif (Loss Function): Gradient Descent digunakan untuk mengoptimalkan fungsi objektif yang biasanya mengukur seberapa baik model bekerja dalam memprediksi atau memodelkan data. Tujuan utama adalah untuk menemukan parameter-parameter yang meminimalkan fungsi objektif ini.

Gradien (Gradient): Gradien adalah vektor yang menunjukkan arah dan tingkat pertumbuhan paling cepat dari fungsi objektif pada suatu titik tertentu. Gradien mengindikasikan di mana perubahan nilai parameter akan memberikan penurunan terbesar dalam fungsi objektif. Untuk mencari nilai minimum fungsi, kita mencari titik di mana gradiennya nol.

Iteratif: Gradient Descent adalah algoritma iteratif. Itu berarti kita memulai dengan perkiraan awal untuk parameter-parameter kita dan terus memperbarui parameter tersebut dalam setiap iterasi sampai kita mencapai kondisi berhenti yang ditentukan (misalnya, jumlah iterasi maksimum atau perubahan fungsi objektif yang cukup kecil).

Langkah (Learning Rate): Learning rate (tingkat pembelajaran) adalah hyperparameter yang mengatur seberapa besar langkah yang akan diambil pada setiap iterasi. Ini memengaruhi seberapa cepat atau lambat algoritma konvergen ke nilai minimum. Jika learning rate terlalu besar, algoritma bisa melewati minimumnya, sedangkan jika terlalu kecil, algoritma bisa berjalan sangat lambat atau terjebak dalam minimum lokal.

Langkah-langkah umum dalam Gradient Descent adalah sebagai berikut:

*Hitung gradien fungsi objektif terhadap parameter saat ini.
*Update parameter-parameter tersebut dengan mengambil langkah berlawanan dengan gradien (untuk meminimalkan fungsi objektif).
*Ulangi langkah-langkah ini sampai kondisi berhenti terpenuhi.

Ada beberapa varian dari Gradient Descent, seperti Stochastic Gradient Descent (SGD) yang hanya menggunakan satu sampel pelatihan pada setiap iterasi, Mini-Batch Gradient Descent yang menggunakan sejumlah kecil sampel, dan Batch Gradient Descent yang menggunakan semua data pelatihan dalam setiap iterasi. Selain itu, ada algoritma optimasi yang lebih canggih yang memodifikasi langkah-langkah ini, seperti Adam dan RMSProp, untuk membantu mengatasi beberapa masalah yang bisa terjadi dalam algoritma dasar Gradient Descent.

Tujuan utama dari Gradient Descent adalah untuk menemukan parameter yang meminimalkan (atau memaksimalkan) fungsi objektif, sehingga model Anda dapat melakukan prediksi atau pembelajaran yang lebih baik.

In [None]:
!pip3 install https://download.pytorch.org/whl/cu80/torch-1.0.0-cp36-cp36m-linux_x86_64.whl
!pip3 install torchvision

In [1]:
import numpy as np

### Inisiasi variabel

In [2]:
X = np.array([1, 2, 3, 4], dtype=np.float32)
Y = np.array([2, 4, 6, 8], dtype=np.float32)

w = 0.0

In [3]:
# prediksi model
def forward(x):
    return w * x


# loss function (dengan MSE)
def loss(y, y_pred):
    return ((y_pred - y) ** 2).mean()

### Menghitung Gradient
Gradient dihitung dengan turunan dari loss function $J(\theta)$ (kita menggunakan contoh Mean Squared Error), dengan $\theta$ adalah parameter model (sering disebut juga sebagai bobot atau dalam simbol $w$)
$$J(\theta) = \frac{1}{n} \sum_{i=1}^{n}(\theta*x-y)^2$$
Sehingga:
$$ \frac{\partial J}{\partial \theta} = \frac{1}{n} \sum_{i=1}^{n} 2x(\theta*x-y)    $$

In [4]:
def gradient(x, y, y_pred):
    return np.dot(2 * x, y_pred - y).mean()


# Mengecek nilai prediksi awal
print(f'Prediksi sebelum training: f(5) = {forward(5):.3f}')

Prediksi sebelum training: f(5) = 0.000


### Melakukan Training

In [5]:
learning_rate = 0.01
n_iters = 10

for epoch in range(n_iters):
    # forward pass
    y_pred = forward(X)
    # backward pass
    l = loss(Y, y_pred)

    # menghitung gradient
    grad = gradient(X, Y, y_pred)

    # update nilai weight
    w -= learning_rate * grad
    print(f'Epoch {epoch + 1}: w = {w:.3f}, loss = {l:.3f}')

# prediksi setelah training
print(f'Prediksi setelah training: f(5) = {forward(5):.3f}')

Epoch 1: w = 1.200, loss = 30.000
Epoch 2: w = 1.680, loss = 4.800
Epoch 3: w = 1.872, loss = 0.768
Epoch 4: w = 1.949, loss = 0.123
Epoch 5: w = 1.980, loss = 0.020
Epoch 6: w = 1.992, loss = 0.003
Epoch 7: w = 1.997, loss = 0.001
Epoch 8: w = 1.999, loss = 0.000
Epoch 9: w = 1.999, loss = 0.000
Epoch 10: w = 2.000, loss = 0.000
Prediksi setelah training: f(5) = 9.999


- Dapat diamati bahwa setiap proses training, loss akan semakin kecil
- Setiap perulangan, algoritma akan memperbaharui nilai weight hingga nilai loss menjadi 0
- Selanjutnya mari implementasi cara diatas dengan PyTorch