# Mengimplementasikan **Gradient Descent** pada **Regresi Linier dengan Regularisasi**

Dalam video kali ini, kita akan mempelajari bagaimana cara membuat **gradient descent** bekerja dengan **regresi linier yang telah di-regularisasi**. Mari kita mulai.

---

## Fungsi Biaya pada Regresi Linier dengan Regularisasi

Fungsi biaya untuk **regresi linier dengan regularisasi** terdiri dari dua bagian:
1. **Fungsi biaya biasa**: Ini adalah fungsi kesalahan kuadrat (squared error) yang biasa kita gunakan.
2. **Term regularisasi**: Di sini, kita menambahkan komponen regularisasi untuk mengurangi kompleksitas model.

### Fungsi Biaya dengan Regularisasi

Fungsi biaya yang sudah di-regularisasi adalah sebagai berikut:

$$
J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2
$$

- $ h(x^{(i)}) $ adalah prediksi model untuk data ke-i.
- $ y^{(i)} $ adalah nilai sebenarnya dari data ke-i.
- $ \lambda $ adalah parameter regularisasi yang mengontrol seberapa besar pengaruh regularisasi terhadap model.
- $ w_j $ adalah bobot atau parameter untuk fitur ke-j.
- $ m $ adalah jumlah contoh dalam dataset.

---

## Algoritma **Gradient Descent** dengan Regularisasi

### Update Parameter

Untuk algoritma **gradient descent** dengan regularisasi, kita akan memperbarui parameter $ w_j $ dan $ b $ menggunakan rumus yang mirip dengan yang sudah kita gunakan pada regresi linier biasa. Namun, ada perubahan kecil pada bagian gradien terhadap $ w_j $ karena adanya tambahan term regularisasi.

### Gradien Terhadap $ w_j $

Gradien terhadap $ w_j $ pada **regresi linier dengan regularisasi** adalah:

$$
\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) x_j^{(i)} + \frac{\lambda}{m} w_j
$$

Gradien terhadap $ b $ tetap sama, karena **regularisasi tidak mempengaruhi bias** $ b $. Oleh karena itu, update untuk $ b $ tetap menggunakan rumus yang sama seperti sebelumnya.

### Update Bobot ($ w_j $) dan Bias ($ b $)

Untuk **update** parameter dengan **gradient descent** yang sudah di-regularisasi, kita menggunakan rumus:

$$
w_j := w_j - \alpha \left( \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) x_j^{(i)} + \frac{\lambda}{m} w_j \right)
$$

$$
b := b - \alpha \left( \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) \right)
$$

- $ \alpha $ adalah **learning rate**, yang mengontrol seberapa besar perubahan yang kita lakukan pada setiap iterasi.
- $ \lambda $ adalah **parameter regularisasi**.

### Proses Pembaruan

Perhatikan bahwa untuk **update** $ w_j $, ada dua komponen:
1. **Komponen biasa** yang sama dengan regresi linier tanpa regularisasi.
2. **Komponen regularisasi** yang memperkenalkan faktor $ \lambda $ untuk menekan nilai parameter $ w_j $, yang membantu menghindari overfitting.

---

## Memahami Regularisasi dalam Gradient Descent

### Pengaruh Regularisasi pada Pembaruan

Jika kita memeriksa update untuk $ w_j $, kita bisa menulisnya ulang sebagai:

$$
w_j := w_j \left( 1 - \frac{\alpha \lambda}{m} \right) - \frac{\alpha}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) x_j^{(i)}
$$

Pada bagian ini, kita mengalikan $ w_j $ dengan **faktor pengurangan** $ 1 - \frac{\alpha \lambda}{m} $. Dengan demikian, setiap kali kita melakukan iterasi, nilai $ w_j $ akan sedikit menyusut, yang mengurangi efek dari parameter yang besar. Inilah yang disebut dengan **penyusutan parameter** atau **shrinkage**.

### Apa yang Terjadi Setiap Iterasi?

Jika $ \lambda $ adalah angka kecil, seperti 1, dan $ m $ adalah ukuran dataset, misalnya 50, maka faktor pengurangan menjadi sangat kecil (misalnya, $ 0.9998 $). Jadi, setiap kali kita melakukan pembaruan, kita mengalikan $ w_j $ dengan angka sedikit lebih kecil dari 1. Ini menyebabkan nilai $ w_j $ sedikit berkurang, yang mengarah pada pengurangan overfitting.

---

## Mengapa Regularisasi Itu Berguna?

Regularisasi membantu mencegah model menjadi terlalu kompleks dan overfitted, terutama saat kita memiliki banyak fitur dan sedikit data pelatihan. Dengan melakukan penyusutan pada parameter, kita memastikan bahwa model tidak terlalu bergantung pada fitur tertentu yang bisa jadi hanya relevan untuk data pelatihan.

---

## Derivasi Gradien untuk Regularisasi

Untuk pemahaman lebih lanjut, kita dapat melihat bagaimana turunan dari fungsi biaya dihitung. Pada dasarnya, gradien dari fungsi biaya dengan regularisasi adalah hasil dari turunan dari dua bagian:

1. **Bagian kesalahan kuadrat (squared error)**.
2. **Bagian regularisasi** yang menambahkan penalti pada besar parameter $ w_j $.

Secara matematis, derivatif untuk $ w_j $ dengan regularisasi adalah:

$$
\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}) x_j^{(i)} + \frac{\lambda}{m} w_j
$$

---

## Ringkasan

1. **Regresi Linier dengan Regularisasi** menggunakan fungsi biaya yang terdiri dari dua bagian: fungsi kesalahan kuadrat dan penalti untuk besar parameter.
2. **Gradient Descent** digunakan untuk memperbarui parameter model dengan menambahkan komponen regularisasi yang mengurangi besar parameter $ w_j $ di setiap iterasi.
3. Regularisasi menghindari overfitting dengan **menyusutkan** nilai parameter secara bertahap.

Dengan memahami **regresi linier dengan regularisasi**, Anda dapat mengurangi overfitting, terutama saat memiliki banyak fitur dan dataset yang terbatas.

---

## Langkah Selanjutnya

Di video berikutnya, kita akan **menerapkan teknik regularisasi** ini pada **logistic regression** untuk mencegah overfitting pada model klasifikasi. Mari kita lihat bagaimana hal itu diterapkan pada logistic regression di video selanjutnya.