### Menentukan Learning Rate yang Tepat

Pemilihan **learning rate** yang tepat sangat penting untuk keberhasilan dan efisiensi algoritma pembelajaran mesin, khususnya dalam **gradient descent**. Learning rate yang terlalu kecil dapat memperlambat proses pelatihan, sedangkan learning rate yang terlalu besar dapat menyebabkan model tidak konvergen atau bahkan gagal mencapai solusi optimal.

---

### **Apa Itu Learning Rate?**

**Learning rate (α)** adalah parameter yang mengatur seberapa besar langkah yang diambil dalam setiap iterasi ketika memperbarui parameter model (misalnya, **w** dan **b** dalam regresi linear). Pemilihan learning rate yang tepat sangat memengaruhi kecepatan dan kualitas konvergensi model. 

- Jika **α** terlalu kecil, model akan sangat lambat dalam mencapai konvergensi.
- Jika **α** terlalu besar, model mungkin **melewati** minimum global dan tidak pernah konvergen.

---

### **Indikator Kesalahan pada Gradient Descent**

Ketika Anda memplot **fungsi biaya** (**cost function J**) selama beberapa iterasi, ada dua indikasi utama yang menunjukkan bahwa **gradient descent** tidak berjalan dengan baik:

1. **Fungsi biaya naik turun**: Jika Anda melihat **fungsi biaya (J)** naik dan turun tanpa arah yang jelas, ini menunjukkan masalah pada **learning rate** atau ada **bug dalam kode**.
2. **Fungsi biaya terus meningkat**: Jika **J** terus meningkat dari iterasi ke iterasi, ini bisa menandakan bahwa learning rate terlalu besar atau ada kesalahan dalam pembaruan parameter.

---

### **Ilustrasi Overshoot**

Penting untuk memahami apa yang terjadi jika **learning rate terlalu besar**:

- **Overshoot** adalah situasi di mana pembaruan parameter **terlalu besar**, sehingga parameter **melewati** titik minimum dan malah menjauh darinya.
- **Prosesnya**: Setiap kali **gradient descent** mengupdate parameter, langkah yang besar bisa menyebabkan model berbalik arah, menjauhi **minimum global**.

Sebagai contoh:
- Jika sumbu vertikal adalah **fungsi biaya (J)**, dan sumbu horizontal adalah **parameter** (misalnya, **w_1**), langkah yang terlalu besar dalam memperbarui **w_1** bisa membuatnya **melewati** titik minimum, dan **J** justru meningkat.

#### Solusi:
- Jika Anda menghadapi overshoot, solusinya adalah menggunakan **learning rate** yang lebih kecil. Dengan langkah yang lebih kecil, gradient descent akan melakukan pembaruan yang lebih halus, semakin mendekati minimum global.

---

### **Peningkatan Biaya Secara Konsisten**

Tanda lain bahwa **learning rate terlalu besar** adalah ketika **fungsi biaya** (J) terus **naik** setelah setiap iterasi, alih-alih menurun.

#### Contoh Kode yang Salah

Jika ada **bug dalam kode**, misalnya pembaruan parameter yang salah, Anda mungkin akan melihat peningkatan biaya meski sudah mencoba learning rate yang lebih kecil. Contoh kesalahan:

```python
w_1 = w_1 + Alpha * turunan  # Salah
```

Seharusnya pembaruan parameter dilakukan dengan **mengurangi** nilai **w_1**, bukan menambahkannya. Yang benar adalah:

```python
w_1 = w_1 - Alpha * turunan  # Benar
```

Jika Anda menambahkannya, maka **fungsi biaya J** justru akan semakin jauh dari minimum, dan **gradient descent** tidak akan konvergen.

---

### **Debugging Gradient Descent**

Jika Anda melihat **fungsi biaya** tidak menurun meski learning rate kecil, bisa jadi ada bug dalam kode. Salah satu cara untuk mendeteksi kesalahan adalah dengan **menggunakan learning rate yang sangat kecil** (misalnya, 0.0001). Jika **J** masih tidak turun meski learning rate sangat kecil, maka kemungkinan besar ada masalah dengan implementasi kode Anda.

---

### **Trade-off dalam Pemilihan Learning Rate**

Memilih **learning rate** bukanlah hal yang sederhana. Jika **α** terlalu kecil, proses pelatihan akan berjalan sangat lambat, membutuhkan banyak iterasi untuk mencapai konvergensi. Sebaliknya, jika **α** terlalu besar, kita mungkin tidak bisa mencapai minimum global dan proses pelatihan bisa gagal.

#### Apa yang Harus Diperhatikan?
- **Learning rate yang terlalu kecil**: Proses pelatihan akan berjalan lambat dan membutuhkan banyak iterasi.
- **Learning rate yang terlalu besar**: Proses pelatihan bisa gagal, dengan **J** tidak turun atau malah naik.

Oleh karena itu, Anda perlu mencari nilai **α** yang tepat: cukup besar agar proses pelatihan cepat, tetapi cukup kecil untuk memastikan konvergensi yang stabil.

---

### **Teknik Pemilihan Learning Rate**

Untuk memilih **learning rate** yang tepat, Anda bisa menggunakan pendekatan eksperimen, mencoba berbagai nilai untuk **α** dan melihat bagaimana pengaruhnya terhadap **fungsi biaya (J)**.

#### Langkah-Langkah:
1. **Mulai dengan nilai kecil**: Cobalah learning rate kecil, misalnya **0.001**.
2. **Eksperimen dengan nilai yang lebih besar**: Cobalah nilai yang lebih besar, seperti **0.01**, **0.1**, dan seterusnya.
3. **Plot fungsi biaya (J)**: Setiap kali Anda mencoba nilai learning rate yang berbeda, jalankan gradient descent beberapa iterasi dan plot **J** terhadap jumlah iterasi.
4. **Pilih learning rate terbaik**: Pilih nilai **α** yang membuat **J** menurun secara konsisten dan cepat.

---

### **Pencarian Optimal Learning Rate**

Untuk memilih **learning rate** secara optimal, cobalah teknik pencarian bertahap. Berikut adalah pendekatan yang bisa Anda coba:

1. Mulai dengan **α = 0.001**.
2. Tingkatkan menjadi **α = 0.003**, kemudian **α = 0.01**, dan seterusnya.
3. Perhatikan bagaimana **fungsi biaya J** bereaksi pada setiap perubahan learning rate. Jika **J** turun dengan konsisten, Anda berada di jalur yang benar.
4. Setelah menemukan nilai **α** yang terlalu kecil dan terlalu besar, pilih nilai **α** terbesar yang masih memberikan **konvergensi** yang stabil.

Dengan cara ini, Anda bisa menemukan learning rate yang optimal yang memberi hasil terbaik tanpa memperlambat atau melompat-lompat dari titik minimum.

---

### **Kesimpulan**

Pemilihan **learning rate** yang tepat sangat penting untuk membuat **gradient descent** berjalan dengan efisien. Jika learning rate terlalu besar, model bisa melewati minimum, sementara jika terlalu kecil, prosesnya akan sangat lambat.

Berikut adalah beberapa poin penting:
- **Overshoot** terjadi jika learning rate terlalu besar, dan Anda bisa memperbaikinya dengan mengecilkan **α**.
- Jika **fungsi biaya** terus meningkat, itu bisa menandakan kesalahan dalam kode atau learning rate yang terlalu besar.
- **Eksperimen dengan berbagai nilai α** untuk menemukan yang terbaik.
- Pencarian bertahap dalam memilih learning rate bisa membantu menemukan nilai yang optimal dengan lebih cepat.

Dengan teknik-teknik ini, Anda dapat menemukan **learning rate** yang paling cocok untuk model Anda, dan memastikan pelatihan yang lebih cepat dan lebih stabil.