# Mengatasi Overfitting: Penjelasan dan Teknik

Dalam video ini, kita akan membahas apa yang dapat dilakukan ketika model mengalami **overfitting**. Overfitting adalah masalah yang terjadi ketika model terlalu menyesuaikan diri dengan data pelatihan, sehingga performanya buruk saat menghadapi data baru. Berikut adalah beberapa langkah yang dapat membantu mengatasi overfitting.

---

## Apa Itu Overfitting?

**Overfitting** terjadi ketika model kita terlalu kompleks dan mempelajari detail yang tidak relevan atau noise dalam data pelatihan. Hal ini membuat model sangat cocok dengan data pelatihan, tetapi gagal untuk **menggeneralisasi** data baru.

**Contoh Overfitting**:
Misalnya, kita memiliki model prediksi harga rumah, dan kita menggunakan banyak fitur seperti ukuran rumah, jumlah kamar tidur, tahun pembangunan, dan lain-lain. Jika kita menambahkan terlalu banyak fitur (misalnya, polinomial tinggi atau fitur yang kurang relevan), model mungkin berlebihan dalam menyesuaikan data pelatihan, sehingga membuatnya sangat bergantung pada data pelatihan dan tidak bekerja baik pada data baru.

---

## Cara Mengatasi Overfitting

Ada beberapa cara yang bisa digunakan untuk mengatasi masalah overfitting dalam model. Berikut adalah 3 cara utama:

### 1. **Mengumpulkan Lebih Banyak Data**

Salah satu cara paling efektif untuk mengatasi overfitting adalah dengan **menambahkan lebih banyak data pelatihan**. Semakin banyak data yang kita miliki, semakin banyak contoh yang dapat digunakan oleh algoritma pembelajaran untuk menemukan pola yang lebih umum dan mengurangi kemungkinan overfitting.

**Kelebihan**:  
- Menambah data dapat membuat model lebih stabil dan lebih mampu menggeneralisasi.

**Kekurangan**:  
- Terkadang data tidak selalu tersedia atau sulit didapatkan, terutama jika jumlah data terbatas dalam area yang spesifik.

### 2. **Menggunakan Fitur yang Lebih Sedikit**

Jika kita memiliki banyak fitur, bisa jadi beberapa fitur tersebut tidak terlalu relevan. Salah satu cara untuk mengatasi overfitting adalah dengan **memilih subset fitur yang lebih kecil dan lebih relevan**.

**Contoh**:  
Jika kita memiliki fitur seperti ukuran rumah, jumlah kamar tidur, umur rumah, dan penghasilan rata-rata di lingkungan sekitar, kita mungkin bisa memilih beberapa fitur saja yang benar-benar berpengaruh besar terhadap harga rumah. Dengan menggunakan fitur yang lebih sedikit, model kita akan lebih sederhana dan lebih mudah untuk menggeneralisasi.

**Proses Pemilihan Fitur (Feature Selection)**:  
- Anda bisa memilih fitur yang paling relevan secara manual berdasarkan intuisi atau menggunakan algoritma otomatis untuk memilih fitur yang terbaik.

**Kelebihan**:  
- Mengurangi kompleksitas model dan membantu mencegah overfitting.

**Kekurangan**:  
- Bisa saja kita mengabaikan fitur yang sebenarnya relevan, sehingga informasi yang penting hilang.

### 3. **Regularisasi**

**Regularisasi** adalah teknik yang digunakan untuk **mencegah model terlalu kompleks** dengan memberikan penalti pada model yang menggunakan parameter (fitur) yang terlalu besar. Dalam regularisasi, model diajari untuk menggunakan nilai parameter yang lebih kecil, daripada memilih nilai yang sangat besar yang bisa menyebabkan overfitting.

![image.png](attachment:image.png)

**Jenis Regularisasi**:
- **Ridge Regularization (L2)**: Memberikan penalti pada kuadrat dari parameter (misalnya, w1^2 + w2^2).
- **Lasso Regularization (L1)**: Memberikan penalti pada nilai absolut parameter (misalnya, |w1| + |w2|).

Regularisasi ini membantu membuat model lebih sederhana, tanpa benar-benar menghilangkan fitur. Ini akan mengurangi efek fitur yang tidak terlalu berpengaruh.

---

## Mengapa Regularisasi Itu Penting?

Ketika model kita terlalu rumit (misalnya, menggunakan polinomial derajat tinggi), parameter-parameter yang digunakan sering kali menjadi **besar dan tidak terkendali**. Regularisasi membantu **memperkecil ukuran parameter** dan mencegah model menjadi terlalu bergantung pada data pelatihan.

Sebagai contoh, jika kita menggunakan polinomial derajat tinggi (x, x², x³, dll.), kita bisa memaksa model untuk menjaga parameter tetap kecil dengan regularisasi, tanpa harus menghapus fitur-fitur tersebut.

**Ilustrasi**:
Jika kita memiliki fitur seperti x, x², x³, dan seterusnya, regularisasi akan mengurangi pengaruh fitur yang tidak relevan atau yang memiliki parameter sangat besar.

---

## Teknik Regularisasi

1. **L2 Regularization (Ridge)**:
   - Penalti pada kuadrat dari parameter.
   - Mengurangi nilai parameter tanpa membuatnya menjadi nol.
   
2. **L1 Regularization (Lasso)**:
   - Penalti pada nilai absolut dari parameter.
   - Bisa membuat beberapa parameter menjadi nol, yang berarti menghapus fitur yang tidak relevan.

---

## Rekapitulasi

Untuk mengatasi **overfitting**, ada tiga pendekatan utama:
1. **Mengumpulkan lebih banyak data**: Jika memungkinkan, menambah data pelatihan bisa sangat membantu.
2. **Menggunakan subset fitur**: Pilih hanya fitur yang paling relevan untuk mengurangi kompleksitas model.
3. **Regularisasi**: Menggunakan teknik regularisasi untuk mengurangi pengaruh fitur yang kurang penting tanpa menghapusnya.

![image-2.png](attachment:image-2.png)

---

## Lab Opsional

Di dalam lab opsional ini, Anda akan dapat:
- Melihat berbagai contoh overfitting.
- Menyesuaikan data dan fitur dengan mengklik pada plot untuk melihat perubahan model.
- Mencoba mengatasi overfitting dengan menambah data pelatihan atau memilih fitur yang relevan.

Lab ini sangat berguna untuk membangun intuisi Anda mengenai overfitting dan metode-metode untuk mengatasinya.

---

## Pembahasan Selanjutnya

Di video berikutnya, kita akan membahas lebih lanjut tentang **aplikasi regularisasi** secara lebih mendalam. Kami juga akan menjelaskan cara menerapkan regularisasi dalam **linear regression** dan **logistic regression**, serta algoritma lainnya. Regularisasi adalah teknik yang sangat berguna, dan akan sering digunakan dalam banyak model pembelajaran mesin, terutama jaringan saraf (neural networks), yang akan kita pelajari lebih lanjut nanti.

--- 

Dengan informasi ini, Anda sekarang memahami teknik-teknik utama untuk mengatasi overfitting dalam pembelajaran mesin. Tetaplah mengikuti kursus ini untuk mempelajari lebih lanjut dan memperdalam pemahaman Anda!