# Pemahaman tentang **Overfitting** dan **Underfitting** dalam Algoritma Pembelajaran Mesin

Pada video ini, kita akan membahas dua masalah utama dalam algoritma pembelajaran mesin, yaitu **overfitting** dan **underfitting**, serta bagaimana keduanya dapat memengaruhi kinerja model seperti **regresi linier** dan **regresi logistik**. Berikut adalah penjelasan terperinci mengenai kedua masalah ini, serta contoh-contoh yang dapat membantu memperjelas konsep tersebut.

---

## 1. **Overfitting dan Underfitting**

### 1.1 Apa itu **Overfitting**?

**Overfitting** adalah masalah ketika model terlalu cocok dengan data pelatihan sehingga kehilangan kemampuan untuk menggeneralisasi data baru. Model **overfitting** akan berusaha terlalu keras untuk menyesuaikan diri dengan setiap contoh data, bahkan jika ada sedikit variasi dalam data pelatihan, prediksi model bisa sangat berbeda. Ini mengarah pada prediksi yang tidak akurat pada data yang belum pernah dilihat sebelumnya.

**Contoh Overfitting pada Regresi Linier:**

Misalkan kita memiliki dataset untuk memprediksi harga rumah berdasarkan ukuran rumah. Data tersebut memiliki dua variabel:
- **x**: ukuran rumah
- **y**: harga rumah

Jika kita menggunakan **regresi linier**, modelnya akan mencoba untuk menyesuaikan garis lurus dengan data pelatihan. Mungkin hasilnya seperti ini:

```
y = mx + b
```

Namun, ini bukan model yang sangat baik. Misalnya, data menunjukkan bahwa harga rumah lebih tinggi pada ukuran tertentu, tetapi **garis lurus** tidak cukup menggambarkan pola yang ada.

### 1.2 Apa itu **Underfitting**?

**Underfitting** terjadi ketika model terlalu sederhana dan tidak mampu menangkap pola yang ada dalam data pelatihan. Hal ini biasanya disebabkan oleh model yang terlalu sederhana atau memiliki terlalu sedikit fitur.

**Contoh Underfitting pada Regresi Linier:**

Kembali ke contoh harga rumah, kita bisa menggunakan model **garis lurus** untuk data, tetapi model ini tidak cukup fleksibel untuk menangkap pola yang lebih kompleks dalam data. Misalnya, harga rumah dapat meningkat secara nonlinear seiring dengan ukuran rumah, dan model garis lurus tidak akan berhasil menangkap hal ini. Ini berarti model **underfit** dengan **bias tinggi** (high bias).

### 1.3 **Overfitting** vs **Underfitting**: Perbedaan

- **Overfitting** terjadi ketika model terlalu rumit dan sangat sesuai dengan data pelatihan, tetapi gagal untuk menggeneralisasi ke data baru. Ini menyebabkan **varians tinggi** (high variance).
- **Underfitting** terjadi ketika model terlalu sederhana, tidak mampu menangkap pola dalam data pelatihan. Ini menyebabkan **bias tinggi** (high bias).

---

## 2. **Contoh dan Visualisasi Overfitting dan Underfitting**

### 2.1 Model Regresi Linier dan Model Polinomial

**Contoh 1**: Misalnya, kita menggunakan model **polinomial orde ke-4** yang terdiri dari **x, x², x³, x⁴**. Model ini akan sangat cocok dengan data pelatihan dan dapat melalui semua titik data, tetapi bentuk kurvanya sangat berliku-liku dan tidak realistis. Model ini akan **overfit** karena meskipun cocok dengan data pelatihan, ia tidak akan bekerja dengan baik pada data baru.

#### Visualisasi:
- **Model Regresi Linier (Underfitting)**: Sebuah garis lurus yang tidak cukup menggambarkan pola.
- **Model Polinomial Orde 2 (Just Right)**: Model yang lebih kompleks, namun tetap masuk akal dan mampu menggeneralisasi dengan baik.
- **Model Polinomial Orde 4 (Overfitting)**: Kurva yang terlalu kompleks dan tidak realistis, cocok hanya untuk data pelatihan.

### 2.2 Generalisasi

Ketika membangun model pembelajaran mesin, tujuan utamanya adalah **generalisasi** yang baik, yaitu kemampuan model untuk membuat prediksi yang baik bahkan untuk data baru yang belum pernah dilihat sebelumnya. Ini adalah konsep yang sangat penting untuk dipahami.

### 2.3 Model yang Tepat (Just Right)

Model yang **ideal** berada di tengah-tengah antara **underfitting** dan **overfitting**, yang dikenal sebagai **model yang tepat**. Model ini mampu menangkap pola dalam data pelatihan tanpa menjadi terlalu rumit dan tetap dapat menggeneralisasi dengan baik pada data baru.

---

## 3. **Overfitting dalam Klasifikasi**

Overfitting juga bisa terjadi pada model **klasifikasi**, seperti yang terjadi pada **regresi logistik**. Misalnya, kita mencoba mengklasifikasikan tumor sebagai **malignan** atau **benigna** berdasarkan dua fitur: **ukuran tumor (x₁)** dan **usia pasien (x₂)**.

- **Model Regresi Logistik Sederhana (Underfitting)**: Sebuah garis lurus sebagai pembatas keputusan (decision boundary). Model ini terlalu sederhana dan tidak menangkap pola yang lebih kompleks.
  
- **Model dengan Fitur Kuadrat (Just Right)**: Menambahkan fitur kuadrat (x₁², x₂²) untuk menciptakan batas keputusan berbentuk elips, yang memberikan hasil yang lebih baik.
  
- **Model Polinomial Tinggi (Overfitting)**: Model dengan banyak fitur dan batas keputusan yang sangat kompleks. Meskipun model ini cocok dengan data pelatihan, ia tidak akan menggeneralisasi dengan baik pada data baru.

---

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

## 4. **Kesimpulan**

Dari penjelasan ini, kita dapat menyimpulkan bahwa tujuan utama dalam pembelajaran mesin adalah untuk menghindari **overfitting** dan **underfitting** dengan menemukan model yang **tepat**. Model yang tepat memiliki keseimbangan antara **bias** dan **varians**. Seperti dalam cerita **Goldilocks**, kita ingin menemukan model yang **tidak terlalu dingin (underfitting)** dan **tidak terlalu panas (overfitting)**, melainkan yang **pas di tengah**.

- **Overfitting**: Terlalu banyak fitur atau model yang terlalu kompleks.
- **Underfitting**: Terlalu sedikit fitur atau model yang terlalu sederhana.
- **Model yang Tepat**: Model yang mampu menangkap pola data tanpa menjadi terlalu rumit.

---

## 5. **Langkah Berikutnya: Mengatasi Overfitting**

Di video selanjutnya, kita akan membahas bagaimana **mengatasi overfitting** dengan menggunakan teknik **regularisasi**. Regularisasi adalah metode yang sangat berguna untuk mengurangi overfitting dan meningkatkan kemampuan model dalam menggeneralisasi dengan lebih baik. Regularisasi akan membantu kita untuk memilih model yang lebih sederhana dan menghindari model yang terlalu kompleks.

---

Dengan pemahaman ini, kita sekarang lebih siap untuk membuat keputusan yang lebih baik dalam memilih model yang tepat, serta menghindari masalah overfitting dan underfitting.