# Evaluasi Model Machine Learning

## 1. Pendahuluan
Setelah Anda melatih model machine learning, penting untuk mengevaluasi kinerjanya. Evaluasi ini dapat membantu menemukan cara yang sistematis untuk meningkatkan performa model tersebut. Mari kita lihat bagaimana cara mengevaluasi model dengan contoh memprediksi harga rumah berdasarkan ukuran rumah.

### Contoh: Model Prediksi Harga Rumah
Misalkan Anda telah melatih model untuk memprediksi harga rumah berdasarkan ukuran rumah $ x $, menggunakan model polinomial derajat ke-4. Model ini mencakup fitur $ x $, $ x^2 $, $ x^3 $, dan $ x^4 $. Karena model ini di-fit menggunakan 5 data titik, model ini sesuai dengan data pelatihan dengan sangat baik. Namun, model ini tidak diharapkan untuk bekerja dengan baik pada data baru (di luar set pelatihan) karena kurva yang dihasilkan terlihat sangat bergelombang (overfitting).

![image.png](attachment:image.png)

Jika kita menambahkan lebih banyak fitur seperti ukuran rumah, jumlah kamar tidur, jumlah lantai, dan usia rumah, maka akan menjadi sulit untuk memvisualisasikan model tersebut. Oleh karena itu, diperlukan cara yang lebih sistematis untuk mengevaluasi kinerja model.

## 2. Teknik Evaluasi Model: Split Data
Untuk mengevaluasi model dengan lebih baik, kita bisa membagi data menjadi dua subset: **training set** dan **test set**. Biasanya, kita menggunakan 70% data untuk **training set** dan 30% untuk **test set**. Tujuannya adalah melatih model menggunakan data pelatihan dan menguji kinerjanya menggunakan data uji.

Notasi:
- **Training Set**: $ \text{x}_{\text{train}}, \text{y}_{\text{train}} $
- **Test Set**: $ \text{x}_{\text{test}}, \text{y}_{\text{test}} $

![image-2.png](attachment:image-2.png)

Proporsi umum yang digunakan dalam split data adalah 70/30 atau 80/20, di mana sebagian besar data digunakan untuk pelatihan, dan sebagian kecil untuk pengujian.

## 3. Evaluasi dengan Linear Regression
Saat melatih model regresi linear dengan cost function **squared error**, kita dapat meminimalkan cost function berikut:

$$
J(w, b) = \frac{1}{2m} \sum_{i=1}^{m} (f(x_i) - y_i)^2 + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2
$$

Dimana:
- $ J(w, b) $ adalah cost function yang harus diminimalkan,
- $ \lambda $ adalah parameter regularisasi,
- $ m $ adalah jumlah data.

Kemudian, untuk mengevaluasi model, kita hitung **J_test** dengan formula berikut:

$$
J_{\text{test}}(w, b) = \frac{1}{2m_{\text{test}}} \sum_{i=1}^{m_{\text{test}}} (f(x_{\text{test}, i}) - y_{\text{test}, i})^2
$$

![image-3.png](attachment:image-3.png)

Perhatikan bahwa pada **J_test**, tidak ada term regularisasi. Ini akan menunjukkan seberapa baik model memprediksi pada data baru.

### 3.1. J_train dan J_test
Untuk mengevaluasi model lebih lanjut, kita juga dapat menghitung **training error** menggunakan **J_train**:

$$
J_{\text{train}}(w, b) = \frac{1}{2m_{\text{train}}} \sum_{i=1}^{m_{\text{train}}} (f(x_{\text{train}, i}) - y_{\text{train}, i})^2
$$

Jika **J_train** sangat rendah namun **J_test** tinggi, ini menunjukkan bahwa model mengalami overfitting (terlalu menyesuaikan dengan data pelatihan, tetapi gagal pada data baru).

## 4. Evaluasi Model Klasifikasi
Pada masalah klasifikasi (misalnya, klasifikasi gambar tulisan tangan angka 0 dan 1), kita bisa menggunakan logistic regression dengan cost function sebagai berikut:

$$
J(w, b) = - \frac{1}{m} \sum_{i=1}^{m} \left[ y_i \log(f(x_i)) + (1 - y_i) \log(1 - f(x_i)) \right] + \frac{\lambda}{2m} \sum_{j=1}^{n} w_j^2
$$

Untuk mengevaluasi model ini, kita hitung **J_test** dengan menghitung rata-rata logistic loss pada data uji:

$$
J_{\text{test}}(w, b) = - \frac{1}{m_{\text{test}}} \sum_{i=1}^{m_{\text{test}}} \left[ y_i \log(f(x_{\text{test}, i})) + (1 - y_i) \log(1 - f(x_{\text{test}, i})) \right]
$$

![image-4.png](attachment:image-4.png)

Selain itu, kita bisa menghitung error klasifikasi, yaitu fraksi data yang salah diklasifikasikan oleh model.

### 4.1. Error Klasifikasi
Misalnya, pada masalah klasifikasi biner (digit 0 dan 1), kita dapat menghitung **J_test** sebagai fraksi dari contoh uji yang diklasifikasikan salah:

$$
J_{\text{test}} = \frac{1}{m_{\text{test}}} \sum_{i=1}^{m_{\text{test}}} \mathbb{1}(y_{\hat{i}} \neq y_i)
$$

Dimana $ \mathbb{1} $ adalah fungsi indikator yang bernilai 1 jika prediksi salah, dan 0 jika benar.

## 5. Kesimpulan
Membagi data menjadi training set dan test set memberikan cara yang sistematis untuk mengevaluasi model. Dengan membandingkan **J_train** dan **J_test**, Anda bisa mengetahui seberapa baik model generalisasi ke data baru. Proses ini merupakan langkah awal untuk menentukan model mana yang paling sesuai untuk digunakan, misalnya pada prediksi harga rumah, apakah model linier atau polinomial yang lebih tepat.

Di langkah berikutnya, kita bisa menggunakan pendekatan ini untuk membantu otomatis memilih model terbaik.
