# Memilih Model Secara Otomatis dengan Validasi Silang

## Pendahuluan

Pada video sebelumnya, kita telah melihat bagaimana menggunakan data *test* untuk mengevaluasi performa sebuah model. Dalam video ini, kita akan melakukan satu penyempurnaan lebih lanjut untuk memungkinkan pemilihan model secara otomatis untuk algoritma *machine learning*. 

Salah satu hal yang kita ketahui adalah bahwa setelah parameter model seperti **w** dan **b** dioptimalkan pada *training set*, error pada data latih mungkin bukan indikator yang baik untuk menunjukkan seberapa baik algoritma akan bekerja pada data baru (data yang tidak ada di *training set*). 

Sebagai contoh, error pelatihan (training error) mungkin mendekati nol, tetapi ini mungkin lebih rendah dibandingkan dengan error generalisasi aktual (error pada data baru). Untuk itulah kita menggunakan data *test*, yang memberikan estimasi lebih baik tentang bagaimana model akan bekerja pada data yang tidak dilatih.

![image.png](attachment:image.png)

## Pemilihan Model dengan Polynomial

Misalkan kita sedang menyelesaikan masalah regresi seperti prediksi harga rumah. Kita mungkin mencoba beberapa model, salah satunya adalah model linier (*polynomial derajat 1*). Dengan mengoptimalkan parameter **w** dan **b**, kita bisa menghitung error *test* sebagai estimasi seberapa baik model ini akan bekerja pada data baru. 

Namun, kita juga bisa mencoba model lain, seperti model kuadrat (*polynomial derajat 2*), atau bahkan model dengan derajat yang lebih tinggi, seperti derajat 10. Setiap model akan menghasilkan parameter yang berbeda (seperti **w^2**, **b^2**, atau **w^10**, **b^10**), dan error *test* masing-masing bisa dihitung untuk membandingkan performa antar model.

Satu pendekatan yang dapat dilakukan adalah memilih model dengan error *test* terendah. Namun, pendekatan ini mengandung kekurangan karena penggunaan data *test* secara langsung untuk memilih model dapat menghasilkan estimasi yang terlalu optimis terhadap error generalisasi.

## Memperkenalkan Validasi Silang

Untuk mengatasi masalah tersebut, kita memperkenalkan set data tambahan yang disebut *cross-validation set* (set validasi silang). Prosedur ini melibatkan pembagian data menjadi tiga bagian:

1. **Training set**: digunakan untuk melatih model.
2. **Cross-validation set**: digunakan untuk memilih model terbaik.
3. **Test set**: digunakan hanya untuk estimasi akhir error generalisasi setelah model terbaik dipilih.

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)
### Contoh Implementasi

Kita mungkin mencoba beberapa model dengan derajat polynomial yang berbeda (d=1, d=2, ..., d=10) dan menghitung error validasi silang (J_cv) untuk setiap model. Misalnya, jika **J_cv** untuk *polynomial derajat 4* adalah yang terendah, kita akan memilih model tersebut. Setelah memilih model terbaik, kita akhirnya menghitung error *test* untuk melaporkan performa model pada data baru.

Dengan menggunakan set data *cross-validation*, kita dapat memilih model tanpa mempengaruhi estimasi akurasi dari *test set*.

![image-4.png](attachment:image-4.png)

## Penggunaan dalam Neural Networks

Proses serupa dapat diterapkan pada model lain seperti *neural networks*. Misalnya, kita bisa mencoba beberapa arsitektur jaringan saraf yang berbeda (jaringan kecil, sedang, besar), menghitung error validasi silang untuk masing-masing, dan memilih model dengan error validasi terendah.

![image-5.png](attachment:image-5.png)

## Kesimpulan

Saat membuat keputusan terkait model, seperti memilih arsitektur atau parameter, sangat penting untuk hanya menggunakan *training set* dan *cross-validation set*. Setelah model dipilih, *test set* dapat digunakan untuk estimasi akhir dari error generalisasi. Proses ini dikenal sebagai **model selection** (pemilihan model) dan merupakan prosedur yang sangat umum digunakan dalam *machine learning*.

Pada video berikutnya, kita akan membahas salah satu diagnostik yang sangat penting dalam *machine learning*, yaitu **bias dan variance**.
