# Cara Meningkatkan Kinerja Algoritma Pembelajaran: Bias, Varians, dan Analisis Kesalahan

Dalam meningkatkan kinerja algoritma pembelajaran, **bias** dan **varians** mungkin adalah dua konsep paling penting yang perlu diperhatikan. Selain itu, **analisis kesalahan** juga memainkan peran penting dalam memilih langkah-langkah apa yang harus diambil selanjutnya untuk meningkatkan performa model. Mari kita bahas lebih lanjut.

## Contoh Kasus Analisis Kesalahan

Misalkan kita memiliki **m_cv** yang setara dengan 500 contoh validasi silang, dan algoritma kita salah mengklasifikasikan 100 dari 500 contoh tersebut. Dalam **analisis kesalahan**, kita akan secara manual memeriksa 100 contoh yang salah diklasifikasikan ini untuk mendapatkan wawasan mengenai kesalahan yang terjadi.

Langkah pertama adalah mengelompokkan contoh-contoh yang salah diklasifikasikan berdasarkan **tema umum** atau **karakteristik umum**. Sebagai contoh:
- Anda mungkin menemukan bahwa beberapa email spam yang salah diklasifikasikan adalah **penjualan farmasi**. Setelah memeriksa, katakanlah ada 21 email spam farmasi.
- Jika Anda curiga bahwa **kesalahan ejaan yang disengaja** dapat membingungkan algoritma, periksa berapa banyak contoh yang memiliki kesalahan ejaan. Misalnya, tiga dari 100 email memiliki kesalahan ejaan yang disengaja.
- Beberapa mungkin memiliki **info perutean email yang tidak biasa**, dan Anda menemukan bahwa tujuh email memilikinya.
- Atau mungkin Anda menemukan bahwa 18 email adalah **phishing**, mencoba mencuri kata sandi.

Dalam beberapa kasus, spam mungkin tidak berisi teks spam langsung, tetapi spam dalam bentuk **gambar**. Beberapa email mungkin merupakan spam gambar ini. 

![image.png](attachment:image.png)

## Prioritas Perbaikan

Setelah analisis ini, Anda dapat memutuskan apa yang paling penting untuk ditingkatkan:
- **Email farmasi dan phishing** mungkin adalah masalah utama, sedangkan kesalahan ejaan hanya masalah kecil.
- Meskipun Anda bisa mengembangkan algoritma untuk menemukan kesalahan ejaan, hal ini hanya akan menyelesaikan tiga dari 100 contoh yang salah diklasifikasikan, yang dampaknya mungkin kecil.

Dalam sebuah proyek, saya pernah membangun algoritma untuk mendeteksi kesalahan ejaan yang disengaja, namun setelah dianalisis, dampaknya ternyata kecil. Jika saya melakukan **analisis kesalahan** dengan lebih hati-hati, mungkin saya tidak akan menghabiskan banyak waktu untuk solusi ini.

## Kategori Kesalahan yang Tumpang Tindih

Perlu diingat bahwa kategori kesalahan ini bisa **tumpang tindih**. Sebuah email spam farmasi mungkin juga memiliki kesalahan ejaan atau merupakan phishing.

Jika Anda memiliki set validasi silang yang lebih besar, seperti 5000 contoh, dan algoritma salah mengklasifikasikan 1000 di antaranya, mungkin Anda tidak memiliki cukup waktu untuk memeriksa semuanya secara manual. Dalam kasus ini, **pengambilan sampel acak** dari sekitar 100 contoh sering kali cukup untuk memberikan wawasan tentang kesalahan yang paling umum terjadi.

## Tindakan Selanjutnya

Setelah melakukan analisis ini, Anda mungkin memiliki beberapa ide untuk langkah selanjutnya:
- **Mengumpulkan lebih banyak data** spesifik seperti email spam farmasi.
- **Membuat fitur baru** yang mendeteksi nama obat atau produk farmasi tertentu.
- **Meningkatkan deteksi phishing**, mungkin dengan melihat URL yang mencurigakan di dalam email.

![image-2.png](attachment:image-2.png)

Dengan memeriksa secara manual serangkaian contoh yang salah diklasifikasikan, analisis kesalahan dapat memberikan inspirasi tentang apa yang harus dicoba berikutnya. Kadang-kadang, ini juga bisa memberi tahu Anda bahwa beberapa jenis kesalahan cukup jarang sehingga tidak layak untuk diperbaiki.

## Varians dan Bias

Analisis **bias dan varians** dapat membantu menentukan apakah mengumpulkan lebih banyak data akan membantu atau tidak. Dalam contoh yang disebutkan, membuat fitur yang lebih canggih untuk mendeteksi email spam dan phishing mungkin lebih bermanfaat daripada fitur untuk mendeteksi kesalahan ejaan.

Secara umum, analisis varians dan bias, bersama dengan analisis kesalahan, sangat membantu dalam menyaring dan menentukan perubahan model yang paling menjanjikan untuk dicoba selanjutnya. Ini dapat menghemat waktu Anda dari pekerjaan yang tidak membuahkan hasil.

## Batasan Analisis Kesalahan

Perlu diperhatikan bahwa analisis kesalahan lebih mudah dilakukan pada masalah yang **dikuasai oleh manusia**. Misalnya, melihat email dan menilai apakah itu spam atau tidak. Namun, analisis ini lebih sulit untuk tugas yang bahkan manusia tidak pandai, seperti memprediksi iklan apa yang akan diklik seseorang di situs web. Dalam kasus seperti itu, analisis kesalahan bisa lebih menantang.

Namun, ketika diterapkan pada masalah yang relevan, analisis kesalahan bisa sangat membantu dalam menentukan fokus upaya perbaikan.

## Penambahan Data

Terkadang, Anda memutuskan bahwa model memiliki **varians tinggi** dan Anda ingin menambah lebih banyak data. Ada beberapa teknik yang dapat membuat proses penambahan data lebih efisien. Mari kita lihat lebih dalam tentang itu di video berikutnya, agar Anda bisa dipersenjatai dengan cara yang baik untuk mendapatkan lebih banyak data untuk aplikasi pembelajaran Anda.
