## <span style="color: yellow; font-weight: bold;">Pengantar</span>

Pembelajaran mesin dalam banyak cara persimpangan dua disiplin ilmu - ilmu data dan rekayasa perangkat lunak. Tujuan pembelajaran mesin adalah untuk menggunakan data untuk membuat model prediktif yang dapat dimasukkan ke dalam aplikasi atau layanan perangkat lunak. Untuk mencapai tujuan ini, diperlukan kolaborasi antara ilmuwan data yang menjelajahi dan menyiapkan data sebelum menggunakannya untuk *melatih* model pembelajaran mesin, dan pengembang perangkat lunak yang mengintegrasikan model ke dalam aplikasi tempat mereka digunakan untuk memprediksi nilai data baru (proses yang dikenal sebagai *inferensi*).

Dalam modul ini, Anda akan menjelajahi beberapa konsep inti di mana pembelajaran mesin didasarkan, mempelajari cara mengidentifikasi berbagai jenis model pembelajaran mesin, dan memeriksa cara di mana model pembelajaran mesin dilatih dan dievaluasi. Terakhir, Anda akan mempelajari cara menggunakan Pembelajaran Mesin Microsoft Azure untuk melatih dan menyebarkan model pembelajaran mesin, tanpa perlu menulis kode apa pun.

## <span style="color: yellow; font-weight: bold;">Apa itu pembelajaran mesin?</span>
Pembelajaran mesin memiliki asal-usul dalam statistik dan pemodelan data matematika. Ide mendasar pembelajaran mesin adalah menggunakan data dari pengamatan sebelumnya untuk memprediksi hasil atau nilai yang tidak diketahui. Contohnya:

- Pemilik toko es krim mungkin menggunakan aplikasi yang menggabungkan catatan penjualan historis dan cuaca untuk memprediksi berapa banyak es krim yang kemungkinan akan mereka jual pada hari tertentu, berdasarkan prakiraan cuaca.
- Seorang dokter mungkin menggunakan data klinis dari pasien sebelumnya untuk menjalankan tes otomatis yang memprediksi apakah pasien baru berisiko terkena diabetes berdasarkan faktor-faktor seperti berat badan, tingkat glukosa darah, dan pengukuran lainnya.
- Seorang peneliti di Antartika mungkin menggunakan pengamatan masa lalu mengotomatiskan identifikasi spesies penguin yang berbeda (seperti *Adelie*, *Gentoo*, atau *Chinstrap*) berdasarkan pengukuran sirip burung, tagihan, dan atribut fisik lainnya.

### **Pembelajaran mesin sebagai *fungsi***
Karena pembelajaran mesin didasarkan pada matematika dan statistik, adalah umum untuk memikirkan model pembelajaran mesin dalam istilah matematika. Pada dasarnya, model pembelajaran mesin adalah aplikasi perangkat lunak yang merangkum *fungsi* untuk menghitung nilai output berdasarkan satu atau beberapa nilai input. Proses penentuan fungsi tersebut dikenal sebagai *pelatihan*. Setelah fungsi ditentukan, Anda dapat menggunakannya untuk memprediksi nilai baru dalam proses yang disebut *inferensi*.

Mari kita jelajahi langkah-langkah yang terlibat dalam pelatihan dan inferensi.
![pelatihan dan inferensi](\Assets/langkah2pelatihan&inferensi.png)

1. Data pelatihan terdiri dari pengamatan sebelumnya. Dalam kebanyakan kasus, pengamatan mencakup atribut atau *fitur* yang diamati dari hal yang diamati, dan nilai yang diketahui dari hal yang ingin Anda latih modelnya untuk diprediksi (dikenal sebagai *label*).  
    
    Dalam istilah matematika, Anda akan sering melihat fitur yang disebut menggunakan nama *variabel singkat x*, **dan label yang disebut sebagai y**. Biasanya, pengamatan terdiri dari beberapa nilai fitur, jadi *x* sebenarnya adalah *vektor* (array dengan beberapa nilai), seperti ini: [$x_1$,$x_2$,$x_3$,...].  
    
    Untuk memperjelas hal ini, mari kita pertimbangkan contoh yang dijelaskan sebelumnya:

    - Dalam skenario penjualan es krim, tujuan kami adalah untuk melatih model yang dapat memprediksi jumlah penjualan es krim berdasarkan cuaca. Pengukuran cuaca untuk hari itu (suhu, curah hujan, kecepatan angin, dan sebagainya) akan menjadi *fitur* ($x$), dan jumlah es krim yang dijual pada setiap hari adalah label ($y$).
    - Dalam skenario medis, tujuannya adalah untuk memprediksi apakah pasien berisiko diabetes atau tidak berdasarkan pengukuran klinis mereka. Pengukuran pasien (berat badan, tingkat glukosa darah, dan sebagainya) adalah *fitur* ($x$), dan kemungkinan diabetes (misalnya, *1* berisiko, *0* untuk tidak berisiko) adalah *label* ($y$).
    - Dalam skenario penelitian Antartika, kita ingin memprediksi spesies penguin berdasarkan atribut fisiknya. Pengukuran utama penguin (panjang siripnya, lebar tagihannya, dan sebagainya) adalah *fitur* ($x$), dan spesies (misalnya, *0* untuk Adelie, *1* untuk Gentoo, atau *2* untuk Chinstrap) adalah *label* ($y$).

2. Algoritma diterapkan ke data untuk mencoba menentukan hubungan antara fitur dan label, dan menggeneralisasi hubungan tersebut sebagai perhitungan yang dapat dilakukan pada x untuk menghitung y. Algoritma spesifik yang digunakan tergantung pada jenis masalah prediktif yang coba Anda selesaikan (lebih lanjut tentang ini nanti), tetapi prinsip dasarnya adalah mencoba menyesuaikan fungsi dengan data, di mana nilai fitur dapat digunakan untuk menghitung label.

3. Hasil algoritma adalah *model yang merangkum perhitungan yang berasal dari algoritma sebagai fungsi - sebut **saja f***. Dalam notasi matematika:  

    $y = f(x)$ 

4. Sekarang setelah fase *pelatihan* selesai, model terlatih dapat digunakan untuk *inferensi*. Model ini pada dasarnya adalah program perangkat lunak yang merangkum fungsi yang dihasilkan oleh proses pelatihan. Anda dapat memasukkan sekumpulan nilai fitur dan menerima sebagai output prediksi label yang sesuai. Karena output dari model adalah prediksi yang dihitung oleh fungsi, dan bukan nilai yang diamati, Anda akan sering melihat output dari fungsi yang ditampilkan sebagai $\hat{y}$ (yang agak diverbalisasi dengan menyenangkan sebagai "topi y").


# <span style="color: yellow; font-weight: bold;">Jenis pembelajaran mesin</span>

Ada beberapa jenis pembelajaran mesin, dan Anda harus menerapkan jenis yang sesuai tergantung pada apa yang anda coba prediksi. Perincian jenis pembelajaran mesin umum diperlihatkan dalam diagram berikut.

![Jenis pembelajaran mesin](Assets/machine-learning-types.png)

## **Pembelajaran mesin yang diawasi**
Pembelajaran mesin yang *diawasi* adalah istilah umum untuk algoritma pembelajaran mesin di mana data pelatihan mencakup nilai *fitur* dan nilai *label* yang diketahui. Pembelajaran mesin yang diawasi digunakan untuk melatih model dengan menentukan hubungan antara fitur dan label dalam pengamatan sebelumnya sehingga label yang tidak diketahui dapat diprediksi untuk fitur dalam kasus mendatang.

### **Regresi**
*Regresi* adalah bentuk pembelajaran mesin yang diawasi di mana label yang diprediksi oleh model adalah nilai numerik. Misalnya:

- Jumlah es krim yang dijual pada hari tertentu, berdasarkan suhu, curah hujan, dan kecepatan angin.
- Harga jual properti berdasarkan ukurannya dalam kaki persegi, jumlah kamar tidur yang ada di dalamnya, dan metrik sosial ekonomi untuk lokasinya.
- Efisiensi bahan bakar (dalam km per liter) mobil berdasarkan ukuran mesin, berat, lebar, tinggi, dan panjangnya.

## **Klasifikasi**
*Klasifikasi* adalah bentuk pembelajaran mesin yang diawasi di mana label mewakili kategorisasi, atau *kelas*. Ada dua skenario klasifikasi umum.

### **Klasifikasi biner**
Dalam *klasifikasi* biner, label menentukan apakah item *yang diamati adalah* (atau *bukan*) instans kelas tertentu. Atau dengan cara lain, model klasifikasi biner memprediksi salah satu dari dua hasil yang saling eksklusif. Misalnya:

- Apakah pasien berisiko terkena diabetes berdasarkan metrik klinis seperti berat badan, usia, tingkat glukosa darah, dan sebagainya.
- Apakah nasabah bank akan melakukan default pinjaman berdasarkan pendapatan, riwayat kredit, usia, dan faktor lainnya.
- Apakah pelanggan milis akan merespons penawaran pemasaran secara positif berdasarkan atribut demografis dan pembelian sebelumnya.

Dalam semua contoh ini, model memprediksi prediksi true/false atau positif/negatif biner untuk satu kelas yang mungkin.

### **Klasifikasi multikelas**
*Klasifikasi multikelas* memperluas klasifikasi biner untuk memprediksi label yang mewakili salah satu dari beberapa kelas yang mungkin. Contohnya,

- Spesies penguin (*Adelie, Gentoo*, atau *Chinstrap*) berdasarkan pengukuran fisiknya.
- Genre film (*komedi, horor, romansa, petualangan,* atau *fiksi* ilmiah) berdasarkan pemeran, sutradara, dan anggarannya.

Dalam sebagian besar skenario yang melibatkan serangkaian kelas yang diketahui, klasifikasi multikelas digunakan untuk memprediksi label yang saling eksklusif. Misalnya, penguin tidak boleh *Gentoo* dan *Adelie*. Namun, ada juga beberapa algoritma yang dapat Anda gunakan untuk melatih model klasifikasi *multilabel*, di mana mungkin ada lebih dari satu label yang valid untuk satu pengamatan. Misalnya, sebuah film berpotensi dikategorikan sebagai *fiksi ilmiah* dan *komedi*.

### **Pembelajaran mesin yang tidak diawasi**
Pembelajaran mesin yang *tidak diawasi* melibatkan model pelatihan menggunakan data yang hanya terdiri dari nilai *fitur* tanpa label yang diketahui. Algoritma pembelajaran mesin yang tidak diawasi menentukan hubungan antara fitur pengamatan dalam data pelatihan.

### **Pengklusteran**
Bentuk pembelajaran mesin yang tidak diawasi yang paling umum adalah *pengklusteran*. Algoritma pengklusteran mengidentifikasi kesamaan antara pengamatan berdasarkan fiturnya, dan mengelompokkannya ke dalam kluster terpisah. Misalnya:

- Kelompokkan bunga serupa berdasarkan ukurannya, jumlah daun, dan jumlah kelopak bunga.
- Identifikasi grup pelanggan serupa berdasarkan atribut demografis dan perilaku pembelian.

Dalam beberapa cara, pengklusteran mirip dengan klasifikasi multikelas; dalam hal itu membuat kategori pengamatan ke dalam grup terpisah. Perbedaannya adalah bahwa saat menggunakan klasifikasi, Anda sudah tahu kelas tempat pengamatan dalam data pelatihan berada sehingga algoritma bekerja dengan menentukan hubungan antara fitur dan label klasifikasi yang diketahui. Dalam pengklusteran, tidak ada label kluster yang diketahui sebelumnya dan algoritma mengelompokkan pengamatan data berdasarkan murni pada kesamaan fitur.

Dalam beberapa kasus, pengklusteran digunakan untuk menentukan kumpulan kelas yang ada sebelum melatih model klasifikasi. Misalnya, Anda dapat menggunakan pengklusteran untuk mengelompokkan pelanggan Anda ke dalam grup, lalu menganalisis grup tersebut untuk mengidentifikasi dan mengategorikan kelas pelanggan yang berbeda (*nilai tinggi - volume* rendah, *pembeli* kecil yang sering, dan sebagainya). Kemudian Anda dapat menggunakan kategorisasi untuk memberi label pengamatan dalam hasil pengklusteran Anda dan menggunakan data berlabel untuk melatih model klasifikasi yang memprediksi kategori pelanggan mana yang mungkin dimiliki pelanggan baru.



# <span style="color: yellow; font-weight: bold;">Regresi</span>
Model regresi dilatih untuk memprediksi nilai label numerik berdasarkan data pelatihan yang mencakup fitur dan label yang diketahui. Proses untuk melatih model regresi (atau memang, model pembelajaran mesin yang diawasi) melibatkan beberapa iterasi di mana Anda menggunakan algoritma yang sesuai (biasanya dengan beberapa pengaturan parameter) untuk melatih model, mengevaluasi performa prediktif model, dan memperbaiki model dengan mengulangi proses pelatihan dengan algoritma dan parameter yang berbeda sampai Anda mencapai tingkat akurasi prediktif yang dapat diterima.

![Regresi](Assets/supervised-training.png)

Diagram menunjukkan empat elemen utama dari proses pelatihan untuk model pembelajaran mesin yang diawasi:

1. Pisahkan data pelatihan (secara acak) untuk membuat himpunan data untuk melatih model sambil menahan subset data yang akan Anda gunakan untuk memvalidasi model terlatih.
2. Gunakan algoritma agar sesuai dengan data pelatihan dengan model. Dalam kasus model regresi, gunakan algoritma regresi seperti *regresi* linier.
3. Gunakan data validasi yang Anda tahan untuk menguji model dengan memprediksi label untuk fitur.
4. Bandingkan label aktual *yang diketahui* dalam himpunan data validasi dengan label yang diprediksi model. Kemudian agregat perbedaan antara *nilai label yang diprediksi* dan *aktual* untuk menghitung metrik yang menunjukkan seberapa akurat model yang diprediksi untuk data validasi.

Setelah setiap pelatihan, validasi, dan evaluasi iterasi, Anda dapat mengulangi proses dengan algoritma dan parameter yang berbeda hingga metrik evaluasi yang dapat diterima tercapai.

### **Contoh - regresi**
Mari kita jelajahi regresi dengan contoh yang disederhanakan di mana kita akan melatih model untuk memprediksi label numerik ($y$) berdasarkan satu nilai fitur ($x$). Sebagian besar skenario nyata melibatkan beberapa nilai fitur, yang menambahkan beberapa kompleksitas; tetapi prinsipnya sama.

Sebagai contoh, mari kita tetap dengan skenario penjualan es krim yang kita bahas sebelumnya. Untuk fitur kami, kita akan mempertimbangkan *suhu* (mari kita asumsikan nilainya adalah suhu maksimum pada hari tertentu), dan label yang ingin kita latih model untuk memprediksi adalah jumlah es krim yang dijual hari itu. Kita akan mulai dengan beberapa data historis yang mencakup catatan suhu harian ($x$) dan penjualan es krim ($y$):

|![Suhu](Assets/temperature.png)|![Eskrim](Assets/ice-creams.png)|
|--------------|------------|
| **Suhu($x$)**| **Penjualan es krim($y$)**|
| 51 | 1 |
| 52 | 0 |
| 67 | 14 |
| 65 | 14 |
| 70 | 23 |
| 69 | 20 |
| 72 | 23 |
| 75 | 26 |
| 73 | 22 |
| 81 | 30 |
| 78 | 26 |
| 83 | 36 |

### **Melatih model regresi**
Kita akan mulai dengan membagi data dan menggunakan subsetnya untuk melatih model. Berikut himpunan data pelatihannya:

| **Suhu ($x$)** | **Penjualan es krim ($y$)** |
|----------|--------------------------|
| 51 | 1 |
| 65 | 14 |
| 69 | 20 |
| 72 | 23 |
| 75 | 26 |
| 81 | 30 |

Untuk mendapatkan wawasan tentang bagaimana nilai x dan y ini mungkin berhubungan satu sama lain, kita dapat memplotnya sebagai koordinat di sepanjang dua sumbu, seperti ini:

![sctr](Assets/scatter-plot.png)

Sekarang kami siap untuk menerapkan algoritma ke data pelatihan kami dan menyesuaikannya dengan fungsi yang menerapkan operasi ke x untuk menghitung y. Salah satu algoritma tersebut adalah regresi linier, yang bekerja dengan memperoleh fungsi yang menghasilkan garis lurus melalui persimpangan nilai x dan y sambil meminimalkan jarak rata-rata antara garis dan titik yang diplot, seperti ini:

![rgrsline](Assets/regression-line.png)

Garis adalah representasi visual fungsi di mana kelereng baris menjelaskan cara menghitung nilai y untuk nilai x tertentu. Garis mencegat sumbu x pada 50, jadi ketika x adalah 50, y adalah 0. Seperti yang Anda lihat dari penanda sumbu di plot, lereng garis sehingga setiap peningkatan 5 sepanjang sumbu x menghasilkan peningkatan 5 sumbu y; jadi ketika x adalah 55, y adalah 5; ketika x adalah 60, y adalah 10, dan sebagainya. Untuk menghitung nilai y untuk nilai x tertentu, fungsi hanya mengurangi 50; dengan kata lain, fungsi dapat diekspresikan seperti ini:

f(x) = x-50

Anda dapat menggunakan fungsi ini untuk memprediksi jumlah es krim yang dijual pada hari dengan suhu tertentu. Misalnya, prakiraan cuaca memberi tahu kita bahwa besok akan menjadi 77 derajat. Kita dapat menerapkan model kita untuk menghitung 77-50 dan memprediksi bahwa kita akan menjual 27 es krim besok.

Tapi seberapa akurat model kita?

### **Mengevaluasi model regresi**
Untuk memvalidasi model dan mengevaluasi seberapa baik prediksinya, kami menahan beberapa data yang kami ketahui nilai label (y). Berikut data yang kami tahan:

| **Suhu ($x$)** | **Penjualan es krim ($y$)** |
|----------|--------------------------|
| 52 | 0 |
| 67 | 14 |
| 70 | 23 |
| 73 | 22 |
| 78 | 26 |
| 83 | 36 |

Kita dapat menggunakan model untuk memprediksi label untuk setiap pengamatan dalam himpunan data ini berdasarkan nilai fitur (x) ; lalu membandingkan label yang diprediksi (ŷ) dengan nilai label aktual yang diketahui (y).

Menggunakan model yang kami latih sebelumnya, yang merangkum fungsi f(x) = x-50, menghasilkan prediksi berikut:

| **Suhu ($x$)** | **Penjualan aktual ($y$)** | Penjualan yang diprediksi ($\hat{y}$) |
| 52 | 0 | 2 |
| 67 | 14 | 17 |
| 70 | 23 | 20 |
| 73 | 22 | 23 |
| 78 | 26 | 28 |
| 83 | 36 | 33 |

Kita dapat memplot label yang *diprediksi* dan *aktual* terhadap nilai fitur seperti ini:
![prediksi](Assets/regression-variance.png)

Label yang diprediksi dihitung oleh model sehingga berada di baris fungsi, tetapi ada beberapa varians antara *nilai ŷ* yang dihitung oleh fungsi dan nilai y *aktual* dari himpunan data validasi; yang ditunjukkan pada plot sebagai garis antara *nilai ŷ* dan **y* yang menunjukkan seberapa jauh dari prediksi dari nilai aktual.

### **Metrik evaluasi regresi**
Berdasarkan perbedaan antara nilai yang diprediksi dan aktual, Anda dapat menghitung beberapa metrik umum yang digunakan untuk mengevaluasi model regresi.

### **Mean Absolute Error (MAE)**
Varians dalam contoh ini menunjukkan oleh berapa banyak es krim setiap prediksi salah. Tidak masalah apakah prediksi berakhir atau di bawah nilai aktual (jadi misalnya, -3 dan +3 keduanya menunjukkan varian 3). Metrik ini dikenal sebagai kesalahan absolut untuk setiap prediksi, dan dapat diringkas untuk seluruh validasi yang ditetapkan sebagai kesalahan absolut rata-rata (MAE).

Dalam contoh es krim, rata-rata (rata-rata) dari kesalahan absolut (2, 3, 3, 1, 2, dan 3) adalah 2,33.

### **Squared Mean Error(MSE)**
Metrik kesalahan absolut rata-rata memperhitungkan semua perbedaan antara label yang diprediksi dan aktual secara merata. Namun, mungkin lebih diinginkan untuk memiliki model yang secara konsisten salah dengan jumlah kecil dari yang membuat lebih sedikit, tetapi kesalahan yang lebih besar. Salah satu cara untuk menghasilkan metrik yang "memperkuat" kesalahan yang lebih besar dengan *mencukupi* kesalahan individu dan menghitung rata-rata nilai kuadrat. Metrik ini dikenal sebagai kesalahan kuadrat rata-rata (MSE).

Dalam contoh es krim kami, rata-rata nilai absolut kuadrat (yaitu 4, 9, 9, 1, 4, dan 9) adalah 6.

### **Root Mean Squared Error (RMSE)**
Kesalahan kuadrat rata-rata membantu memperhitungkan besarnya kesalahan, tetapi karena kuadrat nilai kesalahan, metrik yang dihasilkan tidak lagi mewakili kuantitas yang diukur oleh label. Dengan kata lain, kita dapat mengatakan bahwa MSE model kita adalah 6, tetapi itu tidak mengukur akurasinya dalam hal jumlah es krim yang salah diprediksi; 6 hanyalah skor numerik yang menunjukkan tingkat kesalahan dalam prediksi validasi.

Jika kita ingin mengukur kesalahan dalam hal jumlah es krim, kita perlu menghitung **akar** kuadrat MSE; yang menghasilkan metrik yang disebut, tidak mengherankan, **Root Mean Squared Error**. Dalam hal ini √6, yaitu **2,45** (es krim).

### **Koefisien penentuan ($R^2$)** 
Semua metrik sejauh ini membandingkan perbedaan antara nilai yang diprediksi dan aktual untuk mengevaluasi model. Namun, pada kenyataannya, ada beberapa variansi acak alami dalam penjualan harian es krim yang dihitungkan model. Dalam model regresi linier, algoritma pelatihan cocok dengan garis lurus yang meminimalkan varians rata-rata antara fungsi dan nilai label yang diketahui. Koefisien penentuan (lebih umum disebut sebagai R2 atau R-Squared) adalah metrik yang mengukur proporsi varians dalam hasil validasi yang dapat dijelaskan oleh model, dibandingkan dengan beberapa aspek anomali dari data validasi (misalnya, hari dengan jumlah penjualan es krim yang sangat tidak biasa karena festival lokal).

Perhitungan untuk R2 lebih kompleks daripada untuk metrik sebelumnya. Ini membandingkan jumlah perbedaan kuadrat antara label yang diprediksi dan aktual dengan jumlah perbedaan kuadrat antara nilai label aktual dan rata-rata nilai label aktual, seperti ini:

R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2

Jangan terlalu khawatir jika terlihat rumit; sebagian besar alat pembelajaran mesin dapat menghitung metrik untuk Anda. Poin pentingnya adalah bahwa hasilnya adalah nilai antara 0 dan 1 yang menjelaskan proporsi varians yang dijelaskan oleh model. Dalam istilah sederhana, semakin dekat ke 1 nilai ini, semakin baik modelnya sesuai dengan data validasi. Dalam kasus model regresi es krim, R2 yang dihitung dari data validasi adalah 0,95.

### **Pelatihan berulang** 
Metrik yang dijelaskan di atas umumnya digunakan untuk mengevaluasi model regresi. Dalam sebagian besar skenario dunia nyata, ilmuwan data akan menggunakan proses berulang untuk berulang kali melatih dan mengevaluasi model, bervariasi:

- Pemilihan fitur dan persiapan (memilih fitur mana yang akan disertakan dalam model, dan perhitungan yang diterapkan untuk membantu memastikan kecocokan yang lebih baik).
- Pemilihan algoritma (Kami menjelajahi regresi linier dalam contoh sebelumnya, tetapi ada banyak algoritma regresi lainnya)
- Parameter algoritma (pengaturan numerik untuk mengontrol perilaku algoritma, yang lebih akurat disebut hiperparameter untuk membedakannya dari parameter x dan y).
Setelah beberapa iterasi, model yang menghasilkan metrik evaluasi terbaik yang dapat diterima untuk skenario tertentu dipilih.





# <span style="color: yellow; font-weight: bold;">Klasifikasi Biner</span>
Klasifikasi, seperti regresi, adalah teknik pembelajaran mesin yang *diawasi ;* dan oleh karena itu mengikuti proses iteratif pelatihan, validasi, dan evaluasi model yang sama. Alih-alih menghitung nilai numerik seperti model regresi, algoritma yang digunakan untuk melatih model klasifikasi menghitung *nilai probabilitas untuk penetapa* kelas dan metrik evaluasi yang digunakan untuk menilai performa model membandingkan kelas yang diprediksi dengan kelas aktual.

*goritma klasifikasi*biner digunakan untuk melatih model yang memprediksi salah satu dari dua label yang mungkin untuk satu kelas. Pada dasarnya, memprediksi ***benar*** atau ***salah***. Dalam sebagian besar skenario nyata, pengamatan data yang digunakan untuk melatih dan memvalidasi model terdiri dari beberapa nilai fitur ($x$) dan ***nilai y*** yang 1 atau 0.

## **Contoh - klasifikasi biner**
Untuk memahami cara kerja klasifikasi biner, mari kita lihat contoh sederhana yang menggunakan satu fitur ($x$) untuk memprediksi apakah label ***y*** adalah 1 atau 0. Dalam contoh ini, kita akan menggunakan tingkat glukosa darah pasien untuk memprediksi apakah pasien mengalami diabetes atau tidak. Berikut adalah data yang akan kita latih modelnya:

|![Suhu](Assets/blood-glucose.png)|![Eskrim](Assets/diabetes.png)|
|--------------|------------|
| **Glukosa darah ($x$)**| **Diabetes? ($y$)**|
| 67 | 0 |
| 103 | 1 |
| 114 | 1 |
| 72 | 0 |
| 116 | 1 |
| 65 | 0 |

### **Melatih model klasifikasi biner**
Untuk melatih model, kita akan menggunakan algoritma agar sesuai dengan data pelatihan dengan fungsi yang menghitung *probabilitas* label kelas menjadi *benar* (dengan kata lain, bahwa pasien memiliki diabetes). Probabilitas diukur sebagai nilai antara 0,0 dan 1,0, sehingga probabilitas total *untuk semua kelas yang* mungkin adalah 1,0. Jadi misalnya, jika probabilitas pasien mengalami diabetes adalah 0,7, maka ada kemungkinan yang sesuai 0,3 bahwa pasien tidak diabetes.

Ada banyak algoritma yang dapat digunakan untuk klasifikasi biner, seperti *regresi* logistik, yang memperoleh fungsi *sigmoid* (berbentuk S) dengan nilai antara 0,0 dan 1,0, seperti ini:

![Sigmoid](Assets/sigmoid-plot.png)

> **Catatan**
> 
> Terlepas dari namanya, dalam regresi **logistik pembelajaran mesin** digunakan untuk klasifikasi, bukan regresi. Poin penting adalah **sifat logistik** dari fungsi yang dihasilkannya, yang menggambarkan kurva berbentuk S antara nilai yang lebih rendah dan atas (0,0 dan 1,0 ketika digunakan untuk klasifikasi biner). 

Fungsi yang dihasilkan oleh algoritma menjelaskan probabilitas y menjadi true (y=1) untuk nilai ***x*** tertentu. Secara matematis, Anda dapat mengekspresikan fungsi seperti ini:

$f(x) = P(y=1 | x)$

Untuk tiga dari enam pengamatan dalam data pelatihan, kita tahu bahwa ***y*** pasti *benar*, jadi probabilitas untuk pengamatan tersebut bahwa y=1 adalah **1,0** dan untuk tiga lainnya, kita tahu bahwa ***y*** pasti salah, jadi probabilitas bahwa y=1 adalah **0,0**. Kurva berbentuk S menjelaskan distribusi probabilitas sehingga memplot nilai ***x*** pada baris mengidentifikasi probabilitas yang sesuai yaitu ***y*** adalah **1**.

Diagram juga menyertakan garis horizontal untuk menunjukkan *ambang** batas di mana model berdasarkan fungsi ini akan memprediksi *true* (**1**) atau *false* (**0**). Ambang batas terletak pada titik tengah untuk ***y*** (*P(y) = 0,5*). Untuk nilai apa pun pada titik ini atau di atasnya, model akan memprediksi true (1); sementara untuk nilai apa pun di bawah titik ini, model akan memprediksi false (***0***). Misalnya, untuk pasien dengan kadar glukosa darah 90, fungsi akan menghasilkan nilai probabilitas 0,9. Karena 0,9 lebih tinggi dari ambang 0,5, model akan memprediksi *benar* (**1**) - dengan kata lain, pasien diprediksi mengalami diabetes.

### **Mengevaluasi model klasifikasi biner**
Seperti halnya regresi, saat melatih model klasifikasi biner, Anda menahan subset data acak untuk memvalidasi model terlatih. Mari kita asumsikan kita menahan data berikut untuk memvalidasi pengklasifikasi diabetes kita:

| **Glukosa darah (x)** | **Diabetes? (y)** |
|-------------------|---------------|  
|66 | 0 |
|107 | 1 |
|112 | 1 |
| 71 | 0 |
| 87 | 1 |
|89 | 1 |

Menerapkan fungsi logistik yang kami turunkan sebelumnya ke ***nilai x*** menghasilkan plot berikut.

![classfctnprdctn](Assets/classification-predictions.png)

Berdasarkan apakah probabilitas yang dihitung oleh fungsi berada di atas atau di bawah ambang batas, model menghasilkan label yang diprediksi 1 atau 0 untuk setiap pengamatan. Kita kemudian dapat membandingkan label kelas yang diprediksi (***ŷ***) dengan label kelas aktual (***y***), ***seperti yang*** ditunjukkan di sini:

| Glukosa darah (x) | Diagnosis diabetes aktual (y) | Diagnosis diabetes yang diprediksi (ŷ) |
|-------------------|-------------------------------|---------------------------------------|
| 66                | 0                             | 0                                     |
| 107               | 1                             | 1                                     |
| 112               | 1                             | 1                                     |
| 71                | 0                             | 0                                     |
| 87                | 1                             | 0                                     |
| 89                | 1                             | 1                                     |

### **Metrik evaluasi klasifikasi biner**
Langkah pertama dalam menghitung metrik evaluasi untuk model klasifikasi biner biasanya adalah membuat matriks jumlah prediksi yang benar dan salah untuk setiap label kelas yang mungkin:
![bnryconfsematrix](Assets/binary-confusion-matrix.png)

Visualisasi ini disebut *matriks* kebingungan, dan menunjukkan total prediksi di mana:

- ŷ=0 dan y=0: Negatif benar (TN)
- ŷ=1 dan y=0: Positif palsu (FP)
- ŷ=0 dan y=1: Negatif palsu (FN)
- ŷ=1 dan y=1: Positif benar (TP)

Pengaturan matriks kebingungan sedemikian rutin sehingga prediksi yang benar (*benar*) ditampilkan dalam garis diagonal dari kiri atas ke kanan bawah. Seringkali, intensitas warna digunakan untuk menunjukkan jumlah prediksi di setiap sel, sehingga sekilas melihat model yang memprediksi dengan baik akan mengungkapkan tren diagonal yang sangat teduh.

#### **Akurasi**
Metrik paling sederhana yang dapat Anda hitung dari matriks kebingungan adalah akurasi - proporsi prediksi bahwa model benar. Akurasi dihitung sebagai:

***(TN+TP) ÷ (TN+FN+FP+TP)***

Dalam kasus contoh diabetes kami, perhitungannya adalah:

(2+3) ÷ (2+1+0+3)

= 5 ÷ 6

= **0.83**

Jadi untuk data validasi kami, model klasifikasi diabetes menghasilkan prediksi yang benar 83% dari waktu.

Akurasi awalnya mungkin tampak seperti metrik yang baik untuk mengevaluasi model, tetapi pertimbangkan hal ini. Misalkan 11% populasi mengalami diabetes. Anda dapat membuat model yang selalu memprediksi **0**, dan itu akan mencapai akurasi 89%, meskipun tidak membuat upaya nyata untuk membedakan antara pasien dengan mengevaluasi fitur mereka. Apa yang benar-benar kita butuhkan adalah pemahaman yang lebih mendalam tentang bagaimana performa model pada memprediksi **1** untuk kasus positif dan **0** untuk kasus negatif.

#### **Tarik Kembali**
*Pengenalan* adalah metrik yang mengukur proporsi kasus positif yang diidentifikasi model dengan benar. Dengan kata lain, dibandingkan dengan jumlah pasien yang *engalami* diabetes, berapa banyak model *yang diprediksi* memiliki diabetes?

Rumus untuk diingat adalah

÷ ***TP (TP+FN)***

Untuk contoh diabetes kami:

3 ÷ (3+1)

= 3 ÷ 4

= **0.75**

Jadi model kami dengan benar mengidentifikasi 75% pasien yang mengalami diabetes karena diabetes.

#### **Presisi**
*Presisi* adalah metrik yang mirip dengan pengenalan, tetapi mengukur proporsi kasus positif yang diprediksi di mana label benar sebenarnya positif. Dengan kata lain, proporsi pasien *apa yang diprediksi* oleh model untuk memiliki diabetes sebenarnya /memiliki* diabetes?

Rumus untuk presisi adalah:

÷ ***TP (TP+FP)***

Untuk contoh diabetes kami:

3 ÷ (3+0)

= 3 ÷ 3

= **1.0**

Jadi 100% pasien yang diprediksi oleh model kita untuk memiliki diabetes sebenarnya memiliki diabetes.

#### **Skor F1**
Skor *F1* adalah metrik keseluruhan yang menggabungkan pengenalan dan presisi. Rumus untuk skor F1 adalah:

***(2 x Presisi x Pengenalan) ÷ (Presisi + Pengenalan)***

Untuk contoh diabetes kami:

(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)

= 1,5 ÷ 1,75

= **0,86**

#### **Area di bawah Kurva (AUC)** 
Nama lain untuk pengenalan adalah *true positive rate* (TPR), dan ada metrik yang setara yang disebut *false positive rate* (FPR) yang dihitung sebagai **FP÷(FP+TN)**. Kita sudah tahu bahwa TPR untuk model kita saat menggunakan ambang 0,5 adalah 0,75, dan kita dapat menggunakan rumus untuk FPR untuk menghitung nilai 0÷2 = 0.

Tentu saja, jika kita mengubah ambang batas di atas yang model memprediksi *benar* (**1**), itu akan memengaruhi jumlah prediksi positif dan negatif; dan oleh karena itu mengubah metrik TPR dan FPR. Metrik ini sering digunakan untuk mengevaluasi model dengan memplot *kurva karakteristik* operator yang diterima (ROC) yang membandingkan TPR dan FPR untuk setiap nilai ambang batas yang mungkin antara 0,0 dan 1,0:

![rocchart](Assets/roc-chart.png)

Kurva ROC untuk model yang sempurna akan langsung naik sumbu TPR di sebelah kiri dan kemudian melintasi sumbu FPR di bagian atas. Karena area plot untuk kurva berukuran 1x1, area di bawah kurva sempurna ini akan menjadi 1,0 (artinya model benar 100% dari waktu). Sebaliknya, garis diagonal dari kiri bawah ke kanan atas mewakili hasil yang akan dicapai dengan menebak label biner secara acak; menghasilkan area di bawah kurva 0,5. Dengan kata lain, mengingat dua label kelas yang mungkin, Anda dapat dengan wajar berharap untuk menebak dengan benar 50% dari waktu.

Dalam kasus model diabetes kami, kurva di atas diproduksi, dan area **di bawah metrik kurva** (AUC) adalah 0,875. Karena AUC lebih tinggi dari 0,5, kita dapat menyimpulkan model berkinerja lebih baik dalam memprediksi apakah pasien mengalami diabetes atau tidak daripada menebak secara acak.

