<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_3_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Classification**

## Pengantar

Dalam Machine Learning, klasifikasi adalah tugas untuk memprediksi label dari suatu instance. Berbeda dengan regresi yang memprediksi nilai kontinu, klasifikasi menghasilkan kategori diskret. Contoh klasiknya adalah memprediksi angka dari gambar tulisan tangan pada dataset MNIST.

## Dataset MNIST

MNIST merupakan kumpulan gambar digit tulisan tangan dari 0 hingga 9, terdiri dari 70.000 gambar berukuran 28×28 piksel (total 784 fitur). Setiap gambar diberi label sesuai angka yang diwakilinya.

* 60.000 data digunakan untuk pelatihan (training)

* 10.000 data digunakan untuk pengujian (testing)

Setiap fitur merepresentasikan intensitas piksel, dengan 0 berarti putih dan 255 berarti hitam.

## Pelatihan Klasifikasi Biner

Untuk memulai, masalah disederhanakan menjadi klasifikasi biner, misalnya mendeteksi apakah sebuah gambar menunjukkan angka 5 (klasifikasi: 5 vs bukan 5).

Langkah-langkah yang dilakukan:

* Label dikonversi menjadi boolean: True jika angka 5, False jika bukan.

* Model seperti SGDClassifier digunakan karena efisien untuk dataset besar.

## Evaluasi Kinerja

### 1. Akurasi
Merupakan proporsi prediksi yang benar:

\[
$\text{Akurasi} = \frac{\text{Jumlah prediksi benar}}{\text{Total prediksi}}$
\]

Namun, akurasi kurang cocok digunakan untuk data yang tidak seimbang (imbalanced).

### 2. Confusion Matrix (Matriks Kebingungan)
Matriks ini menampilkan jumlah prediksi yang benar dan salah untuk masing-masing kelas:

|              | Prediksi Positif | Prediksi Negatif |
|--------------|------------------|------------------|
| **Positif**  | True Positive     | False Negative   |
| **Negatif**  | False Positive    | True Negative    |

### 3. Precision dan Recall
* Precision: Ketepatan dari prediksi positif

\[
$\text{Precision} = \frac{\text{TP}}{\text{TP + FP}}$
\]

* Recall: Kemampuan model dalam menangkap semua data positif

\[
$\text{Recall} = \frac{\text{TP}}{\text{TP + FN}}$
\]

* F1 Score: Rata-rata harmonik dari Precision dan Recall

\[
$\text{F1} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
\]


### 4. Kompromi Precision vs Recall
Terdapat trade-off antara precision dan recall. Meningkatkan threshold prediksi dapat memperbesar precision namun menurunkan recall, dan sebaliknya.

### 5. Kurva ROC (Receiver Operating Characteristic)
* Menampilkan hubungan antara True Positive Rate (TPR) dan False Positive Rate (FPR).

* Area di bawah kurva (AUC) digunakan sebagai metrik kinerja.

\[
$\text{TPR} = \text{Recall} = \frac{\text{TP}}{\text{TP + FN}}$
\]
\[
$\text{FPR} = \frac{\text{FP}}{\text{FP + TN}}$
\]

Klasifikasi Multikelas
Untuk klasifikasi lebih dari dua kelas (0–9), digunakan dua strategi umum:

* One-vs-Rest (OvR): Melatih satu classifier untuk setiap kelas (total 10 classifier). Kelas dengan skor tertinggi dipilih.

* One-vs-One (OvO): Melatih classifier untuk setiap pasangan kelas (total 45 classifier). Kelas dengan jumlah kemenangan terbanyak akan dipilih.

Scikit-Learn secara otomatis menangani strategi ini.

### Analisis Kesalahan
Langkah-langkah:

1. Gunakan confusion matrix untuk mengevaluasi kesalahan.

2. Visualisasikan matriks dalam bentuk gambar untuk mengenali pola.

3. Fokus pada kesalahan yang paling sering terjadi (misalnya angka 3 sering diprediksi sebagai 5).

4. Normalisasi matriks untuk melihat proporsi kesalahan dibanding jumlah total label aktual.

### Klasifikasi Multilabel
Satu instance dapat memiliki lebih dari satu label.

Contoh:

* Label 1: Apakah angka ≥ 7

* Label 2: Apakah angka ganjil

Evaluasi dilakukan menggunakan macro-average F1 score:

\[
$\text{F1}_{macro} = \frac{1}{L} \sum_{i=1}^{L} \text{F1}_i$
\]

dengan 𝐿 adalah jumlah label.

### Klasifikasi Multioutput
Jenis klasifikasi multilabel di mana setiap label dapat memiliki lebih dari dua kelas.

Contoh:

* Input: gambar angka yang terkontaminasi noise

* Output: gambar hasil denoise

* Setiap piksel diperlakukan sebagai label dengan nilai antara 0–255

Tergantung konteks, ini dapat dianggap sebagai klasifikasi atau regresi.

## **Kesimpulan**
* Klasifikasi memerlukan evaluasi yang lebih kompleks dibanding regresi.

* Beberapa metrik penting yang digunakan adalah precision, recall, F1-score, ROC, dan AUC.

* Klasifikasi multikelas, multilabel, dan multioutput memerlukan pendekatan yang berbeda.

* Analisis kesalahan dan preprocessing data (misalnya perataan gambar) berperan penting dalam meningkatkan performa model.

## **Referensi**

Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.