<a href="https://colab.research.google.com/github/fadhilahmad11/Hands-on-Machine-Learning-with-Scikit-Learn-TensorFlow-Tugas-Machine-LearningW8-W16/blob/main/Chapter_03_Classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 3: Classification  

---

## 1. Pendahuluan  

Chapter ini berfokus pada tugas *classification* yang merupakan salah satu tugas utama supervised learning, selain regression. Dataset yang digunakan adalah **MNIST**, kumpulan 70.000 gambar digit tulisan tangan (28x28 pixel) yang sering disebut sebagai "hello world"-nya Machine Learning.  

---

## 2. Dataset MNIST  

- **Jumlah data:** 70.000 gambar (60.000 train, 10.000 test)  
- **Fitur:** 784 (28x28 pixel)  
- **Label:** Digit 0-9  

Contoh visualisasi data:  
Kita ambil satu gambar digit, reshape menjadi 28x28, lalu divisualisasikan.  

---

## 3. Binary Classification  

Contoh: Membangun detektor angka 5 (klasifikasi 5 vs bukan 5).  


```python
from sklearn.linear_model import SGDClassifier

y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

```

Langkah-langkah:  
- Label dibuat: `y_train_5 = (y_train == 5)` dan `y_test_5 = (y_test == 5)`  
- Model digunakan: `SGDClassifier` dari Scikit-Learn  
- Model dilatih pada `X_train` dan `y_train_5`

---

## 4. Performance Measures  

### a. Accuracy  

$
\text{Accuracy} = \frac{\text{jumlah prediksi benar}}{\text{jumlah total prediksi}}
$

Digunakan terutama ketika dataset seimbang.

---

### b. Confusion Matrix  

Matrix ini menunjukkan distribusi prediksi benar dan salah (True Positives, False Positives, True Negatives, False Negatives).

---

### c. Precision dan Recall  

$$
\text{Precision} = \frac{TP}{TP + FP}
$$

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

---

### d. F1 Score  

F1 Score adalah harmonic mean dari precision dan recall:  

$$
F_1 = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}
$$

F1 cocok digunakan ketika perlu keseimbangan antara precision dan recall.

---

### e. ROC Curve dan AUC  

ROC curve memplot TPR (True Positive Rate = Recall) vs FPR (False Positive Rate).  
AUC (Area Under Curve) mengukur kualitas classifier: semakin besar AUC, semakin baik performa model.

---

## 5. Multiclass Classification  

Dalam multiclass, classifier bisa membedakan lebih dari dua kelas.  

Pendekatan:  
- **One-vs-All (OvA)**: buat satu classifier untuk setiap kelas terhadap semua lainnya.  
- **One-vs-One (OvO)**: buat satu classifier untuk setiap pasangan kelas.  

Jumlah classifier OvO:  

$$
\frac{N(N-1)}{2}
$$

Contoh SVM multiclass (Scikit-Learn otomatis memilih OvO atau OvA):


```python
from sklearn.svm import SVC

svm_clf = SVC()
svm_clf.fit(X_train, y_train)
svm_clf.predict([some_digit])

```

---

## 6. Multilabel Classification  

Classifier dapat memberikan lebih dari satu label pada setiap instance.  

Contoh:  prediksi apakah digit >=7 dan apakah digit ganjil.
```python
from sklearn.neighbors import KNeighborsClassifier

y_train_large = (y_train >= 7)
y_train_odd = (y_train % 2 == 1)
y_multilabel = np.c_[y_train_large, y_train_odd]

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)

```

Classifier multilabel yang umum digunakan: `KNeighborsClassifier`. \

---

## 7. Multioutput Classification  

Classifier yang dapat meng-output banyak label sekaligus, setiap label bisa multi nilai.  

Contoh:  
- Denoising gambar: input gambar dengan noise, output gambar bersih.

Langkah umum:
- Tambahkan noise ke dataset
- Latih KNN untuk memetakan gambar noisy ke gambar bersih
- Prediksi gambar bersih untuk data uji noisy



```python
noise = np.random.randint(0, 100, (len(X_train), 784))
X_train_mod = X_train + noise
noise = np.random.randint(0, 100, (len(X_test), 784))
X_test_mod = X_test + noise

knn_clf.fit(X_train_mod, X_train)
clean_digit = knn_clf.predict([X_test_mod[0]])

```

