
# **Chapter 3: Classification**

## **1. Pendahuluan**

Chapter 3 membahas salah satu tugas Machine Learning paling umum yaitu **classification**. Pada tugas ini, tujuan model adalah memprediksi *label* kategori (kelas) untuk setiap input. Contoh praktisnya adalah pengenalan tulisan tangan menggunakan dataset **MNIST**.

## **2. Dataset MNIST**

- **MNIST** adalah dataset klasik yang berisi **gambar digit tangan (0–9)** ukuran 28×28 piksel.
- Total: 70.000 gambar digit.
- Sudah dibagi: 60.000 untuk training, 10.000 untuk testing.

## **3. Training a Binary Classifier**

Sebagai contoh awal, penulis melatih **binary classifier**: mendeteksi angka **5** (True) atau **bukan 5** (False).


In [None]:

from sklearn.datasets import fetch_openml
from sklearn.linear_model import SGDClassifier
import numpy as np

# Ambil dataset MNIST
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist["data"], mnist["target"]
y = y.astype(np.uint8)

# Buat target: True jika 5, False jika bukan
y_5 = (y == 5)

# Pisah training & test
X_train, X_test = X[:60000], X[60000:]
y_train_5, y_test_5 = y_5[:60000], y_5[60000:]

# Latih classifier
sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

# Prediksi satu gambar
sgd_clf.predict([X[0]])



## **4. Performance Measures**

### **a) Accuracy**

Akurasi = proporsi prediksi benar. Tidak cocok untuk dataset tidak seimbang.

### **b) Confusion Matrix**

Matriks untuk melihat True Positives, True Negatives, False Positives, dan False Negatives.


In [None]:

from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix

# Cross-val predictions
y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

# Confusion Matrix
confusion_matrix(y_train_5, y_train_pred)



### **c) Precision, Recall, F1 Score**

- **Precision (Presisi):**

$$
Precision = \frac{TP}{TP + FP}
$$

- **Recall (Sensitivity):**

$$
Recall = \frac{TP}{TP + FN}
$$

- **F1 Score:**

$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$


In [None]:

from sklearn.metrics import precision_score, recall_score, f1_score

precision_score(y_train_5, y_train_pred)
recall_score(y_train_5, y_train_pred)
f1_score(y_train_5, y_train_pred)



## **5. Precision/Recall Trade-off**

Model memiliki ambang batas (*threshold*) yang mempengaruhi precision dan recall.

## **6. ROC Curve**

ROC Curve memperlihatkan trade-off antara True Positive Rate (Recall) dan False Positive Rate.



In [None]:

y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")

from sklearn.metrics import precision_recall_curve
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

import matplotlib.pyplot as plt
plt.plot(thresholds, precisions[:-1], "b--", label="Precision")
plt.plot(thresholds, recalls[:-1], "g-", label="Recall")
plt.xlabel("Threshold")
plt.legend(loc="best")
plt.show()

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.show()



## **7. Multiclass, Multilabel, Multioutput**

Scikit-Learn secara otomatis menangani klasifikasi multikelas (OvA, OvO) dan mendukung multilabel serta multioutput.

